前言
ByteDance DAPO论文的学习笔记。
Operating System: Ubuntu 22.04.4 LTS
信息
论文题目:DAPO: An Open-Source LLM Reinforcement Learning System at Scale
发表年份:2025
论文地址:https://arxiv.org/abs/2503.14476
pdf 地址:https://arxiv.org/pdf/2503.14476
个人学习笔记:
- https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00055-DAPO.pdf
- https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00055-DAPO.pdf
内容
摘要
推理缩放赋予LLM前所未有的推理能力,以强化学习为核心技术来引出复杂的推理。然而,最先进的推理LLM的关键技术细节被隐藏(例如在OpenAI o1博客和DeepSeek R1技术报告中),因此社区仍然难以重现他们的RL训练结果。我们提出了解耦剪辑和动态采样策略优化(DAPO)算法,并完全开源了一个最先进的大规模RL系统,该系统使用Qwen2.5-32B基础模型在AIME 2024上达到50分。与之前保留训练细节的作品不同,我们介绍了我们算法的四个关键技术,使大规模LLM RL取得成功。此外,我们开源了基于verl框架的训练代码,以及精心策划和处理的数据集。我们开源系统的这些组件增强了可重复性,并支持大规模LLM RL的未来研究。
结语
第三百一十九篇博文写完,开心!!!!
今天,也是充满希望的一天。