00319 DAPO (论文学习笔记)


前言

ByteDance DAPO论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目:DAPO: An Open-Source LLM Reinforcement Learning System at Scale

发表年份:2025

论文地址:https://arxiv.org/abs/2503.14476

pdf 地址:https://arxiv.org/pdf/2503.14476

个人学习笔记:

  1. https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00055-DAPO.pdf
  2. https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00055-DAPO.pdf

内容

摘要

推理缩放赋予LLM前所未有的推理能力,以强化学习为核心技术来引出复杂的推理。然而,最先进的推理LLM的关键技术细节被隐藏(例如在OpenAI o1博客和DeepSeek R1技术报告中),因此社区仍然难以重现他们的RL训练结果。我们提出了解耦剪辑和动态采样策略优化(DAPO)算法,并完全开源了一个最先进的大规模RL系统,该系统使用Qwen2.5-32B基础模型在AIME 2024上达到50分。与之前保留训练细节的作品不同,我们介绍了我们算法的四个关键技术,使大规模LLM RL取得成功。此外,我们开源了基于verl框架的训练代码,以及精心策划和处理的数据集。我们开源系统的这些组件增强了可重复性,并支持大规模LLM RL的未来研究。

结语

第三百一十九篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录