LuYF-Lemon-love の Blog

LuYF-Lemon-love の Blog

天之道，损有余而补不足，人之道则不然，损不足以奉有余。

00319 DAPO (论文学习笔记)

深度学习大语言模型

Paper

发布日期: 2025-04-07

更新日期: 2025-04-07

前言

ByteDance DAPO论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目：DAPO: An Open-Source LLM Reinforcement Learning System at Scale

发表年份：2025

论文地址：https://arxiv.org/abs/2503.14476

pdf 地址：https://arxiv.org/pdf/2503.14476

个人学习笔记：

内容

摘要

推理缩放赋予LLM前所未有的推理能力，以强化学习为核心技术来引出复杂的推理。然而，最先进的推理LLM的关键技术细节被隐藏（例如在OpenAI o1博客和DeepSeek R1技术报告中），因此社区仍然难以重现他们的RL训练结果。我们提出了解耦剪辑和动态采样策略优化（DAPO）算法，并完全开源了一个最先进的大规模RL系统，该系统使用Qwen2.5-32B基础模型在AIME 2024上达到50分。与之前保留训练细节的作品不同，我们介绍了我们算法的四个关键技术，使大规模LLM RL取得成功。此外，我们开源了基于verl框架的训练代码，以及精心策划和处理的数据集。我们开源系统的这些组件增强了可重复性，并支持大规模LLM RL的未来研究。

结语

第三百一十九篇博文写完，开心！！！！

今天，也是充满希望的一天。

LuYF-Lemon-love

https://luyf-lemon-love.space/2025/04/07/00319-dapo-lun-wen-xue-xi-bi-ji/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !

深度学习大语言模型

上一篇

00320 DeepSpeed-Ulysses (论文学习笔记)

00320 DeepSpeed-Ulysses (论文学习笔记)

2025-04-13 Paper

深度学习大语言模型

下一篇

00318 HybridFlow (论文学习笔记)

00318 HybridFlow (论文学习笔记)

2025-04-04 Paper

深度学习大语言模型