LuYF-Lemon-love の Blog

LuYF-Lemon-love の Blog

天之道，损有余而补不足，人之道则不然，损不足以奉有余。

00343 VAPO (论文学习笔记)

深度学习大语言模型

Paper

发布日期: 2025-06-05

更新日期: 2025-06-05

前言

ByteDance VAPO论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目：VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

发表年份：2025

论文地址：https://arxiv.org/abs/2504.05118

pdf 地址：https://arxiv.org/pdf/2504.05118

个人学习笔记：

内容

摘要

我们介绍了用于推理模型的基于价值模型的增强接近策略优化框架VAPO，这是一个为基于价值模型的范式中的推理模型量身定制的新颖框架。作为AIME 2024数据集的基准，VAPO建立在Qwen32B预训练模型之上，获得了60.4的最先进分数。在相同实验设置下的直接比较中，VAPO比之前报道的DeepSeek-R1-Zero-Qwen-32B和DAPO的结果高出10分以上。VAPO的训练过程因其稳定性和准确性而引人注目。它仅在5000步内就达到了最先进的性能。此外，在多次独立运行中，没有发生训练崩溃，强调了其可靠性。

这项研究使用基于价值模型的强化学习框架深入研究了长思维链（long-CoT）推理。我们指出了困扰基于价值模型的方法的三个关键挑战：价值模型偏差、异构序列长度的存在和奖励信号的稀疏性。通过系统设计，VAPO提供了一个集成的解决方案，有效地缓解了这些挑战，提高了长CoT推理任务的性能。

结语

第三百四十三篇博文写完，开心！！！！

今天，也是充满希望的一天。

LuYF-Lemon-love

https://luyf-lemon-love.space/2025/06/05/00343-vapo-lun-wen-xue-xi-bi-ji/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !

深度学习大语言模型

上一篇

00344 Seed1.5-Thinking (论文学习笔记)

00344 Seed1.5-Thinking (论文学习笔记)

2025-06-08 Paper

深度学习大语言模型

下一篇

00342 YaRN (论文学习笔记)

00342 YaRN (论文学习笔记)

2025-06-01 Paper

深度学习大语言模型