前言
ByteDance VAPO论文的学习笔记。
Operating System: Ubuntu 22.04.4 LTS
信息
论文题目:VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
发表年份:2025
论文地址:https://arxiv.org/abs/2504.05118
pdf 地址:https://arxiv.org/pdf/2504.05118
个人学习笔记:
- https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00067-VAPO.pdf
- https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00067-VAPO.pdf
内容
摘要
我们介绍了用于推理模型的基于价值模型的增强接近策略优化框架VAPO,这是一个为基于价值模型的范式中的推理模型量身定制的新颖框架。作为AIME 2024数据集的基准,VAPO建立在Qwen32B预训练模型之上,获得了60.4的最先进分数。在相同实验设置下的直接比较中,VAPO比之前报道的DeepSeek-R1-Zero-Qwen-32B和DAPO的结果高出10分以上。VAPO的训练过程因其稳定性和准确性而引人注目。它仅在5000步内就达到了最先进的性能。此外,在多次独立运行中,没有发生训练崩溃,强调了其可靠性。
这项研究使用基于价值模型的强化学习框架深入研究了长思维链(long-CoT)推理。我们指出了困扰基于价值模型的方法的三个关键挑战:价值模型偏差、异构序列长度的存在和奖励信号的稀疏性。通过系统设计,VAPO提供了一个集成的解决方案,有效地缓解了这些挑战,提高了长CoT推理任务的性能。
结语
第三百四十三篇博文写完,开心!!!!
今天,也是充满希望的一天。