00343 VAPO (论文学习笔记)


前言

ByteDance VAPO论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目:VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

发表年份:2025

论文地址:https://arxiv.org/abs/2504.05118

pdf 地址:https://arxiv.org/pdf/2504.05118

个人学习笔记:

  1. https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00067-VAPO.pdf
  2. https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00067-VAPO.pdf

内容

摘要

我们介绍了用于推理模型的基于价值模型的增强接近策略优化框架VAPO,这是一个为基于价值模型的范式中的推理模型量身定制的新颖框架。作为AIME 2024数据集的基准,VAPO建立在Qwen32B预训练模型之上,获得了60.4的最先进分数。在相同实验设置下的直接比较中,VAPO比之前报道的DeepSeek-R1-Zero-Qwen-32B和DAPO的结果高出10分以上。VAPO的训练过程因其稳定性和准确性而引人注目。它仅在5000步内就达到了最先进的性能。此外,在多次独立运行中,没有发生训练崩溃,强调了其可靠性。

这项研究使用基于价值模型的强化学习框架深入研究了长思维链(long-CoT)推理。我们指出了困扰基于价值模型的方法的三个关键挑战:价值模型偏差、异构序列长度的存在和奖励信号的稀疏性。通过系统设计,VAPO提供了一个集成的解决方案,有效地缓解了这些挑战,提高了长CoT推理任务的性能。

结语

第三百四十三篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录