00345 Dr. GRPO (论文学习笔记)


前言

National University of Singapore Dr. GRPO论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目:Understanding R1-Zero-Like Training: A Critical Perspective

发表年份:2025

论文地址:https://arxiv.org/abs/2503.20783

pdf 地址:https://arxiv.org/pdf/2503.20783

个人学习笔记:

  1. https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00048-understand-r1-zero.pdf
  2. https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00048-understand-r1-zero.pdf

内容

摘要

DeepSeek-R1-Zero 表明,规模化的强化学习(RL)可以在不进行监督微调的情况下直接增强大语言模型的推理能力。本研究通过分析其两个核心组成部分:基础模型和 RL,对类似 R1-Zero 的训练进行了深入研究。我们调查了广泛的基础模型,包括 DeepSeek-V3-Base,以了解预训练特征如何影响 RL 性能。我们的分析表明,DeepSeek-V3-Base 已经表现出“顿悟时刻”,而 Qwen2.5 基础模型即使没有提示模板也表现出强大的推理能力,这表明可能存在预训练偏见。此外,我们在群体相对策略优化(GRPO)中发现了一个优化偏见,在训练过程中人为地增加了响应长度(尤其是对于错误输出)。

为了解决这个问题,我们引入了Dr. GRPO,这是一种在保持推理性能的同时提高令牌效率的无偏优化方法。利用这些见解,我们提出了一种简约的R1-Zero方案,使用7B基础模型在AIME 2024上实现了43.3%的准确率,创下了新的行业领先水平。我们的代码可在此https链接中获取。

结语

第三百四十五篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录