前言
National University of Singapore Dr. GRPO论文的学习笔记。
Operating System: Ubuntu 22.04.4 LTS
信息
论文题目:Understanding R1-Zero-Like Training: A Critical Perspective
发表年份:2025
论文地址:https://arxiv.org/abs/2503.20783
pdf 地址:https://arxiv.org/pdf/2503.20783
个人学习笔记:
- https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00048-understand-r1-zero.pdf
- https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00048-understand-r1-zero.pdf
内容
摘要
DeepSeek-R1-Zero 表明,规模化的强化学习(RL)可以在不进行监督微调的情况下直接增强大语言模型的推理能力。本研究通过分析其两个核心组成部分:基础模型和 RL,对类似 R1-Zero 的训练进行了深入研究。我们调查了广泛的基础模型,包括 DeepSeek-V3-Base,以了解预训练特征如何影响 RL 性能。我们的分析表明,DeepSeek-V3-Base 已经表现出“顿悟时刻”,而 Qwen2.5 基础模型即使没有提示模板也表现出强大的推理能力,这表明可能存在预训练偏见。此外,我们在群体相对策略优化(GRPO)中发现了一个优化偏见,在训练过程中人为地增加了响应长度(尤其是对于错误输出)。
为了解决这个问题,我们引入了Dr. GRPO,这是一种在保持推理性能的同时提高令牌效率的无偏优化方法。利用这些见解,我们提出了一种简约的R1-Zero方案,使用7B基础模型在AIME 2024上实现了43.3%的准确率,创下了新的行业领先水平。我们的代码可在此https链接中获取。
结语
第三百四十五篇博文写完,开心!!!!
今天,也是充满希望的一天。