LuYF-Lemon-love の Blog

LuYF-Lemon-love の Blog

天之道，损有余而补不足，人之道则不然，损不足以奉有余。

00345 Dr. GRPO (论文学习笔记)

深度学习大语言模型

Paper

发布日期: 2025-06-08

更新日期: 2025-06-08

前言

National University of Singapore Dr. GRPO论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目：Understanding R1-Zero-Like Training: A Critical Perspective

发表年份：2025

论文地址：https://arxiv.org/abs/2503.20783

pdf 地址：https://arxiv.org/pdf/2503.20783

个人学习笔记：

内容

摘要

DeepSeek-R1-Zero 表明，规模化的强化学习（RL）可以在不进行监督微调的情况下直接增强大语言模型的推理能力。本研究通过分析其两个核心组成部分：基础模型和 RL，对类似 R1-Zero 的训练进行了深入研究。我们调查了广泛的基础模型，包括 DeepSeek-V3-Base，以了解预训练特征如何影响 RL 性能。我们的分析表明，DeepSeek-V3-Base 已经表现出“顿悟时刻”，而 Qwen2.5 基础模型即使没有提示模板也表现出强大的推理能力，这表明可能存在预训练偏见。此外，我们在群体相对策略优化（GRPO）中发现了一个优化偏见，在训练过程中人为地增加了响应长度（尤其是对于错误输出）。

为了解决这个问题，我们引入了Dr. GRPO，这是一种在保持推理性能的同时提高令牌效率的无偏优化方法。利用这些见解，我们提出了一种简约的R1-Zero方案，使用7B基础模型在AIME 2024上实现了43.3%的准确率，创下了新的行业领先水平。我们的代码可在此https链接中获取。

结语

第三百四十五篇博文写完，开心！！！！

今天，也是充满希望的一天。

LuYF-Lemon-love

https://luyf-lemon-love.space/2025/06/08/00345-dr-grpo-lun-wen-xue-xi-bi-ji/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !

深度学习大语言模型

上一篇

00346 HippoRAG 2 (论文学习笔记)

00346 HippoRAG 2 (论文学习笔记)

2025-06-24 Paper

深度学习大语言模型

下一篇

00344 Seed1.5-Thinking (论文学习笔记)

00344 Seed1.5-Thinking (论文学习笔记)

2025-06-08 Paper

深度学习大语言模型