00337 GRPO (论文学习笔记)

深度学习大语言模型

Paper

发布日期: 2025-05-10

更新日期: 2025-05-12

前言

DeepSeek-AI GRPO论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目：DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

发表年份：2024

论文地址：https://arxiv.org/abs/2402.03300

pdf 地址：https://arxiv.org/pdf/2402.03300

个人学习笔记：

内容

摘要

数学推理因其复杂和结构化的性质而对语言模型提出了重大挑战。在本文中，我们介绍了DeepSeekMath7B，它继续使用来自Common Crawl的120B数学相关令牌以及自然语言和代码数据进行预训练DeepSeek-Coder-Base-v1.57B。DeepSeekMath7B在不依赖外部工具包和投票技术的情况下，在竞赛级MATH基准测试中取得了51.7%的令人印象深刻的分数，接近Gemini-Ultra和GPT-4的性能水平。DeepSeekMath7B的64个样本的自我一致性在MATH上达到了60.9%。
DeepSeekMath的数学推理能力归功于两个关键因素：首先，我们通过精心设计的数据选择管道利用公开可用Web数据的巨大潜力。其次，我们引入了组相对策略优化（GRPO），这是接近策略优化（PPO）的变体，它增强了数学推理能力，同时优化了PPO的内存使用。