00337 GRPO (论文学习笔记)


前言

DeepSeek-AI GRPO论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目:DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

发表年份:2024

论文地址:https://arxiv.org/abs/2402.03300

pdf 地址:https://arxiv.org/pdf/2402.03300

个人学习笔记:

  1. https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00057-GRPO.pdf
  2. https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00057-GRPO.pdf

内容

摘要

数学推理因其复杂和结构化的性质而对语言模型提出了重大挑战。在本文中,我们介绍了DeepSeekMath7B,它继续使用来自Common Crawl的120B数学相关令牌以及自然语言和代码数据进行预训练DeepSeek-Coder-Base-v1.57B。DeepSeekMath7B在不依赖外部工具包和投票技术的情况下,在竞赛级MATH基准测试中取得了51.7%的令人印象深刻的分数,接近Gemini-Ultra和GPT-4的性能水平。DeepSeekMath7B的64个样本的自我一致性在MATH上达到了60.9%。
DeepSeekMath的数学推理能力归功于两个关键因素:首先,我们通过精心设计的数据选择管道利用公开可用Web数据的巨大潜力。其次,我们引入了组相对策略优化(GRPO),这是接近策略优化(PPO)的变体,它增强了数学推理能力,同时优化了PPO的内存使用。

结语

第三百三十七篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录