前言
DeepSeek-AI GRPO论文的学习笔记。
Operating System: Ubuntu 22.04.4 LTS
信息
论文题目:DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
发表年份:2024
论文地址:https://arxiv.org/abs/2402.03300
pdf 地址:https://arxiv.org/pdf/2402.03300
个人学习笔记:
- https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00057-GRPO.pdf
- https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00057-GRPO.pdf
内容
摘要
数学推理因其复杂和结构化的性质而对语言模型提出了重大挑战。在本文中,我们介绍了DeepSeekMath7B,它继续使用来自Common Crawl的120B数学相关令牌以及自然语言和代码数据进行预训练DeepSeek-Coder-Base-v1.57B。DeepSeekMath7B在不依赖外部工具包和投票技术的情况下,在竞赛级MATH基准测试中取得了51.7%的令人印象深刻的分数,接近Gemini-Ultra和GPT-4的性能水平。DeepSeekMath7B的64个样本的自我一致性在MATH上达到了60.9%。
DeepSeekMath的数学推理能力归功于两个关键因素:首先,我们通过精心设计的数据选择管道利用公开可用Web数据的巨大潜力。其次,我们引入了组相对策略优化(GRPO),这是接近策略优化(PPO)的变体,它增强了数学推理能力,同时优化了PPO的内存使用。
结语
第三百三十七篇博文写完,开心!!!!
今天,也是充满希望的一天。