前言
Alibaba Group GSPO论文的学习笔记。
信息
论文题目:Group Sequence Policy Optimization
发表年份:2025
论文地址:https://www.arxiv.org/abs/2507.18071
pdf 地址:https://www.arxiv.org/pdf/2507.18071
个人学习笔记:
- https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00107-GSPO.pdf
- https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00107-GSPO.pdf
内容
摘要
本文介绍了组序列策略优化(GSPO),我们用于训练大型语言模型的稳定、高效和高性能的强化学习算法。与以前采用令牌级重要性比的算法不同,GSPO基于序列似然定义重要性比,并执行序列级裁剪、奖励和优化。我们证明,与GRPO算法相比,GSPO实现了更高的训练效率和性能,显著稳定了专家混合(MoE)RL训练,并具有简化RL基础设施设计的潜力。GSPO的这些优点有助于最新Qwen3模型的显着改进。
结语
第三百六十六篇博文写完,开心!!!!
今天,也是充满希望的一天。