00366 GSPO (论文学习笔记)


前言

Alibaba Group GSPO论文的学习笔记。

信息

论文题目:Group Sequence Policy Optimization

发表年份:2025

论文地址:https://www.arxiv.org/abs/2507.18071

pdf 地址:https://www.arxiv.org/pdf/2507.18071

个人学习笔记:

  1. https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00107-GSPO.pdf
  2. https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00107-GSPO.pdf

内容

摘要

本文介绍了组序列策略优化(GSPO),我们用于训练大型语言模型的稳定、高效和高性能的强化学习算法。与以前采用令牌级重要性比的算法不同,GSPO基于序列似然定义重要性比,并执行序列级裁剪、奖励和优化。我们证明,与GRPO算法相比,GSPO实现了更高的训练效率和性能,显著稳定了专家混合(MoE)RL训练,并具有简化RL基础设施设计的潜力。GSPO的这些优点有助于最新Qwen3模型的显着改进。

结语

第三百六十六篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录