LuYF-Lemon-love の Blog

LuYF-Lemon-love の Blog

天之道，损有余而补不足，人之道则不然，损不足以奉有余。

00366 GSPO (论文学习笔记)

大语言模型

Paper

发布日期: 2025-10-20

更新日期: 2025-10-20

前言

Alibaba Group GSPO论文的学习笔记。

信息

论文题目：Group Sequence Policy Optimization

发表年份：2025

论文地址：https://www.arxiv.org/abs/2507.18071

pdf 地址：https://www.arxiv.org/pdf/2507.18071

个人学习笔记：

内容

摘要

本文介绍了组序列策略优化（GSPO），我们用于训练大型语言模型的稳定、高效和高性能的强化学习算法。与以前采用令牌级重要性比的算法不同，GSPO基于序列似然定义重要性比，并执行序列级裁剪、奖励和优化。我们证明，与GRPO算法相比，GSPO实现了更高的训练效率和性能，显著稳定了专家混合（MoE）RL训练，并具有简化RL基础设施设计的潜力。GSPO的这些优点有助于最新Qwen3模型的显着改进。

结语

第三百六十六篇博文写完，开心！！！！

今天，也是充满希望的一天。

LuYF-Lemon-love

https://luyf-lemon-love.space/2025/10/20/00366-gspo-lun-wen-xue-xi-bi-ji/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !

大语言模型

本篇

00366 GSPO (论文学习笔记)

00366 GSPO (论文学习笔记)

2025-10-20 Paper

大语言模型

下一篇

00365 vllm (论文学习笔记)

00365 vllm (论文学习笔记)

2025-10-01 Paper

大语言模型