前言从零开始编写 GRPO:使用 Qwen2.5-1.5B-Instruct 进行分布式实现的指南
在这个教程中,我们展示了如何使用 GRPO(Group Relative Policy Optimization)方法构建一个分布式强化学
2025-04-28