LuYF-Lemon-love の Blog

天之道，损有余而补不足，人之道则不然，损不足以奉有余。

00338 RLOO 公式推导

数学

发布日期: 2025-05-12

更新日期: 2025-05-31

问题描述：

详细推理下面的公式

✅ 推导过程：

原始公式

第一步：展开 $\tilde{A}_{i,t}$

假设

即 $\tilde{A}_{i,t}$ 是当前样本的reward减去所有样本reward的平均。

第二步：将 $\tilde{A}_{i,t}$ 带入

第三步：化简第二项

第四步：合并

第五步：将 $\sum_{j=1}^G$ 拆开

第六步：合并 $R(\mathbf{q}, \mathbf{o}_i)$ 的系数

第七步：写成常见的 leave-one-out （RLOO）形式

总结

公式推导的详细步骤如下：

展开 $\tilde{A}_{i,t}$ 的定义。
用分数系数 $\frac{G}{G-1}$ 乘进去，并拆分项。
合并系数，化为 $R(\mathbf{q}, \mathbf{o}_i)$ 和除去 $i$ 的其余项的平均。
得到 leave-one-out 形式的 advantage。

简要总结：

结语

第三百三十八篇博文写完，开心！！！！

今天，也是充满希望的一天。

LuYF-Lemon-love

https://luyf-lemon-love.space/2025/05/12/00338-rloo-gong-shi-tui-dao/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !

数学

00339 linux查看两个文件差异的命令

2025-05-31 Linux

Linux

00337 GRPO (论文学习笔记)

2025-05-10 Paper

深度学习大语言模型

00338 RLOO 公式推导

问题描述：

✅ 推导过程：

原始公式

第一步：展开 $\tilde{A}_{i,t}$

第二步：将 $\tilde{A}_{i,t}$ 带入

第三步：化简第二项

第四步：合并

第五步：将 $\sum_{j=1}^G$ 拆开

第六步：合并 $R(\mathbf{q}, \mathbf{o}_i)$ 的系数

第七步：写成常见的 leave-one-out （RLOO）形式

总结

结语

谢谢小主！