问题描述:
详细推理下面的公式

✅ 推导过程:
原始公式

第一步:展开 $\tilde{A}_{i,t}$
假设

即 $\tilde{A}_{i,t}$ 是当前样本的reward减去所有样本reward的平均。
第二步:将 $\tilde{A}_{i,t}$ 带入

第三步:化简第二项

第四步:合并

第五步:将 $\sum_{j=1}^G$ 拆开

第六步:合并 $R(\mathbf{q}, \mathbf{o}_i)$ 的系数

第七步:写成常见的 leave-one-out (RLOO)形式

总结
公式推导的详细步骤如下:
- 展开 $\tilde{A}_{i,t}$ 的定义。
- 用分数系数 $\frac{G}{G-1}$ 乘进去,并拆分项。
- 合并系数,化为 $R(\mathbf{q}, \mathbf{o}_i)$ 和除去 $i$ 的其余项的平均。
- 得到 leave-one-out 形式的 advantage。
简要总结:

结语
第三百三十八篇博文写完,开心!!!!
今天,也是充满希望的一天。