00338 RLOO 公式推导


问题描述:

详细推理下面的公式

✅ 推导过程:


原始公式


第一步:展开 $\tilde{A}_{i,t}$

假设

即 $\tilde{A}_{i,t}$ 是当前样本的reward减去所有样本reward的平均。


第二步:将 $\tilde{A}_{i,t}$ 带入


第三步:化简第二项


第四步:合并


第五步:将 $\sum_{j=1}^G$ 拆开


第六步:合并 $R(\mathbf{q}, \mathbf{o}_i)$ 的系数


第七步:写成常见的 leave-one-out (RLOO)形式


总结

公式推导的详细步骤如下:

  1. 展开 $\tilde{A}_{i,t}$ 的定义。
  2. 用分数系数 $\frac{G}{G-1}$ 乘进去,并拆分项。
  3. 合并系数,化为 $R(\mathbf{q}, \mathbf{o}_i)$ 和除去 $i$ 的其余项的平均。
  4. 得到 leave-one-out 形式的 advantage。

简要总结:


结语

第三百三十八篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录