LuYF-Lemon-love の Blog
00338 RLOO 公式推导 00338 RLOO 公式推导
问题描述:详细推理下面的公式 ✅ 推导过程: 原始公式 第一步:展开 $\tilde{A}_{i,t}$假设 即 $\tilde{A}_{i,t}$ 是当前样本的reward减去所有样本reward的平均。 第二步:将 $\tild
2025-05-12
00336 等比数列的无穷和 00336 等比数列的无穷和
问题描述:求下面这个无穷级数的和: $$\sum_{b=0}^{\infty} a^b = 1 + a + a^2 + a^3 + \cdots$$ 其中 $ b $ 是从 0 到正无穷的整数,也就是说这是一个等比数列的
2025-05-06