00367 FoldGRPO (论文学习笔记)


前言

ByteDance FoldGRPO论文的学习笔记。

信息

论文题目:Scaling Long-Horizon LLM Agent via Context-Folding

发表年份:2025

论文地址:https://arxiv.org/abs/2510.11967

pdf 地址:https://arxiv.org/pdf/2510.11967

个人学习笔记:

  1. https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00128-context-folding.pdf
  2. https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00128-context-folding.pdf

内容

摘要

大型语言模型(LLM)代理在长期任务中根本受上下文长度限制。我们介绍了上下文折叠(Context-Folding),这是一个赋予代理主动管理其工作上下文的框架。代理可以程序化分支进入子轨迹处理子任务,完成后折叠,这样可以压缩中间步骤,同时保持结果的简明总结。为了使这种行为可学习,我们开发了一个端到端强化学习框架FoldGRPO,并配备具体的过程奖励,以鼓励有效的任务分解和上下文管理。在复杂的长视野任务(如深度研究和软件研究)中,我们的折叠代理在使用10×小的主动上下文时,表现与ReAct基线相当甚至优于,且显著优于依赖基于摘要的上下文管理模型。

结语

第三百六十七篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录