前言
ByteDance FoldGRPO论文的学习笔记。
信息
论文题目:Scaling Long-Horizon LLM Agent via Context-Folding
发表年份:2025
论文地址:https://arxiv.org/abs/2510.11967
pdf 地址:https://arxiv.org/pdf/2510.11967
个人学习笔记:
- https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00128-context-folding.pdf
- https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00128-context-folding.pdf
内容
摘要
大型语言模型(LLM)代理在长期任务中根本受上下文长度限制。我们介绍了上下文折叠(Context-Folding),这是一个赋予代理主动管理其工作上下文的框架。代理可以程序化分支进入子轨迹处理子任务,完成后折叠,这样可以压缩中间步骤,同时保持结果的简明总结。为了使这种行为可学习,我们开发了一个端到端强化学习框架FoldGRPO,并配备具体的过程奖励,以鼓励有效的任务分解和上下文管理。在复杂的长视野任务(如深度研究和软件研究)中,我们的折叠代理在使用10×小的主动上下文时,表现与ReAct基线相当甚至优于,且显著优于依赖基于摘要的上下文管理模型。
结语
第三百六十七篇博文写完,开心!!!!
今天,也是充满希望的一天。