LuYF-Lemon-love の Blog

LuYF-Lemon-love の Blog

天之道，损有余而补不足，人之道则不然，损不足以奉有余。

00367 FoldGRPO (论文学习笔记)

大语言模型

Paper

发布日期: 2025-12-13

更新日期: 2025-12-13

前言

ByteDance FoldGRPO论文的学习笔记。

信息

论文题目：Scaling Long-Horizon LLM Agent via Context-Folding

发表年份：2025

论文地址：https://arxiv.org/abs/2510.11967

pdf 地址：https://arxiv.org/pdf/2510.11967

个人学习笔记：

内容

摘要

大型语言模型（LLM）代理在长期任务中根本受上下文长度限制。我们介绍了上下文折叠（Context-Folding），这是一个赋予代理主动管理其工作上下文的框架。代理可以程序化分支进入子轨迹处理子任务，完成后折叠，这样可以压缩中间步骤，同时保持结果的简明总结。为了使这种行为可学习，我们开发了一个端到端强化学习框架FoldGRPO，并配备具体的过程奖励，以鼓励有效的任务分解和上下文管理。在复杂的长视野任务（如深度研究和软件研究）中，我们的折叠代理在使用10×小的主动上下文时，表现与ReAct基线相当甚至优于，且显著优于依赖基于摘要的上下文管理模型。

结语

第三百六十七篇博文写完，开心！！！！

今天，也是充满希望的一天。

LuYF-Lemon-love

https://luyf-lemon-love.space/2025/12/13/00367-foldgrpo-lun-wen-xue-xi-bi-ji/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !

大语言模型

上一篇

00368 DeepSeek-OCR (论文学习笔记)

00368 DeepSeek-OCR (论文学习笔记)

2025-12-14 Paper

大语言模型

下一篇

00366 GSPO (论文学习笔记)

00366 GSPO (论文学习笔记)

2025-10-20 Paper

大语言模型