00361 ReAct (论文学习笔记)

大语言模型

Paper

发布日期: 2025-08-21

更新日期: 2025-08-21

前言

Google ReAct论文的学习笔记。

信息

论文题目：ReAct: Synergizing Reasoning and Acting in Language Models

发表年份：2022

论文地址：https://arxiv.org/abs/2210.03629

pdf 地址：https://arxiv.org/pdf/2210.03629

个人学习笔记：

内容

摘要

虽然大型语言模型（LLM）在语言理解和交互式决策方面表现出令人印象深刻的跨任务性能，但它们的推理（如思维链提示）和行动（如执行方案生成）能力主要作为单独的主题进行了研究。在本文中，我们探索了使用LLM以交错的方式生成推理跟踪和特定任务的行动，从而实现两者之间更大的协同作用：推理跟踪帮助模型诱导、跟踪和更新行动计划以及处理异常，而行动允许它与外部来源（如知识库或环境）交互并收集额外信息。

我们将我们的方法ReAct应用于各种语言和决策任务，并证明其在最先进的基线上的有效性，以及改进的人类可解释性和可信度。具体而言，在问答（HotpotQA）和事实验证（Fever）方面，ReAct通过与简单的Wikipedia API交互，克服了思维链推理中普遍存在的幻觉和错误传播问题，并生成了类似人类的任务解决轨迹，这些轨迹比没有推理痕迹的基线更具可解释性。此外，在两个交互式决策基准（ALFWorld和WebShop）上，ReAct的绝对成功率分别超过了模仿和强化学习方法34%和10%，而仅使用一两个上下文示例进行提示。