前言
Google ReAct论文的学习笔记。
信息
论文题目:ReAct: Synergizing Reasoning and Acting in Language Models
发表年份:2022
论文地址:https://arxiv.org/abs/2210.03629
pdf 地址:https://arxiv.org/pdf/2210.03629
个人学习笔记:
- https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00078-ReAct.pdf
- https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00078-ReAct.pdf
内容
摘要
虽然大型语言模型(LLM)在语言理解和交互式决策方面表现出令人印象深刻的跨任务性能,但它们的推理(如思维链提示)和行动(如执行方案生成)能力主要作为单独的主题进行了研究。在本文中,我们探索了使用LLM以交错的方式生成推理跟踪和特定任务的行动,从而实现两者之间更大的协同作用:推理跟踪帮助模型诱导、跟踪和更新行动计划以及处理异常,而行动允许它与外部来源(如知识库或环境)交互并收集额外信息。
我们将我们的方法ReAct应用于各种语言和决策任务,并证明其在最先进的基线上的有效性,以及改进的人类可解释性和可信度。具体而言,在问答(HotpotQA)和事实验证(Fever)方面,ReAct通过与简单的Wikipedia API交互,克服了思维链推理中普遍存在的幻觉和错误传播问题,并生成了类似人类的任务解决轨迹,这些轨迹比没有推理痕迹的基线更具可解释性。此外,在两个交互式决策基准(ALFWorld和WebShop)上,ReAct的绝对成功率分别超过了模仿和强化学习方法34%和10%,而仅使用一两个上下文示例进行提示。
结语
第三百六十一篇博文写完,开心!!!!
今天,也是充满希望的一天。