00348 Search-o1 (论文学习笔记)

深度学习大语言模型

Paper

发布日期: 2025-07-06

更新日期: 2025-07-06

前言

Renmin University of China Search-o1论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目：Search-o1: Agentic Search-Enhanced Large Reasoning Models

发表年份：2025

论文地址：https://arxiv.org/abs/2501.05366

pdf 地址：https://arxiv.org/pdf/2501.05366

个人学习笔记：

内容

摘要

像OpenAI-o1这样的大型推理模型（LRM）通过大规模强化学习展示了令人印象深刻的长逐步推理能力。然而，它们的扩展推理过程经常受到知识不充分的影响，导致频繁的不确定性和潜在错误。为了解决这一限制，我们引入了Search-o1，这是一个框架，它通过代理检索增强生成（RAG）机制和用于细化检索文档的Reason-in-Documents模块来增强LRM。Search-o1将代理搜索工作流集成到推理过程中，当LRM遇到不确定的知识点时，可以动态检索外部知识。

此外，由于检索到的文档的冗长性质，我们设计了一个单独的Reason-in-Documents模块，在将检索到的信息注入推理链之前对其进行深入分析，从而最大限度地减少噪音并保持连贯的推理流程。对科学、数学和编码中复杂推理任务的广泛实验，以及六个开放域QA基准测试，证明了Search-o1的强大性能。这种方法增强了LRM在复杂推理任务中的可信度和适用性，为更可靠和通用的智能系统铺平了道路。该代码可在 https://github.com/sunnynexus/Search-o1 获得。