前言
Renmin University of China WebThinker论文的学习笔记。
信息
论文题目:WebThinker: Empowering Large Reasoning Models with Deep Research Capability
发表年份:2025
论文地址:https://arxiv.org/abs/2504.21776
pdf 地址:https://arxiv.org/pdf/2504.21776
个人学习笔记:
- https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00074-WebThinker.pdf
- https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00074-WebThinker.pdf
内容
摘要
大型推理模型(LRM),如OpenAI-o1和DeepSeek-R1,展示了令人印象深刻的长期推理能力。然而,它们对静态内部知识的依赖限制了它们在复杂、知识密集型任务上的表现,并阻碍了它们生成需要综合各种网络信息的综合研究报告的能力。为了解决这个问题,我们提出了WebThinker,这是一种深度研究代理,使LRM能够在推理过程中自主搜索网络、浏览网页和起草研究报告。WebThinker集成了一个Deep Web Explorer模块,使LRM能够在遇到知识差距时从网络中动态搜索、导航和提取信息。
它还采用了自主Think-Search-and-Draft策略,允许模型实时无缝交错推理、信息收集和报告编写。为了进一步提高研究工具的利用率,我们通过迭代在线直接偏好优化(DPO)引入了基于RL的训练策略。对复杂推理基准(GPQA、GAIA、WebWalkerQA、HLE)和科学报告生成任务(Glaive)的广泛实验表明,WebThinker显着优于现有方法和强大的专有系统。我们的方法增强了LRM在复杂环境中的可靠性和适用性,为更有能力和多功能的深度研究系统铺平了道路。该代码可在 https://github.com/RUC-NLPIR/WebThinker 获得。
结语
第三百五十九篇博文写完,开心!!!!
今天,也是充满希望的一天。