前言
ByteDance Seed1.5-Thinking论文的学习笔记。
Operating System: Ubuntu 22.04.4 LTS
信息
论文题目:Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning
发表年份:2025
论文地址:https://arxiv.org/abs/2504.13914
pdf 地址:https://arxiv.org/pdf/2504.13914
个人学习笔记:
- https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00068-Seed1.5-Thinking.pdf
- https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00068-Seed1.5-Thinking.pdf
内容
摘要
我们介绍了Seed1.5-Thinking,它能够在响应之前通过思考进行推理,从而在各种基准测试中提高了性能。Seed1.5-Thinking在AIME 2024上获得了86.7的分数,在Codeforces上获得了55.0的分数,在GPQA上获得了77.3的分数,展示了在STEM和编程领域出色的推理能力。除了推理任务外,该方法在不同领域也表现出了显著的泛化能力。例如,在非推理任务中,它的胜率比DeepSeek R1高出8%,这表明它具有更广泛的适用性。与其他最先进的推理模型相比,Seed1.5-Thinking是一个专家混合模型(MoE),规模相对较小,激活参数为20B,总参数为200B。
作为我们评估泛化推理工作的一部分,我们开发了两个内部基准测试:BeyondAIME和Codeforces,这两个测试都将公开发布以支持未来的研究。模型试用链接:https://www.volcengine.com/experience/ark。
结语
第三百四十四篇博文写完,开心!!!!
今天,也是充满希望的一天。