00344 Seed1.5-Thinking (论文学习笔记)


前言

ByteDance Seed1.5-Thinking论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目:Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning

发表年份:2025

论文地址:https://arxiv.org/abs/2504.13914

pdf 地址:https://arxiv.org/pdf/2504.13914

个人学习笔记:

  1. https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00068-Seed1.5-Thinking.pdf
  2. https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00068-Seed1.5-Thinking.pdf

内容

摘要

我们介绍了Seed1.5-Thinking,它能够在响应之前通过思考进行推理,从而在各种基准测试中提高了性能。Seed1.5-Thinking在AIME 2024上获得了86.7的分数,在Codeforces上获得了55.0的分数,在GPQA上获得了77.3的分数,展示了在STEM和编程领域出色的推理能力。除了推理任务外,该方法在不同领域也表现出了显著的泛化能力。例如,在非推理任务中,它的胜率比DeepSeek R1高出8%,这表明它具有更广泛的适用性。与其他最先进的推理模型相比,Seed1.5-Thinking是一个专家混合模型(MoE),规模相对较小,激活参数为20B,总参数为200B。

作为我们评估泛化推理工作的一部分,我们开发了两个内部基准测试:BeyondAIME和Codeforces,这两个测试都将公开发布以支持未来的研究。模型试用链接:https://www.volcengine.com/experience/ark。

结语

第三百四十四篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录