LuYF-Lemon-love の Blog

LuYF-Lemon-love の Blog

天之道，损有余而补不足，人之道则不然，损不足以奉有余。

00344 Seed1.5-Thinking (论文学习笔记)

深度学习大语言模型

Paper

发布日期: 2025-06-08

更新日期: 2025-06-08

前言

ByteDance Seed1.5-Thinking论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目：Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning

发表年份：2025

论文地址：https://arxiv.org/abs/2504.13914

pdf 地址：https://arxiv.org/pdf/2504.13914

个人学习笔记：

内容

摘要

我们介绍了Seed1.5-Thinking，它能够在响应之前通过思考进行推理，从而在各种基准测试中提高了性能。Seed1.5-Thinking在AIME 2024上获得了86.7的分数，在Codeforces上获得了55.0的分数，在GPQA上获得了77.3的分数，展示了在STEM和编程领域出色的推理能力。除了推理任务外，该方法在不同领域也表现出了显著的泛化能力。例如，在非推理任务中，它的胜率比DeepSeek R1高出8%，这表明它具有更广泛的适用性。与其他最先进的推理模型相比，Seed1.5-Thinking是一个专家混合模型（MoE），规模相对较小，激活参数为20B，总参数为200B。

作为我们评估泛化推理工作的一部分，我们开发了两个内部基准测试：BeyondAIME和Codeforces，这两个测试都将公开发布以支持未来的研究。模型试用链接：https://www.volcengine.com/experience/ark。

结语

第三百四十四篇博文写完，开心！！！！

今天，也是充满希望的一天。

LuYF-Lemon-love

https://luyf-lemon-love.space/2025/06/08/00344-seed1-5-thinking-lun-wen-xue-xi-bi-ji/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !

深度学习大语言模型

上一篇

00345 Dr. GRPO (论文学习笔记)

00345 Dr. GRPO (论文学习笔记)

2025-06-08 Paper

深度学习大语言模型

下一篇

00343 VAPO (论文学习笔记)

00343 VAPO (论文学习笔记)

2025-06-05 Paper

深度学习大语言模型