00351 Qwen3 (论文学习笔记)

深度学习大语言模型

Paper

发布日期: 2025-07-27

更新日期: 2025-07-27

前言

Alibaba Group Qwen3论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目：Qwen3 Technical Report

发表年份：2025

论文地址：https://arxiv.org/abs/2505.09388

pdf 地址：https://arxiv.org/pdf/2505.09388

个人学习笔记：

内容

摘要

在这项工作中，我们展示了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列旨在提高性能、效率和多语言能力的大型语言模型（LLM）。Qwen3系列包括密集和混合专家（MoE）架构的模型，参数范围从0.6到2350亿。Qwen3的一个关键创新是将思维模式（用于复杂的多步骤推理）和非思维模式（用于快速的上下文驱动响应）集成到一个统一的框架中。

这消除了在不同模型之间切换的需要——例如聊天优化模型（例如GPT-4o）和专用推理模型（例如QwQ-32B）——并实现了基于用户查询或聊天模板的动态模式切换。同时，Qwen3引入了思维预算机制，允许用户在推理过程中自适应地分配计算资源，从而根据任务复杂性平衡延迟和性能。此外，通过利用旗舰模型的知识，我们显著减少了构建更小规模模型所需的计算资源，同时确保了它们极具竞争力的性能。

实证评估表明，Qwen3在不同的基准测试中实现了最先进的结果，包括代码生成、数学推理、代理任务等任务。，与大型MoE模型和专有模型竞争。与其前身Qwen2.5相比，Qwen3将多语言支持从29种语言和方言扩展到119种，通过改进的跨语言理解和生成能力增强了全球可访问性。为了促进可重复性和社区驱动的研发，所有Qwen3模型都可以在Apache 2.0下公开访问。