00283 DeepSeek-V3技术报告 (论文学习笔记)


前言

DeepSeek-AI DeepSeek-V3技术报告论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目:DeepSeek-V3 Technical Report

发表年份:2024

论文地址:https://arxiv.org/abs/2412.19437

pdf 地址:https://arxiv.org/pdf/2412.19437

个人学习笔记:

  1. https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00042-DeepSeek-V3.pdf
  2. https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00042-DeepSeek-V3.pdf

内容

摘要

我们介绍了DeepSeek-V3,这是一个强大的混合专家(MoE)语言模型,具有671B总参数,每个令牌都激活了37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些架构在DeepSeek-V2中得到了彻底的验证。此外,DeepSeek-V3开创了负载平衡的无辅助损失策略,并为更强的性能设定了多令牌预测训练目标。我们在14.80万亿多样化和高质量的令牌上预训练DeepSeek-V3,然后是监督微调和强化学习阶段,以充分利用其功能。综合评估显示,DeepSeek-V3的性能优于其他开源模型,并实现了与领先的闭源模型相当的性能。尽管性能优异,但DeepSeek-V3完全训练只需要2.788MH800 GPU小时,此外,它的训练过程非常稳定,在整个训练过程中,我们没有遇到任何不可恢复的损失峰值,也没有执行任何回滚。模型检查点可在https://github.com/deepseek-ai/DeepSeek-V3获得。

结语

第二百八十三篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录