前言

Tsinghua University MiniCPM 论文的学习笔记。

操作系统:Windows 11 家庭中文版

信息

论文题目:MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

发表年份:2024

论文地址:https://arxiv.org/abs/2404.06395

pdf 地址:https://arxiv.org/pdf/2404.06395

为了个人学习研究,论文 pdf 删减版:

  1. https://github.com/LuYF-Lemon-love/paper-is-all-you-need/blob/main/papers/00003-MiniCPM/colm2024_conference.pdf
  2. https://cdn.jsdelivr.net/gh/LuYF-Lemon-love/paper-is-all-you-need/papers/00003-MiniCPM/colm2024_conference.pdf

内容

摘要

在这种情况下,我们引入了MiniCPM,特别是1.2B2.4B非嵌入参数变量,不仅在各自的类别中表现出色,而且展示了与7B-13BLLM相当的能力。在模型缩放方面,我们采用了广泛的模型风洞经验来实现稳定和最佳的缩放。对于数据缩放,我们引入了Warmup-Stable-Decay(WSD)学习速率调度器(LRS),有利于持续训练和域适应。借助WSD LRS,我们现在能够有效地研究数据模型缩放规律,而无需在模型和数据的两个轴上进行大量的重训练实验,从中我们获得了比Chinchilla Optimal更高的计算最佳数据模型比率。MiniCPM模型可公开获得。

结语

第一百二十四篇博文写完,开心!!!!

今天,也是充满希望的一天。