前言
OpenAI 神经语言模型的缩放定律论文论文的学习笔记。
操作系统:Windows 11 家庭中文版
信息
论文题目:Scaling Laws for Neural Language Models
发表年份:2020
论文地址:https://arxiv.org/abs/2001.08361
pdf 地址:https://arxiv.org/pdf/2001.08361
为了个人学习研究,论文 pdf 删减版:
- https://github.com/LuYF-Lemon-love/paper-is-all-you-need/blob/main/papers/00001-scaling-laws/main.pdf
- https://cdn.jsdelivr.net/gh/LuYF-Lemon-love/paper-is-all-you-need/papers/00001-scaling-laws/main.pdf
内容
摘要
我们研究了交叉熵损失对语言模型性能的经验缩放规律。损失与模型大小、数据集大小和用于训练的计算量成幂法则,一些趋势跨越七个数量级以上。其他架构细节,如网络宽度或深度,在很宽的范围内影响最小。较大的模型明显更具样本效率,因此最佳计算效率的训练包括在非常适中的数据量上训练非常大的模型,并在收敛前明显停止。
结语
第一百二十二篇博文写完,开心!!!!
今天,也是充满希望的一天。