00122 神经语言模型的缩放定律 (论文学习笔记) windows11

发表于2024-06-04|更新于2024-08-29|持续维护的工具学习笔记

|字数总计:292|阅读时长:1分钟

前言

OpenAI 神经语言模型的缩放定律论文论文的学习笔记。

操作系统：Windows 11 家庭中文版

信息

论文题目：Scaling Laws for Neural Language Models

发表年份：2020

论文地址：https://arxiv.org/abs/2001.08361

pdf 地址：https://arxiv.org/pdf/2001.08361

为了个人学习研究，论文 pdf 删减版：

内容

摘要

我们研究了交叉熵损失对语言模型性能的经验缩放规律。损失与模型大小、数据集大小和用于训练的计算量成幂法则，一些趋势跨越七个数量级以上。其他架构细节，如网络宽度或深度，在很宽的范围内影响最小。较大的模型明显更具样本效率，因此最佳计算效率的训练包括在非常适中的数据量上训练非常大的模型，并在收敛前明显停止。

结语

第一百二十二篇博文写完，开心！！！！

今天，也是充满希望的一天。

文章作者: LuYF-Lemon-love

文章链接: https://www.luyf-lemon-love.space/907777046/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 LuYF-Lemon-love の Blog！

人工智能深度学习大语言模型

打赏

wechat
alipay

相关推荐

00121 学习笔记目录 windows11

00171 OpenAI 文档 ubuntu

00170 了解您的数据集 ubuntu

00168 ChatGLM 论文学习笔记 ubuntu

00126 微调预训练模型 windows11

00162 大规模 Transformer 模型 8 比特矩阵乘简介 windows11

数据库加载中