00364 神经网络中的知识提取 (论文学习笔记)

大语言模型

Paper

发布日期: 2025-09-22

更新日期: 2025-09-22

前言

Google 神经网络中的知识提取论文的学习笔记。

信息

论文题目：Distilling the Knowledge in a Neural Network

发表年份：2015

论文地址：https://arxiv.org/abs/1503.02531

pdf 地址：https://arxiv.org/pdf/1503.02531

个人学习笔记：

内容

摘要

提高几乎所有机器学习算法性能的一个非常简单的方法是在相同的数据上训练许多不同的模型，然后对它们的预测进行平均[3]。不幸的是，使用整个模型集合进行预测很麻烦，并且可能计算成本太高，无法部署到大量用户，尤其是当单个模型是大型神经网络时。Caruana和他的合作者[1]已经证明，可以将集合中的知识压缩到一个更容易部署的单一模型中，我们使用不同的压缩技术进一步开发了这种方法。

我们在MNIST上取得了一些令人惊讶的结果，并证明我们可以通过将模型集合中的知识提炼到单个模型中来显着改进大量使用的商业系统的声学模型。我们还引入了一种由一个或多个完整模型和许多专业模型组成的新型集成，这些集成学习区分完整模型混淆的细粒度类。与专家的混合物不同，这些专业模型可以快速并行地训练。