前言

Microsoft Phi-3 论文的学习笔记。

操作系统:Windows 11 家庭中文版

信息

论文题目:Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

发表年份:2024

论文地址:https://arxiv.org/abs/2404.14219

pdf 地址:https://arxiv.org/pdf/2404.14219

为了个人学习研究,论文 pdf 删减版:

  1. https://github.com/LuYF-Lemon-love/paper-is-all-you-need/blob/main/papers/00004-Phi-3/newmain.pdf
  2. https://cdn.jsdelivr.net/gh/LuYF-Lemon-love/paper-is-all-you-need/papers/00004-Phi-3/newmain.pdf

内容

摘要

我们引入了phi-3-mini,这是一个在3.30万亿tokens上训练的38亿参数语言模型,其整体性能(通过学术基准和内部测试衡量)可以与Mixtral 8x7B和GPT-3.5等模型相媲美(例如,phi-3-mini在MMLU上达到69%,在MT-bench上达到8.38),尽管它足够小,可以部署在手机上创新完全在于我们的训练数据集,这是phi-2数据集的放大版本,由经过大量过滤的公开网络数据和合成数据组成。该模型还进一步针对稳健性、安全性和聊天格式进行了调整。我们还提供了一些初始参数缩放结果,其中7B和14B模型针对4.8Ttokens进行了训练,称为phi-3-small和phi-3-medium,它们都比phi-3-mini能力强得多(例如,在MMLU上分别为75%和78%,在MT-bench上分别为8.7和8.9)。此外,我们还介绍了phi-3-vision,这是一种基于phi-3-mini的42亿参数模型,具有强大的图像和文本提示推理能力

结语

第一百二十五篇博文写完,开心!!!!

今天,也是充满希望的一天。