00331 NLP Course - Introduction


前言

在第3章中,你了解了如何微调文本分类模型。在本章中,我们将探讨以下常见的语言任务,这些任务对于使用传统的NLP模型和现代的LLM都至关重要:

  • Token classification
  • Masked language modeling (like BERT)
  • Summarization
  • Translation
  • Causal language modeling pretraining (like GPT-2)
  • Question answering

这些基本任务构成了大型语言模型(LLMs)的工作基础,理解它们对于有效使用当今最先进的语言模型至关重要。

要做到这一点,你需要充分利用你在第3章中学习到的Trainer API和🤗Accelerate库,在第5章中学习到的🤗Datasets库,以及在第6章中学习到的🤗Tokenizers库。我们还将像在第4章中那样,将我们的结果上传到Model Hub,所以这真的是所有内容汇集在一起的章节!

每个部分都可以独立阅读,并向您展示如何使用 Trainer API 或自己的训练循环来训练模型,使用🤗 Accelerate。您可以自由跳过任一部分,专注于最感兴趣的部分:Trainer API 非常适合微调或训练模型,而无需担心幕后发生的情况,而使用 Accelerate 的训练循环将让您更轻松地自定义任何想要的部分。

如果你按照顺序阅读这些章节,你会注意到它们有很多共同的代码和文字。这种重复是有意为之的,目的是让你可以随时查看(或以后再查看)任何你感兴趣的任务,并找到一个完整的可运行示例。

src link: https://huggingface.co/learn/llm-course/chapter7/1

Operating System: Ubuntu 22.04.4 LTS

参考文档

  1. NLP Course - Introduction

获取语料库

结语

第三百三十一篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录