LuYF-Lemon-love の Blog

LuYF-Lemon-love の Blog

天之道，损有余而补不足，人之道则不然，损不足以奉有余。

00225 NLP Course - Introduction

深度学习大语言模型 huggingface

大语言模型

发布日期: 2024-11-17

更新日期: 2024-12-28

前言

在第三章中，你首次体验了🤗 Datasets库，并看到了微调模型时的三个主要步骤：

从Hugging Face Hub加载一个数据集。
使用Dataset.map()预处理数据。
加载并计算指标。

但这只是🤗 Datasets库功能的一小部分！在本章中，我们将深入探讨这个库。在这个过程中，我们将找到以下问题的答案：

当你的数据集不在Hub上时，你该怎么办？
你如何切割和细分一个数据集？（如果你真的需要使用Pandas呢？）
当你的数据集非常大，会耗尽你笔记本电脑的内存时，你该怎么办？
“内存映射”和Apache Arrow到底是什么？
你如何创建自己的数据集并将其推送到Hub？

你在这里学到的技术将为你准备第6章和第7章中的高级标记化和微调任务——所以，拿一杯咖啡，让我们开始吧！

src link: https://huggingface.co/learn/nlp-course/chapter5/1

Operating System: Ubuntu 22.04.4 LTS

参考文档

NLP Course - Introduction

结语

第二百二十五篇博文写完，开心！！！！

今天，也是充满希望的一天。

LuYF-Lemon-love

https://luyf-lemon-love.space/2024/11/17/00225-nlp-course-introduction/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !

深度学习大语言模型 huggingface

上一篇

00226 NLP Course - What if my dataset isn’t on the Hub?

00226 NLP Course - What if my dataset isn’t on the Hub?

2024-11-17 大语言模型

深度学习大语言模型 huggingface

下一篇

00224 NLP Course - Part 1 completed!

00224 NLP Course - Part 1 completed!

2024-11-14 大语言模型

深度学习大语言模型 huggingface