前言
在第三章中,你首次体验了🤗 Datasets库,并看到了微调模型时的三个主要步骤:
- 从Hugging Face Hub加载一个数据集。
- 使用Dataset.map()预处理数据。
- 加载并计算指标。
但这只是🤗 Datasets库功能的一小部分!在本章中,我们将深入探讨这个库。在这个过程中,我们将找到以下问题的答案:
- 当你的数据集不在Hub上时,你该怎么办?
- 你如何切割和细分一个数据集?(如果你真的需要使用Pandas呢?)
- 当你的数据集非常大,会耗尽你笔记本电脑的内存时,你该怎么办?
- “内存映射”和Apache Arrow到底是什么?
- 你如何创建自己的数据集并将其推送到Hub?
你在这里学到的技术将为你准备第6章和第7章中的高级标记化和微调任务——所以,拿一杯咖啡,让我们开始吧!
src link: https://huggingface.co/learn/nlp-course/chapter5/1
Operating System: Ubuntu 22.04.4 LTS
参考文档
结语
第二百二十五篇博文写完,开心!!!!
今天,也是充满希望的一天。