00196 加载文本数据 ubuntu

发表于2024-10-10|更新于2024-10-10|持续维护的工具学习笔记

|字数总计:354|阅读时长:1分钟

前言

这份指南向您展示了如何加载文本数据集。要想了解如何加载任何类型的数据集，请查阅通用加载指南。

文本文件是存储数据集最常见的文件类型之一。默认情况下，🤗 Datasets 逐行采样文本文件以构建数据集。

>>> from datasets import load_dataset
>>> dataset = load_dataset("text", data_files={"train": ["my_text_1.txt", "my_text_2.txt"], "test": "my_test_file.txt"})

# Load from a directory
>>> dataset = load_dataset("text", data_dir="path/to/text/dataset")

要按段落甚至整个文档采样文本文件，请使用 sample_by 参数：

# Sample by paragraph
>>> dataset = load_dataset("text", data_files={"train": "my_train_file.txt", "test": "my_test_file.txt"}, sample_by="paragraph")

# Sample by document
>>> dataset = load_dataset("text", data_files={"train": "my_train_file.txt", "test": "my_test_file.txt"}, sample_by="document")

你也可以使用grep模式来加载特定的文件：

1 2	>>> from datasets import load_dataset >>> c4_subset = load_dataset("allenai/c4", data_files="en/c4-train.0000*-of-01024.json.gz")

要通过HTTP加载远程文本文件，请传递URL：

1	>>> dataset = load_dataset("text", data_files="https://huggingface.co/datasets/lhoestq/test/resolve/main/some_text.txt")

Operating System: Ubuntu 22.04.4 LTS

参考文档

Load text data

File-based builders

结语

第一百九十六篇博文写完，开心！！！！

今天，也是充满希望的一天。

文章作者: LuYF-Lemon-love

文章链接: https://luyf-lemon-love.space/1626077084/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 LuYF-Lemon-love の Blog！

人工智能深度学习大语言模型 huggingface

打赏

wechat
alipay

相关推荐

00121 学习笔记目录 windows11

00206 收集的数据集 - ubuntu

00224 NLP Course - Part 1 completed! ubuntu

00223 NLP Course - Building a model card ubuntu

00222 NLP Course - Sharing pretrained models ubuntu

00221 NLP Course - Using pretrained models ubuntu

数据库加载中