00196 加载文本数据 ubuntu
前言
这份指南向您展示了如何加载文本数据集。要想了解如何加载任何类型的数据集,请查阅通用加载指南。
文本文件是存储数据集最常见的文件类型之一。默认情况下,🤗 Datasets 逐行采样文本文件以构建数据集。
1 | from datasets import load_dataset |
要按段落甚至整个文档采样文本文件,请使用 sample_by
参数:
1 | # Sample by paragraph |
你也可以使用grep模式来加载特定的文件:
1 | from datasets import load_dataset |
要通过HTTP加载远程文本文件,请传递URL:
1 | "text", data_files="https://huggingface.co/datasets/lhoestq/test/resolve/main/some_text.txt") dataset = load_dataset( |
Operating System: Ubuntu 22.04.4 LTS
参考文档
File-based builders
结语
第一百九十六篇博文写完,开心!!!!
今天,也是充满希望的一天。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 LuYF-Lemon-love の Blog!