前言

介绍一些数据集。

Operating System: Ubuntu 22.04.4 LTS

文本

Text Generation (pre-training datasets)

  1. LLaMA-Factory/Wiki Demo (en): Wiki Demo (en)。
  2. The Pile: “The Pile” 是一个包含825吉字节(GiB)的多样化、开源语言模型数据集,它由22个较小的高质量数据集组合而成。
  3. Common Crawl: Common Crawl 语料库包含数千亿字节的数据,自2008年起定期收集。
  4. shjwudp/shu: 中文书籍收录整理。

Text Generation (supervised fine-tuning datasets)

  1. LLaMA-Factory/Identity (en&zh): Identity (en&zh)。
  2. GPT-4-LLM/Alpaca GPT4 (en&zh): 包含52K条由GPT-4根据Alpaca提示生成的遵循指令数据。
  3. jianzhnie/awesome-instruction-datasets: 收录各种各样的指令数据集, 用于训练 ChatLLM 模型。
  4. yaodongC/awesome-instruction-dataset: 用于训练遵循指令的大型语言模型(如 ChatGPT、LLaMA、Alpaca)的开源数据集集合。
  5. HqWu-HITCS/Awesome-Chinese-LLM: 整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。

huggingface

Text Generation (pre-training datasets)

  1. legacy-datasets/wikipedia: Wikipedia数据集包含所有语言的已清理文章。这些数据集是从Wikipedia转储( https://dumps.wikimedia.org/ )构建的,每种语言有一个拆分。
  2. olm/olm-wikipedia-20221220: 预训练数据集,使用2022年12月Wikipedia快照中的OLM存储库创建。
  3. pleisto/wikipedia-cn-20230720-filtered: 本数据集基于中文维基2023年7月20日的dump存档。作为一项以数据为中心的工作,本数据集仅保留了 254,547条 质量较高的词条内容。
  4. EleutherAI/pile: Pile是一个825 GiB的多样化开源语言建模数据集,由22个较小的高质量数据集组合在一起组成。
  5. Skywork/SkyPile-150B: SkyPile-150B是一个全面的大规模中文数据集,专为大型语言模型的预训练而设计。
  6. HuggingFaceFW/fineweb: 🍷 FineWeb 数据集包含超过 15T 的经过清洗和去重的英文网络数据,这些数据来自 CommonCrawl。
  7. HuggingFaceFW/fineweb-edu: 📚 FineWeb-Edu 数据集包含了从 🍷 FineWeb 数据集中筛选出的 1.3T 和 5.4T(FineWeb-Edu-score-2)的教育网页标记。这是 1.3 万亿版本。
  8. bookcorpus/bookcorpus: 书籍是细粒度信息的丰富来源,包括角色、物体或场景的样子,以及高级语义学、某人的想法、感受以及这些状态如何通过故事演变。这项工作旨在使书籍与电影版本保持一致,以便为视觉内容提供描述性解释,这些解释在语义上远远超出了当前数据集中可用的字幕。
  9. tiiuae/falcon-refinedweb: Falcon RefinedWeb是由TII构建并在ODC-By 1.0许可下发布的海量英文网络数据集。
  10. togethercomputer/RedPajama-Data-V2: RedPajama-V2是一个用于训练大型语言模型的开放数据集。
  11. bigcode/the-stack: 这个代码库包含了超过6TB的允许使用许可的源代码文件,涵盖了358种编程语言。
  12. bigcode/starcoderdata: 这是用于训练StarCoder和StarCoderBase的数据集。它包含了86种编程语言的783GB代码,包括54GB的GitHub问题、13GB的Jupyter笔记本脚本和文本代码对,以及32GB的GitHub提交,大约相当于2500亿个标记。
  13. shailja/Verilog_GitHub: 该数据集包含Verilog模块作为条目。

Text Generation (supervised fine-tuning datasets)

  1. tatsu-lab/alpaca: 羊驼是由OpenAI的text-davinci-003引擎生成的包含52,000条指令和演示的数据集。这些指令数据可用于对语言模型进行指令调整,并使语言模型更好地遵循指令。
  2. hfl/alpaca_zh_51k: 中文Alpaca数据,包含51k个从ChatGPT (gpt-3.5-turbo)爬取的指令数据。
  3. BelleGroup/school_math_0.25M: 包含约25万条由BELLE项目生成的中文数学题数据,包含解题过程。
  4. BelleGroup/generated_chat_0.4M: 包含约40万条由BELLE项目生成的个性化角色对话数据,包含角色介绍。
  5. BelleGroup/multiturn_chat_0.8M: 包含约80万条由BELLE项目生成的用户与助手的多轮对话。
  6. BelleGroup/train_0.5M_CN: 包含约50万条由BELLE项目生成的中文指令数据。
  7. BelleGroup/train_1M_CN: 包含约100万条由BELLE项目生成的中文指令数据。
  8. BelleGroup/train_2M_CN: 包含约200万条由BELLE项目生成的中文指令数据。
  9. YeungNLP/firefly-train-1.1M: 我们收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万 。
  10. microsoft/wiki_qa: 来自Microsoft的Wiki问答语料库。
  11. suolyer/webqa: Web QA (zh)。
  12. zxbsmk/webnovel_cn: 网文提取的可用于训练小说生成的中文指令数据。
  13. TIGER-Lab/MathInstruct: MathInstruct是一个精心策划的指令调整数据集,轻量级但可推广。MathInstruct是从13个数学基本原理数据集编译而来的,其中6个是这项工作新策划的。它独特地专注于思想链(CoT)和思想程序(PoT)基本原理的混合使用,并确保广泛覆盖不同的数学领域。
  14. QingyiSi/Alpaca-CoT: 该存储库将不断收集各种指令调优数据集。并且我们将不同的数据集标准化为相同的格式,可以通过羊驼模型的代码直接加载。
  15. stingning/ultrachat: 由Turbo API提供支持的开源、大规模和多轮对话数据。
  16. HuggingFaceH4/ultrachat_200k: 这是UltraChat数据集的经过严格过滤的版本,用于训练Zehyr-7B-β,一种最先进7b聊天模型。
  17. garage-bAInd/Open-Platypus: 该数据集专注于提高LLM逻辑推理技能,并用于训练Platypus2模型。
  18. Open-Orca/OpenOrca: OpenOrca数据集。
  19. Open-Orca/SlimOrca: 这是我们的OpenOrca数据的一个新策划子集。这个版本提供了一种有效的方法,可以达到使用我们数据更大切片的性能,同时只包括约500k GPT-4的完成。
  20. glaiveai/glaive-function-calling-v2: 函数调用数据集。
  21. GAIR/lima: LIMA: Less Is More for Alignment的数据集。
  22. OpenAssistant/oasst1: 为了使大规模对齐的研究民主化,我们发布了OpenAssistant Conversations(OASST1),这是一个人工生成的、人工注释的助手式对话语料库,包含35种不同语言的161,443条消息,注释质量评级为461,292,产生了10,000多个完全注释的对话树。该语料库是全球众包工作的产物,涉及13,500多名志愿者。
  23. timdettmers/openassistant-guanaco: 此数据集是Open Assistant数据集的子集,您可以在此处找到:https://huggingface.co/datasets/OpenAssistant/oasst1/tree/main
  24. mayflowergmbh/oasst_de: OpenAssistant/OASST-DE数据集的重新格式化版本。
  25. mayflowergmbh/dolly-15k_de: DRXD1000/Dolly-15k-German数据集的重新格式化版本。
  26. mayflowergmbh/alpaca-gpt4_de: FreedomIntelligence/alpaca-gpt4-deutsch数据集的重新格式化版本。
  27. mayflowergmbh/openschnabeltier_de: LeoLM/OpenSchnabeltier数据集的重新格式化版本。
  28. mayflowergmbh/evol-instruct_de: FreedomIntelligence/evol-instruct-deutsch数据集的重新格式化版本。
  29. mayflowergmbh/dolphin_de: cognitivecomputations/dolphin数据集的德语翻译版本。
  30. mayflowergmbh/booksum_de: booksum数据集的德语翻译。
  31. mayflowergmbh/airoboros-3.0_de: jondurbin/airoboros-3.0数据集的德语翻译。
  32. mayflowergmbh/ultra-chat_de: stingning/ultrachat数据集的德语翻译。
  33. JosephusCheung/GuanacoDataset: 抱歉,这个在Hugging Face上已经不再可用。
  34. sahil2801/CodeAlpaca-20k: 代码微调数据。
  35. HasturOfficial/adgen: 广告生成任务。
  36. totally-not-an-llm/sharegpt-hyperfiltered-3k: 90ksharegpt convos通过语言过滤、关键字检测、去重和正则表达式降低到~3k(3243)。
  37. shibing624/sharegpt_gpt4: ShareGPT中挑选出的GPT4多轮问答数据,多语言问答。
  38. THUDM/AgentInstruct: AgentInstruct是一个精心策划的数据集,具有1,866个高质量交互,旨在利用任务推导和自我指导等创新方法,在六种不同的现实世界任务中增强人工智能代理。
  39. lmsys/lmsys-chat-1m: 该数据集包含100万个真实世界的对话,其中包含25个最先进的LLM。
  40. WizardLMTeam/WizardLM_evol_instruct_V2_196k: 该数据集包含143K羊驼和ShareGPT的混合进化数据。
  41. HuggingFaceTB/cosmopedia: Cosmopedia是一个由Mixtral-8x7B-Instruct-v0.1生成的合成教科书、博客文章、故事、帖子以及WikiHow文章的数据集。该数据集包含超过3000万个文件和2500亿个标记,使其成为迄今为止最大的开放合成数据集。
  42. hfl/stem_zh_instruction: 内容:STEM相关指令(gpt-3.5爬取),包含物理、化学、医学、生物学、地球科学;共计256K条。
  43. hfl/ruozhiba_gpt4: 本仓库包含使用GPT-4(4T/4o)构建的ruozhiba指令数据,共计2449条。
  44. m-a-p/neo_sft_phase2: sft 数据。
  45. TIGER-Lab/WebInstructSub: 此存储库包含“MAmmoTH2: Scaling Instructions from the Web”中使用的部分数据集。这些部分数据主要来自像stackExchange这样的论坛。这个子集包含非常高质量的数据,通过指令调整来提高LLM性能。
  46. Magpie-Align/Magpie-Pro-300K-Filtered: 此数据集由Llama 370BInstruct使用Magpie生成。
  47. argilla/magpie-ultra-v0.1: magpie-ultra是一个用于监督式微调的合成生成数据集,使用的是新的Llama 3.1 405B-Instruct模型,以及其他的Llama模型,如Llama-Guard-3-8B和Meta-Llama-3.1-8B-Instruct。

Visual Question Answering (supervised fine-tuning datasets)

  1. BUAADreamer/llava-en-zh-300k:

    • 150k examples of English Visual Instruction Data from LLaVA.
    • 150k examples of Chinese Visual Instruction Data from openbmb.
  2. jugg1024/pokemon-gpt4o-captions: 口袋妖怪(游戏、动画名)插图说明。

Text Generation (preference datasets)

  1. hiyouga/DPO-En-Zh-20k:

    • 4,000个例子来自argilla/distilabel-capybara-dpo-7k-binarized数据集,选择得分大于或等于4的样本。
    • 3,000个例子来自argilla/distilabel-intel-orca-dpo-pairs数据集,选择得分大于或等于8的样本。
    • 3,000个例子来自argilla/ultrafeedback-binarized-preferences-cleaned数据集,选择得分大于或等于4的样本。
    • 10,000个例子来自wenbopan/Chinese-dpo-pairs数据集。
  2. HuggingFaceH4/ultrafeedback_binarized: 这是UltraFeedback数据集的预处理版本,用于训练Zephir-7β-β,这是7B参数范围内最先进的聊天模型。

  3. Intel/orca_dpo_pairs: 该数据集包含了来自Orca风格数据集 Open-Orca/OpenOrca 的12,000个示例。

  4. Anthropic/hh-rlhf: 来自 “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback” 的人类偏好数据,关于助人为乐和无害性。

  5. berkeley-nest/Nectar: Nectar 是第一个高质量的多达7个选项的比较数据集,通过基于 GPT-4 的排名生成。

  6. mayflowergmbh/intel_orca_dpo_pairs_de: Intel/orca_dpo_pairs的德语翻译版本。

  7. argilla/kto-mix-15k: 高度受欢迎的Argilla DPO Mix的KTO信号转换版本,这是一个小型的鸡尾酒,结合了由Argilla与distilabel构建的DPO数据集。这个数据集的目标是拥有一个小的、高质量的KTO数据集,通过筛选只选择高评分的选定响应。

Visual Question Answering (preference datasets)

  1. openbmb/RLHF-V-Dataset: RLHF-V-Dataset 是在 “RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback” 中使用的人类偏好数据。
  2. Zhihui/VLFeedback: 人类偏好数据。

Summarization

  1. Samsung/samsum: SAMSum数据集包含大约16k带有摘要的类似信使的对话。
  2. knkarthick/samsum: SAMSum数据集包含大约16k带有摘要的类似信使的对话。

Text2Text Generation

  1. jhu-clsp/jfleg: JFLEG(JHU FLusice-Exded GUG)是一个英语语法纠错(GEC)语料库。

modelscope

Text Generation (SFT)

  1. deepctrl/deepctrl-sft-data: 匠数大模型SFT数据集是一个由匠数科技精心搜集整理的高质量数据集。这个数据集的目标是为广大用户提供一个完整、格式统一、安全的大模型训练和研究资源。我们从网络上的公开数据源收集并整理了大量开源数据集,对其进行了格式统一,数据清洗,并使用本公司的内容审核产品对其内容进行了严格的审核,最终获得了用于大模型SFT的包含10M条数据的中文数据集和包含2M条数据的英文数据集。随后,我们按照任务内容将其分为50类,并获得了每一类数据的关键词。

结语

第二百零六篇博文写完,开心!!!!

今天,也是充满希望的一天。