LuYF-Lemon-love の Blog
00194 NLP Course - Sequence-to-sequence models 00194 NLP Course - Sequence-to-sequence models
前言编码器-解码器模型(也称为序列到序列模型)使用了Transformer架构的两部分。在每一个阶段,编码器的注意力层可以访问初始句子中的所有单词,而解码器的注意力层只能访问输入中给定单词之前的单词。 这些模型的预训练可以使用编码器或解码器
00193 NLP Course - Decoder models 00193 NLP Course - Decoder models
前言解码器模型仅使用Transformer模型的解码器。在每一个阶段,对于给定的单词,注意力层只能访问句子中位于它之前的单词。这些模型通常被称为自回归模型。 解码器模型的预训练通常围绕着预测句子中的下一个单词进行。 这些模型最适合涉及文本生
00192 NLP Course - Encoder models 00192 NLP Course - Encoder models
前言编码器模型仅使用Transformer模型的编码器部分。在每一个阶段,注意力层都可以访问初始句子中的所有单词。这些模型通常被描述为具有“双向”注意力,并且常常被称为自编码模型。 这些模型的预训练通常围绕着以某种方式破坏给定的句子(例如,
00189 TRL - Supervised Fine-tuning Trainer 00189 TRL - Supervised Fine-tuning Trainer
前言介绍监督微调训练器。 监督式微调(简称SFT)是RLHF(人类反馈强化学习)中的关键步骤。在TRL(Transformers Reinforcement Learning)中,我们提供了一个易于使用的API,您可以使用几行代码在您的数
00180 NLP Course - How do Transformers work? 00180 NLP Course - How do Transformers work?
前言在本节中,我们将高层次地了解Transformer模型的体系结构。 src link: https://huggingface.co/learn/nlp-course/chapter1/4 Operating System: Ubunt
00179 NLP Course - Transformers, what can they do? 00179 NLP Course - Transformers, what can they do?
前言在本节中,我们将看看Transformer模型可以做什么,并使用🤗Transformers库中的第一个工具:pipeline()函数。 src link: https://huggingface.co/learn/nlp-course
00178 NLP Course - Natural Language Processing 00178 NLP Course - Natural Language Processing
前言在进入Transformer模型之前,让我们快速概述一下什么是自然语言处理以及我们为什么关心它。 src link: https://huggingface.co/learn/nlp-course/chapter1/2 Operatin
00176 使用 trl 进行 sft 00176 使用 trl 进行 sft
前言此脚本展示了如何使用SFTTrainer将模型或适配器微调到目标数据集中。 src link: https://github.com/huggingface/trl/blob/main/examples/scripts/sft.py O
00174 NLP Course - Introduction 00174 NLP Course - Introduction
前言本课程将使用来自Hugging Face生态系统的库——🤗Transformers、🤗Datasets、🤗Tokenizers和🤗Accelerate——以及Hugging Face Hub——教你自然语言处理(NLP)。它完全
00171 OpenAI 文档 00171 OpenAI 文档
前言有两种类型的数据集对象,常规Dataset和✨IterableDataset✨。Dataset提供对行的快速随机访问和内存映射,因此即使加载大型数据集也只使用相对少量的设备内存。但是对于非常非常大的数据集,甚至不适合磁盘或内存,Iter
00170 了解您的数据集 00170 了解您的数据集
前言有两种类型的数据集对象,常规Dataset和✨IterableDataset✨。Dataset提供对行的快速随机访问和内存映射,因此即使加载大型数据集也只使用相对少量的设备内存。但是对于非常非常大的数据集,甚至不适合磁盘或内存,Iter
00162 大规模 Transformer 模型 8 比特矩阵乘简介 00162 大规模 Transformer 模型 8 比特矩阵乘简介
前言本文介绍了大规模 Transformer 模型 8 比特矩阵乘简介 - 基于 Hugging Face Transformers、Accelerate 以及 bitsandbytes。 Hugging Face Github 主页:
5 / 8