前言介绍监督微调训练器。
监督式微调(简称SFT)是RLHF(人类反馈强化学习)中的关键步骤。在TRL(Transformers Reinforcement Learning)中,我们提供了一个易于使用的API,您可以使用几行代码在您的数
2024-10-06