前言编码器模型仅使用Transformer模型的编码器部分。在每一个阶段,注意力层都可以访问初始句子中的所有单词。这些模型通常被描述为具有“双向”注意力,并且常常被称为自编码模型。
这些模型的预训练通常围绕着以某种方式破坏给定的句子(例如,
2024-10-09