前言编码器-解码器模型(也称为序列到序列模型)使用了Transformer架构的两部分。在每一个阶段,编码器的注意力层可以访问初始句子中的所有单词,而解码器的注意力层只能访问输入中给定单词之前的单词。
这些模型的预训练可以使用编码器或解码器
2024-10-09