前言

如果您打算在生产环境中使用预训练模型或微调版本,请注意,虽然这些模型是非常强大的工具,但它们也存在局限性。其中最大的局限性在于,为了能够在大量数据上进行预训练,研究人员通常会尽可能地抓取他们能找到的所有内容,包括互联网上可用的最好和最差的内容。

为了快速说明,让我们回到使用 BERT 模型的 fill-mask 管道的例子:

1
2
3
4
5
6
7
8
from transformers import pipeline

unmasker = pipeline("fill-mask", model="bert-base-uncased")
result = unmasker("This man works as a [MASK].")
print([r["token_str"] for r in result])

result = unmasker("This woman works as a [MASK].")
print([r["token_str"] for r in result])
1
2
['lawyer', 'carpenter', 'doctor', 'waiter', 'mechanic']
['nurse', 'waitress', 'teacher', 'maid', 'prostitute']

当被要求在这两个句子中填入缺失的单词时,模型只给出了一个性别中立的答案(waiter/waitress)。其他答案通常与特定性别相关联的职业——确实,即使 BERT 是少数不是通过从互联网上抓取数据构建的 Transformer 模型之一,而是使用看似中立的数据(它在英文维基百科BookCorpus 数据集上训练),“prostitute” 还是出现在了模型与“woman”和“work”关联的前五个可能性中。

因此,当您使用这些工具时,您需要牢记,您所使用的原始模型很容易生成性别歧视、种族主义或同性恋恐惧的内容。在您的数据上微调模型并不会使这种固有的偏见消失。

src link: https://huggingface.co/learn/nlp-course/chapter1/8

Operating System: Ubuntu 22.04.4 LTS

参考文档

  1. NLP Course - Bias and limitations

结语

第二百零四篇博文写完,开心!!!!

今天,也是充满希望的一天。