BERT

结构

BERT的核心部分是一个Transformer模型，其中编码层数和自注意力头数量可变。结构与Vaswani等人(2017)^[7]的实现几乎“完全一致”。

BERT在两个任务上进行预训练：语言模型（15%的token被掩盖，BERT需要从上下文中进行推断）和下一句预测（BERT需要预测给定的第二个句子是否是第一句的下一句）。训练完成后，BERT学习到单词的上下文嵌入。代价昂贵的预训练完成后，BERT可以使用较少的资源和较小的数据集在下游任务上进行微调，以改进在这些任务上的性能。^[1]^[8]

性能及分析

BERT在以下自然语言理解任务上的性能表现得最为卓越：^[1]

GLUE（General Language Understanding Evaluation，通用语言理解评估）任务集（包括9个任务）。
SQuAD（Stanford Question Answering Dataset，斯坦福问答数据集）v1.1和v2.0。
SWAG（Situations With Adversarial Generation，对抗生成的情境）。

有关BERT在上述自然语言理解任务中为何可以达到先进水平，目前还未找到明确的原因^[9]^[10]。目前BERT的可解释性研究主要集中在研究精心选择的输入序列对BERT的输出的影响关系，^[11]^[12]通过探测分类器分析内部向量表示，^[13]^[14]以及注意力权重表示的关系。^[9]^[10]

历史

BERT起源于预训练的上下文表示学习，包括半监督序列学习（Semi-supervised Sequence Learning）^[15]，生成预训练（Generative Pre-Training），ELMo（英语：ELMo）^[16]和ULMFit^[17]。与之前的模型不同，BERT是一种深度双向的、无监督的语言表示，且仅使用纯文本语料库进行预训练的模型。上下文无关模型（如word2vec或GloVe（英语：GloVe））为词汇表中的每个单词生成一个词向量表示，因此容易出现单词的歧义问题。BERT考虑到单词出现时的上下文。例如，词“水分”的word2vec词向量在“植物需要吸收水分”和“财务报表里有水分”是相同的，但BERT根据上下文的不同提供不同的词向量，词向量与句子表达的句意有关。

2019年10月25日，Google搜索宣布他们已经开始在美国国内的英语搜索查询中应用BERT模型。^[18]2019年12月9日，据报道，Google搜索已经在70多种语言的搜索采用了BERT。^[19]2020年10月，几乎每一个基于英语的查询都由BERT处理。^[20]

参见

结构

性能及分析

历史

获奖情况

参见

参考文献

外部链接

Wikiwand - on