BERT (modelo de linguagem)

Bidirecional Encoder Representations from Transformers (BERT) é uma família de modelos de linguagem introduzida em 2018 por pesquisadores do Google.^[1]^[2] Uma pesquisa da literatura em 2020 concluiu que "em pouco mais de um ano, o BERT se tornou onipresente em experimentos de Processamento de Linguagem Natural (NLP), contando com mais de 150 publicações".^[3]

O BERT foi originalmente implementado para o inglês em dois tamanhos de modelo^[1]: (1) BERT _BASE : 12 encoders com 12 cabeças de auto-atenção bidirecionais totalizando 110 milhões de parâmetros, e (2) BERT _LARGE : 24 encoders com 16 auto-atendimento bidirecionais cabeças de atenção totalizando 340 milhões de parâmetros. Ambos os modelos foram pré-treinados no Toronto BookCorpus^[4] (800 milhões de palavras) e na Wikipédia em inglês (2.500 milhões de palavras).

[1]

[2]

[3]

[4]