BERT (modelo de linguagem)
De Wikipedia, a enciclopédia encyclopedia
Bidirecional Encoder Representations from Transformers (BERT) é uma família de modelos de linguagem introduzida em 2018 por pesquisadores do Google.[1][2] Uma pesquisa da literatura em 2020 concluiu que "em pouco mais de um ano, o BERT se tornou onipresente em experimentos de Processamento de Linguagem Natural (NLP), contando com mais de 150 publicações".[3]
O BERT foi originalmente implementado para o inglês em dois tamanhos de modelo[1]: (1) BERT BASE : 12 encoders com 12 cabeças de auto-atenção bidirecionais totalizando 110 milhões de parâmetros, e (2) BERT LARGE : 24 encoders com 16 auto-atendimento bidirecionais cabeças de atenção totalizando 340 milhões de parâmetros. Ambos os modelos foram pré-treinados no Toronto BookCorpus[4] (800 milhões de palavras) e na Wikipédia em inglês (2.500 milhões de palavras).