és un model de llenguatge que consisteix en una xarxa neuronal amb molts paràmetres. From Wikipedia, the free encyclopedia
Un model de llenguatge extens (amb acrònim, MLE, i també coneguts per les sigles angleses LLM)[1] és un model de llenguatge que consisteix en una xarxa neuronal amb molts paràmetres (normalment milers de milions de pesos o més), entrenats en grans quantitats de text sense etiqueta i mitjançant aprenentatge no supervisat. Els MLE van sorgir al voltant del 2018 i funcionen bé en una gran varietat de tasques. Això ha desplaçat el focus de la investigació sobre el processament del llenguatge natural del paradigma anterior de formació de models supervisats especialitzats per a tasques específiques.[2][3]
Tipus | API |
---|---|
Característiques tècniques | |
Plataforma | Multiplataforma |
Equip | |
Desenvolupador(s) | OpenAI, Google, Microsoft, Amazon... |
Tot i que el terme model de llenguatge extens no té una definició formal, generalment es refereix a models d'aprenentatge profund que tenen un recompte de paràmetres de l'ordre de milers de milions o més. Els LLM són models de propòsit general que destaquen en una àmplia gamma de tasques, en lloc de ser entrenats per a una tasca específica (com ara l'anàlisi de sentiments, el reconeixement d'entitats anomenades o el raonament matemàtic). Tot i que s'ha entrenat en tasques senzilles en la línia de predir la següent paraula en una frase, es troben models de llenguatge neuronal amb un entrenament i un recompte de paràmetres suficients per capturar gran part de la sintaxi i la semàntica del llenguatge humà. A més, els grans models lingüístics demostren un coneixement general considerable sobre el món i són capaços de "memoritzar" una gran quantitat de fets durant l'entrenament.[4]
Els models de llenguatge extensos han utilitzat més habitualment l'arquitectura del transformador, que, des del 2018, s'ha convertit en la tècnica estàndard d'aprenentatge profund per a dades seqüencials (abans, les arquitectures recurrents com la LSTM eren les més habituals). Els LLM es formen de manera no supervisada en text sense anotació. S'entrena un transformador d'esquerra a dreta per maximitzar la probabilitat assignada a la paraula següent de les dades d'entrenament, donat el context anterior. Alternativament, un LLM pot utilitzar un transformador bidireccional (com en l'exemple de BERT), que assigna una distribució de probabilitat sobre paraules que tenen accés tant al context anterior com al següent. A més de la tasca de predir la paraula següent o "omplir els espais en blanc", els LLM poden ser entrenats en tasques auxiliars que posen a prova la seva comprensió de la distribució de dades, com ara la predicció de la següent frase (NSP), en què es presenten parells d'oracions i el model ha de predir si apareixen una al costat de l'altra al corpus de formació.[5]
Nom | Data sortida | Autor | Nombre de paràmetres | Tamany | Llicència |
---|---|---|---|---|---|
BERT | 2018 | 340 milions | 3.3 mil milion de paraules | Apache 2.0 | |
GPT-2 | 2019 | OpenAI | 1.5 mil milions | 40GB[6] (~10 mil milions de tokens)[7] | MIT |
GPT-3 | 2020 | OpenAI | 175 mil milions | 499 mil milions de tokens[7] | API amb Web pública |
GPT-Neo | Març 2021 | EleutherAI | 2.7 mil milions[8] | 825 GiB | MIT |
GPT-J | Juny 2021 | EleutherAI | 6 mil milions[9] | 825 GiB[10] | Apache 2.0 |
Megatron-Turing NLG | Octubre 2021[11] | Microsoft i Nvidia | 530 mil milions | 338.6 mil milion de tokens | Accés restringit |
Ernie 3.0 Titan | Desembre 2021 | Baidu | 260 mil milions[12][13] | 4 Tb | Propietari |
Claude[14] | December 2021 | Anthropic | 52 mil milions[15] | 400 mil milions de tokens[15] | Versió beta tancada |
GLaM (Generalist Language Model) | Desembre 2021 | 1.2 bilions | 1.6 bilions de tokens | Propietari | |
Gopher | Desembre 2021 | DeepMind | 280 mil milions[16] | 300 mil milions de tokens[17] | Propietari |
LaMDA (Language Models for Dialog Applications) | Gener 2022 | 137 mil milions | 1.56T paraules, 168 billion tokens[17] | Propietari | |
GPT-NeoX | Febrer 2022 | EleutherAI | 20 mil milions[18] | 825 GiB[10] | Apache 2.0 |
Chinchilla | Març 2022 | DeepMind | 70 mil milions | 1.4 bilions de tokens[17] | Propietari |
PaLM (Pathways Language Model) | Abril 2022 | 540 mil milions | 768 mil milions de tokens | Propietari | |
OPT (Open Pretrained Transformer) | Maig 2022 | Meta | 175 mil milions[19] | 180 mil milions de tokens | GPT-3 |
YaLM 100B | Juny 2022 | Yandex | 100.000 milions[20] | 1.7TB[20] | Apache 2.0 |
Minerva | Juny 2022 | 540 mil milions[21] | 38.5B tokens [21] | Propietari | |
BLOOM | Juliol 2022 | Large collaboration led per Hugging Face | 175 mil milions | 350 mil milions de tokens (1.6TB)[22] | ? |
AlexaTM (Teacher Models) | Novembre 2022 | Amazon | 20 mil milions[23] | 1.3 mil milions | API amb Web pública |
LLaMA (Large Language Model Meta AI) | Febrer 2023 | Meta | 65 mil milions | 1.4 mil milions | Recerca no comercial |
GPT-4 | Març 2023 | OpenAI | 100 bilions [24] | Desconegut | API amb Web pública |
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.