Un modelo extenso de lenguaje o LLM (siglas en inglés para Large Language Model), también llamado modelo de lenguaje de gran tamaño, modelo de lenguaje grande,[1] o gran modelo de lenguaje,[2] es un modelo de lenguaje que consta de una red neuronal con muchos parámetros (normalmente miles de millones o más), entrenados en grandes cantidades de texto sin etiquetar mediante aprendizaje autosupervisado o aprendizaje semisupervisado.[3] Los LLMs surgieron alrededor de 2018[cita requerida] y se desempeñan bien en una amplia variedad de tareas. Esto ha cambiado el enfoque de la investigación del procesamiento del lenguaje natural alejándose del paradigma anterior de entrenar modelos supervisados especializados para tareas específicas.

Algunos LLMs notables son la serie de modelos GPT de OpenAI (por ejemplo, GPT-3 y GPT-4 , utilizados en ChatGPT y Microsoft Copilot), PaLM y Gemini de Google (el último de los cuales se utiliza actualmente en el chatbot del mismo nombre), o Claude de Anthropic, entre otros.

Aunque el término modelo grande de lenguaje no tiene una definición formal, a menudo se refiere a modelos de aprendizaje profundo que tienen un recuento de parámetros del orden de miles de millones o más. Los LLMs son modelos de propósito general que se destacan en una amplia gama de tareas, en lugar de estar capacitados para una tarea específica (como el análisis de sentimientos, el reconocimiento de entidades nombradas o el razonamiento matemático).[4] La habilidad con la que realizan las tareas y la gama de tareas de las que son capaces parece ser una función de la cantidad de recursos (datos, número de parámetros, capacidad de cálculo) que se les dedican, de una manera que no depende sobre avances adicionales en el diseño.[5]

Aunque entrenados en tareas simples como predecir la siguiente palabra en una oración, se encuentran modelos de lenguaje neuronal con suficiente entrenamiento y contaje de parámetros para capturar gran parte de la sintaxis y la semántica del lenguaje humano. Además, los modelos de lenguaje grande demuestran un conocimiento general considerable sobre el mundo y son capaces de "memorizar" una gran cantidad de hechos durante el entrenamiento.

Propiedades

Conjuntos de datos de pre-entrenamiento

Los LLMs están pre-entrenados en grandes conjuntos de corpus textuales. Algunos conjuntos de corpus de texto de uso común son Common Crawl, The Pile, MassiveText,[6] Wikipedia y GitHub. Los conjuntos de datos tienen un tamaño de hasta 10 billones de palabras.

El almacén de datos lingüísticos de alta calidad está dentro de los 4,6 a 17 billones de palabras, que está dentro de un orden de magnitud para los conjuntos de corpus textuales más grandes.[7]

Leyes de escala

En general, un LLM se puede describir de manera incompleta con cuatro parámetros:[cita requerida] tamaño del modelo, tamaño del conjunto de datos de entrenamiento, costo del entrenamiento y rendimiento después del entrenamiento. Cada una de estas cuatro variables se puede definir con precisión mediante un número real y, empíricamente, se encuentra que dichos números están relacionados por leyes estadísticas simples, llamadas "leyes de escala".

Una ley de escala particular ("escala Chinchilla") para LLM entrenados autorregresivamente para una época, con un programa de tasa de aprendizaje logarítmico, establece que:[8]

donde las variables son:

es el costo de entrenar el modelo, en FLOPs.
es el número de parámetros en el modelo.
es el número de tokens en el conjunto de entrenamiento.
es la pérdida promedio de probabilidad logarítmica negativa por token (nats /token), lograda por el LLM capacitado en el conjunto de datos de prueba.

y los parámetros estadísticos son:

, lo que significa que cuesta 6 FLOP por parámetro entrenar en un token. Obsérvese que el costo de capacitación es mucho más alto que el costo de inferencia, donde cuesta de 1 a 2 FLOP por parámetro inferir en un token.
.

Habilidades emergentes

Thumb
En una serie de puntos de referencia del lenguaje natural que involucran tareas como responder preguntas, los modelos no se desempeñan mejor que el azar hasta que alcanzan una cierta escala (en este caso, medida por cómputo de entrenamiento), momento en el cual su rendimiento aumenta considerablemente. Estos son ejemplos de habilidades emergentes.

Si bien generalmente se puede extrapolar el rendimiento de los modelos grandes en varias tareas, en función del rendimiento de modelos más pequeños similares, a veces los modelos grandes experimentan un "cambio de fase discontinuo" en el que el modelo adquiere repentinamente habilidades sustanciales que no se ven en modelos más pequeños. Estas se conocen como "habilidades emergentes" y han sido objeto de un estudio sustancial. Los investigadores señalan que tales habilidades "no se pueden predecir simplemente extrapolando el rendimiento de modelos más pequeños".[4] Estas habilidades se descubren en lugar de programarse o diseñarse, en algunos casos solo después de que el LLM se haya implementado públicamente.[5] Se han descrito cientos de habilidades emergentes. Los ejemplos incluyen aritmética de varios pasos, aprobar exámenes de nivel universitario, identificar el significado previsto de una palabra,[4] indicaciones de cadena de pensamientos,[4] decodificar el Alfabeto Fonético Internacional, descifrar las letras de una palabra, identificar contenido ofensivo en párrafos de Hinglish (una combinación de hindi e inglés), y generando un equivalente en inglés similar a los proverbios en kiswahili.[9]

Alucinación

Se ha observado que los LLM generativos afirman con confianza afirmaciones de hecho que no parecen estar justificadas por sus datos de entrenamiento, un fenómeno que se ha denominado "alucinación".[10]

Arquitectura

Los modelos de lenguajes grandes han utilizado con mayor frecuencia la arquitectura de transformadores, que, desde 2018, se ha convertido en la técnica de aprendizaje profundo estándar para datos secuenciales (anteriormente, las arquitecturas recurrentes como LSTM eran las más comunes).

Tokenización

Formalmente, los LLM son funciones matemáticas cuya entrada y salida son listas de números. En consecuencia, las palabras deben convertirse en números. En general, un LLM usa un tokenizador separado. Un tokenizador es una función biyectiva que mapea entre textos y listas de enteros. El tokenizador generalmente se adapta primero a todo el conjunto de datos de entrenamiento y luego se congela antes de que se entrene el LLM. Una opción común es la codificación de pares de bytes.

Otra función de los tokenizadores es la compresión de texto, que ahorra cómputo. Las palabras o frases comunes como "dónde está" se pueden codificar en un token, en lugar de 10 caracteres. La serie OpenAI GPT utiliza un tokenizador donde 1 token se asigna a alrededor de 4 caracteres, o alrededor de 0,75 palabras, en texto común en inglés.[11] El texto en inglés poco común es menos predecible, por lo tanto, menos comprimible, por lo que requiere más tokens para codificar.

Un tokenizador no puede generar enteros arbitrarios. Por lo general, solo generan números enteros en el rango , donde se llama su tamaño de vocabulario.

Algunos tokenizadores son capaces de manejar texto arbitrario (generalmente al operar directamente en Unicode), pero otros no. Al encontrar texto no codificable, un tokenizador generaría un token especial (a menudo 0) que representa "texto desconocido". Esto a menudo se escribe como [UNK], como en el documento BERT.

Otro token especial que se usa comúnmente es [PAD] (a menudo 1), para "relleno". Esto se usa porque los LLM generalmente se usan en lotes de texto a la vez, y estos textos no se codifican con la misma longitud. Dado que los LLM generalmente requieren que la entrada sea una matriz no irregular, los textos codificados más cortos deben rellenarse hasta que coincidan con la longitud del más largo.

Output

El output de un LLM es una distribución de probabilidad sobre su vocabulario. Esto generalmente se implementa de la siguiente manera:

  • Al recibir un texto, la mayor parte del LLM genera un vector dónde es su tamaño de vocabulario (definido arriba).
  • el vector se pasa a través de una función softmax para obtener .

En el proceso, el vector generalmente se llama el vector logit no normalizado, y el vector se llama vector de probabilidad. Dado que el vector tiene entradas, todas no negativas, y suman 1, podemos interpretarlo como una distribución de probabilidad sobre —es decir, es una distribución de probabilidad sobre el vocabulario del LLM.

Considerar que la función softmax se define matemáticamente sin parámetros para variar. En consecuencia, no está entrenada.

Entrenamiento

La mayoría de los LLM se entrenan mediante preentrenamiento generativo, es decir, dado un conjunto de datos de entrenamiento de tokens de texto, el modelo predice los tokens en el conjunto de datos. Hay dos estilos generales de preentrenamiento generativo:[12]

  • autorregresivo (estilo GPT, "predecir la siguiente palabra"): Dado un segmento de texto como "Me gusta comer", el modelo predice los siguientes tokens, como "helado".
  • enmascarado ("estilo BERT",[13] "prueba cloze"): dado un segmento de texto como "Me gusta [MASCARILLA] [MASCARILLA] crema", el modelo predice los tokens enmascarados, como "comer helado".

Los LLM pueden recibir capacitación en tareas auxiliares que prueban su comprensión de la distribución de datos, como la predicción de la siguiente oración (NSP), en la que se presentan pares de oraciones y el modelo debe predecir si aparecen consecutivamente en el corpus de capacitación.[13]

Por lo general, los LLM están capacitados para minimizar una función de pérdida específica: la probabilidad logarítmica negativa promedio por token (también llamada pérdida de entropía cruzada).[14] Por ejemplo. si un modelo autorregresivo, dado "Me gusta comer", predice una distribución de probabilidad entonces la pérdida de probabilidad logarítmica negativa en este token es .

Durante el entrenamiento, la pérdida de regularización también se utiliza para estabilizar el entrenamiento. Sin embargo, la pérdida de regularización generalmente no se usa durante las pruebas y la evaluación. También hay muchos más criterios de evaluación más allá de la probabilidad logarítmica negativa.

Los primeros LLM se formaron en un corpus linguítico que tenía una dimensión de miles de millones de palabras.

GPT-1, el primer modelo de la serie numerada de modelos de transformadores preentrenados generativos de OpenAI, se entrenó en 2018 en BookCorpus, que consta de 985 millones de palabras.[15] En el mismo año, BERT se capacitó en una combinación de BookCorpus y Wikipedia en inglés, con un total de 3300 millones de palabras.[13] Desde entonces, los corpus de capacitación para LLM han aumentado en órdenes de magnitud, llegando a billones de tokens.[13]

Costo de entrenamiento

Los LLM son computacionalmente costosos de entrenar. Un estudio de 2020 estimó el costo de entrenar un modelo de 1500 millones de parámetros (2 órdenes de magnitud más pequeño que el estado del arte en ese momento) en $1,6 millones. Los avances en software y hardware han reducido sustancialmente el costo, con un documento de 2023 que informa un costo de 72,300 A100-GPU -horas para entrenar un modelo de 12 mil millones de parámetros.[16]Se estima que para entrenar solo una vez a GPT-3, con 175 mil millones de parámetros, se necesitan $4,6 millones, para lo cual una sola RTX 8000, tardaría 665 años en terminar.[17]

Para los LLMs basados en transformers, cuesta 6 FLOP por parámetro entrenar en un token. Debe considerarse que el costo de capacitación es mucho más alto que el costo de inferencia, donde cuesta de 1 a 2 FLOP por parámetro inferir en un token.[cita requerida]

Respecto a su coste ambiental, entrenar un LLM tiene un coste energético muy alto. Esto llega a tal punto que entrenar un modelo tan solo una vez, genera las mismas emisiones de carbono que un pasajero en un vuelo de Nueva York a San Francisco.[18] En el caso particular de GPT-3, se estima que entrenarlo una vez llega a consumir más de 1.200 MWh, produciendo más de 500 toneladas de emisiones de CO2.[19] Estos costes aumentan a medida que los modelos tengan más parámetros, es decir, sean más grandes y complejos. Cada ciclo de entrenamiento requiere la dedicación exclusiva de cientos o miles de CPUs y GPUs, que soportan una gran carga computacional, además de almacenar y mover bastas cantidades de datos. Todo esto contribuye a un gran consumo energético, y genera grandes cantidades de calor.

Para reducir estos costes, una solución posible es utilizar modelos más pequeños. Estos pueden tener un desempeño similar a un modelo grande en la mayoría de las situaciones, costando alrededor de $100 para entrenar, en vez de millones. Un ejemplo de un modelo pequeño es el modelo Alpaca, desarrollado por investigadores de la Universidad de Stanford a partir del modelo de Meta AI llamado LLaMA. Este es suficientemente ligero como para correr en un ordenador de escritorio.[20]

Otra forma de reducir el coste de entrenamiento inicial es usar aprendizaje one-shot o few-shot durante su ciclo de vida, lo cual permitirá al modelo aprender durante su utilización. De esta manera, no se requiere una inversión tan grande para el entrenamiento inicial, y puede aprender a medida que se utiliza.

Aplicación a tareas posteriores (downstream tasks)

Entre 2018 y 2020, el método estándar para preparar un LLM para una tarea específica de procesamiento del lenguaje natural (NLP) fue ajustar el modelo con capacitación adicional específica para la tarea. Posteriormente, se descubrió que los LLM más potentes, como GPT-3, pueden resolver tareas sin capacitación adicional a través de técnicas de "incitación", en las que el problema a resolver se presenta al modelo como un mensaje de texto, posiblemente con algunos ejemplos textuales de similares problemas y sus soluciones.

Ajuste fino (Fine-tuning)

El ajuste fino es la práctica de modificar un modelo de lenguaje previamente entrenado entrenándolo (de manera supervisada) en una tarea específica (por ejemplo, análisis de sentimientos, reconocimiento de entidades nombradas o etiquetado de partes del discurso).[21][22] Es una forma de transferencia de aprendizaje. Por lo general, implica la introducción de un nuevo conjunto de pesos (weights)[23] que conectan la capa final del modelo de lenguaje con el resultado de la tarea posterior. Los pesos originales del modelo de lenguaje pueden "congelarse", de modo que solo se aprenda la nueva capa de pesos que los conecta con la salida durante el entrenamiento. Alternativamente, los pesos originales pueden recibir pequeñas actualizaciones (posiblemente con capas anteriores congeladas).[13]

Indicaciones (prompting)

En el paradigma de indicaciones, popularizado por GPT-3,[4] el problema a resolver se formula a través de un mensaje de texto, que el modelo debe resolver proporcionando una finalización (a través de la inferencia). En las "indicaciones de pocas oportunidades", la indicación incluye una pequeña cantidad de ejemplos de pares similares (problema, solución). Por ejemplo, una tarea de análisis de opinión de etiquetar la opinión de una reseña de una película podría solicitarse de la siguiente manera:[4]

Reseña: Esta película apesta.
Sentimiento: negativo

Reseña: ¡Esta película es fantástica!
Sentimiento: positivo

Si el modelo da como resultado "positivo", entonces ha resuelto correctamente la tarea. En las indicaciones de disparo cero (zero-shot),[Notas 1][24][25] no se proporcionan ejemplos de resolución. Un ejemplo de un aviso de disparo cero para la misma tarea de análisis de sentimiento sería "El sentimiento asociado con la reseña de la película '¡Esta película es fantástica!' ".

Se ha demostrado que el rendimiento de pocos disparos de los LLM logra resultados competitivos en tareas de PNL, a veces superando los enfoques de ajuste fino de última generación. Ejemplos de tales tareas de PNL son la traducción, la respuesta a preguntas, las tareas de cloze[Notas 2], descifrar palabras y usar una palabra nueva en una oración. La creación y optimización de dichos avisos se denomina ingeniería de avisos.

Ajuste de instrucciones

El ajuste de instrucciones es una forma de ajuste fino diseñado para facilitar interacciones de indicaciones de tiro cero más naturales y precisas. Dada una entrada de texto, un modelo de lenguaje previamente entrenado generará una terminación que coincida con la distribución del texto en el que fue entrenado. Un modelo de lenguaje ingenuo dado el mensaje "Escribe un ensayo sobre los temas principales de Hamlet ". podría proporcionar una finalización como "Se aplicará una multa por retraso del 10% por día a las presentaciones recibidas después del 17 de marzo". En el ajuste de instrucciones, el modelo de lenguaje se entrena en muchos ejemplos de tareas formuladas como instrucciones en lenguaje natural, junto con las respuestas apropiadas.

En la práctica se han aplicado diversas técnicas para la puesta punto de instrucciones.[25] Un ejemplo, "autoinstrucción", ajusta el modelo de lenguaje en un conjunto de ejemplos de entrenamiento que son generados por un LLM (arrancado a partir de un pequeño conjunto inicial de ejemplos generados por humanos).

Aprendizaje reforzado

El protocolo InstructGPT[26] de OpenAI implica un ajuste fino supervisado en un conjunto de datos de pares generados por humanos (solicitud, respuesta), seguido de un aprendizaje reforzado a partir de la retroalimentación humana (RLHF),[27] en el que se supervisó y aprendió un modelo de recompensa en un conjunto de datos de preferencias humanas, luego este modelo de recompensa se utilizó para capacitar al propio LLM mediante la optimización de políticas proximales.

Evaluación

Perplejidad

La medida más utilizada del rendimiento de un modelo de lenguaje es su perplejidad en un corpus de texto dado. La perplejidad es una medida del acierto con el que un modelo puede predecir el contenido de un conjunto de datos; cuanto mayor sea la probabilidad que el modelo asigna al conjunto de datos, menor será la perplejidad. Matemáticamente, la perplejidad se define como el exponencial de la probabilidad logarítmica negativa promedio por token:aquí es el número de tokens en el corpus de texto, y el "contexto para el token i" depende del tipo específico de LLM utilizado. Si el LLM es autorregresivo, entonces el "contexto para el token i" es el segmento de texto que aparece antes del token i. Si el LLM está enmascarado, entonces el "contexto para el token i" es el segmento de texto que rodea al token i.[28]

Debido a que los modelos de lenguaje pueden sobreajustarse a sus datos de entrenamiento, los modelos generalmente se evalúan por su perplejidad en un conjunto de prueba de datos no vistos.[13] Esto presenta desafíos particulares para la evaluación de grandes modelos de lenguaje. A medida que se entrenan en corpus de texto cada vez más grandes extraídos en gran parte de la web, es cada vez más probable que los datos de entrenamiento de los modelos incluyan inadvertidamente partes de cualquier conjunto de prueba dado.[25]

Conjuntos de datos y puntos de referencia específicos de la tarea

También se ha desarrollado una gran cantidad de conjuntos de datos de prueba y puntos de referencia para evaluar las capacidades de los modelos de lenguaje en tareas posteriores más específicas. Las pruebas pueden diseñarse para evaluar una variedad de capacidades, incluido el conocimiento general, el razonamiento de sentido común y la resolución de problemas matemáticos.

Una amplia categoría de conjuntos de datos de evaluación son los conjuntos de datos de preguntas y respuestas, que consisten en pares de preguntas y respuestas correctas, por ejemplo, ("¿Han ganado los San Jose Sharks la Copa Stanley?"). , "No").[29] Una tarea de respuesta a una pregunta se considera un "libro abierto" si el mensaje del modelo incluye texto del que se puede derivar la respuesta esperada (por ejemplo, la pregunta anterior podría ir acompañada de algún texto que incluya la oración "Los Shraks han avanzado a la Copa Stanley finales una vez, perdiendo ante los Pittsburgh Penguins en 2016").[29] De lo contrario, la tarea se considera "libro cerrado" y el modelo debe basarse en el conocimiento retenido durante el entrenamiento.[30] Algunos ejemplos de conjuntos de datos de respuesta a preguntas de uso común incluyen TruthfulQA, Web Questions, TriviaQA y SQuAD.[30]

Los conjuntos de datos de evaluación también pueden tomar la forma de finalización de texto, haciendo que el modelo seleccione la palabra o la oración más probable para completar un mensaje, por ejemplo: "Alice era amiga de Bob. Alice fue a visitar a su amiga, ___".[25]

También se han desarrollado algunos puntos de referencia compuestos que combinan una diversidad de diferentes conjuntos de datos y tareas de evaluación. Los ejemplos incluyen GLUE, SuperGLUE, MMLU, BIG-bench y HELM.[31][30]

Anteriormente, era estándar informar los resultados en una parte retenida de un conjunto de datos de evaluación después de realizar un ajuste fino supervisado en el resto. Ahora es más común evaluar un modelo previamente entrenado directamente a través de técnicas de indicación, aunque los investigadores varían en los detalles de cómo formulan las indicaciones para tareas particulares, particularmente con respecto a cuántos ejemplos de tareas resueltas se adjuntan a la indicación (es decir, el valor de n en la solicitud de n disparos).

Evaluaciones construidas adversarialmente

Debido al rápido ritmo de mejora de los grandes modelos de lenguaje, los puntos de referencia de evaluación han sufrido una vida útil corta, con modelos de última generación que "saturan" rápidamente los puntos de referencia existentes, superando el rendimiento de los anotadores humanos, lo que lleva a esfuerzos para reemplazar o aumentar el punto de referencia con tareas más desafiantes.[32]

Algunos conjuntos de datos se han construido de manera contradictoria, centrándose en problemas particulares en los que los modelos de lenguaje existentes parecen tener un rendimiento inusualmente bajo en comparación con los humanos. Un ejemplo es el conjunto de datos TruthfulQA, un conjunto de datos de respuesta a preguntas que consta de 817 preguntas cuyos modelos de lenguaje son susceptibles de responder incorrectamente al imitar falsedades a las que fueron expuestos repetidamente durante el entrenamiento. Por ejemplo, un LLM puede responder "No" a la pregunta "¿Puedes enseñarle trucos nuevos a un perro viejo?" Debido a su exposición al idioma inglés , no puedes enseñarle nuevos trucos a un perro viejo,[33] aunque esto no es literalmente cierto.[34]

Otro ejemplo de un conjunto de datos de evaluación contradictorio es Swag y su sucesor, HellaSwag, colecciones de problemas en los que se debe seleccionar una de múltiples opciones para completar un pasaje de texto. Las finalizaciones incorrectas se generaron mediante el muestreo de un modelo de lenguaje y el filtrado con un conjunto de clasificadores. Los problemas resultantes son triviales para los humanos, pero en el momento en que se crearon los conjuntos de datos, los modelos de lenguaje de última generación tenían poca precisión. Por ejemplo:

Vemos un cartel de un gimnasio. Luego vemos a un hombre hablando a la cámara y sentado y acostado sobre una pelota de ejercicios. El hombre... a) demuestra cómo aumentar el trabajo de ejercicio eficiente corriendo pelotas hacia arriba y hacia abajo. b) mueve todos sus brazos y piernas y desarrolla mucho músculo. c) luego toca la pelota y vemos una demostración de gráficos y poda de setos. d) realiza abdominales mientras tiene la pelota y habla.[35]

BERT selecciona b) como la finalización más probable, aunque la respuesta correcta es d).[35]

Lista de modelos grandes de lenguaje

Más información Nombre, Fecha ...
Lista de modelos grandes de lenguaje
Nombre Fecha[Notas 3] Empresa Número de parámetros[Notas 4] Tamaño Licencia[Notas 5] Notas
BERT 2018 Google 340 millones[36] 3.3 miles de millones de palabras[36]Sí Apache 2.0[37] Un modelo de lenguaje temprano e influyente, pero solo codificador y, por lo tanto, no está diseñado para ser impulsado (prompted) o generativo.[38]
XLNet 2019 Google ~340 millones[39] 33 miles de millones de palabras Una alternativa a BERT, diseñado solo como codificador[40][41]
GPT-2 2019 OpenAI 1.5 miles de millones 40GB[42] (~10 miles de millones tokens)[43]Sí MIT[44] Modelo de propósito general basado en la arquitectura del transformer
GPT-3 2020 OpenAI 175 miles de millones[45] 499 miles de millones tokens[43]API web pública Una variante mejorada de GPT-3, denominada GPT-3.5, se puso a disposición del público a través de una interfaz web llamada ChatGPT en 2022.[46]
GPT-Neo Marzo de 2021 EleutherAI 2.7 miles de millones[47] 825 GiB[48]Sí MIT[49] La primera de una serie de alternativas gratuitas de GPT-3 lanzadas por EleutherAI. GPT-Neo superó a un modelo GPT-3 de tamaño equivalente en algunos puntos de referencia, pero fue significativamente peor que el GPT-3 más grande.[49]
GPT-J Junio de 2021 EleutherAI 6 miles de millones[50] 825 GiB[51] Sí Apache 2.0 Modelo de lenguaje de estilo GPT-3
Megatron-Turing NLG Octubre de 2021[52] Microsoft y Nvidia 530 miles de millones[53] 338.6 miles de millones tokens[53]No Acceso web restringido Arquitectura estándar pero entrenada en un clúster de supercomputación.
Ernie 3.0 Titan Diciembre de 2021 Baidu 260 miles de millones[54] 4 TbNo Patentado LLM de idioma chino. Ernie Bot se basa en este modelo.
Claude[55] Diciembre de 2021 Anthropic 52 miles de millones[56] 400 miles de millones tokens[56] Beta cerrada Ajustado para el comportamiento deseable en las conversaciones.[57]
GLaM (Generalist Language Model) Diciembre de 2021 Google 1.2 trillion[58] 1.6 trillion tokens[58]No Patentado Modelo reducido de expertos, lo que hace que sea más costoso entrenar pero más barato ejecutar inferencias en comparación con GPT-3.
Gopher Diciembre de 2021 DeepMind 280 miles de millones[59] 300 mil millones de tokens[60] No Patentado
LaMDA (Language Models for Dialog Applications) Enero de 2022 Google 137 miles de millones[61] 1.56T de palabras, 168 miles de millones tokens[62] No Patentado Especializado para la generación de respuestas en conversaciones. Se utiliza en el chatbot Google Bard.
GPT-NeoX Febrero de 2022 EleutherAI 20 miles de millones[63] 825 GiB[64] Sí Apache 2.0 Basado en la arquitectura Megatron
Chinchilla Marzo de 2022 DeepMind 70 miles de millones[65] 1.4 trillion tokens[65]No Patentado Modelo de parámetros reducidos entrenado con más datos. Usado en el bot Sparrow.
PaLM (Pathways Language Model) Abril de 2022 Google 540 miles de millones[66] 768 miles de millones tokens[65]No Patentado Destinado a alcanzar los límites prácticos de la escala del modelo
OPT (Open Pretrained Transformer) Mayo de 2022 Meta 175 miles de millones[67] 180 miles de millones tokensInvestigación no comercial[68] Arquitectura GPT-3 con algunas adaptaciones de Megatron
YaLM 100B Junio de 2022 Yandex 100 miles de millones[69] 1.7TB[69] Sí Apache 2.0 Modelo inglés-ruso basado en Megatron-LM de Microsoft.
Minerva Junio de 2022 Google 540 miles de millones[70] 38.5B tokens de páginas web filtradas para contenido matemático y de artículos enviados al servidor de preimpresión arXiv[70]No Patentado LLM capacitado para resolver "cuestiones matemáticas y científicas utilizando el razonamiento paso a paso".[71] Minerva se basa en el modelo PaLM, más capacitado en datos matemáticos y científicos.
BLOOM Julio de 2022 Gran colaboración liderada por Hugging Face 175 miles de millones[72] 350 miles de millones tokens (1.6TB)[73]Sí IA responsable Esencialmente GPT-3 pero entrenado en un corpus multilingüe (30% inglés excluyendo lenguajes de programación)
Galactica Noviembre de 2022 Meta 120 miles de millones 106 miles de millones tokens[74]CC-BY-NC-4.0 Entrenado en texto científico y modalidades.
AlexaTM (Teacher Models)Noviembre de 2022Amazon20 billion[75]1.3 trillion[76]API web pública [77] arquitectura bidireccional de secuencia a secuencia
LLaMA (Large Language Model Meta AI) Febrero de 2023 Meta 65 miles de millones[78] 1.4 trillion[78] Capacitado en un gran corpus de 20 idiomas para apuntar a un mejor rendimiento con menos parámetros. Investigadores de la Universidad de Stanford entrenaron un modelo afinado basado en pesos LLaMA, llamado Alpaca.[79]
GPT-4 Marzo de 2023 OpenAI Número exacto desconocido, aproximadamente 1 billón[Notas 6][80] DesconociAPI web pública Disponible para usuarios de ChatGPT Plus y utilizado en varios productos.
Cerebras-GPT Marzo de 2023 Cerebras 13 miles de millones[81] Sí Apache 2.0 Entrenado con la fórmula de Chinchilla.
Falcon Marzo de 2023 Technology Innovation Institute 40 miles de millones[82] 1 Trillion tokens (1TB)[82]No Patentado Se afirma que el modelo usa solo el 75% del cálculo de entrenamiento de GPT-3, el 40% de Chinchilla y el 80% de PaLM-62B.
BloombergGPT Marzo de 2023 Bloomberg L.P. 50 miles de millones 363 miles de millones token conjunto de datos basado en las fuentes de datos de Bloomberg, plus 345 miles de millones tokens de conjuntos de datos de propósito general[83]No Patentado LLM entrenado en datos financieros de fuentes patentadas, que "supera a los modelos existentes en tareas financieras por márgenes significativos sin sacrificar el rendimiento en los puntos de referencia generales de LLM" [83]
PanGu-Σ Marzo de 2023 Huawei 1.085 billones 329 miles de millones tokens[84]No Patentado
OpenAssistant[85] Marzo de 2023 LAION 17 miles de millones 1.5 billones tokensSí Apache 2.0 Entrenado en datos abiertos de colaboración colectiva
Cerrar

Véase también

Referencias

Notas

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.