PanGu-Σ es un modelo grande de lenguaje de la empresa Huawei, con arquitectura escasa (sparse architecture)[N 1] que contiene 1.085 billones de parámetros. Fue desarrollado en el marco de MindSpore 5[N 2][1] y entrenado en un clúster con 512 Ascend 910[N 3] aceleradores de IA con 329 mil millones de tokens[N 4] durante 100 días.[2][3]
PanGu-Σ | ||
---|---|---|
Información general | ||
Tipo de programa | LLM | |
Desarrollador | Huawei | |
Lanzamiento inicial | Marzo de 2023 | |
Idiomas | chino, inglés | |
Enlaces | ||
Los parámetros integrados de PanGu-Σ se amplían utilizando la arquitectura de decodificador de transformador (RRE) de Random Routed Experts.[N 5] RRE utiliza dos niveles de enrutamiento a diferencia del MoE[4] tradicional. Los expertos[N 6] se organizan por tareas o dominios en el primer nivel, y los tokens se asignan de manera uniforme y aleatoria a cada grupo en el segundo nivel sin usar ninguna función de acceso aprendible como en MoE. Usando la arquitectura RRE, se pueden extraer submodelos de Pangu-Σ para varias aplicaciones posteriores, que incluyen conversación, traducción, producción de código e interpretación del lenguaje natural en general.[5]
Historia
El modelo de lenguaje preentrenado (Pretrained Language Model=PLM) PanGu-α de Huawei fue lanzado oficialmente en abril de 2021. Se trata de un modelo de lenguaje autorregresivo (ALM) con 200 mil millones de parámetros preentrenados en un gran corpus de texto, principalmente en chino. La arquitectura de PanGu-α se basa en transformador, que se ha utilizado ampliamente como la columna vertebral de una variedad de modelos de lenguaje previamente entrenados, como BERT y GPT. A diferencia de ellos, existe una capa de consulta adicional, desarrollada sobre las capas de transformador que tiene como objetivo inducir explícitamente el resultado esperado.[6]
El modelo fue actualizado a la versión 2.0 en abril de 2022, siendo marcados el modelo grande de programación neurolingüística, el modelo grande de visión artificial (computer vision=CV) y el modelo grande para cálculos científicos (modelo meteorológico grande) como disponibles en línea. Según se informa, Pangu es el primer modelo a gran escala de preentrenamiento chino, mientras que su modelo a gran escala CV es el más grande de la industria y ofrece capacidades tanto de discriminación como de generación. Pangu-Weather es un sistema basado en aprendizaje profundo para el pronóstico del tiempo. El modelo meteorológico a gran escala proporciona pronósticos meteorológicos de segundo nivel.[7] Zidong Taichu es además el primer modelo a gran escala trimodal del mundo para mapas, texto y audio.[8][9]
Huawei ha anunciado la presentación de PanGu Chat, un nuevo modelo multimodal a gran escala que compite directamente con ChatGPT de OpenAI. El lanzamiento tendrá lugar el 7 de julio de 2023 en la Huawei Cloud Developer Conference (Conferencia de desarrolladores de la nube de Huawei).[10]
Notas
- Si los datos almacenados para una característica en particular contienen en su mayoría ceros, se denomina característica escasa. Si la característica se completa principalmente con valores distintos de cero, es densa. La mayoría de los algoritmos de aprendizaje automático se desarrollan para características densas
- MindSpore es un nuevo marco de inferencia/entrenamiento de aprendizaje profundo de código abierto que puede usarse para escenarios móviles, perimetrales y en la nube. MindSpore está diseñado para brindar una experiencia de desarrollo con un diseño amigable y una ejecución eficiente para los científicos de datos y los ingenieros algorítmicos, soporte nativo para el procesador Ascend AI y optimización conjunta de hardware y de software.
- El Ascend 910 es un procesador de IA que pertenece a la serie de grupos de chips Ascend-Max de Huawei. Huawei anunció las especificaciones planificadas del procesador en su evento insignia de 2018, Huawei Connect. Para operaciones de punto flotante de precisión media (FP16), Ascend 910 ofrece 256 TeraFLOPS. Para cálculos de precisión de enteros (INT8), ofrece 512 TeraOPS.
- Los tokens son las unidades básicas de texto o código que utiliza un LLM IA para procesar y generar lenguaje. Los tokens pueden ser caracteres, palabras, subpalabras u otros segmentos de texto o código, según el método o esquema de tokenización elegido. A los tokens se les asignan valores numéricos o identificadores, se organizan en secuencias o vectores, y se alimentan o emiten desde el modelo. Los tokens son los componentes básicos del lenguaje para el modelo. La tokenización afecta la cantidad de datos y la cantidad de cálculos que el modelo necesita procesar. Cuantos más tokens tenga que manejar el modelo, más memoria y recursos computacionales consumirá. Por lo tanto, el costo de ejecutar un modelo de por ejemplo depende del método de tokenización y del tamaño del vocabulario que utiliza el modelo, así como de la longitud y la complejidad de los textos de entrada y salida.
- Expertos enrutados aleatorios (RRE) es una técnica utilizada para extender el modelo de transformador denso a uno disperso,
- Los expertos son subredes que se especializan en diferentes aspectos del procesamiento del lenguaje natural.
Referencias
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.