Loading AI tools
modelo grande de lenguaje De Wikipedia, la enciclopedia libre
PanGu-Σ es un modelo grande de lenguaje de la empresa Huawei, con arquitectura escasa (sparse architecture)[N 1] que contiene 1.085 billones de parámetros. Fue desarrollado en el marco de MindSpore 5[N 2][1] y entrenado en un clúster con 512 Ascend 910[N 3] aceleradores de IA con 329 mil millones de tokens[N 4] durante 100 días.[2][3]
PanGu-Σ | ||
---|---|---|
Información general | ||
Tipo de programa | LLM | |
Desarrollador | Huawei | |
Lanzamiento inicial | Marzo de 2023 | |
Idiomas | chino, inglés | |
Enlaces | ||
Los parámetros integrados de PanGu-Σ se amplían utilizando la arquitectura de decodificador de transformador (RRE) de Random Routed Experts.[N 5] RRE utiliza dos niveles de enrutamiento a diferencia del MoE[4] tradicional. Los expertos[N 6] se organizan por tareas o dominios en el primer nivel, y los tokens se asignan de manera uniforme y aleatoria a cada grupo en el segundo nivel sin usar ninguna función de acceso aprendible como en MoE. Usando la arquitectura RRE, se pueden extraer submodelos de Pangu-Σ para varias aplicaciones posteriores, que incluyen conversación, traducción, producción de código e interpretación del lenguaje natural en general.[5]
El modelo de lenguaje preentrenado (Pretrained Language Model=PLM) PanGu-α de Huawei fue lanzado oficialmente en abril de 2021. Se trata de un modelo de lenguaje autorregresivo (ALM) con 200 mil millones de parámetros preentrenados en un gran corpus de texto, principalmente en chino. La arquitectura de PanGu-α se basa en transformador, que se ha utilizado ampliamente como la columna vertebral de una variedad de modelos de lenguaje previamente entrenados, como BERT y GPT. A diferencia de ellos, existe una capa de consulta adicional, desarrollada sobre las capas de transformador que tiene como objetivo inducir explícitamente el resultado esperado.[6]
El modelo fue actualizado a la versión 2.0 en abril de 2022, siendo marcados el modelo grande de programación neurolingüística, el modelo grande de visión artificial (computer vision=CV) y el modelo grande para cálculos científicos (modelo meteorológico grande) como disponibles en línea. Según se informa, Pangu es el primer modelo a gran escala de preentrenamiento chino, mientras que su modelo a gran escala CV es el más grande de la industria y ofrece capacidades tanto de discriminación como de generación. Pangu-Weather es un sistema basado en aprendizaje profundo para el pronóstico del tiempo. El modelo meteorológico a gran escala proporciona pronósticos meteorológicos de segundo nivel.[7] Zidong Taichu es además el primer modelo a gran escala trimodal del mundo para mapas, texto y audio.[8][9]
Huawei ha anunciado la presentación de PanGu Chat, un nuevo modelo multimodal a gran escala que compite directamente con ChatGPT de OpenAI. El lanzamiento tendrá lugar el 7 de julio de 2023 en la Huawei Cloud Developer Conference (Conferencia de desarrolladores de la nube de Huawei).[10]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.