Základní model

Základní model (anglicky foundation model nebo base model) je velký model umělé inteligence (AI) trénovaný na obrovském množství dat, který lze pak přizpůsobit široké škále úkolů.^[1]^[2] Často vzniká metodou samoučení (self-supervised learning) nebo částečného učení s učitelem (semi-supervised learning).^[3] Základní modely znamenají zásadní změnu způsobu, jakým se budují systémy umělé inteligence. Pohánějí například prominentní chatboty a další uživatelsky orientované aplikace umělé inteligence. Termín základní model popularizovalo výzkumné středisko Center for Research on Foundation Models (CRFM) Stanfordského institutu pro umělou inteligenci zaměřenou na člověka (Stanford Institute for Human-Centered Artificial Intelligence's, HAI).

Prvními příklady základních modelů byly předtrénované velké jazykové modely (Large language models, LLM) jako BERT společnosti Google a různé modely nadace OpenAI, zejména její řada modelů GPT-x, jež pohánějí mimo jiné chatbot ChatGPT. Takovéto obecné modely lze pak upravit pro specifické úlohy a/nebo oblasti, dokonce i když využívají posloupnosti jiných typů znaků, například lékařské kódy.^[4]

Dále byly vytvořeny základní modely vizuálních a multimodálních dat například DALL-E, Flamingo,^[5] Florence a NOOR. Vizuální základní modely (Visual foundation models, VFM) byly pak zkombinovány s textovými LLM za účelem vytvoření sofistikovaných modelů pro složitější úkoly kombinující oba typy dat.^[6]^[7]

[1]

[2]

[3]

[4]

[5]

[6]

[7]