Na tento článek je přesměrováno heslo Transformer. O albu Lou Reeda pojednává článek Transformer (album).

Transformer, česky transformátor, je typ jazykového modelu založeného na hlubokém učení, využívající více hlavový mechanismus pozornosti (attention),[1] jenž dává různé váhy různým částem vstupních dat (zahrnujících rekurzivní výstup). Transformátory jsou trénovány na textových korpusech či datasetech (ty mohou být i obrazové[2] či audio[3]), díky kterým vznikne jazykový model, se kterým transformátor pracuje.[4]

Thumb
Architektura modelu transformeru s více hlavovou pozorností

Používá se především pro zpracování přirozeného jazyka, počítačové vidění,[5][6] zpracování zvuků (například převod zvuku na spektogram)[7] nebo generování obrazů z textů (Midjourney či DALL-E).

Lepší paralelizace umožňuje učení na větších datech a následné lepší výsledky, než jak dokázaly dříve používané modely RNN a CNN. Vyznačuje se tím, že vyžaduje méně času na trénování než předchozí rekurentní neuronové architektury, jako je například LSTM. To umožnilo vývoj systémů, jako jsou BERT a GPT, trénovaných na velkých jazykových datech, jako je Wikipedia Corpus a Common Crawl, jež lze je doladit na konkrétní úkoly.[8][9]

Trénování transformátorového modulu

Aby transformátor mohl plnit úkoly například pro zpracování přirozeného jazyka, je nezbytné jej natrénovat. Trénování je dvojí. Buď je použit kauzální jazykový model (causal language model(ing), CLM), nebo maskovaný jazykový model (masked language model(ing), MLM). Tzv. předtrénované modely jsou trénované na velmi rozsáhlém souboru neanotovaných textových dat.[10][11] Jedná se o tzv. samoučení (self-supervised learning), některými je tento proces označován jako učení bez učitele.

  • CLM: úloha, jejímž cílem je předpovědět další slovo ve větě po přečtení n předchozích slov. Vezme sekvenci, která má být dokončena, a vypíše kompletní sekvenci. Výstup závisí na minulých a současných vstupech, ale ne na budoucích. Tento způsob trénování je vhodnější, pokud chceme následně generovat text.
  • MLM: procento slov ve větě je maskováno a model má za úkol předpovědět tato maskovaná slova pomocí ostatních slov ve stejné větě. Jedním ze způsobů, jak si to představit, je představit si to jako problém typu "vyplň prázdná místa". Tento způsob trénování je vhodnější, pokud chceme, aby následná aplikace lépe rozuměla textu, třeba při jeho klasifikaci.[12]
Thumb
Kauzální jazykové modelování
Thumb
Maskované jazykové modelování

Následuje proces tzv. jemného doladění neboli fine-tuning. Forma učení s učitelem, kdy jsou natrénové modely uzpůsobeny tak, aby mohly být snadno použity pro jiné účely, aniž by se muselo začínat opět jazykovým modelováním. Toto paradigma umožňuje efektivní přenos učení. Obecné znalosti a jazykové porozumění získané během předběžného tréninku lze přenést na různé úlohy s relativně malým množstvím dalšího tréninku. To usnadňuje přizpůsobení modelu novým úlohám, aniž by bylo nutné začínat od nuly.[13]

V tomto paradigmatu jsou předtrénované modely často středně velké modely typu Bert nebo T5. Učí se obecné rysy jazyka, které mohou být užitečné v mnoha navazujících úlohách.

Historie

Thumb
Vývoj nástrojů pro zpracování přirozeného jazyka.

Moderní transformer byl představen v roce 2017 v článku s názvem Attention Is All You Need od Ashishe Vaswanima a kolektivu z týmu Google Brain.[14] Mechanismus pozornosti (attention) založený na softmaxu navrhli Bahdanau, Cho a Bengio pro strojový překlad již v roce 2014 a transformátory s linearizovanou pozorností (bez softmaxu) představil již v roce 1992 Schmidhuber.[15]

Reference

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.