Transformátor (model strojového učení)

Transformer, česky transformátor, je typ jazykového modelu založeného na hlubokém učení, využívající více hlavový mechanismus pozornosti (attention),^[1] jenž dává různé váhy různým částem vstupních dat (zahrnujících rekurzivní výstup). Transformátory jsou trénovány na textových korpusech či datasetech (ty mohou být i obrazové^[2] či audio^[3]), díky kterým vznikne jazykový model, se kterým transformátor pracuje.^[4]

Thumb — Architektura modelu transformeru s více hlavovou pozorností

Používá se především pro zpracování přirozeného jazyka, počítačové vidění,^[5]^[6] zpracování zvuků (například převod zvuku na spektogram)^[7] nebo generování obrazů z textů (Midjourney či DALL-E).

Lepší paralelizace umožňuje učení na větších datech a následné lepší výsledky, než jak dokázaly dříve používané modely RNN a CNN. Vyznačuje se tím, že vyžaduje méně času na trénování než předchozí rekurentní neuronové architektury, jako je například LSTM. To umožnilo vývoj systémů, jako jsou BERT a GPT, trénovaných na velkých jazykových datech, jako je Wikipedia Corpus a Common Crawl, jež lze je doladit na konkrétní úkoly.^[8]^[9]

Trénování transformátorového modulu

Aby transformátor mohl plnit úkoly například pro zpracování přirozeného jazyka, je nezbytné jej natrénovat. Trénování je dvojí. Buď je použit kauzální jazykový model (causal language model(ing), CLM), nebo maskovaný jazykový model (masked language model(ing), MLM). Tzv. předtrénované modely jsou trénované na velmi rozsáhlém souboru neanotovaných textových dat.^[10]^[11] Jedná se o tzv. samoučení (self-supervised learning), některými je tento proces označován jako učení bez učitele.

CLM: úloha, jejímž cílem je předpovědět další slovo ve větě po přečtení n předchozích slov. Vezme sekvenci, která má být dokončena, a vypíše kompletní sekvenci. Výstup závisí na minulých a současných vstupech, ale ne na budoucích. Tento způsob trénování je vhodnější, pokud chceme následně generovat text.
MLM: procento slov ve větě je maskováno a model má za úkol předpovědět tato maskovaná slova pomocí ostatních slov ve stejné větě. Jedním ze způsobů, jak si to představit, je představit si to jako problém typu "vyplň prázdná místa". Tento způsob trénování je vhodnější, pokud chceme, aby následná aplikace lépe rozuměla textu, třeba při jeho klasifikaci.^[12]

Následuje proces tzv. jemného doladění neboli fine-tuning. Forma učení s učitelem, kdy jsou natrénové modely uzpůsobeny tak, aby mohly být snadno použity pro jiné účely, aniž by se muselo začínat opět jazykovým modelováním. Toto paradigma umožňuje efektivní přenos učení. Obecné znalosti a jazykové porozumění získané během předběžného tréninku lze přenést na různé úlohy s relativně malým množstvím dalšího tréninku. To usnadňuje přizpůsobení modelu novým úlohám, aniž by bylo nutné začínat od nuly.^[13]

V tomto paradigmatu jsou předtrénované modely často středně velké modely typu Bert nebo T5. Učí se obecné rysy jazyka, které mohou být užitečné v mnoha navazujících úlohách.

Historie

Moderní transformer byl představen v roce 2017 v článku s názvem Attention Is All You Need od Ashishe Vaswanima a kolektivu z týmu Google Brain.^[14] Mechanismus pozornosti (attention) založený na softmaxu navrhli Bahdanau, Cho a Bengio pro strojový překlad již v roce 2014 a transformátory s linearizovanou pozorností (bez softmaxu) představil již v roce 1992 Schmidhuber.^[15]

Reference

V tomto článku byl použit překlad textu z článku Transformer (machine learning model) na anglické Wikipedii.

[1]
https://web.archive.org/web/20230815161034/https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
[2]
WINASTWAN, Ruben. Image Classification with Vision Transformer. Medium [online]. 2023-04-13 [cit. 2023-08-20]. Dostupné online. (anglicky)
[3]
PASQUALE, Deza. How to use Transformer for Audio Classification. Medium [online]. 2020-02-09 [cit. 2023-08-20]. Dostupné online. (anglicky)
[4]
Wayback Machine. web.archive.org [online]. [cit. 2023-08-20]. Dostupné v archivu pořízeném z originálu dne 2023-08-20.
[5]
HE, Cheng. Transformer in CV. Medium [online]. 2021-12-31 [cit. 2023-04-19]. Dostupné online. (anglicky)
[6]
Transformer in CV. The increasing convergence of computer… | by Cheng He | Towards Data Science. web.archive.org [online]. 2023-04-16 [cit. 2023-08-15]. Dostupné v archivu pořízeném z originálu dne 2023-04-16.
[7]
Audio Spectrogram Transformer. huggingface.co [online]. [cit. 2023-08-15]. Dostupné online.
[8]
Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. ai.googleblog.com [online]. [cit. 2023-04-19]. Dostupné online. (anglicky)
[9]
Better language models and their implications. openai.com [online]. [cit. 2023-04-19]. Dostupné online. (anglicky)
[10]
All You Need to Understand GPT-4 like Large Language Models. www.linkedin.com [online]. [cit. 2023-08-20]. Dostupné online.
[11]
11.9. Large-Scale Pretraining with Transformers — Dive into Deep Learning 1.0.3 documentation. d2l.ai [online]. [cit. 2023-08-20]. Dostupné online.
[12]
Masked Language Model in BERT - Scaler Topics. web.archive.org [online]. 2023-08-20 [cit. 2023-08-21]. Dostupné v archivu pořízeném z originálu dne 2023-08-20.
[13]
All You Need to Understand GPT-4 like Large Language Models. www.linkedin.com [online]. [cit. 2023-08-20]. Dostupné online.
[14]
Transformer: A Novel Neural Network Architecture for Language Understanding. ai.googleblog.com [online]. [cit. 2023-08-15]. Dostupné online. (anglicky)
[15]
https://gwern.net/doc/ai/nn/rnn/1991-schmidhuber.pdf

[1] [1]
https://web.archive.org/web/20230815161034/https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

[2] [2]
WINASTWAN, Ruben. Image Classification with Vision Transformer. Medium [online]. 2023-04-13 [cit. 2023-08-20]. Dostupné online. (anglicky)

[3] [3]
PASQUALE, Deza. How to use Transformer for Audio Classification. Medium [online]. 2020-02-09 [cit. 2023-08-20]. Dostupné online. (anglicky)

[4] [4]
Wayback Machine. web.archive.org [online]. [cit. 2023-08-20]. Dostupné v archivu pořízeném z originálu dne 2023-08-20.

[5] [5]
HE, Cheng. Transformer in CV. Medium [online]. 2021-12-31 [cit. 2023-04-19]. Dostupné online. (anglicky)

[6] [6]
Transformer in CV. The increasing convergence of computer… | by Cheng He | Towards Data Science. web.archive.org [online]. 2023-04-16 [cit. 2023-08-15]. Dostupné v archivu pořízeném z originálu dne 2023-04-16.

[7] [7]
Audio Spectrogram Transformer. huggingface.co [online]. [cit. 2023-08-15]. Dostupné online.

[8] [8]
Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. ai.googleblog.com [online]. [cit. 2023-04-19]. Dostupné online. (anglicky)

[9] [9]
Better language models and their implications. openai.com [online]. [cit. 2023-04-19]. Dostupné online. (anglicky)

[10] [10]
All You Need to Understand GPT-4 like Large Language Models. www.linkedin.com [online]. [cit. 2023-08-20]. Dostupné online.

[11] [11]
11.9. Large-Scale Pretraining with Transformers — Dive into Deep Learning 1.0.3 documentation. d2l.ai [online]. [cit. 2023-08-20]. Dostupné online.

[12] [12]
Masked Language Model in BERT - Scaler Topics. web.archive.org [online]. 2023-08-20 [cit. 2023-08-21]. Dostupné v archivu pořízeném z originálu dne 2023-08-20.

[13] [13]
All You Need to Understand GPT-4 like Large Language Models. www.linkedin.com [online]. [cit. 2023-08-20]. Dostupné online.

[14] [14]
Transformer: A Novel Neural Network Architecture for Language Understanding. ai.googleblog.com [online]. [cit. 2023-08-15]. Dostupné online. (anglicky)

[15] [15]
https://gwern.net/doc/ai/nn/rnn/1991-schmidhuber.pdf

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]