Transformer (機械學習模型)

Transformer係喺2017年推出嘅深度學習模型，攞關注機制（多頭、自關注）嚟求權重畀啲成批輸入數據入便嘅每個部份嘅，並藉此唔受順序限制噉去學識各部份對彼此啲影響嘅大細、啲可能會跨好幾重遠嘅，最終去生成返啱啲嘅數據。初初Transformer主要使喺自然語言處理（NLP）領域^[1] ，之後個應用領域亦都擴展到電腦視覺^[2]。

似遞迴神經網絡（RNN）一樣，Transformers設計出嚟係攞嚟處理啲順序數據（譬如自然語言）嘅，嚟去執行翻譯同文本摘要生成之類啲任務。之戥RNN唔同，Transformer訓練嗰陣唔使照序處理啲順序數據，而可以憑關注機制幫輸入序迾嘅任意一位捇返啲上下文，啲可能離個位爭好遠嘅。譬如，若果輸入數據係自然語言語句，Transformer可以學識唔使先去處理個開頭、再處理個結尾，而係對於每個詞都識別出邊啲內容係賦予佢意涵嘅。鑑於呢個特點，Transformer允許嘅平行運算多過RNN，可以藉此減少訓練時間。^[1]

Transformer經已速度成為唨NLP問題嘅首選模型^[3]，同時取代唨啲先前嘅RNN模型似長短期記憶（LSTM）模型。由於喺訓練過程中對平行運算嘅便利性，引入唨Transformer之後愈發大嘅數據集可以得到訓練。呢個都催生唨啲預訓練系統似BERT（從Transformer嚟嘅雙向編碼器表示）同GPT（生成式預訓練Transformer）之類，啲系統經已利用到啲好龐大嘅通用語言數據集（似Wikipedia Corpus同埋Common Crawl）嚟進行訓練，而且仲可以根據特定嘅語言任務微調得。^[4]^[5]

[1]

[2]

[3]

[4]

[5]