Transformer (機械學習模型)
機械學習模型 / From Wikipedia, the free encyclopedia
Transformer係喺2017年推出嘅深度學習模型,攞關注機制(多頭、自關注)嚟求權重畀啲成批輸入數據入便嘅每個部份嘅,並藉此唔受順序限制噉去學識各部份對彼此啲影響嘅大細、啲可能會跨好幾重遠嘅,最終去生成返啱啲嘅數據。初初Transformer主要使喺自然語言處理(NLP)領域[1] ,之後個應用領域亦都擴展到電腦視覺[2]。
似遞迴神經網絡(RNN)一樣,Transformers設計出嚟係攞嚟處理啲順序數據(譬如自然語言)嘅,嚟去執行翻譯同文本摘要生成之類啲任務。之戥RNN唔同,Transformer訓練嗰陣唔使照序處理啲順序數據,而可以憑關注機制幫輸入序迾嘅任意一位捇返啲上下文,啲可能離個位爭好遠嘅。譬如,若果輸入數據係自然語言語句,Transformer可以學識唔使先去處理個開頭、再處理個結尾,而係對於每個詞都識別出邊啲內容係賦予佢意涵嘅。鑑於呢個特點,Transformer允許嘅平行運算多過RNN,可以藉此減少訓練時間。[1]
Transformer經已速度成為唨NLP問題嘅首選模型[3],同時取代唨啲先前嘅RNN模型似長短期記憶(LSTM)模型。由於喺訓練過程中對平行運算嘅便利性,引入唨Transformer之後愈發大嘅數據集可以得到訓練。呢個都催生唨啲預訓練系統似BERT(從Transformer嚟嘅雙向編碼器表示)同GPT(生成式預訓練Transformer)之類,啲系統經已利用到啲好龐大嘅通用語言數據集(似Wikipedia Corpus同埋Common Crawl)嚟進行訓練,而且仲可以根據特定嘅語言任務微調得。[4][5]