From Wikipedia, the free encyclopedia
Transformator (ingl. transformer) − Google tárepinen jaratılǵan hám 2017 jılı “Itibar beriń - sizge kerek” maqalasında usınıs etilgen kóp-baslı itibar beriw mexanizmine tiykarlanǵan tereń oqıtıw arxitekturası.[1] Tekst tokenler dep atalatuǵın sanlı kórinislerge aylandırıladı hám hárbir token sózdi kirgiziw kestesinen joqarıǵa qarap vektorǵa aylandırıladı.[1] Hár qabatta hárbir token kontekstli ayna sheńberinde basqa (maskalanbaǵan) tokenler menen parallel kóp baslı itibar beriw mexanizmi arqalı kontekstlendiriledi, bul tiykarǵı tokenlerge signaldı kúsheytiwge hám zárúr emes tokenlerdi azaytıwǵa imkaniyat beredi. 2017 jılı járiyalanǵan transformatorlıq maqala Bahdanau et tárepinen usınıs etilgen softmax tiykarındaǵı itibar beriw mexanizmine tiykarlanǵan. 2014 jılı mashinalıq awdarma ushın hám 1992 jılı usınıs etilgen transformatorǵa uqsas Fast Weight Controller bar.[2]
Transformatorlardıń artıqmashılıǵı qaytalanatuǵın birliklerdiń bolmawı, sonlıqtan uzaq qısqa múddetli yadı (LSTM) sıyaqlı aldınǵı qaytalanatuǵın neyron arxitekturalarǵa qaraǵanda shınıǵıw waqıtın az talap etedi. Keyingi ózgerisler Wikipedia korpusı hám Common Crawl sıyaqlı úlken (til) maǵlıwmatlar jıynaqlarında úlken til modellerin (LLM) oqıtıw ushın keńnen qollanıldı.[3]
Bul arxitektura endi tábiyiy tildi qayta islewde hám videolardı tanıwda ǵana emes, sonıń menen qatar audio, multi-modal qayta islew hám robototexnikada qollanıladı.[4] Ol sonday-aq generativ aldınnan tayarlanǵan transformatorlar (GTP)[5] hám BERT[6] (Transformatorlardan eki tárepleme kodlawshı wákillikler) sıyaqlı aldınnan tayarlanǵan sistemalardıń rawajlanıwına túrtki boldı.
Transformatorlardan burın maǵlıwmatlar jıynaǵın izbe-iz qayta isleytuǵın LSTM hám jabıq qaytalanatuǵın birlikler (GRU) sıyaqlı jabıq qaytalanatuǵın neyron tarmaqlarǵa itibar beriw mexanizminiń aldınǵıları qosıldı. Aldınǵı token esaplawlarına ǵárezlilik olardıń itibar beriw mexanizmin parallellewge imkaniyat bermedi. 1992 jılı tez salmaq kontrolleri qaytalanatuǵın neyron tarmaqlarǵa alternativ retinde usınıldı, ol “dıqqattıń ishki projektorların” úyrene aladı.[2] Teoriyalıq jaqtan bir tokennen alınǵan informaciya izbe-izlik boyınsha erikli túrde tarqalıwı múmkin, biraq is júzinde joǵalıw-gradient máselesi aldınǵı tokenler tuwralı anıq, shıǵarılatuǵın uzaq gáptiń sońında model jaǵdayın informaciyasız qaldıradı.
Eski modellerdiń ónimliligi itibar beriw mexanizmin qosıw arqalı jaqsılandı, bul modelge izbe-izlik boyınsha hár qanday aldınǵı noqatqa erisiwge imkaniyat beredi. Itibar beriw dárejesi barlıq aldınǵı jaǵdaylardı sáykesliktiń izertlengen ólshemine sáykes ólsheydi, alıstaǵı belgiler tuwralı tiyisli informaciyanı beredi. Bul alıstaǵı kontekst gáptegi sózdiń mánisi ushın zárúr bolıwı múmkin til awdarmasında ásirese paydalı boldı. Jaǵday vektorı sońǵı inglis sózi qayta islengennen keyin ǵana qoljetimli boldı, mısalı onı francuz tilinen LSTM modeli menen awdarǵanda. Teoriyalıq jaqtan bunday vektor original gáp tuwralı informaciyanı tolıǵı menen saqlaǵanı menen, is júzinde informaciya jaman saqlanadı. Eger itibar beriw mexanizmi qosılsa, deshifratorǵa sońǵı ǵana emes, al hárbir kiris sózdiń jaǵday vektorına ruqsat beriledi hám hárbir kiris jaǵdayınıń vektorına qanshelli baylanısıw kerekligin anıqlaytuǵın dıqqat salmaqların bile aladı. Seq2seq modellerin itibar beriw mexanizmi menen keńeytiw dáslepki ret 2014 jılı Bahdanau, Cho hám Bendjio tárepinen mashinalıq awdarma kontekstinde ámelge asırıldı.
2016 jılı joqarı parallelizaciya bóleklenetuǵın dıqqat alǵa jiberiw tarmaǵı menen sátli biriktirildi.[17] Bul dıqqat mexanizmleriniń kúshli ekenin hám itibar berip, qaytalanatuǵın neyron tarmaqlardıń sapalı jetiskenliklerine erisiw ushın maǵlıwmatlardı izbe-iz qaytalap, qayta islew kerek emes ekenin kórsetti. 2017 jılı Vasvani h.t.b-lar sonıń menen bir qatarda qaytalanatuǵın neyron tarmaqlardı dıqqat penen almastırıwdı usındı hám bul ideyanı bahalawǵa háreket etti.[1] Transformatorlar itibar beriw mexanizmin qollanıp, barlıq tokenlerdi bir waqıtta qayta islep, olardıń arasındaǵı “jumsaq” salmaqlardı izbe-iz qabatlarda esapladı. Itibar beriw mexanizmi tek tómengi qabatlardaǵı basqa tokenler tuwralı informaciyanı paydalanatuǵınlıqtan, onı barlıq tokenler ushın parallel esaplawǵa boladı, bul shınıǵıw tezligin arttırıwǵa alıp keledi.
Ápiwayı transformator arxitekturası biriktiriwge qıyınshılıq payda etti. Original maqalada[1] avtorlar oqıw tezligin jıljıtıwdı paydalanıwdı usınıs etti. Yaǵnıy, oqıw tezligi qaytadan bóleklene baslaǵanǵa shekem shınıǵıwdıń birinshi bólimi ushın (ádette shınıǵıw adımlarınıń ulıwma sanı 2% bolıwı usınıladı) 0-den maksimal mániske shekem sızıqlı túrde úlkeyiwi kerek.
2020 jılǵı maqalada kóp baǵdarlı itibar beriw hám alǵa qarap baǵdarlaw qabatlarınıń aldında (keyinniń ornına) qabattı normalizaciyalaw oqıw tezligin jıljıtıwdı talap etpesten, shınıǵıwdı turaqlandıratuǵının kórsetti.
Transformatorlar ádette baqlanbaytuǵın aldınnan tayarlıqtı qamtıytuǵın ózbetinshe qadaǵalanatuǵın oqıtıwdan ótedi, sonnan keyin qadaǵanatuǵın dál sazlawdan. Belgilengen trening maǵlıwmatlarınıń sheklengenligi sebepli, aldınnan tayarlıq ádette dál sazlawǵa qaraǵanda úlkenirek maǵlıwmatlar jıynaǵında orınlanadı. Aldınnan tayarlıq hám dál sazlaw wazıypaları ádette tómendegilerdi óz ishine aladı:
T5 transformatorınıń maqalası[18] kóplegen aldınnan tayarlıq wazıypaların hújjetlestiredi. Ayırım mısallar:
Raxmet<X> men seniń otırıspaǵıńa <Y> hápte. -> <X> mirát etkeniń ushın <Y> ótken <Z>
bul jerde <Z>
“shıǵarıwdıń sońı” degendi ańlatadı.inglis tilinen nemis tiline awdarıw: That is good. -> Das ist gut..
The course is jumping well.
-> not acceptable
.Transformator tábiyiy tildi qayta islewde (NLP) úlken jetiskenlikke eristi, mısalı mashinalıq awdarma hám waqıt seriyaların boljaw wazıypaları. GPT-2, GPT-3, GPT-4, Claude, BERT, XLNet, RoBERTa hám ChatGPT sıyaqlı kóplegen úlken til modelleri transformatorlardıń NLP-ge baylanıslı kóplegen wazıypalardı orınlaw qábiletin kórsetedi hám olardı tabıw imkaniyatına iye. Olar tómendegilerdi qamtıwı múmkin:
NLP qosımshalarınan basqa, ol kompyuter kóriwi yamasa beloklardı búklew qosımshaları (mısalı, AlphaFold) sıyaqlı basqa tarawlarda da tabıslı boldı.
Ataqlı mısal retinde Ithaca úsh shıǵıw basına iye bolǵan tek kodlawshı transformator bolıp tabıladı. Áyyemgi grek jazıwın simvollar izbe-izligi retinde kiritedi, biraq oqılmaytuǵın belgiler "-" menen almastırıladı. Onıń úsh shıǵıw bası sáykes túrde grekshe belgiler, jazıwdıń jaylasıwı hám jazıw sánesi boyınsha itimallıq bólistiriwlerin shıǵaradı.[20]
Transformator modeli TensorFlow hám PyTorch sıyaqlı standart tereń oqıtıw freymvorklarında ámelge asırıladı.
Transformers − Hugging Face kompaniyası tárepinen islep shıǵarılǵan kitapxana, ol transformatorǵa tiykarlanǵan arxitekturalar menen aldınnan tayarlanǵan modellerdi usınadı..[5]
Barlıq transformatorlardıń tiykarǵı komponentleri birdey:
Transformator qabatları eki túrdiń biri bolıwı múmkin, koder hám deshifrator. Original maqalada olardıń ekewi de qollanılǵan, al keyingi modellerde olardıń tek bir túri ǵana qamtılǵan. BERT tek kodlawshı modeliniń mısalı bolıp tabıladı; GPT tek dekoderlerge arnalǵan modeller bolıp tabıladı.
Kirgizilgen tekst tokenizator menen, kóbinese bayt jubın kodlawshı tokenizer tárepinen analizlenedi hám hárbir token sózdi jaylastırıw kestesinen joqarıǵa qarap vektorǵa aylandırıladı. Sonnan keyin tokenniń poziciyalıq informaciyanı jaylastırıw sózine qosıladı.
Burınǵı seq2seq modelleri sıyaqlı, transformatordıń original modeli koder-dekoder arxitekturasın paydalandı. Koder kiris tokenlerin iteraciyalıq túrde bir qabattan keyin qayta isleytuǵın kodlaw qabatlarınan ibarat, al dekoder kodlawshınıń shıǵısın, sonday-aq dekoder shıǵısınıń tokenlerin iterativ túrde qayta isleytuǵın dekodlaw qabatlarınan ibarat.
Hárbir kodlawshı qabatınıń funkciyası kontekstli token kórinislerin jaratıw bolıp tabıladı, bunda hárbir kórsetiw ózine-ózi itibar beriw mexanizmi arqalı kiris tokenlerinen informaciyanı “aralasatuǵın” tokenge sáykes keledi. Hárbir dekoder qabatında eki itibar beriw ishki qabatı bar: (1) kodlawshınıń shıǵısın qosıwǵa arnalǵan kross-dıqqat (kontekstlestirilgen kiris token kórinisleri) hám (2) dekoderge kiris tokenleri arasında informaciyanı “aralastırıwǵa” ózine itibar beriw (yaǵnıy, shıǵarıw waqıtında usı waqıtqa shekem jaratılǵan tokenler).[21][22]
Koder hám dekoder qabatlarınıń ekewinde de shıǵıslardı qosımsha qayta islewge arnalǵan neyron tarmaǵı bar hám qaldıq jalǵanıwlar menen qabattı qálpine keltiriw basqıshların óz ishine aladı.[22]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.