![cover image](https://wikiwandv2-19431.kxcdn.com/_next/image?url=https://upload.wikimedia.org/wikipedia/commons/thumb/8/8f/The-Transformer-model-architecture.png/640px-The-Transformer-model-architecture.png&w=640&q=50)
ترنسفورمر (یادگیری عمیق)
پردازش زبان طبیعی / From Wikipedia, the free encyclopedia
ترنسفورمر یا مُبَدِّل، روشی است که به رایانه اجازه میدهد تا یک دنباله از نویسهها را به دنباله دیگری از نویسهها تبدیل کند. این روش میتواند برای مثال برای ترجمه متن از یک زبان به زبان دیگر استفاده شود. برای این کار، ترانسفورمور با استفاده از یادگیری ماشین بر روی مجموعه بزرگی از دادههای نمونه آموزش داده میشود و سپس مدل آموزشدیده برای ترجمه استفاده میشود.
![](http://upload.wikimedia.org/wikipedia/commons/thumb/8/8f/The-Transformer-model-architecture.png/640px-The-Transformer-model-architecture.png)
مبدلها جزو معماریهای یادگیری عمیق هستند. مبدلها برای اولین بار در سال ۲۰۱۷ در کنفرانس پردازش اطلاعات عصبی معرفی شدند.
برخی دیگر از کاربردهای ترنسفورمرها عبارتند از:
- تولید متن: ترنسفورمرها میتوانند برای تولید متنهای جدید، مانند نوشتن داستان یا شعر، استفاده شوند.
- خلاصهسازی متن: ترنسفورمرها میتوانند برای خلاصهسازی متنهای طولانی و حفظ نکات کلیدی آنها استفاده شوند.
ترانسفورمر در مقایسه با معماریهای حافظه بلندمدت کوتاهمدت (LSTM) کارایی بیشتری دارد و پایه و اساس بسیاری از مدلهای یادگیری ماشین پیشآموزشی مانند BERT[1] و GPT[2] است. از مبدلها همچنین به عنوان Evoformer در AlphaFold2 استفاده میشود.
ترنسفورمرها به دلیل موازیسازی آسان، سرعت و دقت بالا، به یکی از محبوبترین مدلهای یادگیری ماشین برای پردازش زبان طبیعی تبدیل شدهاند. ترنسفورمرها در طیف وسیعی از کاربردهای دیگر مانند تشخیص گفتار، ترجمه ماشینی و پاسخ به سوالات نیز استفاده میشوند.
مانند شبکه عصبی بازگشتی (RNN)، ترنسفورمرها برای مدیریت دادههای ورودی mdhmd، مانند زبان طبیعی، برای کارهایی مانند ترجمه و خلاصه متن طراحی شدهاند. با این حال، برخلاف شبکه عصبی بازگشتیها، ترنسفورمرها لزوماً دادهها را به ترتیب پردازش نمیکنند. در عوض، مکانیسم توجه زمینه را برای هر موقعیتی در دنباله ورودی فراهم میکند. به عنوان مثال، اگر داده ورودی یک جمله زبان طبیعی باشد، ترانسفورمر نیازی به پردازش ابتدای جمله قبل از پایان ندارد. در عوض، زمینه ای را مشخص میکند که به هر کلمه در جمله معنا میبخشد. این ویژگی اجازه میدهد تا موازی سازی بیشتر از شبکه عصبی بازگشتیها باشد و بنابراین زمان آموزش را کاهش میدهد.[3]
ترنسفورمرها در سال ۲۰۱۷ توسط تیمی در گوگل برینمعرفی شدند و به طور فزاینده ای به عنوان بهترین مدل در حل مسائل NLP مورداستفاده قرار میگیرند و جایگزین مدلهای شبکه عصبی بازگشتی مانند حافظه کوتاهمدت طولانی شدند. قابلیت موازیسازی آموزش در ترانسفورمرها امکان آموزش بر روی مجموعه دادههای بزرگتر را میدهد که تا پیش از حضور آنها به سختی ممکن بود. این موضوع منجر به توسعه سیستمهای از پیش آموزشدیده مانند برت (نمایش رمزگذار دوطرفه از ترنسفورمرها) و GPT (ترنسفورمر تولیدگر از پیش آموزشدیده)، که با مجموعه دادههای زبانی بزرگ، مانند ویکیپدیا و Common Crawl آموزش دیدهاند، و میتوان آنها را برای کارهای خاص بهخوبی تنظیم کرد.[4]