ترنسفورمر (یادگیری عمیق)

ترنسفورمر یا مُبَدِّل، روشی است که به رایانه اجازه می‌دهد تا یک دنباله از نویسه‌ها را به دنباله دیگری از نویسه‌ها تبدیل کند. این روش می‌تواند برای مثال برای ترجمه متن از یک زبان به زبان دیگر استفاده شود. برای این کار، ترانسفورمور با استفاده از یادگیری ماشین بر روی مجموعه بزرگی از داده‌های نمونه آموزش داده می‌شود و سپس مدل آموزش‌دیده برای ترجمه استفاده می‌شود.

مبدل‌ها جزو معماری‌های یادگیری عمیق هستند. مبدل‌ها برای اولین بار در سال ۲۰۱۷ در کنفرانس پردازش اطلاعات عصبی معرفی شدند.

برخی دیگر از کاربردهای ترنسفورمرها عبارتند از:

تولید متن: ترنسفورمرها می‌توانند برای تولید متن‌های جدید، مانند نوشتن داستان یا شعر، استفاده شوند.
خلاصه‌سازی متن: ترنسفورمرها می‌توانند برای خلاصه‌سازی متن‌های طولانی و حفظ نکات کلیدی آنها استفاده شوند.

ترانسفورمر در مقایسه با معماری‌های حافظه بلندمدت کوتاه‌مدت (LSTM) کارایی بیشتری دارد و پایه و اساس بسیاری از مدل‌های یادگیری ماشین پیش‌آموزشی مانند BERT^[1] و GPT^[2] است. از مبدل‌ها همچنین به عنوان Evoformer در AlphaFold2 استفاده می‌شود.

ترنسفورمرها به دلیل موازی‌سازی آسان، سرعت و دقت بالا، به یکی از محبوب‌ترین مدل‌های یادگیری ماشین برای پردازش زبان طبیعی تبدیل شده‌اند. ترنسفورمرها در طیف وسیعی از کاربردهای دیگر مانند تشخیص گفتار، ترجمه ماشینی و پاسخ به سوالات نیز استفاده می‌شوند.

مانند شبکه عصبی بازگشتی (RNN)، ترنسفورمرها برای مدیریت داده‌های ورودی mdhmd، مانند زبان طبیعی، برای کارهایی مانند ترجمه و خلاصه متن طراحی شده‌اند. با این حال، برخلاف شبکه عصبی بازگشتیها، ترنسفورمرها لزوماً داده‌ها را به ترتیب پردازش نمی‌کنند. در عوض، مکانیسم توجه زمینه را برای هر موقعیتی در دنباله ورودی فراهم می‌کند. به عنوان مثال، اگر داده ورودی یک جمله زبان طبیعی باشد، ترانسفورمر نیازی به پردازش ابتدای جمله قبل از پایان ندارد. در عوض، زمینه ای را مشخص می‌کند که به هر کلمه در جمله معنا می‌بخشد. این ویژگی اجازه می‌دهد تا موازی سازی بیشتر از شبکه عصبی بازگشتیها باشد و بنابراین زمان آموزش را کاهش می‌دهد.^[3]

ترنسفورمرها در سال ۲۰۱۷ توسط تیمی در گوگل برینمعرفی شدند و به‌ طور فزاینده ای به عنوان بهترین مدل در حل مسائل NLP مورداستفاده قرار می‌گیرند و جایگزین مدل‌های شبکه عصبی بازگشتی مانند حافظه کوتاه‌مدت طولانی شدند. قابلیت موازی‌سازی آموزش در ترانسفورمرها امکان آموزش بر روی مجموعه داده‌های بزرگتر را می‌دهد که تا پیش از حضور آنها به سختی ممکن بود. این موضوع منجر به توسعه سیستم‌های از پیش آموزش‌دیده مانند برت (نمایش رمزگذار دوطرفه از ترنسفورمرها) و GPT (ترنسفورمر تولیدگر از پیش آموزش‌دیده)، که با مجموعه داده‌های زبانی بزرگ، مانند ویکی‌پدیا و Common Crawl آموزش دیده‌اند، و می‌توان آنها را برای کارهای خاص به‌خوبی تنظیم کرد.^[4]

[1]

[2]

[3]

[4]