مدل زبانی بزرگ

مدل زبانی بزرگ ^{[پاورقی 1]} (اختصاری LLM) یا ال‌ال‌ام، سامانه‌های هوش مصنوعی هستند که برای درک، تولید و پاسخگویی به زبان انسان طراحی شده‌اند. آنها «بزرگ» نامی می‌شوند زیرا حاوی میلیاردها پارامتر هستند که به آنها امکان می‌دهد الگوهای پیچیده در داده‌های زبان را پردازش کنند.

ال‌ال‌ام‌ها دسته‌ای از مدل‌های یادگیری ماشینی هستند که توانایی درک و تولید متنی شبیه انسان را دارند. این مدل‌ها این توانایی ها را با یادگیری روابط آماری از اسناد متنی در طی یک فرآیند آموزشی فشرده محاسباتی خود نظارت و نیمه نظارت به دست می آورند.^[1] آنها بر روی مجموعه داده‌های گسترده‌ای آموزش دیده‌اند که اغلب از اینترنت جمع‌آوری می‌شوند، و می‌تواند شامل منابع متنی بسیار متنوعی مانند صفحات ویکی‌پدیا، کتاب‌ها، موضوعات رسانه‌های اجتماعی و مقالات خبری باشد.^[2] مدل‌های زبان بزرگ در حدود سال ۲۰۱۸ ظاهر شدند و در گستره وسیعی از وظایف، عملکرد بالایی دارند.^[3] در معماری داخلی این مدل‌ها از ترنسفورمر بهره بده شده است. ترنسفورمرها شبکه های عصبی مصنوعی هستند که برای پردازش دنباله‌های طولانی توکن‌ها (نشانه‌ها) به سازوکارهای توجه متکی هستند و معمولاً از ده‌ها میلیون و تا میلیاردها پارامتر آموزش‌دیده دارند. ترنسفورمرها می‌توانند وابستگی‌ها و روابط بین کلمات و جملات، و همچنین نحو، معناشناسی و زمینه زبان طبیعی را به تصویر بکشند^[4] لذا می‌توان به عنوان نوعی هوش مصنوعی مولد، از آنها برای تولید متن بهره برد.^[5] در این صورت هوش مصنوعی مولد با گرفتن یک متن ورودی و پیش بینی مکرر نشانه یا کلمه بعدی متن شبه‌انسانی تولید می کند.

تا تاریخ مارس ۲۰۲۴^{[بروزرسانی]} بزرگترین و تواناترین آنها، با معماری مبتنی بر ترنسفورمرهای فقط رمزگشا ساخته شده‌اند. در عین حال، برخی دیگر از پیاده‌سازی‌ها بر اساس معماری‌هایی مانند انواع شبکه عصبی بازگشتی و مامبا (یک مدل فضای حالت) هستند. ^[6]^[7]^[8]

برخی از LLM های قابل توجه عبارتند از

سری مدل های GPT اوپن‌ای‌آی (به عنوان مثال، جی‌پی‌تی ۳ و جی‌پی‌تی ۴ ، مورد استفاده در ChatGPT و Microsoft Copilot )
پام Gemini (که بعداً در ربات چت با همان نام استفاده شد) از شرکت گوگل
گروک شرکت ایکس‌ای‌آی،
مدل‌های منبع باز خانواده LLaMA از شرکت متا
مدل‌های کلود شرکت آنتروپیک
مدل‌های منبع باز Mistral AI
مدل منبع باز DBRX از شرکت دیتابریکس

Falcon
Yi

این مدل‌ها با اندازه‌ها و قابلیت‌های متفاوتی ارائه می‌شوند که از بین ده‌ها میلیون تا میلیاردها پارامتر متغیر است. پارامترها وزن‌هایی مدل هستند که در طول آموزش یاد می‌گیرد نشانه یا کلمه بعدی را در یک دنباله پیش‌بینی کنند.

ال‌ال‌ام‌ها را می‌توان برای کارهای مختلف پردازش زبان طبیعی (اختصاری NLP) مانند تولید متن، خلاصه‌سازی متن، پرسش و پاسخ، ترجمه ماشینی، تجزیه و تحلیل احساسات، طبقه‌بندی متن و موارد دیگر استفاده کرد.

ال‌ال‌ام‌ها همچنین می‌توانند تنظیم دقیق آنها در مجموعه داده‌های کوچکتر یا استفاده از شگردهای مهندسی پرسش، با دامنه‌ها یا وظایف خاص سازگار شوند. با این حال، ال‌ال‌ام‌ها نیز دارای محدودیت‌ها و چالش‌هایی هستند. به عنوان مثال، ال‌ال‌ام‌ها ممکن است نادرستی و سوگیری را از داده‌هایی که بر روی آنها آموزش دیده‌اند یا از روش‌های مهندسی سریع خود به ارث ببرند. ال‌ال‌ام‌ها همچنین ممکن است محتوای مضر یا گمراه‌کننده تولید کنند که می‌تواند بر رفاه انسان یا هنجارهای اجتماعی تأثیر بگذارد؛ بنابراین، ال‌ال‌ام‌ها باید به دقت ارزیابی شوند و توسط توسعه دهندگان و کاربران به‌طور مسئولانه استفاده شوند.

[پاورقی 1]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]