مدل زبانی بزرگ
From Wikipedia, the free encyclopedia
مدل زبانی بزرگ [پاورقی 1] (اختصاری LLM) یا الالام، سامانههای هوش مصنوعی هستند که برای درک، تولید و پاسخگویی به زبان انسان طراحی شدهاند. آنها «بزرگ» نامی میشوند زیرا حاوی میلیاردها پارامتر هستند که به آنها امکان میدهد الگوهای پیچیده در دادههای زبان را پردازش کنند.
الالامها دستهای از مدلهای یادگیری ماشینی هستند که توانایی درک و تولید متنی شبیه انسان را دارند. این مدلها این توانایی ها را با یادگیری روابط آماری از اسناد متنی در طی یک فرآیند آموزشی فشرده محاسباتی خود نظارت و نیمه نظارت به دست می آورند.[1] آنها بر روی مجموعه دادههای گستردهای آموزش دیدهاند که اغلب از اینترنت جمعآوری میشوند، و میتواند شامل منابع متنی بسیار متنوعی مانند صفحات ویکیپدیا، کتابها، موضوعات رسانههای اجتماعی و مقالات خبری باشد.[2] مدلهای زبان بزرگ در حدود سال ۲۰۱۸ ظاهر شدند و در گستره وسیعی از وظایف، عملکرد بالایی دارند.[3] در معماری داخلی این مدلها از ترنسفورمر بهره بده شده است. ترنسفورمرها شبکه های عصبی مصنوعی هستند که برای پردازش دنبالههای طولانی توکنها (نشانهها) به سازوکارهای توجه متکی هستند و معمولاً از دهها میلیون و تا میلیاردها پارامتر آموزشدیده دارند. ترنسفورمرها میتوانند وابستگیها و روابط بین کلمات و جملات، و همچنین نحو، معناشناسی و زمینه زبان طبیعی را به تصویر بکشند[4] لذا میتوان به عنوان نوعی هوش مصنوعی مولد، از آنها برای تولید متن بهره برد.[5] در این صورت هوش مصنوعی مولد با گرفتن یک متن ورودی و پیش بینی مکرر نشانه یا کلمه بعدی متن شبهانسانی تولید می کند.
تا تاریخ مارس ۲۰۲۴[بروزرسانی] بزرگترین و تواناترین آنها، با معماری مبتنی بر ترنسفورمرهای فقط رمزگشا ساخته شدهاند. در عین حال، برخی دیگر از پیادهسازیها بر اساس معماریهایی مانند انواع شبکه عصبی بازگشتی و مامبا (یک مدل فضای حالت) هستند. [6][7][8]
برخی از LLM های قابل توجه عبارتند از
- سری مدل های GPT اوپنایآی (به عنوان مثال، جیپیتی ۳ و جیپیتی ۴ ، مورد استفاده در ChatGPT و Microsoft Copilot )
- پام Gemini (که بعداً در ربات چت با همان نام استفاده شد) از شرکت گوگل
- گروک شرکت ایکسایآی،
- مدلهای منبع باز خانواده LLaMA از شرکت متا
- مدلهای کلود شرکت آنتروپیک
- مدلهای منبع باز Mistral AI
- مدل منبع باز DBRX از شرکت دیتابریکس
- Falcon
- Yi
این مدلها با اندازهها و قابلیتهای متفاوتی ارائه میشوند که از بین دهها میلیون تا میلیاردها پارامتر متغیر است. پارامترها وزنهایی مدل هستند که در طول آموزش یاد میگیرد نشانه یا کلمه بعدی را در یک دنباله پیشبینی کنند.
الالامها را میتوان برای کارهای مختلف پردازش زبان طبیعی (اختصاری NLP) مانند تولید متن، خلاصهسازی متن، پرسش و پاسخ، ترجمه ماشینی، تجزیه و تحلیل احساسات، طبقهبندی متن و موارد دیگر استفاده کرد.
الالامها همچنین میتوانند تنظیم دقیق آنها در مجموعه دادههای کوچکتر یا استفاده از شگردهای مهندسی پرسش، با دامنهها یا وظایف خاص سازگار شوند. با این حال، الالامها نیز دارای محدودیتها و چالشهایی هستند. به عنوان مثال، الالامها ممکن است نادرستی و سوگیری را از دادههایی که بر روی آنها آموزش دیدهاند یا از روشهای مهندسی سریع خود به ارث ببرند. الالامها همچنین ممکن است محتوای مضر یا گمراهکننده تولید کنند که میتواند بر رفاه انسان یا هنجارهای اجتماعی تأثیر بگذارد؛ بنابراین، الالامها باید به دقت ارزیابی شوند و توسط توسعه دهندگان و کاربران بهطور مسئولانه استفاده شوند.