बड़े भाषा मॉडल

बड़े भाषा मॉडल ( एलएलएम ) एक कम्प्यूटरीकृत भाषा मॉडल है, जो एक कृत्रिम तंत्रिका नेटवर्क द्वारा भारी मात्रा में "पैरामीटर" (इसकी परतों में "न्यूरॉन्स" और उनके बीच लाखों से अरबों "वजन") का उपयोग करके बनाया गया है, जो कि स्व-पर्यवेक्षित का उपयोग करके विकिपीडिया कॉर्पस और कॉमन क्रॉल जैसे निगमों द्वारा प्रदान किए गए खरबों टोकन (शब्दों के हिस्से) वाले बड़ी मात्रा में गैर-लेबल वाले पाठों की बड़े पैमाने पर समानांतर प्रसंस्करण के कारण अपेक्षाकृत कम समय में कई जीपीयू पर (पूर्व) प्रशिक्षित किया जाता है। सीखना या अर्ध-पर्यवेक्षित शिक्षण, ^[1] जिसके परिणामस्वरूप संभाव्यता वितरण के साथ एक टोकनयुक्त शब्दावली होती है। एलएलएम को अतिरिक्त जीपीयू का उपयोग करके उन्नत किया जा सकता है ताकि मॉडल को बिना लेबल वाले पाठों की विशाल मात्रा पर और भी अधिक मापदंडों के साथ प्रशिक्षित किया जा सके। ^[2]

ट्रांसफार्मर एल्गोरिथ्म का आविष्कार, या तो यूनिडायरेक्शनल (जैसे कि जीपीटी मॉडल द्वारा उपयोग किया जाता है) या द्विदिशात्मक (जैसे कि बीईआरटी मॉडल द्वारा उपयोग किया जाता है), ऐसे बड़े पैमाने पर समानांतर प्रसंस्करण की अनुमति देता है। ^[3] उपरोक्त सभी के कारण, विशिष्ट कार्यों के लिए अधिकांश पुराने (विशेष) पर्यवेक्षित मॉडल पुराने हो गए। ^[4]

एक अंतर्निहित तरीके से, एलएलएम ने मानव भाषा निगम में निहित वाक्यविन्यास, शब्दार्थ और "ऑन्टोलॉजी" के बारे में एक सन्निहित ज्ञान प्राप्त किया है, लेकिन निगम में मौजूद अशुद्धियों और पूर्वाग्रहों के बारे में भी। ^[4]

उल्लेखनीय उदाहरणों में ओपन एआई के जीपीटी मॉडल (उदाहरण के लिए, जीपीटी-3.5 और जीपीटी-4, चैटजीपीटी में प्रयुक्त), गूगल का फिल्म (बार्ड में प्रयुक्त), और मेटा का ल्लामा, साथ ही ब्लूम, एर्नी 3.0 टाइटन और क्लॉड शामिल हैं।

[1]

[2]

[3]

[4]