बड़े भाषा मॉडल
बड़ी मात्रा में पाठों के साथ निर्मित भाषा मॉडल / From Wikipedia, the free encyclopedia
बड़े भाषा मॉडल ( एलएलएम ) एक कम्प्यूटरीकृत भाषा मॉडल है, जो एक कृत्रिम तंत्रिका नेटवर्क द्वारा भारी मात्रा में "पैरामीटर" (इसकी परतों में "न्यूरॉन्स" और उनके बीच लाखों से अरबों "वजन") का उपयोग करके बनाया गया है, जो कि स्व-पर्यवेक्षित का उपयोग करके विकिपीडिया कॉर्पस और कॉमन क्रॉल जैसे निगमों द्वारा प्रदान किए गए खरबों टोकन (शब्दों के हिस्से) वाले बड़ी मात्रा में गैर-लेबल वाले पाठों की बड़े पैमाने पर समानांतर प्रसंस्करण के कारण अपेक्षाकृत कम समय में कई जीपीयू पर (पूर्व) प्रशिक्षित किया जाता है। सीखना या अर्ध-पर्यवेक्षित शिक्षण, [1] जिसके परिणामस्वरूप संभाव्यता वितरण के साथ एक टोकनयुक्त शब्दावली होती है। एलएलएम को अतिरिक्त जीपीयू का उपयोग करके उन्नत किया जा सकता है ताकि मॉडल को बिना लेबल वाले पाठों की विशाल मात्रा पर और भी अधिक मापदंडों के साथ प्रशिक्षित किया जा सके। [2]
ट्रांसफार्मर एल्गोरिथ्म का आविष्कार, या तो यूनिडायरेक्शनल (जैसे कि जीपीटी मॉडल द्वारा उपयोग किया जाता है) या द्विदिशात्मक (जैसे कि बीईआरटी मॉडल द्वारा उपयोग किया जाता है), ऐसे बड़े पैमाने पर समानांतर प्रसंस्करण की अनुमति देता है। [3] उपरोक्त सभी के कारण, विशिष्ट कार्यों के लिए अधिकांश पुराने (विशेष) पर्यवेक्षित मॉडल पुराने हो गए। [4]
एक अंतर्निहित तरीके से, एलएलएम ने मानव भाषा निगम में निहित वाक्यविन्यास, शब्दार्थ और "ऑन्टोलॉजी" के बारे में एक सन्निहित ज्ञान प्राप्त किया है, लेकिन निगम में मौजूद अशुद्धियों और पूर्वाग्रहों के बारे में भी। [4]
उल्लेखनीय उदाहरणों में ओपन एआई के जीपीटी मॉडल (उदाहरण के लिए, जीपीटी-3.5 और जीपीटी-4, चैटजीपीटी में प्रयुक्त), गूगल का फिल्म (बार्ड में प्रयुक्त), और मेटा का ल्लामा, साथ ही ब्लूम, एर्नी 3.0 टाइटन और क्लॉड शामिल हैं।