Böyük dil modeli

Böyük dil modeli (ing. Large language model; LLM) — ümumi məqsədli dil anlayışına və nəslinə nail olmaq qabiliyyəti ilə diqqət çəkən dil modeli. LLM-lər bu bacarıqları hesablama yolu ilə intensiv öz-özünə və yarı nəzarətli təlim prosesi zamanı mətn sənədlərindən statistik əlaqələri öyrənməklə əldə edirlər.^[1] LLM-lər transformator arxitekturasını izləyən süni neyron şəbəkələrdir.^[2]

Onlar daxil edilmiş mətni götürərək və növbəti işarəni və ya sözü təkrar-təkrar proqnozlaşdırmaqla mətn yaratmaq üçün istifadə edilə bilər.^[3] 2020-ci ilə qədər dəqiq tənzimləmə modelin konkret tapşırıqları yerinə yetirmək üçün uyğunlaşdırılmasının yeganə yolu idi. Bununla belə, GPT-3 kimi daha böyük ölçülü modellər oxşar nəticələr əldə etmək üçün tez bir zamanda dizayn edilə bilər.^[4] Onların insan dilinin korporasiyasına xas olan sintaksis, semantika və "ontologiya" haqqında, eyni zamanda korpusda mövcud olan qeyri-dəqiqliklər və qərəzlər haqqında biliklər əldə etdikləri güman edilir.^[5]

Populyar nümunələrə OpenAI-nin GPT modelləri (məsələn, ChatGPT-də istifadə edilən GPT-3.5 və GPT-4), Google-un PaLM (Bardda istifadə olunur) və Meta-nın LLaMA, həmçinin BLOOM, Ernie 3.0 Titan və Anthropic-in Claude 2-ni göstərmək olar.

[1]

[2]

[3]

[4]

[5]