مدل زبانی

یونیگرام

یک مدل یونیگرام را می توان ترکیبی از چندین ماشین حالات متناهی یک حالته دانست. ^[۴] این مدل احتمالات کلمات مختلف در یک متن را از هم جدا می‌کند، به عنوان مثال از

P(t_{1}t_{2}t_{3})=P(t_{1})P(t_{2}\mid t_{1})P(t_{3}\mid t_{1}t_{2})

به

P_{\text{uni}}(t_{1}t_{2}t_{3})=P(t_{1})P(t_{2})P(t_{3}).

در این مدل، احتمال هر کلمه فقط به احتمال خود آن کلمه در مستند بستگی دارد ، بنابراین ما فقط ماشین حالت یک حالته را به عنوان واحدها داریم. ماشین حالت توزیع احتمال در کل واژگان مدل را دارد و مجموع آن‌ها برابر ۱ می‌شود. در زیر تصویر مدل یونیگرام یک مستند را می‌بینیم.

اطلاعات بیشتر کلمات, احتمال در مستند ...

کلمات	احتمال در مستند
a	0.1
world	0.2
likes	0.05
we	0.05
share	0.3
. . .	. . .

\sum _{\text{term in doc}}P({\text{term}})=1

احتمال ایجاد شده برای یک پرسش خاص به صورت زیر محاسبه می‌شود

P({\text{query}})=\prod _{\text{term in query}}P({\text{term}})

مستندهای مختلف دارای مدل‌های یونیگرام هستند که احتمال مختلف کلمات در آن وجود دارد. توزیع احتمال از مستندهای مختلف استفاده می‌شود تا احتمال وجود کلمه برای هر جستجو را تولید شود. مستندها را می‌توان برای یک پرسش با توجه به احتمالات رتبه‌بندی کرد. نمونه ای از مدل‌های یونیگرام دو مستند:

اطلاعات بیشتر کلمات, احتمال در مستند اول ...

کلمات	احتمال در مستند اول	احتمال در مستند دوم
a	0.1	0.3
world	0.2	0.1
likes	0.05	0.03
we	0.05	0.02
share	0.3	0.2
. . .	. . .	. . .

در زمینه‌های بازیابی اطلاعات، برای جلوگیری از مواردی که احتمال کلمه در آن صفر شود، آن را smooth می‌کنند. یک رویکرد معمول، ایجاد مدل حداکثر احتمال برای کل مجموعه و درون‌یابی خطی مدل مجموعه با یک مدل حداکثر احتمال برای هر مستند برای smooth کردن مدل است. ^[۵]

ان-گرام

در مدل ان-گرام، احتمال $P(w_{1},\ldots ,w_{m})$ از مشاهده جمله $w_{1},\ldots ,w_{m}$ به صورت زیر محاسبه می‌شود

P(w_{1},\ldots ,w_{m})=\prod _{i=1}^{m}P(w_{i}\mid w_{1},\ldots ,w_{i-1})\approx \prod _{i=1}^{m}P(w_{i}\mid w_{i-(n-1)},\ldots ,w_{i-1})

فرض بر این است که احتمال مشاهده‌ی iامین کلمه (w_i) در i-1 کلمه قبل را می توان با احتمال مشاهده آن 10 کلمه قبلی تقریب زد. (کلمه nام خاصیت مارکوف).

احتمال شرطی را می‌توان از تعداد کلمه در مدل ان-گرام محاسبه کرد:

P(w_{i}\mid w_{i-(n-1)},\ldots ,w_{i-1})={\frac {\mathrm {count} (w_{i-(n-1)},\ldots ,w_{i-1},w_{i})}{\mathrm {count} (w_{i-(n-1)},\ldots ,w_{i-1})}}

مدل‌های bigram و trigram، مدل ان-گرام با n = 2 و n = 3 هستند.

به طور معمول، احتمالات مدل ان-گرام مستقیماً از تعداد فرکانس ها بدست نمی‌آیند، زیرا مدل‌هایی که از این طریق بدست آمده‌اند هنگام مواجهه با هر ان-گرامی که قبلاً به طور صریح دیده نشده است، مشکلات جدی دارند. در عوض، نوعی smoothing نیاز است تا مقداری از کل احتمال را به کلمات یا ان-گرامهای دیده نشده اختصاص دهد. از روش های مختلفی استفاده می‌شود ، از روش ساده "add-one" (اختصاص عدد 1 به n-gram مشاهده نشده، به عنوان یک توزیع پیشین) تا مدل‌های پیچیده‌تر، مانند Good-Turing discounting یا مدل‌های back-off.

دو طرفه

بازنمایی های دو طرفه هم در قبل و هم در بعد متن (به عنوان مثال ، کلمات) در همه لایه‌ها شرط هستند. ^[۶]

مثال

در یک مدل زبان bigram (n = 2)، احتمال I saw the red house به طور تقریبی به صورت زیر محاسبه می‌شود

P({\text{I, saw, the, red, house}})\approx P({\text{I}}\mid \langle s\rangle )P({\text{saw}}\mid {\text{I}})P({\text{the}}\mid {\text{saw}})P({\text{red}}\mid {\text{the}})P({\text{house}}\mid {\text{red}})P(\langle /s\rangle \mid {\text{house}})

در حالی که در یک مدل زبان trigram ( n = 3)، به طور تقریبی به صورت زیر محاسبه می‌شود

P({\text{I, saw, the, red, house}})\approx P({\text{I}}\mid \langle s\rangle ,\langle s\rangle )P({\text{saw}}\mid \langle s\rangle ,I)P({\text{the}}\mid {\text{I, saw}})P({\text{red}}\mid {\text{saw, the}})P({\text{house}}\mid {\text{the, red}})P(\langle /s\rangle \mid {\text{red, house}})

توجه داشته باشید که در متن n-1 ان-گرام اول با نشانگرهای شروع جمله پر می‌شود ، که به طور معمول <s> نشان داده می‌شود.

علاوه بر این، بدون نشانگر پایان جمله، احتمال دنباله ای بدون گرامر * I saw the بیشتر از جمله طولانی‌تر I saw the red house است.

نمایی

مدل‌های زبان اصل حداکثر آنتروپی با استفاده از توابع ویژگی، رابطه بین کلمه و تاریخچه ان-گرام را رمزگذاری می‌کنند. معادله‌ی آن به صورت زیر است

P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))

که $Z(w_{1},\ldots ,w_{m-1})$ تابع partition، $a$ بردار پارامتر و $f(w_{1},\ldots ,w_{m})$ تابع ویژگی هستند. در ساده ترین حالت، تابع ویژگی فقط نشانگر وجود یک ان-گرام خاص است. استفاده از پیش‌فرض روی a یا منظم‌ساز مفید خواهد بود.

مدل log-bilinear نمونه دیگری از مدل‌های زبانی نمایی است.

شبکه عصبی

مدل‌های زبانی عصبی (یا مدل های زبان فضایی پیوسته) برای ارائه پیش‌بینی‌های خود از نمایش‌های پیوسته یا نمایش کلمات استفاده می‌کنند. ^[۷] این مدل ها از شبکه‌های عصبی استفاده می‌کنند.

نمایانگر پیوسته فضا به کاهش نفرین ابعاد در مدل سازی زبان کمک می‌کند: با آموزش مدل‌های زبان بر روی متن های بزرگتر و بزرگتر ، تعداد کلمات منحصر به فرد (واژگان) افزایش می‌یابد. تعداد توالی‌های احتمالی کلمات با اندازه واژگان به طور تصاعدی افزایش می‌یابد و به دلیل تعداد زیاد توالی‌ها، باعث ایجاد مشکل پراکندگی داده‌ها می‌شود. بنابراین ، برای برآورد صحیح احتمالات، به آمار نیاز است. شبکه‌های عصبی با نمایش کلمات به صورت توزیع شده، به عنوان ترکیب‌های غیرخطی وزن‌ها در یک شبکه عصبی، از این مشکل جلوگیری می‌کنند. ^[۸] یک توصیف جایگزین این است که یک شبکه عصبی عملکرد زبان را تقریبی می‌زند. معماری شبکه عصبی ممکن است پیشخور یا بازگشتی باشد، و گرچه اولی ساده تر است دومی بیشتر مورد استفاده قرار می‌گیرد.

به طور معمول، مدل‌های زبان شبکه عصبی به عنوان طبقه‌بندی کننده‌های احتمالی ساخته می شوند و آموزش می‌بینند که توزیع احتمال را پیش‌بینی کنند

P(w_{t}|\mathrm {context} )\,\forall t\in V

یعنی شبکه آموزش دیده است تا با توجه به متن زبان، توزیع احتمال بر روی واژگان را پیش‌بینی کند. این کار با استفاده از الگوریتم های استاندارد آموزش عصبی عصبی مانند گرادیان کاهشی تصادفی همراه با پس‌انتشار انجام می‌شود. ^[۸] متن ممکن است یک پنجره با اندازه ثابت کلمات قبلی باشد، شبکه، احتمال زیر را پیش‌بینی می‌کند

P(w_{t}|w_{t-k},\dots ,w_{t-1})

از بردار ویژگی که نشان‌دهنده $k$ کلمه‌ی قبلی است. ^[۸] گزینه دیگر استفاده از کلمات "بعدی" علاوه بر کلمات "قبلی" به عنوان ویژگی است، احتمال تخمین زده شده برابر است با

P(w_{t}|w_{t-k},\dots ,w_{t-1},w_{t+1},\dots ,w_{t+k})

به این مدل بسته کلمات گفته می‌شود. وقتی بردارهای مشخصه کلمات در متن با یک عمل پیوسته ترکیب میaوند، از این مدل به عنوان معماری پیوسته کلمات (CBOW) یاد می‌شود. ^[۹]

گزینه سوم که با سرعت کمتری نسبت به CBOW آموزش داده می‌شود اما عملکرد کمی بهتر دارد، معکوس کردن مشکل قبلی و ایجاد یک شبکه عصبی برای یادگیری متن می‌باشد. ^[۹] به صورت رسمی‌تر، با داشتن دنباله‌ای از کلمات آموزشی $w_{1},w_{2},w_{3},\dots ,w_{T}$ ، تابعی که متوسط احتمال را به حداکثر می رساند برابر است با

{\frac {1}{T}}\sum _{t=1}^{T}\sum _{-k\leq j\leq k,j\neq 0}\log P(w_{t+j}|w_{t})

که $k$ ، اندازه متن آموزش، می‌تواند تابعی از کلمه وسط ( $w_{t}$ ) باشد. به این مدل زبان skip-gram می‌گویند. ^[۱۰] مدل‌های مدل بسته کلمات و skip-gram پایه‌های word2vec هستند. ^[۱۱]

به جای استفاده از مدل‌های زبانی شبکه عصبی برای تولید احتمالات واقعی، معمولاً از نمایش توزیع شده در لایه های "پنهان" شبکه به عنوان نمایش کلمات استفاده می‌شود. سپس هر کلمه بر روی یک بردار واقعی $n$ بعدی قرار می گیرد که word embedding نامیده می‌شود، به طوری که $n$ اندازه لایه قبل از لایه خروجی است. نمایش‌ها در مدل‌های skip-gram دارای مشخصه متمایزی است که آنها روابط معنایی بین کلمات را به صورت ترکیب‌های خطی مدل‌سازی می‌کنند و نوعی ترکیب‌بندی را بدست می‌آورند. به عنوان مثال، در برخی از این مدل‌ها، اگر $v$ تابعی باشد که یک کلمه $w$ را به نمایش $n$ -بعدی تبدیل کند، داریم:

v(\mathrm {king} )-v(\mathrm {male} )+v(\mathrm {female} )\approx v(\mathrm {queen} )

که ≈ با این شرط که سمت راست آن باید نزدیکترین همسایه مقدار سمت چپ باشد، دقیق‌تر می‌شود. ^[۹] ^[۱۰]

سایر

یک مدل زبان موقعیتی ^[۱۲] احتمال وقوع کلمات معین نزدیک به یکدیگر که لزوماً بلافاصله مجاور نیستند را در یک متن ارزیابی می‌کند. به همین ترتیب، مدلهای بسته بندی مفاهیمی ^[۱۳] از معانی معنایی مرتبط با عبارات چند کلمه‌ای مانند buy_christmas_present استفاده می‌کنند، حتی وقتی از آن‌ها در جملات غنی از اطلاعات مانند "today I bought a lot of very nice Christmas presents" استفاده می شود.

علیرغم موفقیت‌های محدود در استفاده از شبکه های عصبی، ^[۱۴] نویسندگان نیاز به تکنیک‌های دیگر را هنگام مدل‌سازی زبان اشاره تأیید می‌کنند.

مدل زبانی

انواع مدل

یونیگرام

ان-گرام

دو طرفه

مثال

نمایی

شبکه عصبی

سایر

معیارها

جستارهای وابسته

یادداشت

منابع

پیوند به بیرون

Wikiwand - on