مدل زبانی

مدل زبان آماری یک توزیع احتمال روی دنباله‌ی کلمات است. به طور مثال اگر دنباله‌ای به طول $m$ داشته باشیم، این مدل احتمال $P(w_{1},\ldots ,w_{m})$ را به کل دنباله می‌دهد.

مدل زبان بافتی (زبان‌شناسی) را برای تمایز بین کلمات و عباراتی که به نظر مشابه می‌رسند فراهم می‌کند. به عنوان مثال، در انگلیسی آمریکایی، عبارات "recognize speech" و "wreck a nice beach" شبیه به هم هستند، اما معانی مختلفی دارند.

پراکندگی داده‌ها یک مشکل اساسی در ساخت مدل‌های زبان است. بیشتر توالی‌های ممکن کلمات در آموزش مشاهده نمی‌شوند. یک راه حل این است که فرض کنیم احتمال کلمه فقط به n کلمه قبلی بستگی دارد. این مدل به عنوان مدل ان-گرام شناخته می‌شود و زمانی که n برابر با ۱ باشد مدل به عنوان یونیگرام شناخته می‌شود. مدل یونیگرام به عنوان مدل مدل بسته کلمات نیز شناخته می شود.

تخمین احتمال نسبی عبارات مختلف در بسیاری از کاربردهای پردازش زبان طبیعی، به ویژه مواردی که متن را به عنوان خروجی تولید می کنند، مفید است. از مدل سازی زبان در تشخیص گفتار ، ^[1] ترجمه ماشینی ، برچسب‌گذاری کلمات، تجزیه ، ^[2] نویسه‌خوان نوری ، تشخیص دست خط ، ^[3] بازیابی اطلاعات و سایر برنامه ها استفاده می شود.

در تشخیص گفتار، اصوات با توالی کلمات مطابقت دارند. ابهامات هنگامی که شهودهایی از مدل زبان با یک مدل تلفظ و یک مدل صوتی ادغام شده است، آسان‌تر حل خواهند شد.

مدل‌های زبانی در بازیابی اطلاعات در مدل احتمال پرسشی استفاده می‌شود. در آنجا، یک مدل زبان جداگانه با هر مستند در یک مجموعه مرتبط است. مستندها بر اساس احتمال پرسش Q در مدل زبان مستند رتبه‌بندی می‌شوند. $M_{d}$ : $P(Q\mid M_{d})$ . معمولاً برای این منظور از مدل زبان یونیگرام استفاده می شود.

[1]

[2]

[3]