مدل زبانی
From Wikipedia, the free encyclopedia
مدل زبان آماری یک توزیع احتمال روی دنبالهی کلمات است. به طور مثال اگر دنبالهای به طول m داشته باشیم، این مدل احتمال را به کل دنباله میدهد.
مدل زبان بافتی (زبانشناسی) را برای تمایز بین کلمات و عباراتی که به نظر مشابه میرسند فراهم میکند. به عنوان مثال، در انگلیسی آمریکایی، عبارات "recognize speech" و "wreck a nice beach" شبیه به هم هستند، اما معانی مختلفی دارند.
پراکندگی دادهها یک مشکل اساسی در ساخت مدلهای زبان است. بیشتر توالیهای ممکن کلمات در آموزش مشاهده نمیشوند. یک راه حل این است که فرض کنیم احتمال کلمه فقط به n کلمه قبلی بستگی دارد. این مدل به عنوان مدل ان-گرام شناخته میشود و زمانی که n برابر با ۱ باشد مدل به عنوان یونیگرام شناخته میشود. مدل یونیگرام به عنوان مدل مدل بسته کلمات نیز شناخته می شود.
تخمین احتمال نسبی عبارات مختلف در بسیاری از کاربردهای پردازش زبان طبیعی، به ویژه مواردی که متن را به عنوان خروجی تولید می کنند، مفید است. از مدل سازی زبان در تشخیص گفتار ، [1] ترجمه ماشینی ، برچسبگذاری کلمات، تجزیه ، [2] نویسهخوان نوری ، تشخیص دست خط ، [3] بازیابی اطلاعات و سایر برنامه ها استفاده می شود.
در تشخیص گفتار، اصوات با توالی کلمات مطابقت دارند. ابهامات هنگامی که شهودهایی از مدل زبان با یک مدل تلفظ و یک مدل صوتی ادغام شده است، آسانتر حل خواهند شد.
مدلهای زبانی در بازیابی اطلاعات در مدل احتمال پرسشی استفاده میشود. در آنجا، یک مدل زبان جداگانه با هر مستند در یک مجموعه مرتبط است. مستندها بر اساس احتمال پرسش Q در مدل زبان مستند رتبهبندی میشوند. :
. معمولاً برای این منظور از مدل زبان یونیگرام استفاده می شود.