برچسبگذاری جزء کلام
From Wikipedia, the free encyclopedia
در زبانشناسی پیکرهای، برچسبگذاری جزء کلام (به انگلیسی: Part-of-speech tagging) یا برچسبگذاری دستوری یا ابهامزدایی رده واژه، فرایند برچسبگذاری یک واژه در یک متن است، که آن برچسب متناظر با رده جزء کلامی خاص آن واژه میباشد.[1] این تناظر بر اساس «تعریف واژه» و نیز «بافت واژه» (یعنی رابطه آن با واژههای مجاور و مرتبط در عبارت، جمله، یا بند (پاراگراف)) تعیین میشود.[2]
- برای مثال شناسایی واژهها به عنوان «اسم»، «فعل»، «صفت»، «قید» و غیره نوعی برچسبگذاری جزء کلام است.[2]
به برچسبزنی جزء کلام، برچسبگذاری POS، یا برچسبگذاری PoS، یا POST نیز میگویند.[2]
بعضی کلمات ممکن است یک یا چند برچسب داشتهباشند. اگر یک کلمه بیش از یک برچسب داشتهباشد، نیاز به ابهامزدایی دارد.
برچسبگذاری اجزای کلام، بنا به روشِ انجام کار، هم بهصورت دستی انجام میشود و هم در آن از الگوریتمهای برچسبگذاری مختلفی استفاده میشود. ازجملهٔ این الگوریتمها میتوان به مدل مخفی مارکوف، الگوریتم باوم-ولچ، و برآورد درستنمایی بیشینه اشاره کرد.
تاکنون از روشهای برچسبگذاری گوناگونی در زبانهای مختلف استفاده شدهاست. این روشها را میتوان به دو دستهٔ اصلی تقسیمبندی کرد: اولین دسته روشهای آماری است که با استفاده از پیکرههای برچسبخورده انجام میشوند. دستهٔ دوم، روشهای غیرآماری است که با استفاده از یادگیری ماشین، برچسبگذاری را انجام میدهند.