From Wikipedia, the free encyclopedia
در زبانشناسی پیکرهای، برچسبگذاری جزء کلام (به انگلیسی: Part-of-speech tagging) یا برچسبگذاری دستوری یا ابهامزدایی رده واژه، فرایند برچسبگذاری یک واژه در یک متن است، که آن برچسب متناظر با رده جزء کلامی خاص آن واژه میباشد.[1] این تناظر بر اساس «تعریف واژه» و نیز «بافت واژه» (یعنی رابطه آن با واژههای مجاور و مرتبط در عبارت، جمله، یا بند (پاراگراف)) تعیین میشود.[2]
به برچسبزنی جزء کلام، برچسبگذاری POS، یا برچسبگذاری PoS، یا POST نیز میگویند.[2]
بعضی کلمات ممکن است یک یا چند برچسب داشتهباشند. اگر یک کلمه بیش از یک برچسب داشتهباشد، نیاز به ابهامزدایی دارد.
برچسبگذاری اجزای کلام، بنا به روشِ انجام کار، هم بهصورت دستی انجام میشود و هم در آن از الگوریتمهای برچسبگذاری مختلفی استفاده میشود. ازجملهٔ این الگوریتمها میتوان به مدل مخفی مارکوف، الگوریتم باوم-ولچ، و برآورد درستنمایی بیشینه اشاره کرد.
تاکنون از روشهای برچسبگذاری گوناگونی در زبانهای مختلف استفاده شدهاست. این روشها را میتوان به دو دستهٔ اصلی تقسیمبندی کرد: اولین دسته روشهای آماری است که با استفاده از پیکرههای برچسبخورده انجام میشوند. دستهٔ دوم، روشهای غیرآماری است که با استفاده از یادگیری ماشین، برچسبگذاری را انجام میدهند.
اولین پیکرهٔ بزرگِ ساختهشده برای زبان انگلیسی، پیکرهٔ براون بودهاست. این پیکره در اواسط دههٔ ۱۹۶۰ میلادی در دانشگاه براون ایالات متحده ساخته شد. این پیکره دارای حدود یکمیلیون کلمه (۵۰۰ متنِ تقریباً ۲۰۰۰کلمهای) است که با استفاده از یک برنامه، که دارای فهرستی از برچسبهای مختلف بود، برچسبگذاری شد.
صحّت و درستیِ برچسبگذاری در پیکرهٔ براون ۷۰٪ بود. بعد از آن، خطاها بهصورت دستی در دانشگاه استنفورد ایالات متحده اصلاح شد که باعث بهبود کارایی آن شد.
در اواسط دههٔ ۱۹۸۰ میلادی، محققان در اروپا شروع به استفاده از مدل پنهانِ مارکُف برای ابهامزدایی از برچسبگذاری اجزای کلام کردند.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.