From Wikipedia, the free encyclopedia
یادگیری نیمهنظارتی دستهای از روشهای یادگیری ماشین است که در آن از دادههای بدون برچسب و دادههای برچسبدار به صورت همزمان برای بهبود دقت یادگیری استفاده میشود.
روشهای یادگیری نیمهنظارتی را در یک دستهبندی کلی به دستههای زیر میتوان تقسیم کرد.[1]
در روشهای مولد[2] ابتدا یک مدل پارامتری برای تابع توزیع نقاط (مثلاً توزیع گاوسی) انتخاب میشود که آن را با نشان میدهیم که در آن مدل است. سپس از روی دادههای برچسبدار تخمین زده میشود. احتمال وقوع نقاط با توجه به تابع توزیع هر دسته، بر حسب پارامترهای مدل، به صورت تحلیلی محاسبه میشود. سپس با اعمال قانون بیز میتوان تابع توزیع برچسب در هر نقطه را محاسبه کرد. در روشهای مولد معمولاً هدف بیشینه کردن این احتمال وقوع یا بهطور معادل بیشینه کردن راستنمایی[3] آنها نسبت به پارامترهای مدل است. از روشهای مختلفی میتوان برای بهینهکردن پارامترهای مدل نسبت به میزان راستنمایی استفاده کرد.
در مقابل روشهای مولد، روشهایی که بهطور مستقیم به یادگیری میپردازند یا روشهای تمایزی[4] هستند. توجیهات نظری وجود دارد که نشان میدهد که روشهای مولد نیاز به دادههای بیشتری نسبت به روشهای تمایزی جهت یادگیری دارند. همچنین در عمل روشهای تمایزی موفقتر نشان دادهاند؛ بنابراین تحقیقات روی روشهای مولد کمرنگ بودهاست.
همانطور که گفته شد، فرض خوشه با فرض جداسازی کم چگالی معادل است. با توجه به این نکته میتوان عبارتهای منظمسازی تعریف کرد که وجود مرز طبقهبندی در نقاط پرچگالی را جریمه میکنند. به این ترتیب الگوریتمهای زیادی برای یادگیری نیمهنظارتی مطرح میشوند. معروفترین الگوریتم در این دسته از روشها، الگوریتم TSVM است، که در سال ۱۹۹۸ توسط وپنیک ارائه شد. وپنیک از مفهوم ابعاد VC و قاعدهٔ SRM،[5] برای طراحی یک مسئله بهینهسازی مشابه مسئلهٔ بهینهسازی SVM بهره گرفتهاست. مسئلهٔ بهینهسازی TSVM، مسئلهای پیچیدهاست و تاکنون الگوریتمی کارا برای یافتن جواب بهینهٔ عمومی آن ارائه نشدهاست. روشهای دیگری هم در حوزهٔ استفاده صرف از فرض خوشه استفاده شدهاند که شامل میشوند. همهٔ این روشها در دو خاصیت مشترکند، یکی اینکه برای طبقهبندی طراحی شدهاند و اینکه طراحی آنها حول مفهوم مرز جداساز و اندازه مرز بودهاست.
این روشها در صورتی مؤثر هستند که فرض همواری نیمهنظارتی و فرض خمینه در حالت ضعیف، همزمان برقرار باشد. برای استفاده از فرض خمینه بهطور صریح، باید ساختار خمینه به نحوی بیان شود. یکی از راههای بیان کردن ساختار خمینه در فضای با بعد بالا، استفاده از گرافهای همسایگی است. در گراف همسایگی، رئوس همان نقاط هستند و میان نقاط نزدیک به هم روی خمینه یال با وزن متناسب قرار داده میشود.
در روشهای نیمهنظارتی مبتنی بر گراف،[6] ابتدا گراف همسایگی روی نقاط ساخته میشود، سپس از روشی برای تعیین برچسب نقاط بدون برچسب استفاده میشود. به عبارت دیگر، هر الگوریتم نیمهنظارتی مبتنی بر گراف شامل گامهای کلی زیر است:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.