From Wikipedia, the free encyclopedia
یادگیری نظارتشده (یادگیری با دادههای برچسبدار) یک وظیفه یادگیری ماشینی از یادگیری تابعی است که ورودی را به یک خروجی براساس نمونههای ورودی و خروجی ترسیم میکند.[1] این یک تابع را از مجموعه آموزشی برچسب زده شده شامل مجموعه ای از مثالهای آموزشی استنباط کند.[2] در یادگیری نظارت شده، هر مثال یک جفت متشکل از ورودی (بهطور معمول یک بردار) و یک مقدار خروجی دلخواه (سیگنال نظارتی نیز نامیده میشود) است. یک الگوریتم یادگیری نظارت شده دادههای آموزش را تجزیه و تحلیل میکند و یک تابع استنباط شده تولید میکند، که میتواند برای نگاشت نمونههای جدید استفاده شود. یک سناریو بهینه این امکان را برای الگوریتم فراهم میکند تا برچسبهای کلاس را برای موارد دیده نشده به درستی تعیین کند. این امر مستلزم این است که الگوریتم یادگیری از دادههای آموزش به شرایط دیده نشده به روش «معقول» تعمیم یابد.
وظیفه موازی در روانشناسی انسان و حیوان اغلب به عنوان یادگیری مفهومی شناخته میشود.
برای حل مسئله یادگیری تحت نظارت، باید مراحل زیر را انجام دهید:
طیف گستردهای از الگوریتمهای یادگیری تحت نظارت در دسترس است که هرکدام دارای نقاط قوت و ضعف هستند. هیچ الگوریتم یادگیری واحدی وجود ندارد که در تمام مسائل یادگیری تحت نظارت به بهترین وجه کار کند (به قضیه بدون نهار رایگان مراجعه کنید)
در یادگیری تحت نظارت چهار موضوع اصلی وجود دارد که باید در نظر گرفته شود:
اولین مسئله، تعادل بین بایاس و واریانس است.[3] تصور کنید که ما چندین مجموعه آموزش مختلف، اما به همان اندازه خوب، در دسترس داریم. یک الگوریتم یادگیری برای ورودی خاص بایاس است هنگامی که روی هر یک از این مجموعه دادهها آموزش داده میشود، بهطور سیستماتیک هنگام پیشبینی خروجی صحیح نادرست باشد. الگوریتم یادگیری از واریانس بالایی برخوردار است اگر برای ورودی خاص مقادیر خروجی مختلفی را پیشبینی کند هنگامی که بر روی مجموعههای آموزشی مختلفی آموزش دیدهاست. خطای پیشبینی یک طبقهبندی یادگرفته شده مربوط به مجموع بایاس و واریانس الگوریتم یادگیری است.[4] بهطور کلی، بین بایاس و واریانس تعادلی وجود دارد. یک الگوریتم یادگیری با بایاس کم باید «انعطافپذیر» باشد تا بتواند دادهها را به خوبی برازش کند. اما اگر الگوریتم یادگیری بیش از حد انعطافپذیر باشد، متناسب با هر مجموعه داده آموزشی خواهد بود و از این رو واریانس بالایی دارد. یک جنبه اصلی بسیاری از روشهای یادگیری تحت نظارت این است که آنها میتوانند این تعادل را بین بایاس و واریانس (به صورت خودکار یا با ارائه پارامتر بایاس / واریانس که کاربر میتواند تنظیم کند) تنظیم کنند.
مسئله دوم، میزان دادههای آموزشی موجود در رابطه با پیچیدگی عملکرد «واقعی» (طبقهبندی یا تابع رگرسیون) است. اگر تابع واقعی ساده باشد، یک الگوریتم یادگیری «انعطافناپذیر» با بایاس بالا و واریانس کم قادر به یادگیری آن از طریق مقدار کمی داده خواهد بود. اما اگر تابع واقعی بسیار پیچیده باشد (به عنوان مثال، شامل تعاملات پیچیدهای بین بسیاری از ویژگیهای مختلف ورودی باشد و در قسمتهای مختلف فضای ورودی متفاوت رفتار کند)، در این صورت عملکرد فقط قادر خواهد بود از مقدار بسیار زیادی از دادههای آموزش بیاموزد و استفاده از الگوریتم یادگیری «انعطافپذیر» با بایاس کم و واریانس زیاد. بین ورودی و خروجی مورد نظر یک مرز مشخص وجود دارد.
مسئله سوم، ابعاد فضای ورودی است. اگر بردارهای ویژگی ورودی ابعاد بسیار بالایی داشته باشند، مسئله یادگیری میتواند دشوار باشد حتی اگر تابع واقعی فقط به تعداد کمی از آن ویژگیها بستگی داشته باشد، این بدان دلیل است که بسیاری از ابعاد «اضافی» میتوانند الگوریتم یادگیری را گمراه و باعث واریانس زیاد آن شوند. از این رو، ابعاد ورودی بالا معمولاً نیاز به تنظیم طبقهبندی دارد تا دارای واریانس کم و بایاس زیاد باشد. در عمل، اگر مهندس بتواند بهطور دستی ویژگیهای نامربوط را از دادههای ورودی حذف کند، این امر احتمالاً عملکرد تابع یادگرفته شده را بهبود میبخشد. علاوه بر این، الگوریتمهای زیادی برای انتخاب ویژگی وجود دارد که به دنبال شناسایی ویژگیهای مربوط و کنار گذاشتن موارد بی ربط هستند. این نمونه ای از استراتژی کلی تر کاهش ابعاد است که میخواهد دادههای ورودی را قبل از اجرای الگوریتم یادگیری تحت نظارت، در یک فضای با ابعاد پایینتر ترسیم کند.
مسئله چهارم میزان اختلال در مقادیر خروجی مورد نظر (متغیرهای هدف نظارتی) است. اگر مقادیر خروجی مورد نظر اغلب نادرست باشند (به دلیل خطاهای انسانی یا خطاهای حسگر)، الگوریتم یادگیری نباید تلاش کند تابعی را پیدا کند که دقیقاً با نمونههای آموزش مطابقت داشته باشد. تلاش برای برازش داده خیلی دقیق منجر به بیش برازش خواهد شد. اگر تابعی که سعی در یادگیری آن دارید برای مدل یادگیری شما بسیار پیچیدهاست، حتی در صورت عدم وجود خطای اندازهگیری (اختلال تصادفی) میتوانید دچار پیش برازش شوید. در چنین شرایطی، بخشی از تابع هدف که نمیتواند مدلسازی شود، داده آموزش شما را خراب میکند - این پدیده را اختلال قطعی مینامند. وقتی هر دو نوع نویز وجود دارد، بهتر است با برآوردگر بابایاس بالاتر و واریانس پایینتر را انتخاب کنید.
در عمل، روشهای مختلفی برای کاهش اختلال در مقادیر خروجی وجود دارد مانند توقف زود هنگام برای جلوگیری از بیش برازش و همچنین شناسایی و حذف نمونههای آموزش پر اختلال قبل از آموزش الگوریتم یادگیری نظارت شده. چندین الگوریتم وجود دارد که نمونههای آموزش پر اختلال را شناسایی میکند و حذف نمونههای آموزش پر اختلال مشکوک قبل از آموزش باعث کاهش خطای تعمیم با اهمیت آماری شدهاست.[5]
از دیگر فاکتورهایی که هنگام انتخاب و استفاده از الگوریتم یادگیری باید در نظر گرفت، موارد زیر است:
هنگام بررسی یک برنامه جدید، مهندس میتواند چندین الگوریتم یادگیری را با هم مقایسه کند و بهطور آزمایشی تعیین کند که کدام یک روی مسئله مورد نظر بهتر کار میکند (به اعتبار سنجی متقابل مراجعه کنید). تنظیم عملکرد یک الگوریتم یادگیری میتواند بسیار وقت گیر باشد. با توجه به منابع ثابت، معمولاً بهتر است بیشتر از صرف وقت اضافی برای تنظیم الگوریتمهای یادگیری، وقت بیشتری را برای جمعآوری دادههای آموزش اضافی و ویژگیهای آموزنده بیشتر صرف کنید.
پرکاربردترین الگوریتمهای یادگیری عبارتند از:
با توجه به مجموعه ای از نمونههای آموزشی فرم به طوری که بردار ویژگی مثال i ام است و برچسب آن است (به عنوان مثال، کلاس)، یک الگوریتم یادگیری به دنبال یک تابع است ، جایی که فضای ورودی است و فضای خروجی است. تابع عنصری از برخی از توابع احتمالی است ، معمولاً فضای فرضیه نامیده می شود. گاهی راحت است که را با استفاده از یک تابع امتیازدهی به طوری که به عنوان برگرداننده تعریف میشود به طوری که که بالاترین امتیاز را میدهد: . اجازه دهید فضای توابع امتیازدهی را نشان دهد.
با اینکه و میتواند هر فضایی از توابع باشد، بسیاری از الگوریتمهای یادگیری مدلهای احتمالی هستند به شکل یک مدل احتمال شرطی در میآید، یا به شکل یک مدل احتمال مشترک در میآید. به عنوان مثال، بیز ساده و تحلیل تفکیکی خطی مدلهای احتمال مشترک هستند، در حالی که رگرسیون لجستیک یک مدل احتمال شرطی است.
دو روش اساسی برای انتخاب یا وجود دارد: به حداقل رساندن ریسک تجربی و به حداقل رساندن ریسک ساختاری.[6] به حداقل رساندن ریسک تجربی به دنبال تابعی است که به بهترین شکل دادههای آموزش را برازش کند. به حداقل رساندن ریسک ساختاری شامل یک تابع مجازات است که تعادل بایاس / واریانس را کنترل میکند.
در هر دو مورد، فرض بر این است که مجموعه آموزش شامل یک نمونه از جفتهای مستقل و توزیع شده یکسان است ، . برای اندازهگیری اینکه یک تابع چقدر متناسب با دادههای آموزش برازش داده شده، یک تابع هزینه تعریف شدهاست. برای آموزش نمونههای ، تابع هزینه برای پیشبینی مقدار برابراست با .
ریسک از تابع به عنوان هزینه مورد انتظار تعریف میشود. این را میتوان از طریق دادههای آموزش به صورت زیر تخمین زد
در به حداقل رساندن ریسک تجربی، الگوریتم یادگیری نظارت شده تابع که را به حداقل میرساند جستجو میکند. از این رو، میتوان با به کار بردن الگوریتم بهینهسازی برای یافتن ، یک الگوریتم یادگیری نظارت شده ساخت.
زمانی که توزیع احتمال شرطی است و تابع هزینه منفی لگاریتم
درست نمایی است: ، به حداقل رساندن ریسک تجربی معادل برآورد درست نمایی بیشینه است.
زمانی که شامل بسیاری از توابع است یا مجموعه آموزش به اندازه کافی بزرگ نیست، به حداقل رساندن ریسک تجربی منجر به واریانس بالا و تعمیم ضعیف میشود. الگوریتم یادگیری قادر است بدون تعمیم خوب، نمونههای آموزش را به خاطر بسپارد. این اصطلاحاً را بیش برازش میگویند.
به حداقل رساندن ریسک ساختاری با در نظر گرفتن مجازات قاعده مند سازی در بهینهسازی، به دنبال جلوگیری از بیش برازش است. مجازات قاعده مند شدن را میتوان نوعی تیغ اوکام دانست که تابعهای سادهتر را نسبت به تابعهای پیچیده ترجیح میدهد.
مجازاتهای بسیار متنوعی استفاده شدهاست که با تعاریف مختلف پیچیدگی مطابقت دارد. به عنوان مثال، موردی را در نظر بگیرید که تابع است یک تابع خطی از فرم است
یکی از مجازات قاعده مند سازی مشهور است، که هنجار اقلیدسی توزین شده وزنها است که به آن نرم نیز میگویند نرمهای دیگر عبارتند از نرم ، ، و نرم ، که تعداد غیر صفر
ها است مجازات با نشان داده خواهد شد.
مسئله بهینهسازی یادگیری تحت نظارت، یافتن تابع است که مقدار زیر را حداقل میرساند
پارامتر تعادل بین واریانس و بایاس را کنترل میکند. زمانی که ، به مسئله به حداقل رساندن ریسک تجربی با تعصب کم و واریانس بالا میانجامد. چه زمانی بزرگ است، الگوریتم یادگیری تعصب زیاد و واریانس کم خواهد داشت. مقدار را میتوان از طریق اعتبار سنجی متقابل بهصورت تجربی انتخاب کرد.
پیچیدگی مجازات دارای یک تفسیر بیزی به عنوان منفی لگاریتم احتمال دارد ، ، که در این صورت احتمال خلفی است.
روشهای آموزشی که در بالا توضیح داده شد، روشهای آموزش افتراقی هستند، زیرا آنها به دنبال یافتن تابع هستند که بین مقادیر مختلف خروجی تمایز خوبی ایجاد میکند (به مدل افتراقی مراجعه کنید). برای مورد خاص که در آن یک توزیع احتمال توأم است و تابع هزینه منفی لگاریتم
درست نمایی است الگوریتم به حداقل رساندن ریسک برای انجام آموزش تولیدی انجام می شود، زیرا میتواند به عنوان یک مدل مولد در نظر گرفته شود که نحوه تولید داده را بیان میکند. الگوریتمهای آموزش مولد اغلب سادهتر و از نظر محاسباتی کارآمدتر از الگوریتمهای آموزش افتراقی هستند. در بعضی موارد، میتوان محلول را به صورت بسته همانند بیز ساده و تحلیل تفکیک خطی محاسبه کرد.
روشهای مختلفی وجود دارد که میتواند مسئله یادگیری نظارت شده استاندارد را تعمیم دهد:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.