آموزش، اعتبارسنجی و مجموعه‌های آزمایشی

در بحث یادگیری ماشین، مطالعه و ساخت الگوریتم‌هایی که می‌تواند بر اساس مجموعه داده، یادگیری و پیشگیری کند، مرسوم است.^[1] این الگوریتم‌ها از طریق پیش‌بینی یا تصمیم‌گیری مبتنی بر داده، از طریق ساختن یک مدل ریاضی بر اساس داده‌های ورودی عمل می‌کنند.

داده‌های مورد استفاده برای ساخت مدل نهایی معمولاً از مجموعه داده‌های متعدد تهیه می‌شود. به‌طور خاص، معمولاً از سه مجموعه داده در مراحل مختلف ایجاد مدل، استفاده می‌شود.

این مدل در ابتدا بر روی یک مجموعه داده آموزشی ساخته می‌شود، تا یا استفاده از مجموعه ای از مثالها، توانایی متناسب کردن پارامترهای مدل فراهم شود. (به عنوان مثال وزن اتصالات بین سلولهای عصبی در شبکه‌های عصبی مصنوعی) این مدل (به عنوان مثال یک شبکه عصبی) با استفاده از یک روش یادگیری نظارت شده، مانند روش‌های بهینه‌سازی همچون نزول گرادیان یا نزول شیب تصادفی، روی مجموعه داده‌های آموزشی، آموزش داده می‌شود. در عمل، مجموعه داده‌های آموزشی اغلب متشکل از جفت‌های یک بردار ورودی (یا اسکالر) و بردار خروجی مربوطه (یا اسکالر) است، جایی که کلید پاسخ معمولاً به عنوان متغیر هدف (یا برچسب) نشان داده می‌شود. مدل فعلی از روی مجموعه داده‌های آموزشی ساخته می‌شود و برای هر بردار ورودی در مجموعه داده‌های آموزشی، نتیجه ای حاصل می‌شود که سپس با هدف مقایسه می‌شود. پارامترهای مدل، بر اساس نتیجه مقایسه و الگوریتم یادگیری خاص مورد استفاده، تنظیم می‌شوند. نتیجه به دست آمده مدل می‌تواند شامل انتخاب متغیر و برآورد پارامتر باشد.

به‌طور پیوسته، از مدل ساخته شده بر اساس مجموعه داده، برای پیش‌بینی نتایج مشاهدات در یک مجموعه داده دوم به نام مجموعه داده اعتبار سنجی استفاده می‌شود. مجموعه داده‌های اعتبارسنجی، ارزیابی بی طرفانه ای از مدل ساخته شده متناسب که بر روی مجموعه داده‌های آموزشی، در زمان تنظیم مدل ابرپارامترها ارایه می‌دهد.^[2] (به عنوان مثال تعداد واحدهای پنهان در یک شبکه عصبی). مجموعه داده‌های اعتبار سنجی را می‌توان برای منظم سازی با توقف زودهنگام استفاده کرد. (متوقف کردن آموزش هنگامی که خطای مجموعه داده اعتبار سنجی افزایش می‌یابد، استفاده می‌شود، زیرا این نشانه بیش برازش است). این مراحل در عمل با پیچیدگی‌هایی مواجه است که ناشی از نوسان میزان خطا در مجموعه اعتبار سنجی است. این پیچیدگی موجب به وجود آمدن قوانینی مبتنی بر هدف است که این قوانینی می‌تواند تصمیم بگیرد آیا بیش برازش اتفاق افتاده‌است یا خیر.

سرانجام، مجموعه داده آزمایشی مجموعه داده‌ای است که برای ارائه ارزیابی بی طرفانه از مدل نهایی متناسب با مجموعه داده‌های آموزشی استفاده می‌شود.^[2] اگر داده‌های مجموعه داده‌های آزمایشی هرگز در آموزش استفاده نشده باشد، (به عنوان مثال در اعتبارسنجی متقابل)، مجموعه داده‌های آزمون نیز مجموعه داده‌های نگهداری نامیده می شود.

[1]

[2]