From Wikipedia, the free encyclopedia
یادگیری درخت تصمیم (به انگلیسی: Decision tree learning) گروهی از الگوریتمهای یادگیری ماشین هستند که در طبقهبندی آماری کاربرد دارند.[1] درختهای تصمیم به گروه الگوریتمهای یادگیری تحت نظارت تعلق دارند و بیشتر آنها بر اساس حداقلسازی کمیتی به نام آنتروپی ساخته میشوند. هرچند توابع دیگری هم برای یادگیری درخت تصمیم وجود دارند.[2][3] نمونههای قدیمی درخت تصمیم تنها قادر به استفاده از متغیرهای گسسته بودند، اما الگوریتمهای جدیدتر هردو نوع متغیر گسسته و پیوسته را در یادگیری به کار میبرند.[2][4] یکی از مزایای مهم الگوریتم درخت تصمیم قابلیت فهم و تفسیر آسان است که محبوبیت این الگوریتم را بالا بردهاست.[2][5][4] از معایب آن عدم استواری و دقت ناکافی است.[4]
یادگیری درخت تصمیم روشی است که بهطور معمول در داده کاوی از آن استفاده میشود. هدف این مدل این است که بتواند مقدار یک متغیر هدف را براساس مقادیر متغیرهای ورودی پیشبینی کند.
یک نمایش ساده از درخت تصمیم در مثال دستهبندی در اینجا آورده شدهاست. در اینجا فرض کنید که مقادیر هر ویژگی ورودیها، دارای دامنه گسسته و محدود باشد. و یک ویژگی هدف به نام «طبقهبند» وجود دارد. به هر عضو در دامنه طبقهبند یک کلاس گفته میشود. درخت تصمیم یا درخت طبقهبندی درختی است که به هر گره داخلی (گرهای که برگ نیست) یکی از ویژگیهای ورودیها برچسب زده شدهاست. یالهای خارج شده از گره داخلی به یک گره برگ برای دستهبندی دادهها یا یک گره داخلی برای دستهبندی دادهها برحسب یک ویژگی دیگر هدایت میشوند. درنهایت، هر گره برگ برحسب یکی از مقادیر در دامنه طبقهبند برچسب زده میشوند و همه دادههایی که در آن گره قرار بگیرند، به عنوان عضو آن کلاس پیشبینی خواهند شد.
روند ایجاد درخت تصمیم از تقسیم کردن مجموعه تمام دادههای در دسترس (که در واقع ریشه درخت را تشکیل میدهند)، به زیر مجموعههایی (که به هر گره فرزند تبدیل میشوند) است. شرایط تقسیم کردن دادههای هر گره به گرههای فرزند آن براساس یک شرط تقسیمبندی در هر گره داخلی خواهد بود. تقسیم کردن هر گره بدست آمده به گرههای فرزند آن در یک روند بازگشتی انجام خواهد گرفت که به آن تقسیمبندی بازگشتی نیز گفته خواهد شد. این تقسیمبندی تا زمانی ادامه پیدا خواهد کرد که دادههای در هر گره برگ متعلق به یک کلاس باشند یا زمانی که دیگر ویژگیای برای تقسیم گردن دادههای در یک گره وجود نداشته باشد. به این فرایند القای درخت تصمیم از بالا به پایین[6] گفته میشود که یک مثال از الگوریتمی حریصانه است.
دادههای در درخت تصمیم بهطور معمول به شکل زیر هستند:
که متغیر مستقل و همان متغیر هدف است و بردار یک بردار بعدی است که شامل مقدار ویژگیهای است.
درختان تصمیم علاوه بر دستهبندی دادهها، همچنین میتوانند در مسئله رگرسیون نیز استفاده شوند، به این صورت که خروجی درخت تصمیم به جای شماره کلاس داده، یک مقدار عددی پیوسته برای پیشبینی کردن مقدار متغیر هدف براساس مقادیر ویژگی دادههای ورودی باشد.
درختهای تصمیم ممکن است متریکهای متفاوتی برای یادگیری استفاده کنند. از رایجترین این متریکها میتوان به آنتروپی (یا افزایش اطلاعات) و شاخص جینی اشاره کرد.[1][2]
شاخص تنوع جینی[7] در الگوریتم CART (درخت طبقهبندی و رگرسیون) برای ایجاد درخت تصمیم استفاده میشود. ناخالصی جینی (نامگذاری شده بعد از ریاضیدان ایتالیایی کورادو جینی) اندازهگیری میکند که با چه احتمالی یک عنصر از یک مجموعه میتواند به اشتباه برچسبگذاری (دستهبندی) شود اگر که دستهبندی عناصر در مجموعه بهطور تصادفی براساس یک توزیع احتمال انجام شده باشد. ناخالصی جینی را میتوان با جمع کردن احتمالهای برای یک عنصر که برچسب برای آن انتخاب شده در احتمال دستهبندی اشتباه آن که برابر است با کمترین مقدار ممکن برای این متریک برابر صفر است که در این حالت تمام المانهای در یک مجموعه به یک کلاس تعلق دارند.
برای اینکه مقدار ناخالصی جینی را برای یک مجموعه از المانها با کلاس که که و نسبتی از دادهها باشد که با برچسب i در این مجموعه برچسب زده شدهاند:
افزایش اطلاعات (به انگلیسی: Information gain) یکی از متریکهای یادگیری درخت تصمیم است که بر اساس آنتروپی بوده و به شکل زیر فرموله میشود:
که در آن کسرهایی هستند که مجموعشان برابر با ۱ است و نشانگر درصدهای هر کلاس در گره فرزند پس از تقسیم هستند.
بدین ترتیب افزایش اطلاعات حاصل در سیستم از تقسیم یک گره به صورت تفریق آنتروپی سیستم پیش و پس از تقسیم (یعنی آنتروپی والد منهای آنتروپی فرزند) به شکل زیر محاسبه میشود:
یادگیری درخت به این شکلست که ابتدا متغیری که بیشترین تغییر در آنتروپی را ایجاد میکند (یا بیشترین افزایش اطلاعات را دارد) انتخاب میشود و مجموعه داده بر اساس این متغیر تقسیم میشود. سپس همین عمل برای هرکدام از زیرمجموعههای ایجاد شده تکرار میشود و تا جایی ادامه پیدا میکند که زیرمجموعههای بدست آمده از حداقلی از خلوص برخوردار باشند.[1] بنابراین ترتیب متغیرها در ساختار یک درخت تصمیم نشانگر میزان اطلاعات نهفته در آنهاست.[2]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.