دستهبندیکننده بیز ساده (به انگلیسی: Naive Bayes classifier) در یادگیری ماشین به گروهی از دستهبندیکنندههای ساده بر پایه احتمالات گفته میشود که با فرض استقلال متغیرهای تصادفی و براساس قضیه بیز ساخته میشوند. بهطور ساده روش بیز روشی برای دستهبندی پدیدهها، بر پایه احتمال وقوع یا عدم وقوع یک پدیده است. این روش از سادهترین الگوریتمهای پیشبینی است که دقت قابل قبولی هم دارد.[1][2] دقت آن را میتوان با استفاده از برآورد چگالی کرنل به صورت قابل توجهی بالا برد. شیوه یادگیری در روش بیز ساده از نوع یادگیری با نظارت است.[1][2] این روش در دهه ۱۹۶۰ در میان دانشمندان بازیابی اطلاعات توسعه یافت و هنوز هم از روشهای محبوب در دستهبندی اسناد بهشمار میآید.
بیز ساده فرض را بر استقلال متغیرهای پیشبینی میگذارد از این رو بیز ساده یا بیز سادهلوح خوانده میشود.[2] برای نمونه در مسئله پیشبینی یک میوه (این میوه مثلاً ممکن است پرتقال باشد) اگر میوه نارنجی و کروی با شعاع حدود ده سانتیمتر باشد و به شرطی که این احتمالات به درستی از همدیگر مستقل باشند بیز ساده در تشخیص اینکه این میوه پرتقال است یا نه بهدرستی عمل خواهد کرد.
برنامههای کاربردی بسیاری هستند که پارامترهای نایو بیز را تخمین میزنند، بنابراین افراد بدون سروکار داشتن با تئوری بیز میتوانند از این امکان به منظور حل مسایل مورد نظر بهره ببرند. با وجود مسائل طراحی و پیش فرضهایی که در خصوص روش بیز وجود دارد، این روش برای طبقهبندی کردن بیشتر مسایل در جهان واقعی، مناسب است.
اگر متغیر ورودی داشته باشیم یعنی و خروجی از یک مجموعه عضوی باشد، هدف از مدلسازی پیدا کردن احتمال مشروط هر کدام از این دسته است یعنی . طبق قانون بیز این احتمال برابر است با[3]
به عبارت دیگر احتمال مشروط به توزیع توأم و بستگی دارد. طبق قانون زنجیرهای این توزیع توأم برابر است با:
حال اگر فرض کنیم هر متغیری نسبت به متغیرهای دیگر به شرط دسته مستقل است یعنی به نتیجه پایین میرسیم:
با نرمالسازی عبارت قبلی میتوان توزیع احتمال مشروط را پیدا کرد، در معادله پایین همان ضریب نرمالسازی است:
اگر هدف پیدا کردن محتملترین دسته باشد، به ضریب نرمالسازی یعنی نیازی نیست:
تخمین پارامترها
برای مدلسازی دستهبندیکننده بیز ساده برای تمام ها به تخمین و نیاز داریم. به سادگی با حساب درصد دادههایی که متعلق به کلاس هستند بدست میآید. برای بدست آوردن راههای مختلفی وجود دارد، تخمین توزیع چند جملهای یا توزیع طبیعی روشهایی متداول برای این کار هستند.[4]
در روش تخمین توزیع طبیعی، را با یک توزیع طبیعی با میانگین و واریانس تخمین میزنیم و و را از طریق درست نمایی بیشینه بدست میآوریم:
اگر گسسته باشد، توزیع را میتوان با یک توزیع چند جملهای تخمین زد.[4]
بازی گلف
در این مثال دادههایی از شخصی داریم که به ما میگوید که در شرایط مختلف آب و هوایی این شخص گلف بازی میکند یا خیر.[5]
اطلاعات بیشتر آب و هوا, دما ...
آب و هوا |
دما |
رطوبت |
طوفانی |
بازی میکند؟ |
بارانی |
گرم |
زیاد |
خیر |
خیر |
بارانی |
گرم |
زیاد |
بله |
خیر |
ابری |
گرم |
زیاد |
خیر |
بله |
آفتابی |
معتدل |
زیاد |
خیر |
بله |
آفتابی |
سرد |
متوسط |
خیر |
بله |
آفتابی |
سرد |
متوسط |
بله |
خیر |
ابری |
سرد |
متوسط |
بله |
بله |
بارانی |
معتدل |
زیاد |
خیر |
خیر |
بارانی |
سرد |
متوسط |
خیر |
بله |
آفتابی |
معتدل |
متوسط |
خیر |
بله |
بارانی |
معتدل |
متوسط |
بله |
بله |
ابری |
معتدل |
زیاد |
بله |
بله |
ابری |
گرم |
متوسط |
خیر |
بله |
آفتابی |
معتدل |
زیاد |
بله |
خیر |
بستن
دستهبندیکننده با استفاده از این دادهها به جداول زیر میرسد. در هر جدول احتمال شرایط مختلف آب و هوایی به شرط این که شخص گلف بازی کند یا نکند آمده است.
فرض کنید هوا بارانی، طوفانی، سرد و مرطوب باشد. حال میخواهیم مشخص کنیم که این شخص گلف بازی میکند یا خیر. فرض کنید معادل بارانی بودن، معادل طوفانی بودن، معادل سرد بودن و معادل مرطوب بودن باشد. همچنین معادل بازی کردن و معادل بازی نکردن باشد. در این صورت داریم
پس دستهبندیکننده برچسب را انتخاب خواهد کرد. در نتیجه شخص با این شرایط گلف بازی نخواهد کرد.
تحقیقاتی در سال ۲۰۰۴ دلایل نظریهای برای رفتارهای غیر منطقی بیز مطرح کرد و همچنین در سال ۲۰۰۶ مشاهدات فراگیری به منظور مقایسه این روش با سایر روشهای طبقهبندی مانند boosted trees و جنگل تصادفی (random forests) انجام شد که بر کارا بودن این روش صحه گذاشتند.
از مزایای این روش میتوان به موارد زیر اشاره کرد:[6]
- دستهبندی کردن دادههای آزمایشی آسان و سریع است. همچنین زمانی که تعداد دستهها از دو بیشتر باشد نیز عملکرد خوبی از خودش نشان میدهد.
- تا زمانی که شرط مستقل بودن برقرار باشد، یک دستهبندیکننده بیز ساده عملکرد بهتری نسبت به مدلهای دیگر مانند رگرسیون لجستیک دارد و به حجم آموزش کمی نیاز دارد.
- در حالتی که ورودیهایمان دستهبندی شده باشند این روش عملکرد بهتری نسبت به حالی دارد که ورودیهایمان عدد باشند. برای حالتی که ورودی عدد باشد معمولاً فرض میشود که از توزیع نرمال پیروی میکنند. (که فرض قویای است)
علاوه بر مزایایی که این دستهبندیکننده دارد معایبی نیز دارد، از جمله:
- در صورتی که ورودیمان دستهبندی شده باشد و در مرحلهٔ یادگیری دستهای وجود داشته باشد که دستهبندیکننده هیچ دادهای از آن دسته مشاهده نکرده باشد، دستهبندیکننده احتمالی برابر صفر برای آن دسته در نظر میگیرد و قادر به دستهبندی کردن نخواهد بود. برای حل این مشکل میتوان از تکنیکهای هموارسازی مانند تخمینگر لاپلاس استفاده کرد.
- یکی دیگر از معایب این دستهبندیکننده این است که دستیابی به شرط مستقل بودن در دنیای واقعی تقریباً غیرممکن است.