Loading AI tools
З Вікіпедії, вільної енциклопедії
У машинному навчанні, ймові́рнісний класифіка́тор (англ. probabilistic classifier) — це класифікатор, здатний для заданого зразка входу передбачувати розподіл імовірності над множиною класів, а не просто видавати найправдоподібніший клас, до якого повинен був би належати цей зразок. Імовірнісні класифікатори забезпечують класифікацію зі ступенем упевненості, що може бути корисним як саме по собі,[1] так і при поєднанні класифікаторів у ансамблі.
Формально, «звичайний» класифікатор є якимось правилом або функцією, яка призначає зразкові x мітку класу ŷ:
Зразки походять із якоїсь множини X (наприклад, множини всіх документів, або множини всіх зображень), тоді як мітки класів формують скінченну множину Y, визначену до тренування.
Ймовірнісні ж класифікатори узагальнюють це поняття класифікаторів: замість функцій, вони є умовними розподілами , що означає, що для заданого вони призначають імовірності всім (і ці ймовірності дають у сумі одиницю). «Жорстка» класифікація тоді може здійснюватися шляхом застосуванням правила оптимального рішення[2]
або, українською, передбачуваний клас є тим, який має найвищу ймовірність.
Бінарні ймовірнісні класифікатори в статистиці також називають біноміальною регресією[en]. В економетрії ймовірнісну класифікацію в цілому називають дискретним вибором.
Деякі моделі класифікації, такі як наївний баєсів класифікатор, логістична регресія та багатошарові перцептрони (при тренуванні за відповідної функції втрат) є природно ймовірнісними. Інші моделі, такі як опорно-векторні машини, такими не є, але існують методи перетворення їх на ймовірнісні класифікатори.
Деякі моделі, такі як логістична регресія, є тренованими обумовлювально: вони оптимізують на тренувальному наборі безпосередньо умовну ймовірність (див. мінімізацію емпіричного ризику). Інші класифікатори, такі як наївний баєсів, тренуються породжувально: під час тренування знаходяться розподіл обумовлення класами та апріорне класів , а умовний розподіл виводиться через правило Баєса.[2]
Не всі класифікаційні моделі є природно ймовірнісними, а деякі, які є, зокрема, наївні баєсові класифікатори, дерева рішень та методи підсилювання, виробляють спотворені розподіли ймовірностей класів.[3] У випадку дерев рішень, де Pr(y|x) є пропорцією тренувальних зразків з міткою y у листку, де закінчується x, ці спотворення виникають тому, що алгоритми навчання, такі як C4.5 або CART[ru], явно спрямовані на вироблення гомогенних листків (даючи ймовірності, близькі до нуля або одиниці, й відтак високий зсув) при одночасному використанні незначної кількості зразків для оцінки доречної пропорції (висока дисперсія).[4]
Для класифікаційних моделей, які виробляють на своїх виходах якогось роду «бал» (такий як спотворений розподіл імовірності, або «знак відстані до гіперплощини» в опорно-векторній машині), існує кілька методів, які перетворюють ці бали на правильно відкалібровані[en] ймовірності приналежності до класів.
Для бінарного випадку загальний підхід полягає в застосуванні масштабування Платта[en], яке навчається моделі логістичної регресії на балах.[5] Альтернативний метод із застосуванням ізотонічної регресії[en],[6] як правило, перевершує метод Платта, коли доступно достатньо тренувальних даних.[3]
У багатокласовому[en] випадку можна використовувати зведення до бінарних задач з наступним одновимірним калібруванням за описаним вище алгоритмом, і подальшим застосуванням алгоритму попарного з'єднання Гасті та Тібширані.[7]
До часто вживаних функцій втрат для ймовірнісної класифікації належать лог-втрати[en] та середньоквадратична похибка між передбаченими та справжніми розподілами ймовірності. Перша з них зазвичай використовується для тренування логістичних моделей.
Метод, який використовується для призначення балів парам передбачених імовірностей та фактичних результатів розподілів, так, що різні передбачувальні методи можна порівнювати, називається оцінювальним правилом[en].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.