Loading AI tools
алгоритм, що використовується в розпізнаванні образів для класифікації об’єктів З Вікіпедії, вільної енциклопедії
Ме́тод k-найбли́жчих сусі́дів (англ. k-nearest neighbor method) — це непараметричний[en] метод керованого навчання, вперше розроблений Евеліном Фіксом[en] та Джозефом Ходжесом[en] у 1951 році[1], а пізніше розвинутий Томасом Ковером[2]. Метод використовується як для класифікації, так і для регресії. В обох випадках вхідні дані складаються з k найближчих навчальних прикладів у наборі даних. Результат залежить від того, для чого використовується k-НС для класифікації чи регресії:
k-НС — це тип класифікації, де функція локально лише апроксимується, а всі обчислення відкладаються до оцінки функції. Оскільки цей алгоритм покладається на функцію відстані для класифікації, то у випадку, коли ознаки представляють різні фізичні одиниці або мають дуже різні масштаби, то нормалізація[en] навчальних даних може значно підвищити їх точність[3][4].
Як для класифікації, так і для регресії, корисним може бути призначення вагових значень внеску сусідів, щоб внесок у середнє у найближчих сусідів був більше, ніж у віддалених. Для прикладу, загальна схема зважування полягає в тому, щоб надати кожному сусіду вагу 1/d, де d — відстань до сусіда[5].
Сусіди беруться з множини об'єктів, для яких відомий клас (у випадку k-НС класифікації) або значення властивості об'єкта (у випадку k-НС регресії). Це можна розглядати як навчальний набір для алгоритму, хоча ніякого явного кроку навчання не потрібно виконувати.
Особливістю алгоритму k-НС є те, що він чутливий до локальної структури даних.
Припустимо, у нас є пари , які приймають значення в множині , де Y — мітка класу точки X, отже для (і розподілів ймовірностей ). Для заданої норми на і точки , послідовність буде таким переупорядкуванням навчальних даних, що .
Навчальними прикладами є вектори багатовимірного ознакипростору ознак, кожен має мітку класу. Фаза навчання алгоритму складається лише із збереження векторів ознак і міток класів навчальних вибірок.
На етапі класифікації k є визначеною користувачем константою, а немаркований вектор (запит або тестова точка) класифікується шляхом призначення мітки, яка є найбільш поширеною серед k навчальних вибірок, найближчих до цієї точки запиту.
Часто використовуваною метрикою відстані для неперервних змінних є евклідова відстань. Для дискретних змінних, наприклад, для класифікації тексту, можна використовувати інший показник, наприклад метрику перекриття (або відстань Геммінга). У контексті мікромасивів даних експресії генів, наприклад, k-НС використовувався з коефіцієнтами кореляції, такими як Пірсон і Спірмен, у якості метрики[6]. Часто точність класифікації k-НС можна значно підвищити, якщо навчатися функції відстані за допомогою спеціалізованих алгоритмів, таких як найближчий сусід з великим полем[en] або аналіз компонентів сусідства[en].
Основна проблема при класифікації за допомогою «голосування більшості» трапляється, коли розподіл класів перекошений. Тобто, приклади більш частого класу, як правило, домінують у передбаченні нового прикладу, оскільки вони, як правило, поширені серед k найближчих сусідів через їх велику кількість[7]. Одним із способів подолання цієї проблеми є зважування класифікації, беручи до уваги відстань від контрольної точки до кожного з її k найближчих сусідів. Клас (або значення в задачах регресії) кожної з k найближчих точок множиться на вагу, пропорційну оберненій відстані від цієї точки до контрольної точки. Іншим способом подолання перекосу є абстракція у представленні даних. Наприклад, у самоорганізаційній карті Кохонена (СКК) кожен вузол є представником (центром) кластера подібних точок, незалежно від їх щільності в вихідних навчальних даних. Потім k-НС можна застосувати до СКК.
Найкращий вибір k залежить від даних; загалом, більші значення k зменшують вплив шуму на класифікацію[8], але роблять границі між класами менш чіткими. Гарне значення k можна вибрати різними евристичними методами (див. оптимізація гіперпараметрів). Окремий випадок, коли клас прогнозу є класом найближчої навчальної вибірки (тобто, коли k = 1), називається алгоритмом найближчого сусіда.
Точність алгоритму k-НС може бути значно погіршена через наявність шумних або невідповідних ознак, або якщо масштаби ознак не відповідають їх важливості. Багато дослідницьких зусиль було зосереджено на виборі або масштабуванні ознак для покращення класифікації. Особливо популярний підхід — це використання еволюційних алгоритмів для оптимізації масштабування ознак[9]. Іншим популярним підходом є масштабування функцій за допомогою взаємної інформації навчальних даних із навчальними класами.
У задачах бінарної (два класи) класифікації корисно вибрати k як непарне число, оскільки це дозволяє уникнути ситуації коли голоси можуть бути рівними (цього можна уникнути, якщо при рівній кількості голосів брати до уваги відстань до точок). Одним із популярних способів вибору емпірично оптимального k в цьому параметрі є метод бутстрепінгу[10].
Найбільш інтуїтивно зрозумілим класифікатором типу найближчого сусіда є той класифікатор найближчого сусіда, який призначає точці x клас свого найближчого сусіда в просторі ознак, тобто .
Оскільки розмір навчального набору даних наближається до нескінченності, класифікатор одного найближчого сусіда гарантує коефіцієнт помилок, який не перевищує подвійну частоту помилок Байєса[en] (мінімально досяжний рівень помилок з урахуванням розподілу даних).
Класифікатор k найближчих сусідів можна розглядати як присвоєння k найближчим сусідам ваги , а всі іншим 0 ваги. Це можна узагальнити на зважені класифікатори найближчих сусідів. Тобто, де i-му найближчому сусіду присвоюється вага , з . Аналогічний результат щодо сильної узгодженості зважених класифікаторів найближчих сусідів також має місце[11].
Нехай позначає зважений найближчий класифікатор з вагами . За умови регулярності щодо розподілів класів надмірний ризик має наступне асимптотичне розширення[12]
для констант і , де і .
Оптимальна схема зважування , що врівноважує два терми навелені вище, задається таким чином: ,
При оптимальних вагах домінуючим членом в асимптотичному розкладанні надлишкового ризику є . Подібні результати справедливі при використанні для агрегації класифікатора найближчого сусіда.
Відстань до k-го найближчого сусіда також можна розглядати як оцінку локальної щільності, і, таким чином, також є популярним показником викиду при виявленні аномалій. Чим більша відстань до k-НС, чим нижча локальна щільність, і тим більша ймовірність, що точка запиту є викидом[13]. Ця модель викидів, хоча й досить проста, разом з іншим класичним методом аналізу даних, фактором локального відхилення, працює досить добре в порівнянні з більш сучасними та складнішими підходами, згідно з широкомасштабним експериментальним аналізом[14].
Цей класифікатор робить припущення, що подібні точки мають подібні мітки. На жаль, у високорозмірнісних просторах, точки, вибрані з розподілу ймовірностей, майже ніколи не опиняються близько одна до одної.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.