Прокляття розмірності

Комбінаторика

В деяких задачах кожна змінна може набувати одного з декількох дискретних значень, або ж діапазон можливих значень ділиться на задане скінченне число, щоб дати скінченну кількість варіантів. Якщо брати різні змінні разом, виникає велика кількість комбінацій значень. Цей ефект також відомий як комбінаторний вибух. Навіть у найпростішому випадку $d$ бінарних змінних кількість можливих комбінацій буде $O(2^{d})$ , яка є експоненціальною за розмірністю. По-простому, кожен додатковий вимір подвоює зусилля, необхідні для перебору всіх комбінацій.

Машинне навчання

Задачі машинного навчання, які передбачають навчання «природному стану» на скінченній кількості зразків даних у просторі властивостей з високим числом вимірів, зазвичай, потребують величезної кількості навчальних даних для того, щоб забезпечити хоча б декілька зразків з різною комбінацією значень. Типове правило полягає в тому, що в кожному вимірі повинно бути щонайменше 5 навчальних прикладів.^[4] З фіксованою кількістю навчальних зразків прогностична потужність класифікатора або регресора спочатку збільшується, бо кількість використовуваних розмірів/функцій збільшується, але потім зменшується,^[5] що відомо, як феномен Хьюза^[6] або явище піка.^[4]

Функції відстані

Коли таку міру, як евклідова відстань визначають з використанням багатьох координат, то отримуємо маленьку різницю у відстані між різними парами зразків.

Один зі способів продемонструвати «величезність» багатовимірного Евклідового простору вимірності $d$ є порівняння об'єму гіперкуба з ребром $2r$ і вписаної в нього гіперсфери радіуса $r$ . Об'єм сфери дорівнює ${\frac {2r^{d}\pi ^{d/2}}{d\;\Gamma (d/2)}}$ , де $\Gamma$ є гамма-функція, а об'єм куба буде $(2r)^{d}$ . Коли розмірність $d$ простору збільшується, об'єм гіперсфери стає незначним відносно об'єму гіперкуба. Це чітко видно при порівняння їх відношення коли розмірність $d$ прямує до нескінченності:

{\frac {V_{hypersphere}}{V_{hypercube}}}={\frac {\pi ^{d/2}}{d2^{d-1}\Gamma (d/2)}}\rightarrow 0

коли

d\rightarrow \infty

Більше того, відстань між центром і кутами це величина $r{\sqrt {d}}$ , яка необмежено зростає при сталому $r$ . В цьому сенсі, майже все в багатовимірному просторі розташоване дуже далеко від центру. Інакше можна сказати, що багатовимірний одиничний гіперкуб складається майже повністю з «кутів» гіперкуба і майже не має «середини».

Це також допомагає зрозуміти розподіл хі-квадрат. Дійсно, (нецентральний) розподіл хі-квадрат, пов'язаний з випадковою точкою інтервалу [-1, 1], збігається з розподілом квадрата довжини випадкової точки в d-кубі. За законом великих чисел, цей розподіл концентрується у вузькій смузі, що становить приблизно d помножити на стандартний квадрат відхилення (σ²) від початкового розподілу. Що є ілюстрацією розподілу хі-квадрат, а також показує, що більша частина об'єму d-куба знаходиться біля поверхні сфери радіуса √dσ.

Подальший розвиток цього феномена наступний. Будь-який фіксований розподіл на числовій прямій індукує добуток розподілів на точки багатовимірного простору ℝ^d. Для фіксованого n, мінімальна і максимальна відстань між випадково вибраною точкою Q і списком з n випадкових точок P₁,…,P_n стають незначними відносно мінімальної відстані:^[7]

\lim _{d\to \infty }E\left({\frac {\operatorname {dist} _{\max }(d)-\operatorname {dist} _{\min }(d)}{\operatorname {dist} _{\min }(d)}}\right)\to 0

Про таке зазвичай кажуть, що функція відстані втратила свою корисність (наприклад, для критерію найближчого сусіда у алгоритмі, якій порівнює властивості) у багатовимірному просторі. Однак, недавні дослідження показали, що це вірно для спеціального випадку, коли одновимірні розподіли на ℝ будуть незалежними і однаково розподіленими.^[8] Коли є кореляція між ознаками, дані спрощуються і забезпечують більш виразну відстань і співвідношення сигнал/шум, як було визнано, відіграє важливу роль, тому слід застосовувати обирання ознак.^[8]

Пошук найближчого сусіда

Цей ефект ускладнює пошук найближчого сусіда у багатовимірному просторі. Бо неможливо швидко відкинути кандидатів, якщо використовувати різницю в одній координаті, як нижню оцінку відстані, яка залежить від усіх вимірів.^[9]^[10]

Проте останнім часом було зазначено, що виключно число розмірів не обов'язково призводить до ускладнень,^[11] оскільки пов'язані додаткові виміри також можуть збільшити відмінність. Крім того, для підсумкового ранжування точок зазвичай корисно розрізняти близьких та далеких сусідів. Не пов'язані («шумові») виміри, однак, зменшують відмінність, як описано вище. При аналізі часових рядів, де дані за своєю суттю є високорозмірними, функції відстані також працюють надійно, коли співвідношення сигнал-шум є досить високим.^[12]

Класифікація по k найближчим сусідам

Інший ефект високої розмірності на функції відстані стосується графів k-найближчих сусідів (k-NN), побудованих з набору даних з використанням функції відстані. Коли розмірність збільшується, розподіл входів орієнтованого k-NN-графа стає асиметричним з піком справа через виникнення непропорційно великої кількості концентраторів, тобто точок даних, які з'являються в багатьох інших k-NN списках інших точок даних, частіше ніж у середньому. Це явище може суттєво впливати на різні методи класифікації (включаючи k-NN класифікатор), напівкероване навчання та кластеризацію,^[13] а також впливає на інформаційний пошук.^[14]

Виявлення аномалій

У нещодавньому огляді, Зімек та інші, описали наступні проблеми при пошуку аномалій у даних з високою розмірністю:^[8]

Скупчення оцінок та відстаней: похідні величини, такі як відстані, стають чисельно подібними
Невідповідні атрибути: для багатовимірних даних значна кількість даних може бути невідповідною
Визначення характеристик множин: для локальних методів набори характеристики множин часто ґрунтуються на найближчому сусідстві
Оцінки для різних розмірностей неможливо порівнювати: різні підпростори дають різні оцінки
Пояснення оцінок: оцінки часто не передають семантичного значення
Експоненціальність простору пошуку: пошуковий простір більше не можна систематично сканувати
Упередженість відома як p-hacking: враховуючи великий простір пошуку, можна знайти бажану значущість гіпотези
Скупченість: певні об'єкти зустрічаються частіше в списках сусідів, ніж інші.

Багато з аналізованих спеціалізованих методів вирішують ті чи інші проблеми, але залишається багато відкритих питань.

Прокляття розмірності

У різних областях

Комбінаторика

Машинне навчання

Функції відстані

Пошук найближчого сусіда

Класифікація по k найближчим сусідам

Виявлення аномалій

Див. також

Примітки

Wikiwand - on