Loading AI tools
З Вікіпедії, вільної енциклопедії
У статистиці, машинному навчанні та теорії інформації зниження розмірності є процесом скорочення кількості випадкових змінних[1] шляхом отримання множини головних змінних. Цей процес можна поділити на обирання ознак та виділяння ознак.[2]
Обирання ознак — це процес пошуку підмножини первісних змінних (ознак або властивостей) для використання в побудові моделі. Є три стратегії:
Дивись також задачі комбінаторної оптимізації.
В деяких випадках аналіз даних, такий як класифікація або регресія, можна зробити у скороченому просторі більш точно, ніж у початковому.[3]
Конструювання ознак перетворює дані з багатовимірного простору в простір невеликої кількості вимірів. Таке перетворення може бути лінійним, як в методі головних компонент, проте також існує багато методів нелінійного зниження розмірності[en].[4][5] Для багатовимірних даних можна використати тензорне представлення для скорочення розмірності через навчання полілінійного підпростору[en].[6]
Основна лінійна техніка зменшення розмірності, метод головних компонент, здійснює лінійне відображення даних в менш вимірний простір таким чином, що максимізується дисперсія даних у маловимірному представленні. Фактично, будується матриця коваріації (а іноді й кореляції) даних, і обчислюються власні вектори цієї матриці. Власні вектори, що відповідають найбільшим власним числам (головні компоненти), тепер можуть бути використані для реконструкції великої частки дисперсії у вихідних даних. Більш того, перші кілька власних векторів часто можна тлумачити в термінах великомасштабної фізичної поведінки системи[джерело?][чому?]. Початковий простір зменшується (з втратою даних, проте, зберігається найважливіша дисперсія) до простору, який визначається кількома власними векторами.
РНМ розкладає невід'ємну матрицю на добуток двох невід'ємних матриць, що було перспективним інструментом в таких областях, де існують лише невід'ємні сигнали,[7][8] такі як астрономія[9][10]. РНМ добре відома завдяки правилу мультиплікативного оновлення Lee & Seung[7], який постійно розроблявся: включення невизначеностей[9], розгляд відсутніх даних та паралельність обчислень[11], послідовність побудови[11], що веде до стабільності та лінійності РНМ[10], як і інші оновлення.
За допомогою стабільної компонентної бази під час побудови та лінійності процесу моделювання, послідовний РНМ[11] здатний зберігати потік при прямому відтворенні навколозоряних структур в астрономії[10], як один із способів виявлення екзопланет, особливо при безпосередньому зображені навколозоряних дисків. У порівнянні з МГК, РНМ не видаляє середнє матриць, що призводить до нефізичних невід'ємних потоків, тому РНМ здатний зберігати більше інформації, ніж МГК, як показав Рен та інші[10].
Метод головних компонент можна використати нелінійним шляхом за допомогою ядрового трюку. Отримана методика здатна побудувати нелінійні відображення, які максимізують дисперсію даних. Отримана методика називається ядровий метод головних компонент[en].
Лінійний розділювальний аналіз (ЛРА) — це узагальнення лінійного дискримінанта Фішера, який використовується для статистики, розпізнавання образів та машинного навчання, щоб знайти лінійну комбінацію ознак, які характеризують або відокремлюють два або більше класів об'єктів або подій.
Автокодувальники можуть використовуватися для навчання нелінійним функціям зменшення розмірності та кодування разом із оберненою функцією, яка дозволяє перейти від кодуванного до оригінального зображення.
Для багатовимірних наборів даних, тобто таких, у яких більше 10 вимірів, перед застосування методу k-найближчих сусідів спочатку знижують розмірність з метою уникнення прокляття розмірності.[12]
Виділяння ознак та зниження розмірності можна об'єднати в один етап за допомогою методу головних компонент (МГК), лінійного розділювального аналізу (ЛРА), канонічного кореляційного аналізу (ККА) або розкладення невід'ємних матриць (РНМ) — методів попередньої обробки даних перед K-NN кластеризацією векторів ознак у просторі скороченої розмірності. У машинному навчанні цей процес також називається маловимірним вкладенням.[13]
Для дуже-багатовимірних наборів даних, наприклад, для пошуку подібності у потоках відео, ДНК даних або у багатовимірних часових рядах, застосовують швидке наближення K-NN пошуку за допомогою методів Locality-sensitive hashing[en], випадкова проєкція[en][14], тензорний скетч[15] та інші методи багатовимірного пошуку подібності, що доступні, наприклад, у наборі інструментів VLDB[en].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.