Ієрархічна кластеризація

Ієрархічна кластеризація (англ. hierarchical cluster analysis, HCA) в добуванні даних та статистиці — метод кластерного аналізу, який намагається побудувати ієрархію кластерів. Стратегії побудови ієрархічної кластеризації діляться на два типи:^[1]

агломератові (об'єднувальні). Це підхід «знизу-вгору^[en]». Спочатку кожна точка має власний кластер, а далі пари кластерів об'єднуються при підйомі по ієрархії.
розділювальні. Це підхід «згори-вниз^[en]». Спочатку всі точки знаходяться у єдиному кластері, потім відбувається рекурсивне розбиття при русі вниз по ієрархії.

Зазвичай розбиття та об'єднання визначаються у жадібний спосіб. Отриману ієрархію типово зображають як дендрограму^[en].

Стандартний алгоритм ієрархічної кластеризації має часову складність ${\mathcal {O}}(n^{3})$ та потребує ${\mathcal {O}}(n^{2})$ пам'яті, що занадто повільно навіть для наборів даних середнього розміру. Однак, для деяких випадків, є агломератові методи, які виконуються за час ${\mathcal {O}}(n^{2})$ . Це методи SLINK^[2]^[3] при однозв'язній та CLINK^[4]^[3] при повнозв'язній кластеризації^[en]. Використання купи дозволяє у загальному випадку скоротити час виконання до ${\mathcal {O}}(n^{2}\log n)$ ціною збільшення вимог до об'єму пам'яті. Такі накладні витрати на пам'ять, для багатьох мов програмування, роблять цей підхід неможливим для реалізації.

Окрім спеціального однозв'язного випадку немає алгоритмів (окрім повного перебору за час ${\mathcal {O}}(2^{n})$ ), який би гарантував оптимальний розв'язок.

Розділювальна кластеризація з повним перебором виконується за час ${\mathcal {O}}(2^{n})$ , проте звичайною практикою є використання більш швидких евристик для розбиття, такі як k-середні.

[1]

[2]

[3]

[4]

Ієрархічна кластеризація

метод клястерного аналізу, задля побудови ієрархії клястерів / З Вікіпедії, безкоштовно encyclopedia

Шановний Wikiwand AI, Давайте зробимо це простіше, відповівши на ключові запитання: