Loading AI tools
З Вікіпедії, вільної енциклопедії
Бікластерізація — широкий спектр завдань, в яких потрібно виявляти кластери із збереженням об'єктно-ознакового опису даних. Методи бікластеризації, розроблені для цих цілей, лежать в області кластер-аналізу і отримали свою власну назву. Під терміном бікластеризація розуміється широке коло завдань і методів, а тому для нього в науковій літературі існує цілий ряд синонімів: спільна кластеризація (simultaneous clustering), кокластеризація (co-clustering), двоходова кластеризація (two-way clustering), кластеризація підпростору (subspace clustering), двовимірна кластеризація (bi-dimensional) і бокс-кластеризація (box-clustering). Підвищений інтерес до бікластеризації і виділення її в самостійну область аналізу даних виникли у зв'язку завданням аналізу масивів генетичних даних (microarray data analysis).
Існує широкий спектр завдань, в яких потрібно виявляти кластери із збереженням об'єктно-ознакового опису даних: виявлення груп генів, що володіють загальними властивостями; пошук груп відвідувачів зі схожими інтересами для рекомендаційних систем; виявлення спільнот; аналіз соціальних мереж; автоматична побудова каталогів і рубрикаторів в інформаційних системах; пошук подібності документів. При вирішенні подібних завдань класичний кластерний аналіз не надає зручних засобів, що дозволяють зберегти об'єктно-ознаковий опис кластеру. Для цього розробляються методи бікластеризації.
В даний час методи кластерного аналізу є необхідними у величезній кількості прикладних задач різних галузей науки і техніки. Сама область кластеризації, незважаючи на безперервний розвиток і появу нових додатків, має міцну теоретичну базу і підтверджені результати.
Полягає в розробці ефективних моделей і методів пошуку документів-дублікатів, побудови таксономії вебкористувачів і моделей і методів рекомендаційних систем на основі бікластеризації.
Алгоритми бікластеризації можуть породжувати або один бікластер, або кілька, залежно від типу завдання. Наприклад, алгоритм Ченга і Черча знаходить один бікластер за прохід, а для знаходження наступних необхідно маскувати знайдений випадковими числами і виконати повторний запуск алгоритму. Інші бікластерні підходи дозволяють знаходити безліч бікластерів за прохід. Існують також алгоритми, які дозволяють здійснювати одночасне виявлення бікластерів.[5]
Приймаючи до уваги алгоритмічну складність, стратегії пошуку пожна розбити на 5 класів:
Формальний Аналіз Понять — область прикладної математики, об'єктами дослідження в якої є (формальні) поняття та їх ієрархії. Прикметник «формальний» вказує на наявність строгого математичного визначення поняття, як пари множин, званих, слідуючи традиціям прийнятим у філософії, обсягом і змістом. Формалізація цих визначень стала можливою завдяки використанню апарату алгебраїчної теорії ґраток. Включення підрозділу, присвяченого ФАП, в розділ про методи і моделях бікластеризації обґрунтовано широким спектром завдань з області аналізу даних, в яких ключовим є пошук бікластерів особливого роду — формальних понять.
Формальний контекст К - це (G, M, I), де G — множина об'єктів, М — множина ознак, І ≤ G*M— відношення.
Відношення І інтерпретується наступним чином: для g є G, m є M, має місце gIM, якщо об'єкт g володіє ознаками m.
Для формального контексту K = (G, M,I) і випадкових B ≤ M визначена пара відображень: A’ := {m є M| gLm, для всіх g є A },
A’ := {g є G| gLm, для всіх m є B },
Які задають відповідність Галуа між частково впорядкованими множинами
(2G,≤) і (2М, ≤)
а оператор (.)" є оператором замикання на — диз'юнктивним об'єднанням, тобто випадковим А є С або А є М мають місце наступні відношення:
Множина А називається замкнутою, якщо A" = A
Алгоритм BiMax відповідає стратегії «розділяй і володарюй». Спочатку алгоритм визначає області матриці, що містять тільки 0, і потім виключає їх з подальшого розгляду. Ця стратегія особливо виграшна за умови розріджених даних, отримання яких з вихідних наборів залежить від вибору порогу відсікання.
Ідея, що лежить в основі алгоритму, полягає в наступному: вихідна матриця розбивається на три підматриці, одна з яких містить лише нульові значення і надалі не розглядається. Потім алгоритм рекурсивно застосовується до двох підматриць, що залишилися. Рекурсія припиняється, якщо поточна матриця, що являє собою бікластер, містить тільки одиниці.
Система аналізу даних Coron призначена для пошуку множин ознак і асоціативних правил. Програма володіє непоганим графічним інтерфейсом, власним форматом даних, можливістю роботи з базами даних. Для пошуку множин ознак використовуються найбільш ефективні алгоритми спільноти FIM.. Пошук асоціативних правил також використовує ефективні алгоритми, що спираються на досягнення ФАП і опинилися корисними для компактного представлення правил та побудови їх базисів. Ще однією перевагою продукту є вільний доступ і кросплатформність (в сенсі технології Java).
У величезного числа документів (за деякими джерелами до 30 %) в Інтернеті є дублікати, і пошукові машини повинні володіти ефективними засобами обчислення кластерів дублікатів. Походження дублікатів може бути різним — від дублювання компаніями власної інформації на різних серверах (створення дзеркал) до зловмисних — обману програм індексаторів вебсайтів, незаконного копіювання і спамерських розсилок.
Зазвичай дублікати документів визначаються на основі відношення подібності на документах: два документа подібні, якщо деяка числова міра їх схожості перевищує деякий поріг. По відношенню подібності обчислюються кластери схожих документів. Спочатку, після зняття HTML-розмітки документа, як лінійні послідовності слів (символів), перетворюються у множини. Тут двома основними схемами є синтаксичні та лексичні методи. До синтаксичним відноситься метод шинглірування, в якому документ в підсумку представляється набором хеш-кодів; цей метод використовується в пошукових системах Google і AltaVista. В лексичних методах велика увага приділяється побудові словника — набору дескриптивних слів; відомі його різновиди, такі I-match і метод ключових слів Іллінського.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.