Loading AI tools
З Вікіпедії, вільної енциклопедії
Векторна модель (англ. vector space model) — в інформаційному пошуку алгебраїчне представлення колекції документів векторами одного спільного для всієї колекції векторного простору.
Векторна модель є основою для вирішення багатьох завдань інформаційного пошуку, таких як: пошук документа за запитом, класифікація документів, кластеризація документів.
Документ у векторній моделі розглядається як невпорядкована множина термів. Термами в інформаційному пошуку називають слова, з яких складається текст, а також такі елементи тексту, як, наприклад, 2010, II-5 або Тянь-Шань.
Різними способами можна визначити вагу терма в документі — «важливість» слова для ідентифікації цього тексту. Наприклад, можна просто підрахувати кількість вживань терма в документі, так звану частоту терма, — чим частіше слово зустрічається в документі, тим більша у нього буде вага. Якщо терм не зустрічається в документі, то його вага в цьому документі дорівнює нулю.
Всі терми, які трапляються в документах оброблюваної колекції, можна впорядкувати. Якщо тепер для деякого документа виписати по порядку ваги всіх термів, включаючи ті, яких немає в цьому документі, вийде вектор, який і буде представленням цього документа у векторному просторі. Розмірність цього вектора, як і розмірність простору, дорівнює кількості різних термів у всій колекції, і є однаковою для всіх документів.
Більш формально
де dj — векторне уявлення j-го документа, wij — вага i-го терма в j-му документі, n — загальна кількість різних термів у всіх документах колекції.
Маючи таке подання для всіх документів, можна, наприклад, знаходити відстань між точками простору і тим самим вирішувати задачу подоби документів — чим ближче розташовані точки, тим більше схожі відповідні документи. У разі пошуку документа за запитом, запит теж представляється як вектор того ж простору — і можна обчислювати відповідність документів запиту.
Рейтинг релевантності документів у пошуку за ключовими словами можна обчислити, використовуючи припущення про теорію спільних рис документа, порівнявши відхилення кутів між кожним вектором документу та оригінальним вектором запиту, де запит представлений як той же самий вид вектора як документа. На практиці легше обчислити косинус кута між векторами замість самого кута:
Де — перетин (тобто скалярний добуток) документу та вектори запиту, — нормаль вектора d2, к — нормаль вектора q. Нормаль вектора обчислюється наступною формулою:
Оскільки всі вектори, що розглядуються цією моделлю поелементно невід'ємні, нульовий косинус означає, що запит і вектор документа ортогональні і не збігаються (тобто в документі, що розглядають, не існує терму запит). Подивіться статтю косинусний коефіцієнт для отримання додаткової інформації.
У класичній векторній моделі, запропонованій Салтоном, Вонгом та Янгом[1], певні для слова міри в векторах документа — це продукти локальних та глобальних параметрів. Модель, відома як tf-idf модель. Маса вектора для документу d:
, де
та
З використанням косинусу, подібність між документом dj та запитом q можна обчислити так:
Векторна модель має наступні переваги над моделлю Standard Boolean[en]:
Векторна модель має наступні обмеження:
Хоча багато з цих складностей можна подолати за допомогою інтеграції різних інструментів, включаючи математичні методи, такі як сингулярний розклад матриці та лексичні бази даних, такі як WordNet.
Моделі, що засновані на векторній моделі та ті, що її доповнюють:
Наступні пакети програм можуть зацікавити бажаючих поекспериментувати з векторною моделлю та реалізувати пошукові служби, засновані на них.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.