Loading AI tools
З Вікіпедії, вільної енциклопедії
У комп'ютерному зорі модель "торба слів" (англ. bag-of-words model, модель BoW), яку іноді називають моделлю "сумки візуальних слів"[1], можна застосувати до класифікації або пошуку зображень, трактуючи характеристики зображення як слова. У класифікації документів торба слів — це розріджений вектор підрахунків появи слів; тобто розріджена гістограма над словником. У комп'ютерному зорі модель "торба слів" — це вектор підрахунків появи словника локальних характеристик зображення.
Щоб представити зображення за допомогою моделі BoW, зображення можна розглядати як документ. Подібним чином необхідно визначити «слова» в зображеннях. Щоб досягти цього, він зазвичай включає наступні три кроки: виявлення функції, опис функції та створення кодової книги.[2] Визначенням моделі BoW може бути «подання гістограми на основі незалежних ознак».[3] Індексування та пошук зображень на основі вмісту (CBIR), здається, є першим застосовувачем цієї техніки представлення зображень.[4]
Після виявлення ознак кожне зображення абстрагується кількома локальними плямами. Методи подання функцій стосуються того, як представити патчі як числові вектори. Ці вектори називаються дескрипторами ознак. Хороший дескриптор повинен мати здатність певною мірою обробляти інтенсивність, обертання, масштаб і афінні варіації. Одним із найвідоміших дескрипторів є Scale-invariant Feature Transform (SIFT).[5] SIFT перетворює кожен патч у 128-вимірний вектор. Після цього кроку кожне зображення є набором векторів однакової розмірності (128 для SIFT), де порядок різних векторів не має значення.
Останнім кроком для моделі BoW є перетворення векторно представлених патчів на «кодові слова» (аналогічні словам у текстових документах), що також створює «кодову книгу» (аналогію словнику слів). Кодове слово можна розглядати як представник кількох подібних патчів. Одним із простих методів є кластеризація k-середніх по всіх векторах.[6] Потім кодові слова визначаються як центри вивчених кластерів. Кількість кластерів є розміром кодової книги (аналогічно розміру словника слів).
Таким чином, кожна пляма в зображенні зіставляється з певним кодовим словом через процес кластеризації, і зображення може бути представлено гістограмою кодових слів.
Дослідники комп'ютерного зору розробили кілька методів навчання, щоб використовувати модель BoW для завдань, пов'язаних із зображеннями, наприклад, категоризації об'єктів . Ці методи можна умовно розділити на дві категорії: неконтрольовані та контрольовані моделі. Для проблеми категоризації кількох міток матрицю плутанини можна використовувати як показник оцінки.
Ось деякі позначки для цього розділу. Припустимо, розмір кодової книги дорівнює .
Оскільки модель BoW є аналогією моделі BoW в НЛП, генеративні моделі, розроблені в текстових областях, також можуть бути адаптовані в комп'ютерному зорі. Обговорюються проста наївна модель Баєса та ієрархічні моделі Баєса.
Найпростішим є наївний класифікатор Баєса .[1] Використовуючи мову графічних моделей, наївний класифікатор Баєса описується наведеним нижче рівнянням. Основна ідея (або припущення) цієї моделі полягає в тому, що кожна категорія має свій власний розподіл у книгах кодів і що розподіли кожної категорії помітно відрізняються. Візьмемо для прикладу категорію обличчя та категорію автомобіля. Категорія обличчя може підкреслювати кодові слова, які представляють «ніс», «око» та «рот», тоді як категорія автомобіля може підкреслювати кодові слова, які представляють «колесо» та «вікно». Отримавши набір навчальних прикладів, класифікатор вивчає різні розподіли для різних категорій. Рішення про категоризацію прийнято в
Томас Баєс | |
---|---|
англ. Thomas Bayes | |
Національність | Англієць |
Галузь | Теорія імовірностей |
Відомий завдяки: | Теорема Баєса,метод Наївного Баєса |
Оскільки наївний класифікатор Баєса простий, але ефективний, його зазвичай використовують як базовий метод для порівняння.
Основне припущення наївної моделі Баєса іноді не виконується. Наприклад, зображення природної сцени може містити кілька різних тем. Імовірніший прихований семантичний аналіз (pLSA)[7] і прихований розподіл Діріхле (LDA)[8] є двома популярними тематичними моделями з текстових доменів для вирішення схожої проблеми з кількома «темами». Візьмемо для прикладу LDA. Для моделювання зображень природної сцени за допомогою LDA проводиться аналогія з аналізом документів:
Цей метод показує багатообіцяні результати в класифікації природних сцен за 13 категоріями природних сцен .[9]
Оскільки зображення представлені на основі моделі BoW, можна спробувати будь-яку дискримінаційну модель, придатну для категоризації текстових документів, наприклад машину опорних векторів і AdaBoost .[10] Трюк ядра також застосовний, коли використовується класифікатор на основі ядра, наприклад SVM. Ядро Pyramid match є нещодавно розробленим на основі моделі BoW. Підхід до локальних особливостей використання представлення моделі BoW, навченого класифікаторами машинного навчання з різними ядрами (наприклад, EMD-ядро та kernel) було ретельно протестовано в області розпізнавання текстур і об'єктів.[11] Повідомлялося про дуже обнадійливі результати щодо ряду наборів даних. Цей підхід[11] досяг дуже вражаючих результатів у PASCAL Visual Object Classes Challenge .
Ядро відповідності піраміди (англ. pyramid match kernel)[12] — це швидкий алгоритм (лінійна складність замість класичної квадратичної складності) ядерна функція (задовольняє умову Мерсера), яка відображає функції BoW або набір функцій у високій розмірності на багатовимірні гістограми з різною роздільною здатністю . Перевагою цих гістограм із різною роздільною здатністю є їх здатність фіксувати супутні елементи. Ядро пірамідної відповідності будує гістограми з різною роздільною здатністю, об'єднуючи точки даних у дискретні області зростаючого розміру. Таким чином, точки, які не збігаються при високій роздільній здатності, мають шанс збігатися при низькій роздільній здатності. Ядро пірамідної відповідності виконує приблизну відповідність подібності без явного пошуку чи обчислення відстані. Замість цього він перетинає гістограми для наближення оптимального збігу. Відповідно, час обчислення є лише лінійним за кількістю ознак. Порівняно з іншими підходами до ядра, ядро пірамідального збігу є набагато швидшим, але забезпечує еквівалентну точність. Ядро пірамідної відповідності було застосовано до бази даних ETH-80 і бази даних Caltech 101 із багатообіцяючими результатами.[12][13]
Одним із сумнозвісних недоліків BoW є те, що він ігнорує просторові відносини між патчами, які дуже важливі для представлення зображення. Дослідники запропонували кілька методів включення просторової інформації. Для покращення рівня функцій функції корелограми можуть фіксувати просторову співпояву функцій.[14] Для генеративних моделей також враховуються відносні позиції[15] кодових слів. Модель ієрархічної форми та зовнішнього вигляду для людських дій[16] вводить новий шар частин (модель сузір'я) між пропорцією суміші та функціями BoW, який фіксує просторові відносини між частинами в шарі. Для дискримінаційних моделей просторове пірамідне зіставлення[17] виконує пірамідне зіставлення шляхом поділу зображення на дедалі точніші підобласті та обчислення гістограм локальних особливостей у кожній підобласті. Нещодавно доповнення локальних дескрипторів зображення (тобто SIFT(scale-invariant feature transform) їх просторовими координатами, нормалізованими шириною та висотою зображення, виявилося надійним і простим підходом до кодування просторових координат[18][19], який вводить просторову інформацію в модель BoW.
Модель BoW ще не була ретельно перевірена на незмінність точки огляду та незмінність масштабу, і продуктивність неясна. Крім того, модель BoW для сегментації та локалізації об'єктів недостатньо зрозуміла.[20]
Систематичне порівняння конвеєрів класифікації виявило, що кодування статистики першого та другого порядку (Вектор локально агрегованих дескрипторів (Vector of Locally Aggregated Descriptors, VLAD)[21] і Вектор Фішера (Fisher Vector[en], FV)) значно підвищило точність класифікації порівняно з BoW, а також зменшило розмір книги кодів, таким чином зменшуючи обчислювальні зусилля для створення кодової книги.[22] Крім того, нещодавнє детальне порівняння методів кодування та об'єднання[23] для BoW показало, що статистика другого порядку в поєднанні з розрідженим кодуванням і відповідним об'єднанням, таким як нормалізація потужності, може ще більше перевершити вектори Фішера та навіть наблизитися до результатів простих моделей згорткової нейронної мережі. на деяких наборах даних розпізнавання об'єктів, таких як Oxford Flower Dataset 102 .
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.