Loading AI tools
З Вікіпедії, вільної енциклопедії
Теорія про́стору масшта́бів (англ. scale-space theory) — це основа для багатомасштабного подання сигналів, розроблена спільнотами комп'ютерного бачення, обробки зображень та обробки сигналів з доповняльними мотивами з фізики та біологічного бачення. Це формальна теорія для роботи зі структурами зображень на різних масштабах[en] шляхом подавання зображення як однопараметрового сімейства згладжених зображень, масштабопросторо́вого подання́ (англ. scale-space representation), параметрованого розміром ядра згладжування[en], яке використовують для пригнічування дрібномасштабних структур.[1][2][3][4][5][6][7][8] Параметр у цьому сімействі називають параметром масштабу (англ. scale parameter) з інтерпретацією, що у просторі масштабів структури зображення просторового розміру менше за приблизно було значною мірою згладжено на масштабі .
Основним типом простору масштабів є лінійний (гауссів) простір масштабів, який має широку застосовність, а також привабливу властивість можливості виведення з невеликого набору масштабопросторових аксіом. Відповідна масштабопросторова система охоплює теорію операторів гауссових похідних, які можливо використовувати як основу для вираження великого класу зорових операцій для комп'ютеризованих систем обробки зорової інформації. Ця система також дозволяє робити зорові операції масштабоінваріантними, що необхідно для роботи з варіаціями розміру, які можуть траплятися в даних зображень, оскільки реальні об'єкти можуть мати різні розміри, та й відстань між об'єктом і камерою може бути невідомою й може змінюватися залежно від обставин.[9][10]
Поняття простору масштабів застосовують до сигналів довільної кількості змінних. Найпоширеніший випадок у літературі стосується двовимірних зображень, що й подано тут. Для заданого зображення його лінійне (гауссове) масштабопросторове подання — це сімейство похідних сигналів , визначене згорткою таким двовимірним гауссовим ядром
що
де крапка з комою в аргументі означає, що згортка виконується лише над змінними , тоді як параметр масштабу після крапки з комою просто вказує, який рівень масштабу визначають. Це визначення працює для континууму масштабів , але зазвичай розглядають лише скінченний дискретний набір рівнів у масштабопросторовому поданні.
Параметр масштабу — це дисперсія гауссового фільтра, і в граничному випадку для фільтр стає імпульсною функцією, так що тобто масштабопросторове подання на рівні масштабу це саме зображення . Зі збільшенням , стає результатом згладжування все більшим і більшим фільтром, таким чином видаляючи все більше деталей, які містить зображення. Оскільки стандартним відхиленням фільтра є , значно менші за це значення деталі значною мірою видаляються із зображення за параметра масштабу , див. графічні ілюстрації в наступному рисунку та в [11].
При стиканні із завданням створення багатомасштабного подання можна запитати: чи можливо використовувати для створення простору масштабів будь-який фільтр g на кшталт фільтру низьких частот із параметром t, який визначає його ширину? Відповідь — ні, оскільки дуже важливо, щоби згладжувальний фільтр не вносив нових паразитних структур на грубих масштабах, які не відповідають спрощенням відповідних структур у тонших масштабах. У літературі з простору масштабів було висловлено низку різних способів сформулювати цей критерій точними математичними термінами.
Висновок з кількох різних поданих аксіоматичних виведень полягає в тому, що гауссів простір масштабів становить канонічний спосіб породження лінійного простору масштабів, заснований на істотній вимозі, що при переході від тонкого до будь-якого грубішого масштабу не повинні створюватися нові структури.[1][3][4][6][9][12][13][14][15][16][17][18][19] До умов, званих масштабопросторовими аксіомами, які використовували для виведення унікальності гауссового ядра, належать лінійність[en], інваріантність щодо зміщення[en], напівгрупова структура, непосилення локальних екстремумів, масштабова та обертова інваріантність[en]. У працях [15][20][21] цю унікальність, заявлену в аргументах на основі інваріантності щодо масштабу, піддають критиці, й пропонують альтернативні самоподібні масштабопросторові ядра. Гауссове ядро, проте, є унікальним вибором відповідно до масштабопросторової аксіоматики на основі причинності[3] або непосилення локальних екстремумів.[16][18]
Еквівалентно, масштабопросторове сімейство можливо визначити як розв'язок рівняння дифузії (наприклад, у термінах рівняння теплопровідності),
з початковою умовою . Це формулювання масштабопросторового подання L означає, що можливо інтерпретувати значення яскравості зображення f як «розподіл температури» в площині зображення, і що процес, який породжує масштабопросторове подання як функцію від t, відповідає дифузії тепла в площині зображення за час t (за припущення, що теплопровідність матеріалу дорівнює довільно обраній сталій ½). Хоча цей зв'язок може здатися поверховим читачеві, не знайомому з диференціальними рівняннями, насправді дійсно основне масштабопросторове формулювання в термінах непосилення локальних екстремумів виражається через умову знаку на частинні похідні в 2+1-вимірному об'ємі, породженому простором масштабів, відтак у рамках диференціальних рівнянь з частинними похідними. Крім того, детальний аналіз дискретного випадку показує, що рівняння дифузії забезпечує об'єднувальний зв'язок між безперервним і дискретним просторами масштабів, що також узагальнюється на нелінійні простори масштабів, наприклад, із застосуванням анізотропної дифузії. Отже, можна сказати, що основним способом породження простору масштабів є рівняння дифузії, і що гауссове ядро виникає як функція Гріна цього конкретного диференціального рівняння в частинних похідних.
Мотивація для породження масштабопросторового подання заданого набору даних походить від базового спостереження, що об'єкти реального світу складаються з різних структур на різних масштабах[en]. Це означає, що об'єкти реального світу, на противагу до ідеалізованих математичних об'єктів, таких як точки або прямі, можуть виглядати по-різному залежно від масштабу спостереження. Наприклад, поняття «дерево» доречне в масштабі метрів, тоді як такі поняття, як листя та молекули, доречніші в тонших масштабах. Для системи комп'ютерного бачення, яка аналізує невідому сцену, немає способу знати апріорі, які масштаби[en] підходять для опису цікавих структур у даних зображення. Отже, єдиним розумним підходом є розглядати описи в кількох масштабах, щоб мати можливість вловлювати невідомі варіації масштабу, які можуть мати місце. У граничному випадку масштабопросторове подання розглядає подання на всіх масштабах.[9]
Інша мотивація концепції простору масштабів походить від процесу виконання фізичних вимірювань на реальних даних. Щоби виділяти будь-яку інформацію з процесу вимірювання, до даних необхідно застосовувати оператори нескінченно малого розміру. В багатьох галузях інформатики та прикладної математики розмір оператора вимірювання при теоретичному моделюванні задачі не враховується. З іншого боку, масштабопросторова теорія явним чином включає потребу в не нескінченно малому розмірі операторів зображення як невід'ємній частини будь-якого вимірювання, а також будь-якої іншої операції, яка залежить від вимірювання в реальному світі.[5]
Існує тісний зв'язок між масштабопросторовою теорією та біологічним баченням. Багато масштабопросторових операцій демонструють високий ступінь подібності з профілями рецептивних полів, записаними на сітківці й перших етапах зорової кори ссавців. У цьому відношенні систему простору масштабів можливо розглядати як теоретично обґрунтовану парадигму для попередньої обробки зорової інформації, яку до того ж було ретельно перевірено алгоритмами та експериментами.[4][9]
На будь-якому масштабі в просторі масштабів ми можемо застосовувати до масштабопросторового подання оператори локальних похідних:
Через комутативну властивість між оператором похідної та оператором гауссового згладжування такі масштабопросторові похідні (англ. scale-space derivatives) можливо еквівалентно обчислювати шляхом згортання первинного зображення з операторами похідних гауссіанів. З цієї причини їх часто також називають гауссовими похідними (англ. Gaussian derivatives):
Унікальність операторів гауссових похідних як локальних операцій, виведених із масштабопросторового подання, можливо отримати аналогічними аксіоматичними виведеннями, які використовують для виведення унікальності гауссового ядра для масштабопросторового згладжування.[4][22]
Ці оператори гауссових похідних, своєю чергою, можливо об'єднувати за допомогою лінійних або нелінійних операторів у великий спектр різних типів виявлячів ознак, які в багатьох випадках можливо добре моделювати за допомогою диференціальної геометрії. Зокрема, інваріантність (або, точніше, коваріантність) до локальних геометричних перетворень, таких як обертання або локальні афінні перетворення, можливо отримати шляхом розгляду диференціальних інваріантів за відповідного класу перетворень або, як варіант, шляхом унормовування операторів гауссових похідних на локально визначену систему координат, визначену, наприклад, з бажаного спрямування в області зображення, або шляхом застосування бажаного локального афінного перетворення до локального фрагмента зображення (докладніше див. у статті про афінне пристосовування форми).
Коли оператори гауссових похідних та диференціальні інваріанти використовують таким чином як виявлячі базових ознак у кількох масштабах, ці незавершені перші етапи зорової обробки часто називають зоровою попередньою обробкою (англ. visual front-end). Цю загальну систему застосовували до широкого спектру задач комп'ютерного бачення, включно з виявлянням та класифікуванням ознак, сегментуванням та зіставлянням зображень, оцінюванням руху, обчисленням сигналів про форму, та розпізнаванням об'єктів[en]. Набір операторів гауссових похідних до певного порядку часто називають N-струменем, він становить базовий тип ознак масштабопросторової системи.
Дотримуючись ідеї вираження зорових операцій у термінах диференціальних інваріантів, обчислюваних на кількох масштабах із застосуванням операторів гауссових похідних, ми можемо виразити виявляч контурів із набору точок, який задовольняє вимогу, щоби величина градієнта
набувала локального максимуму в напрямку градієнта
Шляхом диференціальногеометричних розробок можливо показати,[4] що цей диференціальний виявляч контурів можливо еквівалентно виразити з перетинів нуля диференціальним інваріантом другого порядку
які задовольняють таку умові знаку на диференціальному інваріанті третього порядку:
Аналогічно, багатомасштабні виявлячі плям на будь-якому заданому фіксованому масштабі[23][9] можливо отримати з локальних максимумів та мінімумів або оператора Лапласа (що також називають лапласіаном гауссіана)
Аналогічним чином виявлячі кутів та виявлячі хребтів і долин можливо виразити як локальні максимуми, мінімуми або перетини нуля багатомасштабних диференціальних інваріантів, визначених із гауссових похідних. Алгебричні вирази для операторів виявляння кутів і хребтів, проте, є дещо складнішими, й читача відсилають по додаткові відомості до статей про виявляння кутів і хребтів.
Масштабопросторові операції також часто використовують для вираження грубо—точних методів (англ. coarse-to-fine methods), зокрема для таких завдань, як зіставляння та багатомасштабне сегментування зображень.
Подана на даний момент теорія описує добре обґрунтовану систему для подавання структур зображень у кількох масштабах. Проте в багатьох випадках також необхідно обирати локально доречні масштаби для подальшого аналізу. Така потреба в обиранні масштабу (англ. scale selection) постає з двох основних причин: (i) об'єкти реального світу можуть мати різний розмір, і цей розмір може бути невідомим системі бачення, та (ii) відстань між об'єктом та камерою може змінюватися, й ця інформація про відстань також може бути невідомою апріорно. Дуже корисною властивістю масштабопросторового подання є те, що подання зображень можливо робити інваріантними до масштабів шляхом автоматичного обирання локального масштабу[9][10][23][24][25][26][27][28] на основі локальних максимумів (або мінімумів) над масштабами масштабонормованих похідних
де — параметр, пов'язаний з розмірністю ознаки зображення. Цей алгебричний вираз для операторів масштабонормованих гауссових похідних походить із введення -нормованих похідних відповідно до
Може бути теоретично показано, що модуль обирання масштабу, який працює за цим принципом, задовольнятиме такій властивості коваріантності щодо масштабу (англ. scale covariance property): якщо для певного типу ознаки зображення передбачається локальний максимум у певному зображенні на певному масштабі , то за масштабування зображення коефіцієнтом масштабу цей локальний максимум над масштабами у зміненому зображенні зміниться до рівня масштабу .[23]
Дотримуючись цього підходу гамма-нормованих похідних, можливо показати, що можливо виразити різні типи масштабопристосованих та масштабоінваріантних виявлячів ознак[9][10][23][24][25][29][30][27] для таких завдань як виявляння плям, кутів, хребтів, контурів та просторово-часових особливих точок (докладний опис формулювання цих масштабоінваріантних виявлячів ознак див. у конкретних статтях на ці теми). Крім того, рівні масштабу, отримувані автоматичним обиранням, можливо використовувати, щоби визначати особливі області для подальшого Афінне пристосовування форми[31] для отримання афінноінваріантних особливих точок,[32][33] або для визначення рівнів масштабу для обчислення пов'язаних описувачів зображення[en], таких як локально масштабопристосовані N-струмені.
Нещодавні праці показали, що таким чином можливо виконувати й складніші операції на кшталт масштабонезалежного розпізнавання об'єктів[en], обчислюючи локальні описувачі зображення (N-струмені чи локальні гістограми спрямування градієнтів) у масштабопристосованих особливих точках, отриманих із масштабопросторових екстремумів нормованого оператора Лапласа (див. також масштабоінваріантне ознакове перетворення[34]) або визначника матриці Гессе (див. також прискорені стійкі ознаки);[35] див. також статтю Scholarpedia про масштабоінваріантне ознакове перетворення[36] про загальніший погляд на підходи до розпізнавання об'єктів на основі відгуків рецептивних полів[19][37][38][39] у термінах операторів гауссових похідних або їхніх наближень.
Піраміда зображення — це дискретне подання, в якому простір масштабів дискретизують як у просторі, так і в масштабі. Для масштабоінваріантності коефіцієнти масштабу слід вибирати експоненційно, наприклад, як цілі степені 2 або √2. За правильної побудови, відношення частот дискретизації у просторі та масштабі залишають сталим, тоді імпульсний відгук ідентичний на всіх рівнях піраміди.[40][41][42][43] Існують швидкі, Ο(N), алгоритми для обчислювання масштабоінваріантної піраміди зображення, в якій зображення або сигнал багаторазово згладжується, і відтак субдискретизується. Значення для простору масштабів між зразками в піраміді можливо легко оцінювати, застосовуючи інтерполяцію в межах масштабів і між ними, й уможливлюючи оцінки масштабу та положення з екстрароздільністю.[43]
У масштабопросторовому поданні існування безперервного параметра масштабу дозволяє відстежувати перетини нуля над масштабами, що дає так звану глибоку структуру (англ. deep structure). Для ознак, визначених як перетини нуля[en] диференціальними інваріантами, теорема про неявну функцію безпосередньо визначає траєкторії крізь масштаби,[4][44] і на тих масштабах, де відбуваються розгалуження, локальну поведінку можливо моделювати за допомогою теорії особливостей[en].[4][44][45][46][47]
Розширення теорії лінійного простору масштабів стосуються формулювання нелінійних масштабопросторових концепцій, краще пристосованих до конкретних цілей.[48][49] Ці нелінійні простори масштабів (англ. non-linear scale-spaces) часто починаються з еквівалентного дифузійного формулювання концепції простору масштабів, яке згодом розширюють нелінійним чином. Таким чином було сформульовано велику кількість еволюційних рівнянь, умотивованих різними специфічними вимогами (додаткову інформацію див. у вищезгаданій літературі). Проте слід зазначити, що не всі ці нелінійні простори масштабів задовольняють подібним «приємним» теоретичним вимогам, як і концепція лінійного гауссового простору масштабів. Тож іноді можуть виникати несподівані артефакти, і слід бути дуже обережними, щоби не використовувати термін «масштабопросторове» для взагалі будь-якого типу однопараметрових сімейств зображень.
Розширення першого порядку ізотропного гауссового простору масштабів забезпечує афінний (гауссів) простір масштабів.[4] Один із мотивів цього розширення витікає із загальної потреби в обчисленні описувачів зображень для об'єктів реального світу, які розглядають за перспективної моделі камери. Щоб обробляти такі нелінійні деформації локально, часткової інваріантності (або, правильніше, коваріантності[en]) до локальних афінних деформацій[en] може бути досягнуто шляхом розгляду афінних гауссових ядер, форми яких визначаються локальною структурою зображення;[31] теорію та алгоритми див. у статті про афінне пристосовування форми. Справді, цей афінний простір масштабів також можливо виразити з неізотропного розширення лінійного (ізотропного) рівняння дифузії, все ще перебуваючи в класі лінійних диференціальних рівнянь з частинними похідними.
Існує загальніше розширення гауссової масштабопросторової моделі на афінні та просторово-часові простори масштабів.[4][31][18][19][50] На додачу до змінюваності над масштабами, для обробки яких було розроблено первинну масштабопросторову теорію, ця узагальнена масштабопросторова теорія (англ. generalized scale-space theory)[19] охоплює також й інші типи змінюваності, викликанні геометричними перетвореннями в процесі формування зображення, включно зі змінюваністю в напрямку огляду, наближуваною локальними афінними перетвореннями, та відносним рухом об'єктів світу та спостерігача, наближуваним локальними перетвореннями Галілея. Ця узагальнена масштабопросторова теорія веде до передбачень щодо профілів рецептивних полів, які мають добре якісне узгодження з профілями рецептивних полів, вимірюваними за допомогою записів нейронів у біологічному зорі.[51][52][50][53]
Існують тісні взаємозв'язки між масштабопросторовою та вейвлетною теоріями, хоч ці два поняття багатомасштабного подання й було розроблено з дещо різних посилок. Була також робота й над іншими багатомасштабними підходами, такими як піраміди та різноманітні інші ядра, які не використовують або не вимагають тих же вимог, що й справжні масштабопросторові описи.
Існують цікаві зв'язки між масштабопросторовим поданням та біологічним зором і слухом. Нейрофізіологічні дослідження біологічного зору показали, що існують профілі рецептивних полів у сітківці й зоровій корі ссавців, які можливо добре моделювати лінійними операторами гауссових похідних, у деяких випадках також доповненими неізотропною афінною масштабопросторовою моделлю, просторово-часовою масштабопросторовою моделлю, та/або нелінійними комбінаціями таких лінійних операторів.[18][51][52][50][53][54][55][56][57]
Стосовно біологічного слуху, існують профілі рецептивних полів у нижньому двогорб'ї[en] та первинній слуховій корі[en], які можливо добре моделювати спектрально-часовими рецептивними полями, які можливо добре моделювати гауссовими похідними над логарифмічними частотами та віконними перетвореннями Фур'є над часом, де віконні функції є часовими масштабопросторовими ядрами.[58][59]
У сфері класичного комп'ютерного зору масштабопросторова теорія зарекомендувала себе як теоретична основа для попередньої зорової обробки, при цьому гауссові похідні становлять канонічну модель для першого шару рецептивних полів. З появою глибокого навчання також розпочалася робота над використанням гауссових похідних або гауссових ядер як загальної основи для рецептивних полів у глибоких мережах.[60][61][62][63][64] Використовуючи перетворювальні властивості гауссових похідних та гауссових ядер при масштабувальних перетвореннях, можливо отримати масштабову коваріантність/еквіваріантність та масштабоінваріантність глибокої мережі для обробки структур зображення в різних масштабах теоретично обґрунтованим чином.[62][63] Також було розроблено підходи для отримання масштабової коваріантності/еквіваріантності та масштабоінваріантності за допомогою навчених фільтрів у поєднанні з декількома масштабовими каналами.[65][66][67][68][69] Зокрема, використовуючи поняття масштабової коваріантності/еквіваріантності та масштабоінваріантності, можливо забезпечувати надійне функціювання глибоких мереж на масштабах, не охоплених тренувальними даними, таким чином забезпечуючи масштабове узагальнювання.[62][63][67][69]
При втілюванні масштабопросторового згладжування на практиці існує низка різних підходів, які можливо застосовувати в термінах безперервного або дискретного гауссового згладжування, втілення в області Фур'є, в термінах пірамід на основі біноміальних фільтрів, що наближують гауссів, або з використанням рекурсивних фільтрів. Докладніше це висвітлено в окремій статті про Втілення простору масштабів.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.