Loading AI tools
З Вікіпедії, вільної енциклопедії
Пірамі́да або пірамі́дне подання́ (англ. pyramid, pyramid representation) — це один з типів багатомасштабного подання сигналу, розроблений спільнотами комп'ютерного бачення, обробки зображень та обробки сигналів, у якому сигнал або зображення підлягає багаторазовому згладжуванню[en] та субдискретизації. Пірамідне подання є попередником масштабопросторового подання та кратномасштабного аналізу[en].
Існує два основні типи пірамід: низькочастотні (англ. lowpass) та смугові (англ. bandpass).
Низькочастотну піраміду створюють згладжуванням зображення відповідним згладжувальним фільтром із наступною субдискретизацією згладженого зображення, зазвичай удвічі вздовж кожного з координатних напрямів. Потім отримане зображення піддають тій же процедурі, й повторюють цей цикл декілька разів. Кожна ітерація цього процесу видає зображення меншого розміру з підвищеним згладжуванням, але зі зниженою густиною просторової вибірки (тобто зменшеною роздільністю зображення). Якщо проілюструвати це графічно, то все багатомасштабне подання виглядатиме як піраміда з первинним зображенням внизу й меншими зображеннями результатів кожної з ітерацій, складеними одне на одне.
Смугову піраміду створюють формуванням різниці між зображеннями на суміжних рівнях піраміди й виконанням інтерполювання зображення між суміжними рівнями роздільності, щоб уможливити обчислення попіксельних різниць.[1]
Для породження пірамід було запропоновано багато різних ядер згладжування.[2][3][4][5][6][7] Серед запропонованих, біноміальні ядра (англ. binomial kernels), що виникають з біноміальних коефіцієнтів, виділяють як особливо корисний і теоретично добре обґрунтований клас.[3][8][9][10][11] Таким чином, маючи двовимірне зображення, ми можемо застосовувати (нормований) біноміальний фільтр (1/4, 1/2, 1/4), зазвичай двічі або більше вздовж кожного просторового виміру, а потім субдискретизувати зображення з коефіцієнтом два. Потім цю операцію можна виконувати скільки завгодно разів, отримуючи в результаті компактне та ефективне багатомасштабне подання. Якщо на це є конкретні вимоги, також можна створювати проміжні рівні масштабу, де етап субдискретизації іноді пропускають, що дає наддискретизовану (англ. oversampled) або гібридну піраміду (англ. hybrid pyramid).[10] Зі збільшенням обчислювальної ефективності доступних сьогодні процесорів у деяких ситуаціях також можливо використовувати як ядра згладжування на етапах породження піраміди ширше підтримувані гауссові фільтри.
У гауссовій піраміді (англ. Gaussian pyramid) послідовні зображення зважують за допомогою гауссового усереднювання (гауссового розмиття) і зменшують. Кожен піксель, що містить локальне усереднення, відповідає окільному пікселю на нижчому рівні піраміди. Цю методику використовують зокрема в синтезуванні текстур[en].
Лапласова піраміда (англ. Laplacian pyramid) дуже схожа на гауссову, але зберігає зображення різниць розмитих версій між кожними рівнями. Лише найменший рівень не є різницевим зображенням, щоб уможливити відтворення зображення високої роздільності за допомогою різницевих зображень на вищих рівнях. Цю методику можливо використовувати для стискання зображень.[12]
Керована піраміда, розроблена Сімончеллі[en] та іншими, — це втілення багатомасштабного, багатонапрямового банку смугових фільтрів, який використовують для таких застосувань як стискання зображень, синтезування текстур[en], та розпізнавання об'єктів[en]. Її можливо розглядати як напрямово вибірковий варіант лапласової піраміди, у якій на кожному її рівні використовують банк керованих фільтрів замість одного лапласового чи гауссового фільтра.[13][14][15]
У ранні часи комп'ютерного бачення піраміди використовували як основний тип багатомасштабного подання для обчислення багатомасштабних ознак зображень із даних зображень реального світу. До новіших методик належить масштабопросторове подання, що було популярним серед деяких дослідників завдяки його теоретичній основі, здатності відокремлювати етап субдискретизації від багатомасштабного подання, потужнішим інструментам для теоретичного аналізу, а також здатності до обчислення подання в будь-якому бажаному масштабі, з униканням таким чином алгоритмічних проблем зв'язку подань зображень з різною роздільністю. Тим не менше, піраміди все ще часто використовують для вираження обчислювально ефективних наближень масштабопросторового подання.[10][16][17]
Рівні лапласової піраміди можливо додавати до первинного зображення або вилучати з нього, щоби посилювати або ослаблювати детальність на різних масштабах. Проте відомо, що маніпулювання детальністю такого вигляду в багатьох випадках створює артефакти гало, що веде до розробки альтернатив, таких як білатеральний фільтр.
Деякі формати файлів стискання зображень використовують алгоритм Adam7[en] або іншу методику перемежовування[en]. Їх можливо розглядати як своєрідну піраміду зображення. Оскільки ці формати файлів зберігають з початку файлу «великомасштабні» ознаки, з тонкими деталями далі файлом, певний переглядач, який відображує маленьку «мініатюру» або на маленькому екрані, може швидко завантажити рівно стільки зображення, щоби відобразити його в доступні пікселі, щоб один файл міг підтримувати багато роздільностей перегляду, замість того, щоб зберігати або породжувати окремий файл для кожної роздільності.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.