From Wikipedia, the free encyclopedia
Задаци рачунарског вида обухватају методе за стицање, обраду, анализу и разумевање дигиталних слика, и екстракцију високодимензионалних података из стварног света како би се произвеле нумеричке или симболичке информације, нпр. у форми одлука.[1][2][3][4] Разумевање у овом контексту значи трансформацију визуелних слика у описе који имају смисла за мисаоне процесе и могу да изазову одговарајућу акцију. Ово разумевање слике може се посматрати као раздвајање симболичких информација од података слике коришћењем модела конструисаних уз помоћ геометрије, физике, статистике и теорије учења.
Научна дисциплина рачунарског вида бави се теоријом која стоји иза вештачких система који извлаче информације из слика. Подаци о слици могу имати различите облике, као што су видео секвенце, прикази са више камера, вишедимензионални подаци са 3Д скенера, 3Д скупови тачака са ЛиДаР сензора или медицински уређаји за скенирање. Технолошка дисциплина рачунарског вида настоји да примени своје теорије и моделе на конструкцију система рачунарског вида.
Под-домени рачунарског вида укључују реконструкцију сцена, детекцију објеката, детекцију догађаја, препознавање активности, видео праћење, препознавање објеката, 3Д процену положаја, учење, индексирање, процену покрета, 3Д моделирање сцене и рестаурацију слике.
Усвајање технологије рачунарског вида може бити мукотрпно за организације јер за то не постоји јединствено решење. Постоји врло мало компанија које обезбеђују јединствену и дистрибуирану платформу или оперативни систем где се апликације рачунарског вида могу лако применити.
Рачунарски вид је интердисциплинарно поље које се бави начином на који се рачунари могу направити да стекну разумевање на високом нивоу из дигиталних слика или видео записа. Из перспективе инжењерства, он настоји да аутоматизује задатке које људско чуло вида може да уради.[5][6][7] "Рачунарски вид се бави аутоматским издвајањем, анализом и разумевањем корисних информација из једне слике или низа слика. То укључује развој теоријске и алгоритамске основе за постизање аутоматског визуелног разумевања."[8] Као научна дисциплина, рачунарски вид се бави теоријом која стоји иза вештачких система који извлаче информације из слика. Подаци о слици могу имати различите облике, као што су видео секвенце, прикази са више камера или вишедимензионални подаци са медицинских скенера.[9] Као технолошка дисциплина, рачунарски вид настоји да примени своје теорије и моделе за конструкцију система рачунарског вида. Машински вид се односи на дисциплину системског инжењеринга, посебно у контексту аутоматизације фабрика. У новије време термини рачунарски вид и машински вид су се у већој мери приближили.[10]
Касних 1960-их, рачунарски вид је почео на универзитетима који су били пионири у вештачкој интелигенцији. Требало је да опонаша људско чуло вида, као одскочна даска за креирање робота са интелигентним понашањем.[11] Године 1966. веровало се да се то може постићи кроз летњи пројекат дипломских студија[12] тако што би се камера прикључила на рачунар и дала му да „опише шта је видела“.[13]
Оно што је рачунарски вид разликовало од преовлађујуће области дигиталне обраде слика у то време била је жеља да се из слика издвоји тродимензионална структура са циљем постизања потпуног разумевања сцене. Студије из 1970-их формирале су рану основу за многе алгоритме рачунарског вида који постоје данас, укључујући издвајање ивица из слика, означавање линија, неполиедарско и полиедарско моделирање, представљање објеката као међувезе мањих структура, оптички ток и процена кретања.[11]
Следеће деценије биле су студије засноване на ригорознијој математичкој анализи и квантитативним аспектима рачунарског вида. То укључује концепт скалираног простора, закључивање облика из различитих знакова као што су сенчење, текстура и фокус, и контурни модели познати као змије. Истраживачи су такође схватили да се многи од ових математичких концепата могу третирати унутар истог оквира оптимизације као регуларизација и Марковљева насумична поља.[14] До 1990-их, неке од претходних истраживачких тема постале су активније од других. Истраживање пројективних 3Д реконструкција довело је до бољег разумевања калибрације камере. Са појавом метода оптимизације за калибрацију камере, увидело се да су многе идеје већ истражене у теорији подешавања пакета из области фотограметрије. Ово је довело до метода за ретке 3Д реконструкције сцена са више слика. Напредак је постигнут у проблему густе стерео кореспонденције и даљим стерео техникама са више приказа. Истовремено, варијације резања графикона су коришћене за решавање сегментације слике. Ова деценија је такође означила први пут да су технике статистичког учења коришћене у пракси за препознавање лица на сликама. Крајем 1990-их дошло је до значајне промене са повећаном интеракцијом између поља рачунарске графике и рачунарског вида. Ово је укључивало рендеровање засновано на слици, преобликовање слике, интерполацију приказа, спајање панорамских слика и рано приказивање светлосног поља.[11]
Недавни рад је доживео поновну појаву метода заснованих на карактеристикама, које се користе заједно са техникама машинског учења и сложеним оквирима за оптимизацију.[15][16] Напредак техника дубоког учења донео је даљи живот пољу рачунарског вида. Тачност алгоритама дубоког учења на неколико референтних скупова података рачунарског вида за задатке који се крећу од класификације,[17] сегментације и оптичког тока надмашила је претходне методе.[18]
Физика чврстог стања је још једна област која је уско повезана са рачунарским видом. Већина система рачунарског вида ослања се на сензоре слике, који детектују електромагнетно зрачење, које је обично у облику видљиве или инфрацрвене светлости. Сензори су дизајнирани помоћу квантне физике. Процес којим светлост ступа у интеракцију са површинама објашњава се помоћу физике. Физика објашњава понашање оптике која је суштински део већине система за снимање. Софистицирани сензори слике захтевају чак и квантну механику да би пружили потпуно разумевање процеса формирања слике.[11] Такође, различити проблеми мерења у физици могу се решити коришћењем рачунарског вида, на пример, кретање у течностима.
Неуробиологија је у великој мери утицала на развој алгоритама рачунарског вида. Током прошлог века, било је опсежно проучавање очију, неурона и можданих структура посвећених обради визуелних стимуланса и код људи и код разних животиња. Ово је довело до грубог, али замршеног описа како природно чуло вида функционише у циљу решавања одређених задатака у вези са видом. Ови резултати су довели до под-области у рачунарском виду где су вештачки системи дизајнирани да опонашају обраду и понашање биолошких система на различитим нивоима сложености. Такође, неке од метода заснованих на учењу развијене у оквиру рачунарског вида (нпр. неуронска мрежа и анализа и класификација слика и карактеристика заснованих на дубоком учењу) имају своју позадину у неуробиологији. Неокогнитрон, неуронска мрежа коју је 1970-их развио Кунихико Фукушима, рани је пример рачунарског вида који узима директну инспирацију из неуробиологије, посебно примарног визуелног кортекса.
Неки правци истраживања рачунарског вида су уско повезани са проучавањем биолошког вида – заиста, као што су многи правци истраживања вештачке интелигенције уско повезани са истраживањем људске интелигенције и употребом ускладиштеног знања за тумачење, интеграцију и коришћење визуелних информација. Област биолошког вида проучава и моделира физиолошке процесе иза визуелне перцепције код људи и других животиња. Рачунарски вид, с друге стране, развија и описује алгоритме имплементиране у софтвер и хардвер иза система вештачког вида. Интердисциплинарна размена између биолошке и компјутерске визије показала се плодном за обе области.[19]
Још једно поље везано за рачунарски вид је обрада сигнала. Многе методе за обраду сигнала са једном променљивом, типично временских сигнала, могу се на природан начин проширити на обраду сигнала са две променљиве или сигнала са више варијабли у компјутерском виду. Међутим, због специфичне природе слика, постоји много метода развијених у рачунарском виду које немају пандан у обради сигнала са једном променљивом. Заједно са вишедимензионалношћу сигнала, ово дефинише под-област у обради сигнала као део рачунарског вида.
Роботска навигација се понекад бави аутономним планирањем путање или промишљањем роботских система за навигацију кроз окружење.[20] За навигацију кроз њих потребно је детаљно разумевање ових окружења. Информације о животној средини може да обезбеди рачунарски систем за вид, који делује као сензор вида и пружа информације високог нивоа о окружењу и роботу.
Поред горе наведених ставова о рачунарском виду, многе од сродних истраживачких тема могу се проучавати и са чисто математичке тачке гледишта. На пример, многе методе у рачунарском виду су засноване на статистици, оптимизацији или геометрији. Коначно, значајан део области посвећен је аспекту имплементације рачунарског вида; како се постојеће методе могу реализовати у различитим комбинацијама софтвера и хардвера, или како се ове методе могу модификовати да би се добила брзина обраде без превише губитка перформанси. Рачунарски вид се такође користи у модној е-трговини, управљању залихама, претраживању патената, намештају и индустрији лепоте.
Области које су најближе рачунарском виду су обрада слике, анализа слике и машински вид. Постоји значајно преклапање у распону техника и апликација које ове области покривају. То имплицира да су основне технике које се користе и развијају у овим областима сличне, што се може протумачити да постоји само једно поље са различитим називима. С друге стране, чини се да је неопходно да се истраживачке групе, научни часописи, конференције и компаније представе или пласирају као особе које припадају једној од ових области и, стога, имају различите карактеризације које разликују сваку од области од осталих. представљено. У обради слике, улаз је слика, а излаз је такође слика, док се у рачунарском виду слика или видео узимају као улаз и излаз може бити побољшана слика, разумевање садржаја слике или чак понашање рачунарског система заснованог на таквом разумевању.
Рачунарска графика производи сликовне податке из 3Д модела, а компјутерски вид често производи 3Д моделе из података слике.[21] Такође постоји тренд ка комбинацији ове две дисциплине, на пример, како се истражује у проширеној стварности.
Чини се да су следеће карактеристике релевантне, али их не треба узимати као универзално прихваћене:
Фотограметрија се такође преклапа са рачунарским видом, на пример, стереофотограметрија наспрам рачунарског стерео вида.
Примене се крећу од задатака као што су индустријски системи машинског вида који, рецимо, прегледају боце које пролазе на производној линији, до истраживања вештачке интелигенције и рачунара или робота који могу да разумеју свет око себе. Поља рачунарског и машинског вида се значајно преклапају. Рачунарски вид покрива основну технологију аутоматске анализе слике која се користи у многим областима. Машински вид се обично односи на процес комбиновања аутоматизоване анализе слике са другим методама и технологијама како би се обезбедила аутоматска контрола и навођење робота у индустријским апликацијама. У многим апликацијама рачунарског вида, рачунари су унапред програмирани да реше одређени задатак, али методе засноване на учењу сада постају све чешће. Примери примене рачунарског вида укључују системе за:
Једно од најистакнутијих области примене је медицински рачунарски вид, или обрада медицинске слике, коју карактерише екстракција информација из података слике ради дијагностиковања пацијента. Пример за то је откривање тумора, артериосклерозе или других малигних промена и разних зубних патологија; мерења димензија органа, протока крви итд. Такође подржава медицинска истраживања пружањем нових информација: на пример, о структури мозга или квалитету медицинских третмана. Примене компјутерског вида у медицинској области такође укључују побољшање слика које тумаче људи – ултразвучне слике или рендгенске слике, на пример – да би се смањио утицај буке.
Друга област примене рачунарског вида је у индустрији, која се понекад назива машински вид, где се информације издвајају у сврху подршке производном процесу. Један пример је контрола квалитета где се детаљи или финални производи аутоматски проверавају како би се пронашли недостаци. Једно од најзаступљенијих поља за такву инспекцију је индустрија вафера у којој се свака појединачна плочица мери и проверава у погледу нетачности или дефеката како би се спречило да рачунарски чип дође на тржиште на неупотребљив начин. Други пример је мерење положаја и оријентације детаља које треба да покупи роботска рука. Машински вид се такође у великој мери користи у пољопривредним процесима за уклањање непожељних намирница из расутих материјала, процес који се назива оптичко сортирање.[26]
Војне примене су вероватно једна од највећих области рачунарског вида. Очигледни примери су откривање непријатељских војника или возила и навођење пројектила. Напреднији системи за навођење пројектила шаљу пројектил на подручје, а не на одређену мету, а избор циља се врши када пројектил стигне до подручја на основу локално добијених података о слици. Савремени војни концепти, као што је „свесност на бојном пољу“, подразумевају да различити сензори, укључујући сензоре слике, пружају богат скуп информација о сцени борбе које се могу користити за подршку стратешким одлукама. У овом случају, аутоматска обрада података се користи за смањење сложености и за спајање информација са више сензора ради повећања поузданости.
Једна од новијих области примене су аутономна возила, која укључују подморнице, копнена возила (мали роботи са точковима, аутомобили или камиони), летелице и беспилотне летелице (УАВ). Ниво аутономије се креће од потпуно аутономних (беспилотних) возила до возила у којима системи засновани на компјутерском виду подржавају возача или пилота у различитим ситуацијама. Потпуно аутономна возила обично користе рачунарски вид за навигацију, на пример, да знају где се налазе или да мапирају своје окружење (СЛАМ), за откривање препрека. Такође се може користити за откривање одређених догађаја специфичних за задатак, на пример, беспилотна летелица која тражи шумске пожаре. Примери пратећих система су системи упозорења на препреке у аутомобилима, камере и ЛиДАР сензори у возилима и системи за аутономно слетање авиона. Неколико произвођача аутомобила демонстрирало је системе за аутономну вожњу аутомобила. Постоји велики број примера војних аутономних возила у распону од напредних пројектила до беспилотних летелица за извиђачке мисије или навођење пројектила. Истраживања свемира се већ врше са аутономним возилима која користе рачунарски вид, на пример, НАСА-ин Кјуриосити и ЦНСА-ин Јуту-2 ровер.
Материјали као што су гума и силицијум се користе за креирање сензора који омогућавају примене као што су откривање микро таласа и калибрација роботских руку. Гума се може користити да би се направио калуп који се може ставити преко прста, унутар овог калупа би било више мерача напрезања. Калуп за прсте и сензори могу се затим поставити на мали лист гуме који садржи низ гумених иглица. Корисник тада може носити калуп за прсте и пратити површину. Рачунар тада може да прочита податке са мерача напрезања и измери да ли се један или више иглица гура нагоре. Ако се игла гура нагоре, рачунар то може препознати као несавршеност површине. Ова врста технологије је корисна за добијање тачних података о несавршеностима на веома великој површини.[27] Још једна варијација овог сензора за прсте су сензори који садрже камеру окачену у силицијум. Силицијум формира куполу око спољашње стране камере и уграђени у силицијум су тачкасти маркери који су подједнако распоређени. Ове камере се затим могу поставити на уређаје као што су роботске руке како би се омогућило рачунару да прима високо прецизне тактилне податке.[28]
Остале области примене укључују:
Свака од горе описаних области примене користи низ задатака рачунарског вида; мање или више добро дефинисани проблеми мерења или проблеми обраде, који се могу решити коришћењем разних метода. Неки примери типичних задатака рачунарског вида су представљени у наставку.
Задаци рачунарског вида обухватају методе за стицање, обраду, анализу и разумевање дигиталних слика, и екстракцију високодимензионалних података из стварног света како би се произвеле нумеричке или симболичке информације, на пример, у облику одлука.[1][2][3][4] Разумевање у овом контексту значи трансформацију визуелних слика у описе света који се могу повезати са другим мисаоним процесима и изазвати одговарајућу акцију. Ово разумевање слике може се посматрати као раздвајање симболичких информација од података слике коришћењем модела конструисаних уз помоћ геометрије, физике, статистике и теорије учења.[33]
Класичан проблем у компјутерском виду, обради слике и машинском виду је одређивање да ли подаци о слици садрже неки специфичан објекат, карактеристику или активност. У литератури су описане различите врсте проблема препознавања.[34]
Тренутно су најбољи алгоритми за такве задатке засновани на конволуционим неуронским мрежама. Илустрацију њихових могућности даје ИмиџНет; ово је мерило за класификацију и детекцију објеката, са милионима слика и 1000 класа објеката коришћених у такмичењу.[35] Перформансе конволуционих неуронских мрежа на ИмиџНет тестовима су сада блиске онима које имају људи.[35] Најбољи алгоритми се и даље боре са објектима који су мали или танки, као што је мали мрав на стабљици цвета или особа која држи перо у руци. Такође имају проблема са сликама које су изобличене филтерима (све чешћи феномен код модерних дигиталних фотоапарата). Насупрот томе, такве слике ретко сметају људима. Људи, међутим, имају тенденцију да имају проблема са другим проблемима. На пример, они нису добри у класификовању објеката у специфичније класе, као што је одређена раса паса или врста птица, док конволуционе неуронске мреже то с лакоћом решавају.
Постоји неколико специјализованих задатака заснованих на препознавању, као што су:
Неколико задатака се односи на процену покрета где се секвенца слике обрађује да би се произвела процена брзине било у свакој тачки на слици или у 3Д сцени или чак камере која производи слике. Примери таквих задатака су:
Уз једну или (обично) више слика сцене, или видео снимка, реконструкција сцене има за циљ израчунавање 3Д модела сцене. У најједноставнијем случају, модел може бити скуп 3Д тачака. Софистицираније методе производе комплетан 3Д модел површине. Појава 3Д слика које не захтевају кретање или скенирање и сродних алгоритама обраде омогућавају брз напредак у овој области. 3Д осећај заснован на мрежи може се користити за добијање 3Д слика из више углова. Алгоритми су сада доступни за спајање више 3Д слика у скупове тачака и 3Д моделе.[21]
Рестаурација слике се користи у случајевима када је оригинална слика деградирана или оштећена због неких спољних фактора као што су погрешно позиционирање сочива, сметње у преносу, слабо осветљење или замућење покрета итд. што се назива шумом. Када се слике деградирају или оштете, информације које треба извући из њих се такође оштећују. Због тога морамо да повратимо или вратимо слику како је требало да буде. Циљ рестаурације слике је уклањање шума (шум сензора, замућење покрета, итд.) са слика. Најједноставнији могући приступ за уклањање буке су различити типови филтера као што су нископропусни филтери или средњи филтери. Софистицираније методе претпостављају модел на основу локалне структуре слике, да би се разликовале од шума. Прво анализирањем података о слици у смислу локалних структура слике, као што су линије или ивице, а затим контролисањем филтрирања на основу локалних информација из корака анализе, обично се постиже бољи ниво уклањања шума у поређењу са једноставнијим приступима.
Организација система рачунарског вида у великој мери зависи од примене. Неки системи су самосталне апликације које решавају конкретан проблем мерења или детекције, док други чине подсистем већег дизајна који, на пример, садржи и подсистеме за управљање механичким актуаторима, планирање, информационе базе података, машински интерфејси итд. Специфична имплементација система рачунарског вида зависи и од тога да ли је његова функционалност унапред одређена или се неки део може научити или модификовати током рада. Многе функције су јединствене за апликацију. Међутим, постоје типичне функције које се налазе у многим системима рачунарског вида.
Системи за разумевање слике (ИУС) укључују три нивоа апстракције, како следи: ниски ниво укључује примитиве слике као што су ивице, елементи текстуре или региони; средњи ниво обухвата границе, површине и запремине; а високи ниво укључује објекте, сцене или догађаје. Многи од ових захтева су у потпуности теме за даља истраживања.
Репрезентативни захтеви у пројектовању ИУС-а за ове нивое су: представљање прототипских концепата, организација концепта, просторно знање, временско знање, скалирање и опис поређењем и диференцијацијом.
Док се закључивање односи на процес извођења нових, не експлицитно представљених чињеница из тренутно познатих чињеница, контрола се односи на процес који бира која од многих техника закључивања, претраживања и подударања треба да се примени у одређеној фази обраде. Захтјеви закључивања и контроле за ИУС су: претраживање и активација хипотеза, подударање и тестирање хипотеза, генерирање и кориштење очекивања, промјена и фокус пажње, сигурност и снага вјеровања, закључак и задовољство циљем.[42]
Постоји много врста система рачунарског вида; међутим, сви они садрже ове основне елементе: извор напајања, најмање један уређај за аквизицију слике, процесор и контролне и комуникационе каблове или неку врсту механизма за бежично повезивање. Поред тога, практичан систем визије садржи софтвер, као и дисплеј за праћење система. Системи за преглед унутрашњих простора, као и већина индустријских, садрже систем осветљења и могу се поставити у контролисано окружење. Штавише, комплетан систем укључује много додатака као што су носачи за камере, каблови и конектори.
Већина система рачунарског вида користи камере са видљивим светлом које пасивно посматрају сцену брзином од највише 60 кадрова у секунди (обично много спорије).
Неколико система рачунарског вида користи хардвер за прикупљање слика са активним осветљењем или нечим другим осим видљиве светлости или обоје, као што су 3Д скенери са структурираним светлом, термографске камере, хиперспектрални снимачи, радарско снимање, лидарски скенери, слике магнетне резонанце, сонар за бочно скенирање , сонар са синтетичким отвором, итд. Такав хардвер снима „слике“ које се затим често обрађују коришћењем истих алгоритама рачунарског вида који се користе за обраду слика видљивог светла.
Док традиционални системи за емитовање и видео системи за потрошаче раде брзином од 30 фрејмова у секунди, напредак у дигиталној обради сигнала и графичком хардверу за потрошаче омогућио је брзу аквизицију, обраду и приказ слике за системе у реалном времену од неколико стотина до хиљаде кадрова у секунди. За апликације у роботици, брзи видео системи у реалном времену су критично важни и често могу да поједноставе обраду потребну за одређене алгоритме. Када се комбинује са пројектором велике брзине, брзо прикупљање слике омогућава реализацију 3Д мерења и праћења карактеристика.[43]
Егоцентрични системи вида се састоје од носиве камере која аутоматски снима слике из перспективе првог лица.
Од 2016. јединице за обраду визије појављују се као нова класа процесора, како би допуниле ЦПУ и графичке процесорске јединице (ГПУ) у овој улози.[44]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.