From Wikipedia, the free encyclopedia
Дубоко учење (познато као дубоко структурно учење или хијерархијско учење) део је шире породице метода машинског учења базиране на учењу репрезентације података, насупрот алгоритмима који се базирају на листама наредби. Учење може бити надгледано, полу-надгледано или ненадгледано.[1][2][3]
Неке репрезентације подсећају на интерпретацију обраде информација и на шаблоне комуникације у биолошком нервном систему, као што је нервно кодирање које дефинише везу између различитих дражи и одговарајућег нервног одговора у мозгу.
Архитектуре дубоког учења, као што су дубока нервна мрежа или рекурентна нервна мрежа примењена су на пољима рачунарског вида, препознавања говора, обраде природних језика, препознавања звука, филтрирања друштвених мрежа, биоинформатике и дизајна лекова[4] и постигли резултате једнаке, ако не и боље од резултата стручњака.[5][6]
Дубоко учење је класа алгоритама машинског учења који:[7]
Слојеви коришћени у дубоком програмирању укључују скривене слојеве вештачке нервне мреже и мноштво исказних формула.[8] Могу укључити и слојевито организоване скривене променљиве у дубоко генерисаним моделима налик онима код Дубоких Болцанових машина.
Претпоставка у основи дистрибуираних репрезентација је да се посматрани подаци генеришу интеракцијама слојевитих фактора.
Дубоко учење додаје претпоставку да ови слојеви фактора одговарају нивоима апстракције или састава. Различит број слојева и величина слоја могу да обезбеде различите степене апстракције.[1]
Архитектура дубоког учења се често конструише помоћу похлепне слој-по-слој методе. Дубоко учење помаже у раздвајању ових апстракција и одабиру карактеристика које побољшавају перформансе.[1]
За задатке надгледаног учења, методе дубоког учења избегавају карактеристичан инжењеринг, превођењем података у компактне посредоване репрезентације сличне главној компоненти, и изводе слојевите структуре које уклањају редудантост у репрезентацији.
Алгоритми дубоког учења се могу применити за задатке ненадгледаног учења. Ово је важна предност јер су необележени подаци обимнији од обележених података. Примери дубоких структура које могу бити изучаване на ненадгледан начин су компресор неуралне мреже[9] и дубоке мреже веровања.[1][10]
Дубоке неуралне мреже се обично тумаче у смислу теорија универзалне апроксимације[11][12][13][14][15]или пробабилистичког закључивања.[7][8][1][2][10][16][17]
Универзална теорема апроксимације се односи на капацитет feedforward неуронских мрежа са једним скривеном слојем коначне величине за проксимацију континуиране функције.[11][12][13][14][15] 1989. је Цибенко објавио први доказ за функције сигмуидне активације[12] и генерализован је за дистрибуцију вишеслојних архитектура 1991. године од стране Хорника.[13] Пробабилистичке интерпретације[16] потичу из области машинског учења. Оне нелинеарне активације разматрају као кумулативну функцију расподеле.[16] Уведене су од стране истраживача, укључујући Хопфилда, Видрова и Наренда и популризоване у анкатема као што је једна од стране Бишопа.[18]
Појам дубоко учење уведен је у заједницу машинског учења 1986 од стране Рине Дехтер,[19][9]а вештачке неуронске мреже од стране Игора Ајзенберга и колега 2000. године у контексту Булових неуронских прагова.[20][21] У 2006. години публикација Хинтона, Осиндера и Теха[22][23] показала је како би код вишеслојне feedforward неуронске мреже слој могао бити унапред ефикасно обучен третирајући сваки слој као ненадгледану ограничену Болцманову машину, лепо наштимовану коришћењем надгледане повратне прпопагације.[24] Рад се односи на учење за дубоке мреже веровања.
Први општи агоритам рада за надгледане, дупоке, преносне перцептроне објавили су Alexey Grigorevich Ivakhnenko и Лапа 1965. године.[25] Документ из 1971. описао је дубоку мрежу са осам слојева обучених групном методом алгоритма за обраду података.[26]
Друге радне архитектуре дубоког учења, посебно оне које су изграђене за рачунарски вид почеле су са Неокогнитроном који је 1980. године представио Фукушима.[27] 1989. ЛиЦун применио је алгоритам за повратну пропагацију, који је од 1970. године био окренут резервном режиму аутоматског диференцирања,[28][29][30][31] до дубоке неуронске мреже с циљем препознавања рукописних ЗИП кодова у пошти. Док је алгоритам фнкционисао, обучавање је трајало три дана.[32]
До 1991. године такви системи су коришћени за препознавање 2Д ручно исписаних цифара, док је препознавање 3Д објеката учињено одговарајућим 2Д сликама са ручно изграђеним 3Д објектним модулом. Венг и други су претпоставили да људски мозак не користи монолитни 3Д објектни модел и 1992. године објавили су Кресептрон,[33][34][35] метод за препознавање 3Д објеката у скривеним сценама. Кресептон је слап слојева сличних Неокогнитрону. Међутим док Неокогнитрон очекује од програмера да га ручно споји са карактеристикама, Кресептон је без надзора научио отворен број карактеристика на сваком нивоу, где је свака карактеристика представљена реконструкцијским алгоритмом. Кресептон је учврстио сваки научени објекат из нереда кроз анализу уназад кроз мрежу. Максимално удруживање, сада често усвојено од дубоких неуронских мрежа (нпр. ImageNet тестови) је први пут коришћено у Кресептону да смањи резолуцију позиције за фактор (2x2) до 1 кроз пренос ради бољег генерализовања.
Године 1994. Карваљо је заједно са Фејрурстом и Бисетом објавио експерименталне резултате вишеслојне Булове неуралне мреже, такође познате као бестежинске неуралне мреже, која се састоји од саморганизујуће карактеристике екстракције модула неуралне мреже праћене класификацијом неуронске мреже, које су независно обучене.[36]
Фреј је 1995. године показао да је могуће обучити (током два дана) мрежу која садржи шест потпуно повезаних слојева и неколико стотина сакривених јединица користећи вејк-слип алгоритам, развојен заједно са Дајеном и Хинтоном.[37] Многи фактори доприносе спорости, укључујући и проблем са градијентом, анализиран 1991. од стране Хохрајтера.[38][39]
Једноставни модели који користе ручно направљене карактеристике као што су Габор филтери и машине за подршку векторима (СВМ) бели су популарни током деведесетих и двехиљадитих због рачунских трошкова вештачке неуронске мреже и недостатка разумевања о томе како мозак пролази кроз своје биолошке мреже.
И плитко и дубоко учење код вештачких неуронских мрежа истраживано је већ дуги низ година.[40][41][42] Ови методи никад нису превазишли технологију неуниформног унутрашњег Гаусовог мешовитог модела/сакривеног Марковог модела(GMM-HMM) базирану на генеративним моделима говора обучаваних дискриминативно.[43] Кључне потешкоће су анализиране, укључујући градијент смањења[38] и слабу темпоралну корелациону стуктуру у неуронским предиктивним моделима.[44][45] Додатни проблем били су недостатак података за обуку и ограничена рачунарска снага.
Већина истраживача за препознавање говора преселила се из неуронских мрежа у тражење генеративног моделирања. Изузетак је био SRI International крајем деведесетих. Финансиран од стране Америчке владе, NSA-а и DARPA-е, SRI је проучавао дубоке неуронске мреже у препознавању говора и звучника. Хеков тим за препознавање звучника дошао је до првог значајног успеха са дубоким неуронским мрежама у процесирању говора у Националном институту за стандарде и технологију за препознавање звучника 1998. године.[46] Док је SRI доживљавао успехе са дубоким неуронским мрежама у препознавању звучника, били су неуспешни у демонстрацији сличног успеха у препознавању говора. Деценију касније, Хинтон и Денг су заједно сарађивали, а затим са колегама из различитих група на Универзитету у Торину, Мајкрософту, Гуглу и IBM-у покренули ренесансу дубоких неуронских мрежа у препознавању говора.[47][48][49][50]
Принцип препознавања „сирових” функција над ручно изграђеном оптимизацијом је први пут успешно истражен у архитектури дубоког аутоенкодера на „сировом” спектрограму или у функцијама линеарне филтер-банке крајем 1990. године,[46] показујући своју супериорност над функцијама Мел-Кепстрала које садрже фазе фиксне трансформације из спектрограма. Сирове особине говора, таласних облика, касније су произвеле одличне резултате већег обима.[51]
Многи асшекти препознавања говора су били преузети од стране метода дубоког учења званог дуга краткотрајна меморија (LSTM), рекурентна неуронска мрежа објављена од стране Хохрајтера и Шмидхубера 1997.[52] LSTM RNN избегавају проблеме нестајућег градијента и могу да науче задатке „веома дубоког учења”[2] који захтевају сећање догађаја који су се догодили пре хиљаду одвојених временских корака, што је важно за говор. 2003. године LSTM је почео да буде конкурентан традиционалном препознавању говора у одређеним задацима.[53] Касније је комбинован са везивном временском класификацијом (CTC)[54] у стековима LSTM RNN-а.[55] 2015. године, Гуглово препознавање говора је наводно постигло драматични скок перформанси од 49% кроз CTC - обучени LSTM, који су постали доступни кроз Гуглову претрагу гласом.[56]
Године 2006, су Хинтон и Салакхутидов су показали како вишеслојна feedforward неуронска мрежа може ефикасно бити обучити тренирајући слој истовремено, третирајући сваки слој као ненадгледану Болцманову машину, а затим је фино подесити помоћу надгледане повратне пропагације.[57]
Дубоко учење је део најсавременијих система у различитим дисциплинама, посебно у рачунарском виду и аутоматском препознавању говора (ASR). Резултати о најчешчће коришћеним сетовима евалуације, као што су TIMIT(ASR) и MINIST(класификација слика), као и низ задатака препознавања говора великих речи, постепено се побољшавају.[47][58][59] Конволуционалне неуронске мреже (CNN) су замењене са ASR од стране CTC[54] за LSTM,[52][56][60][61][62][63][64] али су успешније у рачунарском виду.
Утицај дубоког учења у индустрији почео је почетком 2000. х, када су CNN већ обрадиле 10% до 20% свих проверки написаних у САД.[65] Индустријске апликације дубоког учења за препознавање говора великих димензија почеле су око 2010.
Крајем 2009. године, Ли Денг је позвао Хинтона да сарађује са њим и колегама како би применио дубоко учење за препознавање говора. Они су заједно 2009. организовали NIPS радионицу о дубоком учењу за препознавање говора.[66] Радионица је мотивисана ограничењима дубоких генеративних модела говора, као и могућношћу да се добије способнији хардвер и велике количине података да би дубоке неуронске мреже (DNN) могле постати практичне. Веровало се да ће pre-trening DNN-ови користећи генеративне моделе дубоких вероватних мрежа (DBN) превладати главне потешкоће неуронских мрежа.[49] Међутим, открили су да замењују предобуку са великим количинама података о обуци за једноставну повратну пропагацију када користе DNN са великим, контексно зависним излазнима, произведеним значајно мањим степеном грешке од тада најсавременијег Гаусовог модела смеше (GMM)/скривеног Марковог модела (HMM) као и са напредним генеративним системима заснованим на моделу.[47][67] Природа грешака у препознавању произведена од стране два типа система била је карактеристично различита,[48][66] пружајући техничке увиде у како интегрисати дубоко учење у постојећи високо ефикасни систем за декодирање говора за време рада, који користе сви главни системи за препознавање говора.[7][68][69] Анализа око 2009—2010. године супротставила је модел GMM (и другим генеративним моделима говора) против DNN модела, подстаћући рана индустријска улагања у дубоко учење за препознавање говора,[48][66] што је довело до продорне и доминантне употребе у тој индустрији. Та анализа је обављена упоређивањем перформанси између дискриминативних DNN-а и генеративног модела.
Истраживачи су 2010. године проширили дубоко учење од TIMIT-а до препознавања говора великог речника, усвајањем великих излазних слојева DNN-а заснованих на контексно зависним HMM стањима констриушући дрво одлучивања.[70][71][72][68]
Побољшање хардвера омогућио је поновно интересовање. 2009. године Nvidia је била укључена у оно што се назива „биг банг” дубоког учења „јер су неуронске мреже дубоког учења обучаване са Nvidia графичким процесорским јединицама (GPU)”.[73] Те године, Гугл Брејн је користио Nvidia GPU како би креирао способне DNN-ове. Нг је утврдио да GPU може повећати брзину система дубоког учења око 100 пута.[74] GPU је посебно погодан за матрично/векторску математику која се користи у машинском учењу.[75][76] GPU убрзавају алгоритме тренинга по редоследу магнитуде, смањивању времена вожње од неколико недеља до неколико дана.[77][78] За ефикасну обраду се могу користити специјализоване хардверске и алгоритамске оптимизације.[79]
Године 2012, тим вођен Далом освојио је „Merck Molecular Activity Challenge” користећи глобалне multi-task неуронске мреже како би предвидели биомолекуларни циљ једне дроге.[80][81] 2014. године Хохрајтерова група је користила дубоко учење да детектује токсичке ефекте хемикалија у животној средини у хранљивим материјама, кућним производима и лековима и освојила је „Tox21 Data Challenge”.[82][83][84]
Значајни додатни утицаји на слику или објекат осетили су се од 2011. до 2012. године. Иако су CNN-ови били обучавани повратном пропагацијом већ деценијама, GPU импелементирани NN-овима годинама, укључујући CNN-ове, брзе имплементације CNN-а са максималним учинком GPU-а у стилу Циресана и колега потребне су за напредак у рачунарском виду.[75][76][32][85][2] 2011. године је овај систем први пут постигао перформансе надчовека у такмичењу препознавања визуелних узорака. Исте године је освојио такмичење ICDAR кинеског рукописа, а у мају 2012. године освојио је ISBI такмичење за сегментацију слика.[86] До 2011. године CNN-ови нису играли главну улогу на конференцијама о рачунарском виду, али у јуну 2012. чланак Циресана и осталих на водећој конференцији CVPR[5] је показао како максимално удруживање CNN-ова на GPU-у могу драматично побољшати бројне записе о мерењу видљивости. У октобру 2012. године, сличан систем Крижевског и Хинтона[6] победио је на такмичењу „ImageNet” због значајне маргине над методама плитког машинског учења. У новембру 2012. године, систем Циресана и осталих освојио је ICDAR за анализу великих медицинских слика за откривање рака, а наредне године и MICCAI Grand Challenge на исту тему.[87] 2013. и 2014. године степен грешке на задатку „ImageNet” коришћењем дубоког учења додатно је смањена, следи сличан тренд препознавања говора великих размера. Пројекат The Wolfram Image Identification објавио је ова побољшања.[88]
Класификација слика је затим проширена на изазовнији задатак генерисања описа за слике, често као комбинација CNN-а и LSTM-а.[89][90][91][92]
Вештачке неуронске мреже или везани системи су компјутерски системи инспирисаним биолошким неуронским мрежама које чине животињски мозак. Такви системи уче (прогресивно побољшавају своју способност) да раде задатке узимајући у обзир примере углавном без специфичног програмирања. На пример, у препознавању слике, они могу да науче да идентификују слике које садрже мачке анализом примера слика које су ручно означене као „мачка” или „без мачке” и користе аналитичке резултате за идентификацију мачака на другим сликама. Највише се користе у апликацијама које се тешко изражавају традиционалним компјутерским алгоритмом користећи програмирање засновано на правилима.
Вештачка неуронска мрежа заснива се на скупу повезаних јединица званих вештачки неурони (аналогно аксонима у биолошком мозгу). Свака веза (синапса) између неурона може пренети сигнал другом неурону. Пријемни (постсинаптички) неурон може обрадити сигнал(е) и потом сингализирати низводне неуроне који су повезани са њим. Неурони могу имати стање, углавном представљено реалним бројем између 0 и 1.
Неурони и синапсе могу имати и тежину која варира као принос учења, што може појачати или смањити јачину сигнала коју шаље низводно.
Типично, неурони су организовани по слојевима. Различити нивои могу вршити различите врсте трансформација на својим улазима. Сигнали путују од првог (улазног) до последњег (излазног) слоја, евентуално након што више пута обиђу слојеве.
Првобитни циљ приступа неуронске мреже био је да реши проблеме на исти начин као и људски мозак. Током времена, пажња се фокусирала на усклађивање специфичних менталних способности, што је довело до одступања од биологије као што је повратна пропагација или преношење информација у обратном смеру и прилагођавање мреже како би се те информације одразиле.
Неуронске мреже су коришћене за разне задатке, укључујући компјутерски вид, препознавање говора, машински превод, филтрирање друштвених мрежа, видео игре и успостављање медицинске дијагнозе.
Од 2017. године неуронске мреже обично имају неколико хиљада до неколико милиона јединица и милионе конекција. Упркос томе што је овај број неколико реда величине мањи од броја неурона у људском мозгу, ове мреже могу обављати неке задатке боље од људи (нпр. препознаваље лица[93]).
Дубока неуронска мрежа (DNN) је вештачка неуронска мрежа (ANN) са више сакривених слојева између улазних и излазних слојева.[8][2] Дубоке неуронске мреже могу модулирати комплексне нелинеарне везе. Архитектуре дубоке неуронске мреже генеришу композиционе моделе у којима је објекат изражен као слојевита композиција примитивних типова података.[94] Виши слојеви дозвољавају композицију карактеристика из нижих слојева, потенцијално моделирајући сложене податке са мање јединица које је слично извођењу плитке мреже.[8]
Дубоке архитектуре укључују многе варијанте неколико основних приступа. Свака архитектура је нашла примену у одређеним доменима. Није увек могуће упоређивати перформансе више архитектура, осим ако се не процењује над истим скупом података.
Дубоке неуронске мреже су типичне преносне мреже у којима подаци пролазе од улазног до излазног слоја без повратне петље.
Рекурентне неуронске мреже у којима подаци могу протицати у било ком смеру се користе за апликације као што су моделирање језика.[95][96][97][98] Дуга краткотрајна меморија је нарочито ефикасна за ову употребу.[99]
Конволуцијске дубоке неуронске мреже се користе у рачунараском виду.[100] Оне се такође користе код акустичког моделирања за аутоматско препознавање говора (АСР).
Као и са ANN-овима, многи проблеми могу да се јаве лоше обучаваним DNN-овима. Два најчешћа проблема су overfitting и време обављања операција.
DNN су склони overfitting-гу због додатних слојева апстракције, који им дозвољавају да моделирају ретке зависности у подацима за обраду. Методе регуларизације као што су Ивахненко-ва одсецање јединица или смањивање тежине(l2-регуларизација) или проређеност (l1-регуларизација) могу бити примењене током обучавања да би се превазишао overfitting. Алтернативно насумично прекидање регуларизације искључује јединице мере из скривених слојева током обучавања. Ово помаже да се заобиђу ретке зависности. Коначно, подаци могу бити измењени методама као што су сечење и ротирање тако да мањи сетови у обучавању могу бити повећани на величину довољну да се смањи ризик од overfitting-а.
DNN морају да размотре многе параметре обучавања као што је величина (број слојева и број јединица по слоју), распон учења и почетне тежине. За оптималне параметре може пролажење кроз простор параметара може бити неоствариво због временских трошкова и ресурса прорачуна. РАзни трикови као што су серије (израчунавање градијента неколико примера обучавања одједном уместо појединачних) убрзавају прорачун. Велика оптимуѕација обраде користећи GPU произвела је значајна урзавања у обучавању зато што је захтевани матрични и векторски прорачун одговарајући за GPU.
Алтернативно, инжињери могу тражити друге типове неуронских мрежа са јаснијим и конвергентнијим алгоритмима обучавања. CMAC (cerebellar model articulation controller) је једна од тих неуронских мрежа. Не захтева распоне учења ни насумичне почетне тежине. Процес обучавања гарантује укрштање у неком кораку са неком серијом података, комплексност прорачуна алгоритма обучавања је линеарна узимајући у обзир број укључених неурона.
Аутоматско препознавање говора великих размера је први и најуспешнији случај дубоког учења. LSTM RNN могу да науче задатке „веома дубоког учења”[2] који укључују интервале од више секунди које садрже говорне догађаје раздвојене хиљадама дискретних временских корака, при чему једном временском кораку одговара око 10ms. LSTM са заборављеним гејтовима[99] је конкурентан традиционалном препознаватељима говора на одређеним задацима.[53]
Почетни успех у препознавању говора базиран је на задацима мале размере заснованих на TIMIT-у. Скуп података садржи 630 говорника из осам главних дијалеката америчког енглеског, где сваки говорник чита 10 реченица.[101] Његова мала величина дозвољава да се пробају многе конфигурације. Још важније, задатак TIMIT-а се односи на препознавање редоследа гласовних секвенци, што за разлику од препознавања редоследа речи дозвољава слабе језичке конструкције (без јаке граматике). Овим се слабости у акустичном моделирању аспеката препознавања говора лакше анализирају. У наставку су наведене стопе грешке, укључујући раније резултате мерене као проценат грешке у гласу сумираних у последњих 20 година:
Метод | % |
---|---|
Randomly Initialized RNN | 26.1 |
Bayesian Triphone GMM-HMM | 25.6 |
Hidden Trajectory (Generative) Model | 24.8 |
Monophone Randomly Initialized DNN | 23.4 |
Monophone DBN-DNN | 22.4 |
Triphone GMM-HMM with BMMI Training | 21.7 |
Monophone DBN-DNN on fbank | 20.7 |
Convolutional DNN[102] | 20.0 |
Convolutional DNN w. Heterogeneous Pooling | 18.7 |
Ensemble DNN/CNN/RNN[103] | 18.2 |
Bidirectional LSTM | 17.9 |
Почетак дубоке неуронске мреже за препознавање говорника крајем 1990-их и препознавање говора 2009-2010 и LTSM 2003-2007 убрзао је напредак у осам главних области:[7][50][68]
Сви главни комерцијални системи за препознавање говора (на пример: Microsoft Cortana, Xbox, Skype Translator, Amazon Alexa, Google Now, Apple Siri итд.) заснивају се на дубоком учењу.[7][104][105][106]
За класификацију слика постављен је заједнички проценат података који су подаци MNIST базе података. MNIST се састоји од цифара писаних руком и обухвата око 60000 примера обуке, као и 10000 тест примера. Као и код TIMIT-а, мала величина омогућава корисницима да тестирају више конфигурација. Доступна је свеобухватна листа резултата ове базе.[107]
Напредак који је постигнут у препознавању слика је допринео томе да се техника дубоког учења примени и на различите визуелне уметничке задатке. DNN су корисни за:
Неуронске мреже су коришћене за имплементацију језичких модела одд почетка 2000-их.[95][110] LSTM је помогао у побољшању машинског превођења и језичког моделирања.[111][96][97] Остале кључне технике у овој области су негативно узимање узорака[112] и уношење речи. Уношење речи као што је word2vec, може се сматрати као репрезентацијски слој у архитектури дубоког учења који трансформише атомску реч у позиционо представљање речи у односу на друге речи у скупу података, позиција је предтављена као тачка у векторском простору. Коришћење уноса текста као RNN улазнног слоја омогућава мрежи да раздваја реченице и фразе користећи ефективну композициону векторску граматику. Композициона векторска граматика се може сматрати као вероватно контексна слободна граматика(PCFG) коју имплементира RNN.[113] Рекурзивни ауто-енкодери направљени изнад уноса речи могу проценити сличност и детектовати парафразирање.[113] Дубоке неуронске архитектуре пружају најбоље резултате за анализирање изборних група,[114] сентиментална анализа,[115] повраћај информација,[116][117] разумевање говорног језика,[118] машински превод,[111][119] повезивање контекста,[119] препознавање стила писања[120] и друго.
Google Translate (GT) користи велику end-to-end краткорочну меморијску мрежу.[121][122][123][124][125][126] GNMT користи метод машинског превођења заснован на примеру у којем систем „учи од милион примера”.[122] Он преводи "целе реченице у исто време, а не у деловима. Google Translate подржава више од сто језика.[122] Мрежа енкодира семантику реченице; уместо меморисања преведених реченица.[122][127] Google Translate користи енглески језик као посредника у већини језичких парова.[127]
Велики проценат нових лекова не успева да добије регулаторно одобрење. Ови неуспеси су узроковани недовољном ефикасношћу (on-target effect), нежељеним интеракцијама (off-target effect) или неочекиваним токсичним ефектима.[128][129] Истраживало се коришћење дубоког учења за предвиђање биомолекуларних мета,[80][81] не-циљане и токсичне ефекте хемикалија у животној средини, у храњивим састојцима, кућним производима и лековима.[82][83][84]
AtomNet је систем дубоког учења заснованог на структури дизајна лекова.[130] AtomNet је коришћен за предвиђање нових биомолекула за циљеве болести као што су Ebola virus[131] и multiple sclerosis.[132][133]
Дубоко учење коришћено је за приближавање вредности могућих директних маркетиншких акција, дефинисаних у смислу RFM варијабли. Показало се да функција процењене вредности има природну интерпретацију као доживотна вредност потрошача.[134]
Системи препорука користе дубоко учење да искористе значајне карактеристике модела латентног фактора за препоруке за музику засноване на садржају.[135]
У биоинформатици је коришћен ауто-енкодер АNN, да би се предвиделе анотације генетске онтологије и односи између генетских функција.[136]
У медицинској информатици, дубоко учење се користило за предвиђање квалитета сна заснованог на подацима[137][138] и предвиђања здравствених компликација из података електронског здравственог записа.[139]
Проналажење одговарајуће мобилне публике за мобилно оглашавање[140] увек је изазовно, пошто се многе тачке података морају узети у обзир и асимилирати пре него што се циљни сегмент може креирати и користити у огласима који сервирају било који огласни сервер. Дубоко учење коришћено је за тумачење великих, многодимензионалних података о оглашавању. Многе тачке података прикупљају се током циклуса тражења/сервирања/кликтања интернет оглашавања. Ове информације могу бити основа за машинско учење како би се побољшала избор огласа.
Дубоко учење је успешно примењивано на инверзне проблеме као што су уклањање буке, супер-резолуција рестаурација фотографија. Ова примена укључује методе учења као штп је „Поља смањивања за ефективну рестаурацију слика” која се обучава на скупу података слике.
Дубоко учење је уско повезано са класом теорије развоја мозга (конкретно, развој неокортекса) које су предложили когнитивни неуронаучници почетком деведесетих.[141][142][143][144] Ове развојне теорије су инстанциране у рачунским моделима, што их чини претходницима система дубоког учења. Ови развојни модели имају особину као и различите динамике учења у мозгу које подржавају самоорганизацију донекле аналогну неуронским мрежама које се користе у моделима дубоког учења. Као и неокортекс, неуронске мреже примењују хијерархију слојевитих филтера у којим сваки слој разматра информације са претходног слоја, онда преноси њихове излазне податке (а некад и улазне) осталим слојевима. Овај процес омогућава самоорганизујући стек трансдуктора добро прилагођених околини у којој раде. Опис из 1995 каже: „Мозак детета се организује сам под утицајем таласа трофичних фактора... различите регије у мозгу се узастопно повезују, тако што један слој ткива сазрева пре следећег итд. док цео мозак не сазри”.
Различити приступи су коришћени да би се испитала веродостојност модела дубоког учења из неуробиолошке перспективе. С једне стране, неколико варијанти backpropagation алгоритма су предложене како би се повећала реалност обраде. Други истраживачи тврде да форме дубоког учења које нису надгледане, као што су оне базиране на хијерархијским генеративним моделима могу бити ближе биолошкој стварности. Поштовањем овог, модели генеративних неуронских мрежа су повезани са неуробиолошким доказима о обради података на основу узимања узорака у церебралном кортексу.
Иако систематско поређење организације људског мозго и неуронског кодирања у дубоким мрежама још увек није установљено, предложено је неколико аналогија. На пример прорачуни извршени јединицама дубоког учења могу бити слични онима у неуронима. Слично, прикази развијени моделима дубоког учења су слични онима мереним у примарном визуелном систему како на појединачном нивоу тако и на нивоу популације.
Дубоко учење привукло је и критике и коментаре, у неким случајевима и у областима ван компјутерских наука.
Главна критика се односи на недостатак теорије методе. Учење у дубокој архитектури се најчешће спроводи коришћењем познатог градијента. Међутим, теорија која описује друге алгоритме, као што је контрастна дивергенција, је мање јасна. Методи дубоког учења су углавном потврђени емпиријски, а не теоријски.[145]
Други истичу да дубоко учење треба посматрати као корак ка остварењу вештачке ителигенције (AI), а не као свеобухватно решење. Упркос моћи метода дубоког учења, и даље недостаје велики део функционалности потребног за реализацију овог циља у потпуности. Психолог Gary Marcus је приметио:
„Дубоко учење је само део већег изазова изградње интелигентних машина. Овакве технике немају начин за представљање узрочних односа (...) немају очигледне начине обављања логичких закључака, а и даље су далеко од интеграције апстрактног знања, као што су информације о томе шта су објекти, за шта су, и како се обично користе. Најснажнији AI систем, као Вотсон (...) користе технике попут дубоког учења као само један елемент у врло сложеном саставу техника, у распону од Бајесовог закључка до дедуктивног образложења”.[146]
Као алтернативу овим ограничењима дубоког учења, један аутор наводи како би било могуће обучити машинску визију да изврши софистициран задатак који разликује „старе мајсторе” од аматерског цртања и претпостављао да таква сензитивност може представљати почетак нетривијалне емпатије машине.[147] Исти аутор је предложио да то буде у складу са антропологијом, која идентификује забринутост са естетиком као кључним елементом понашања модерне.[148]
Идеја да се уметничка осетљивост може наћи унутар релативно ниских нивоа когнитивне хијерархије, довела је до објаве серија графичких приказа унутрашњих стања дубоких (20-30 слојева) неуронских мрежа које покушавају да препознају унутар суштински случајних података слике на којима су обучаване[149] и демонстрирају визуелну изглед: првобитно истраживање је имало преко 1.000 коментара и било је предмет онога што је једно време био најчитанији чланак на веб страници The Guardian.[150]
Неке архитектуре дубоког учења приказују проблематично понашање,[151] као што је разврстање непрепознатљивих слика као припадника познатих категорија обичних слика[152] и погрешно разврстање мањих кругова исправно класификованих слика.[153] Goertzel је претпоставио да су ова понашања последица ограничења у њиховим унутрашњим представама и да би ова ограничења инхибирала интеграцију у хетерогене мулти-компонентне AGI архитектуре.[151] Овим питањима се могу решавати архитектуре дубоког учења које интерно формирају хомологне слике-граматике[154] разлагања посматраних ентитета и догађаја.[151] Учење граматике (визуелно или језички) из података за обуку би било еквивалентно ограничавању система на шаблонско разјашњење које функционише на концептима граматичких правила производње и представља основни циљ и природног језика[155] и AI.[156]
Како се дубоко учење помера из лабораторије у свет, истраживање и искуство показују да су вештачке неуронске мреже подложне хаковањима и преварама. Идентификујући обрасце које ови системи користе за функционисање, нападачи могу да модификују улазе у ANN-у на такав начин да ANN проналази поклапања која људи неће препознати. На пример, нападач може направити мале промене на слици такве да ANN пронађе поклапање, а да човеку слика не изгледа као предмет претраге. Таква манипулација се назива „контрадикторни напад”. У 2016. истраживачи су користили један ANN да поправе слике на пробни начин и са грешкама, да идентификују жижне течке и генеришу слике које су их обмануле. Ове измењене слике су изгледале потпуно исто људском оку. Још једна група је показала да су одштампане модификоване слике успешно превариле систем класификације слика. Једна од одбрана је обрнута претрага слика при којој је потенцијално лажна слика прослеђена сајту као што је TinEye, који онда може да пронађе друге сличне примере. Сужавање претраге се постиже коришћењем само делова слике како би се идентификовале слике са којих је тај део потенцијално узет.
Још једна група је показала да психоделичне цестице могу да преваре систем препознавања лица тако да обичне људе препознаје као познате, потенцијално дозвољавајући некој особи да имитира неку другу. У 2017. ови истраживачи су додали стикере стоп знацима што је проузорковало да их ANN погрешно класификује.
ANN могу да буду даље обучавани да детектују покушаје преваре потенцијално креирајући систем одбране сличан индустрији одбране од малвера.
Још једна група је демонстрирала да одређени звукови могу да натерају Google Now гласовни комадни систем да отвори одређени сајт који би скинуо малвер.
У „тровању података” лажни подаци се континуално увлаче у сет за обучавање система машинског учења да га спрече да оствари циљ.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.