Neuronska mreža širenja unapred (енгл.) je jedan od dva široka tipa veštačke neuronske mreže, koju karakteriše pravac toka informacija između njenih slojeva.[2] Njegov tok je jednosmeran, što znači da informacije u modelu teku samo u jednom pravcu — napred — od ulaznih čvorova, preko skrivenih čvorova (ako ih ima) i do izlaznih čvorova, bez ikakvih ciklusa ili petlji,[2] za razliku od rekurentnih neuronskih mreža,[3] koje imaju dvosmerni tok. Moderne mreže unapred su obučene korišćenjem metode propagacije unazad[4][5][6][7][8] i kolokvijalno se nazivaju „vanila” neuronske mreže.[9]
Pojednostavljeni primer obuke neuronske mreže u otkrivanju objekata: Mreža je obučena pomoću više slika za koje je poznato da prikazuju morske zvezde i morske ježeve, koji su u korelaciji sa „čvorovima“ koji predstavljaju vizuelne karakteristike. Morske zvezde se poklapaju sa prstenastom teksturom i zvezdastim obrisom, dok većina morskih ježeva odgovara prugastoj teksturi i ovalnom obliku. Međutim, primer morskog ježa sa prstenastom teksturom stvara slabo ponderisanu povezanost između njih.
Naknadno pokretanje mreže na ulaznoj slici (levo):[1] Mreža ispravno detektuje morsku zvezdu. Međutim, slabo ponderisana povezanost između prstenaste teksture i morskog ježa takođe daje slab signal ovom poslednjem iz jednog od dva srednja čvora. Pored toga, školjka koja nije bila uključena u obuku daje slab signal za ovalni oblik, što takođe rezultira slabim signalom za izlaz morskog ježa. Ovi slabi signali mogu rezultirati lažno pozitivnim rezultatom za morskog ježa. U stvarnosti, teksture i obrisi ne bi bili predstavljeni pojedinačnim čvorovima, već povezanim obrascima pondera više čvorova.
Godine 1958, višeslojnu mrežu perceptrona, koja se sastoji od ulaznog sloja, skrivenog sloja sa randomizovanim ponderima koji nisu učili, i izlaznog sloja sa vezama za učenje, već je predstavio Frenk Rozenblat u svojoj knjizi Perceptron.[10][11][12] Ova mašina za ekstremno učenje[13][12] još nije bila mreža za duboko učenje.
Godine 1965, Aleksej Grigorevič Ivahnjenko i Valentin Lapa, objavili su prvu mrežu sa dubokim učenjem, koja još nije koristila stohastički gradijentni spuštanja, u to vreme nazvanu Grupni metod rukovanja podacima.[14][15][12]
Godine 1967, mreža sa dubokim učenjem, koristeći stohastički gradijentni spusta po prvi put bila je u stanju da klasifikuje nelinearno odvojive klase šablona, kao što je izvestio Šuniči Amari.[16] Amarijev učenik Sajto je sproveo kompjuterske eksperimente, koristeći petoslojnu mrežu širenja unapred sa dva sloja učenja.
Godine 1982, propagacija unazad je primenjena na način koji je postao standard, po prvi put od strane Pola Verbosa.[7][12]
Godine 1985, eksperimentalnu analizu tehnike sproveli su Dejvid E. Rumelhart et al.[8] U narednim decenijama napravljena su mnoga poboljšanja u pristupu.[12]
Godine 1987, koristeći stohastički gradijentni spust unutar (široke 12-slojne nelinearne) mreže unapred, Metju Brend ju je obučio da reprodukuje logičke funkcije netrivijalne dubine kola, koristeći male serije nasumičnih ulazno/izlaznih uzoraka. On je, međutim, zaključio da je na hardveru (sub-megaflop računarima) koji je bio dostupan u to vreme to bilo nepraktično, i predložio je korišćenje fiksnih nasumičnih ranih slojeva kao ulaznog heša za jedan sloj koji se može menjati.[20]
Tokom 1990-ih, Vladimir Vapnik i njegove kolege razvili su (mnogo jednostavniju) alternativu korišćenju neuronskih mreža, iako još uvek srodnu[21]mašini potpornih vektora. Pored izvođenja linearne klasifikacije, oni su bili u stanju da efikasno izvrše nelinearnu klasifikaciju koristeći ono što se naziva trik jezgra, koristeći visokodimenzione prostore karakteristika.
Godine 2003, interesovanje za mreže za širenje unazad se vratilo zbog uspeha dubokog učenja koje je Džošua Bengio sa koautorima primenio na modelovanje jezika.[22]
Linnainmaa, Seppo (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (на језику: фински). University of Helsinki. стр.6–7.
Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error PropagationАрхивирано на сајту (13. октобар 2022)". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.
Hastie, Trevor. Tibshirani, Robert. Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, New York, NY, 2009.
Linnainmaa, Seppo (1976). „Taylor expansion of the accumulated rounding error”. BIT Numerical Mathematics. 16 (2): 146–160. S2CID122357351. doi:10.1007/bf01931367.
Matthew Brand (1988) Machine and Brain Learning. University of Chicago Tutorial Studies Bachelor's Thesis, 1988. Reported at the Summer Linguistics Institute, Stanford University, 1987