深度學習

深度學習（英語：deep learning）是機器學習的分支，是一種以人工神經網路為架構，對資料進行表徵學習的演算法。^[1]^[2]^[3]^[4]^[5] 深度學習中的形容詞「深度」是指在網絡中使用多層。早期的工作表明，線性感知器不能成為通用分類器，但具有非多項式啟用功能和一個無限寬度隱藏層的網絡可以成為通用分類器。

深度學習是機器學習中一種基於對數據進行表徵學習的演算法。觀測值（例如一幅圖像）可以使用多種方式來表示，如每個像素強度值的向量，或者更抽象地表示成一系列邊、特定形狀的區域等。而使用某些特定的表示方法更容易從實例中學習任務（例如，人面辨識或面部表情辨識^[6]）。深度學習的好處是用非監督式或半監督式（英語：Semi-supervised learning）的特徵學習和分層特徵提取高效演算法來替代手工取得特徵。^[7]

表徵學習的目標是尋求更好的表示方法並建立更好的模型來從大規模未標記數據中學習這些表示方法。表示方法來自神經科學，並鬆散地建立在類似神經系統中的資訊處理和對通訊模式的理解上，如神經編碼，試圖定義拉動神經元的反應之間的關係以及大腦中的神經元的電活動之間的關係。^[8]

至今已有數種深度學習框架，如深度神經網絡、卷積神經網絡和深度置信網絡（英語：Deep belief network）和迴圈神經網絡已被應用在電腦視覺、語音辨識、自然語言處理、音頻辨識與生物資訊科學等領域並取得了極好的效果。

另外，「深度學習」已成為時髦術語，或者說是人工神經網路的品牌重塑。^[9]^[10]

簡介

深度學習框架，尤其是基於人工神經網路的框架可以追溯到1980年福島邦彥提出的新認知機^[11]，而人工神經網路的歷史更為久遠。1989年，揚·勒丘恩（Yann LeCun）等人開始將1974年提出的標準反向傳播演算法^[12]應用於深度神經網絡，這一網絡被用於手寫郵政編碼辨識。儘管演算法可以成功執行，但計算代價非常巨大，神經網絡的訓練時間達到了3天，因而無法投入實際使用^[13]。許多因素導致了這一緩慢的訓練過程，其中一種是由于爾根·施密德胡伯的學生賽普·霍克賴特（英語：Sepp Hochreiter）於1991年提出的梯度消失問題^[14]^[15]。

最早的進行一般自然雜亂圖像中自然物體辨識的深度學習網絡是翁巨揚（Juyang Weng）等在1991和1992發表的生長網（Cresceptron）^[16]^[17]^[18]。它也是第一個提出了後來很多實驗廣泛採用的一個方法：現在稱為最大匯集（max-pooling）以用於處理大物體的變形等問題。生長網不僅直接從雜亂自然場景中學習老師指定的一般物體，還用網絡反向分析的方法把圖像內被辨識了的物體從背景圖像中分割出來。

2007年前後，傑弗里·辛頓和魯斯蘭·薩拉赫丁諾夫（Ruslan Salakhutdinov）提出了一種在前饋神經網絡中進行有效訓練的演算法。這一演算法將網絡中的每一層視為無監督的受限玻爾茲曼機，再使用有監督的反向傳播演算法進行調優^[19]。在此之前的1992年，在更為普遍的情形下，施密德胡伯也曾在迴圈神經網絡上提出一種類似的訓練方法，並在實驗中證明這一訓練方法能夠有效提高有監督學習的執行速度^[20]^[21].

自深度學習出現以來，它已成為很多領域，尤其是在電腦視覺和語音辨識中，成為各種領先系統的一部分。在通用的用於檢驗的數據集，例如語音辨識中的TIMIT和圖像辨識中的ImageNet、CIFAR-10上的實驗證明，深度學習能夠提高辨識的精度。與此同時，神經網絡也受到了其他更加簡單歸類模型的挑戰，支持向量機等模型在20世紀90年代到21世紀初成為過流行的機器學習演算法。

硬件的進步也是深度學習重新獲得關注的重要因素。高效能圖形處理器的出現極大地提高了數值和矩陣運算的速度，使得機器學習演算法的執行時間得到了顯著的縮短^[22]^[23]。

由於腦科學方面的大量研究已表明人腦網絡不是一個級聯的結構，深度學習網絡在2001年後正逐漸被更有潛力的基於腦模型的網絡^[24]^[25]所替代。

基本概念

深度學習的基礎是機器學習中的分散表示（distributed representation）。分散表示假定觀測值是由不同因子相互作用生成。在此基礎上，深度學習進一步假定這一相互作用的過程可分為多個層次，代表對觀測值的多層抽象。不同的層數和層的規模可用於不同程度的抽象^[3]。

深度學習運用了這分層次抽象的思想，更高層次的概念從低層次的概念學習得到。這一分層結構常常使用貪婪演算法逐層構建而成，並從中選取有助於機器學習的更有效的特徵^[3]。

不少深度學習演算法都以無監督學習的形式出現，因而這些演算法能被應用於其他演算法無法企及的無標籤數據，這一類數據比有標籤數據更豐富，也更容易獲得。這一點也為深度學習贏得了重要的優勢^[3]。

人工神經網路下的深度學習

一部分最成功的深度學習方法涉及到對人工神經網路的運用。人工神經網路受到了1959年由諾貝爾獎得主大衛·休伯爾（David H. Hubel）和托斯坦·威澤爾（Torsten Wiesel）提出的理論啟發。休伯爾和威澤爾發現，在大腦的初級視覺皮層中存在兩種細胞：簡單細胞和複雜細胞，這兩種細胞承擔不同層次的視覺感知功能。受此啟發，許多神經網絡模型也被設計為不同節點之間的分層模型^[26]。

福島邦彥提出的新認知機引入了使用無監督學習訓練的卷積神經網絡。揚·勒丘恩將有監督的反向傳播演算法應用於這一架構^[27]。事實上，從反向傳播演算法自20世紀70年代提出以來，不少研究者都曾試圖將其應用於訓練有監督的深度神經網絡，但最初的嘗試大都失敗。賽普·霍克賴特（英語：Sepp Hochreiter）在其博士論文中將失敗的原因歸結為梯度消失，這一現象同時在深度前饋神經網絡和迴圈神經網絡中出現，後者的訓練過程類似深度網絡。在分層訓練的過程中，本應用於修正模型參數的誤差隨着層數的增加指數遞減，這導致了模型訓練的效率低下^[28]^[29]。

為了解決這一問題，研究者們提出了一些不同的方法。于爾根·施密德胡伯於1992年提出多層級網絡，利用無監督學習訓練深度神經網絡的每一層，再使用反向傳播演算法進行調優。在這一模型中，神經網絡中的每一層都代表觀測變數的一種壓縮表示，這一表示也被傳遞到下一層網絡^[20]。

另一種方法是賽普·霍克賴特和于爾根·施密德胡伯提出的長短期記憶神經網絡（LSTM）^[30]。2009年，在ICDAR 2009舉辦的連筆手寫辨識競賽中，在沒有任何先驗知識的情況下，深度多維長短期記憶神經網絡取得了其中三場比賽的勝利^[31]^[32]。

斯文·貝克提出了在訓練時只依賴梯度符號的神經抽象金字塔模型，用以解決圖像重建和人臉定位的問題^[33]。

其他方法同樣採用了無監督預訓練來構建神經網絡，用以發現有效的特徵，此後再採用有監督的反向傳播以區分有標籤數據。傑弗里·辛頓等人於2006年提出的深度模型提出了使用多層隱變數學習高層表示的方法。這一方法使用斯摩棱斯基於1986年提出的受限玻爾茲曼機^[34]對每一個包含高層特徵的層進行建模。模型保證了數據的對數似然下界隨着層數的提升而遞增。當足夠多的層數被學習完畢，這一深層結構成為一個生成模型，可以通過自上而下的採樣重構整個數據集^[35]。辛頓聲稱這一模型在高維結構化數據上能夠有效地提取特徵^[36]。

吳恩達和傑夫·迪恩領導的谷歌大腦團隊建立了一個僅通過YouTube影片學習高層概念（例如貓）的神經網絡^[37] ^[38]。

其他方法依賴了現代電腦的強大計算能力，尤其是GPU。2010年，在于爾根·施密德胡伯位於瑞士人工智能實驗室IDSIA的研究組中，丹·奇雷尚（Dan Ciresan）和他的同事展示了利用GPU直接執行反向傳播演算法而忽視梯度消失問題的存在。這一方法在揚·勒丘恩等人給出的手寫辨識MNIST數據集上戰勝了已有的其他方法^[22]。

截止2011年，前饋神經網絡深度學習中最新的方法是交替使用卷積層（convolutional layers）和最大值池化層（max-pooling layers）並加入單純的分類層作為頂端。訓練過程也無需引入無監督的預訓練^[39]^[40]。從2011年起，這一方法的GPU實現^[39]多次贏得了各類圖型識別競賽的勝利，包括IJCNN 2011交通標誌辨識競賽^[41]和其他比賽。

這些深度學習演算法也是最先在某些辨識任務上達到和人類表現具備同等競爭力的演算法^[42]。

深度學習結構

通常將具有兩層或兩層以上隱藏層的神經網絡叫做深度神經網絡。與淺層神經網絡類似，深度神經網絡也能夠為複雜非線性系統提供建模，但多出的層次為模型提供了更高的抽象層次，因而提高了模型的能力。深度神經網絡通常都是前饋神經網絡，但也有語言建模等方面的研究將其拓展到迴圈神經網絡^[43]。卷積深度神經網絡（Convolutional Neural Networks, CNN）在電腦視覺領域得到了成功的應用^[44]。此後，卷積神經網絡也作為聽覺模型被使用在自動語音辨識領域，較以往的方法獲得了更優的結果^[45]。

深度神經網絡

深度神經網絡（Deep Neural Networks, DNN）是一種判別模型，可以使用反向傳播演算法進行訓練。權重更新可以使用下式進行隨機梯度下降法（英語：Stochastic gradient descent）求解：

\Delta w_{ij}(t+1)=\Delta w_{ij}(t)+\eta {\frac {\partial C}{\partial w_{ij}}}

其中， $\eta$ 為學習率， $C$ 為代價函數。這一函數的選擇與學習的類型（例如監督學習、無監督學習、增強學習）以及啟用功能相關。例如，為了在一個多分類問題上進行監督學習，通常的選擇是使用ReLU作為啟用功能，而使用交叉熵作為代價函數。Softmax函數定義為 $p_{j}={\frac {\exp(x_{j})}{\sum _{k}\exp(x_{k})}}$ ，其中 $p_{j}$ 代表類別 $j$ 的概率，而 $x_{j}$ 和 $x_{k}$ 分別代表對單元 $j$ 和 $k$ 的輸入。交叉熵定義為 $C=-\sum _{j}d_{j}\log(p_{j})$ ，其中 $d_{j}$ 代表輸出單元 $j$ 的目標概率， $p_{j}$ 代表應用了啟用功能後對單元 $j$ 的概率輸出^[46]。

深度神經網絡的問題

與其他神經網絡模型類似，如果僅僅是簡單地訓練，深度神經網絡可能會存在很多問題。常見的兩類問題是過擬合和過長的運算時間。

深度神經網絡很容易產生過擬合現象，因為增加的抽象層使得模型能夠對訓練數據中較為罕見的依賴關係進行建模。對此，權重遞減（ $\ell _{2}$ 正規化）或者稀疏（ $\ell _{1}$ -正規化）等方法可以利用在訓練過程中以減小過擬合現象^[47]。另一種較晚用於深度神經網絡訓練的正規化方法是丟棄法（"dropout" regularization），即在訓練中隨機丟棄一部分隱層單元來避免對較為罕見的依賴進行建模^[48]。目前比較廣泛使用的是批歸一化(Batch Normalization,BN) , 其本質上是在訓練過程加入噪音 , 從而讓模型得到更好的魯棒性 , 其特性令超深神經網絡可以更好的訓練。

反向傳播演算法和梯度下降法由於其實現簡單，與其他方法相比能夠收斂到更好的局部最佳值而成為神經網絡訓練的通行方法。但是，這些方法的計算代價很高，尤其是在訓練深度神經網絡時，因為深度神經網絡的規模（即層數和每層的節點數）、學習率、初始權重等眾多參數都需要考慮。掃描所有參數由於時間代價的原因並不可行，因而小批次訓練（mini-batching），即將多個訓練樣本組合進行訓練而不是每次只使用一個樣本進行訓練，被用於加速模型訓練^[49]。而最顯着地速度提升來自GPU，因為矩陣和向量計算非常適合使用GPU實現。但使用大規模叢集進行深度神經網絡訓練仍然存在困難，因而深度神經網絡在訓練並列化方面仍有提升的空間。

深度置信網絡

深度置信網絡（deep belief networks，DBN）是一種包含多層隱單元的概率生成模型，可被視為多層簡單學習模型組合而成的複合模型^[50]。

深度置信網絡可以作為深度神經網絡的預訓練部分，並為網絡提供初始權重，再使用反向傳播或者其它判定演算法作為調優的手段。這在訓練數據較為缺乏時很有價值，因為不恰當的初始化權重會顯著影響最終模型的效能，而預訓練獲得的權重在權值空間中比隨機權重更接近最佳的權重。這不僅提升了模型的效能，也加快了調優階段的收斂速度^[51]。

深度置信網絡中的每一層都是典型的受限玻爾茲曼機（restricted Boltzmann machine，RBM），可以使用高效的無監督逐層訓練方法進行訓練。受限玻爾茲曼機是一種無向的基於能量的生成模型，包含一個輸入層和一個隱層。圖中對的邊僅在輸入層和隱層之間存在，而輸入層節點內部和隱層節點內部則不存在邊。單層RBM的訓練方法最初由傑弗里·辛頓在訓練「專家乘積」中提出，被稱為對比分歧（contrast divergence, CD）。對比分歧提供了一種對最大似然的近似，被理想地用於學習受限玻爾茲曼機的權重^[49]。當單層RBM被訓練完畢後，另一層RBM可被堆疊在已經訓練完成的RBM上，形成一個多層模型。每次堆疊時，原有的多層網絡輸入層被初始化為訓練樣本，權重為先前訓練得到的權重，該網絡的輸出作為新增RBM的輸入，新的RBM重複先前的單層訓練過程，整個過程可以持續進行，直到達到某個期望中的終止條件^[2]。

儘管對比分歧對最大似然的近似十分粗略（對比分歧並不在任何函數的梯度方向上），但經驗結果證實該方法是訓練深度結構的一種有效的方法^[49]。

卷積神經網絡

卷積神經網絡（convolutional neural networks，CNN）由一個或多個卷積層和頂端的全連通層（對應經典的神經網絡）組成，同時也包括關聯權重和池化層（pooling layer）。這一結構使得卷積神經網絡能夠利用輸入數據的二維結構。與其他深度學習結構相比，卷積神經網絡在圖像和語音辨識方面能夠給出更優的結果。這一模型也可以使用反向傳播演算法進行訓練。相比較其他深度、前饋神經網絡，卷積神經網絡需要估計的參數更少，使之成為一種頗具吸引力的深度學習結構^[52]。

卷積深度置信網絡

卷積深度置信網絡（convolutional deep belief networks，CDBN）是深度學習領域較新的分支。在結構上，卷積深度置信網絡與卷積神經網絡在結構上相似。因此，與卷積神經網絡類似，卷積深度置信網絡也具備利用圖像二維結構的能力，與此同時，卷積深度信念網絡也擁有深度置信網絡的預訓練優勢。卷積深度置信網絡提供了一種能被用於訊號和圖像處理任務的通用結構，也能夠使用類似深度置信網絡的訓練方法進行訓練^[53]。

結果

語音辨識

下表中的結果展示了深度學習在通行的TIMIT數據集上的結果。TIMIT包含630人的語音數據，這些人持八種常見的美式英語口音，每人閱讀10句話。這一數據在深度學習發展之初常被用於驗證深度學習結構^[54]。TIMIT數據集較小，使得研究者可以在其上實驗不同的模型組態。

More information 方法, 聲音誤差率 (PER, %) ...

方法	聲音誤差率 (PER, %)
隨機初始化RNN	26.1
貝葉斯三音子GMM-HMM	25.6
單音子重複初始化DNN	23.4
單音子DBN-DNN	22.4
帶BMMI訓練的三音子GMM-HMM	21.7
共用池上的單音子DBN-DNN	20.7
卷積DNN	20.0

Close

圖像分類

圖像分類領域中一個公認的評判數據集是MNIST數據集。MNIST由手寫阿拉伯數字組成，包含60,000個訓練樣本和10,000個測試樣本。與TIMIT類似，它的數據規模較小，因而能夠很容易地在不同的模型組態下測試。Yann LeCun的網站給出了多種方法得到的實驗結果^[55]。截至2012年，最好的判別結果由Ciresan等人在當年給出，這一結果的錯誤率達到了0.23%^[56]。

深度學習與神經科學

電腦領域中的深度學習與20世紀90年代由認知神經科學研究者提出的大腦發育理論（尤其是皮層發育理論）密切相關^[57]。對這一理論最容易理解的是傑弗里·艾爾曼（英語：Jeffrey Elman）於1996年出版的專著《對天賦的再思考》（Rethinking Innateness（英語：Rethinking Innateness））^[58]（參見斯拉格和約翰遜^[59]以及奎茲和賽傑諾維斯基^[60]的表述）。由於這些理論給出了實際的神經計算模型，因而它們是純計算驅動的深度學習模型的技術先驅。這些理論指出，大腦中的神經元組成了不同的層次，這些層次相互連接，形成一個過濾體系。在這些層次中，每層神經元在其所處的環境中取得一部分資訊，經過處理後向更深的層級傳遞。這與後來的單純與計算相關的深度神經網絡模型相似。這一過程的結果是一個與環境相協調的自組織的堆疊式的轉換器。正如1995年在《紐約時報》上刊登的那樣，「……嬰兒的大腦似乎受到所謂『營養因素』的影響而進行着自我組織……大腦的不同區域依次相連，不同層次的腦組織依照一定的先後順序發育成熟，直至整個大腦發育成熟。」^[61]

深度結構在人類認知演化和發展中的重要性也在認知神經學家的關注之中。發育時間的改變被認為是人類和其他靈長類動物之間智力發展差異的一個方面^[62]。在靈長類中，人類的大腦在出生後的很長時間都具備可塑性，但其他靈長類動物的大腦則在出生時就幾乎完全定型。因而，人類在大腦發育最具可塑性的階段能夠接觸到更加複雜的外部場景，這可能幫助人類的大腦進行調節以適應快速變化的環境，而不是像其他動物的大腦那樣更多地受到遺傳結構的限制。這樣的發育時間差異也在大腦皮層的發育時間和大腦早期自組織中從刺激環境中取得資訊的改變得到體現。當然，伴隨着這一可塑性的是更長的兒童期，在此期間人需要依靠撫養者和社會群體的支援和訓練。因而這一理論也揭示了人類演化中文化和意識共同進化的現象^[63]。

公眾視野中的深度學習

深度學習常常被看作是通向真正人工智能的重要一步^[64]，因而許多機構對深度學習的實際應用抱有濃厚的興趣。2013年12月，Facebook宣佈僱用楊立昆為其新建的人工智能實驗室的主管，這一實驗室將在加州、倫敦和紐約設立分支機構，幫助Facebook研究利用深度學習演算法進行類似自動標記相片中用戶姓名這樣的任務^[65]。

2013年3月，傑弗里·辛頓和他的兩位研究生亞歷克斯·克里澤夫斯基和伊爾亞·蘇茨克維谷歌公司僱用，以提升現有的機器學習產品並協助處理谷歌日益增長的數據。谷歌同時併購了辛頓創辦的公司DNNresearch^[66]。

2016年3月，以深度學習開發的圍棋程式AlphaGo首度在比賽中擊敗人類頂尖選手，形成廣泛的討論。

批評

對深度學習的主要批評是許多方法缺乏理論支撐。大多數深度結構僅僅是梯度下降的某些變式。儘管梯度下降法已經被充分地研究，但理論涉及的其他演算法，例如對比分歧演算法，並沒有獲得充分的研究，其收斂性等問題仍不明確。深度學習方法常常被視為黑盒，大多數的結論確認都由經驗而非理論來確定。

也有學者認為，深度學習應當被視為通向真正人工智能的一條途徑，而不是一種包羅萬象的解決方案。儘管深度學習的能力很強，但和真正的人工智能相比，仍然缺乏諸多重要的能力。理論心理學家加里·馬庫斯（英語：Gary Marcus）指出：

就現實而言，深度學習只是建造智能機器這一更大挑戰中的一部分。這些技術缺乏表達因果關係的手段……缺乏進行邏輯推理的方法，而且遠沒有具備整合抽象知識，例如物品屬性、代表和典型用途的資訊。最為強大的人工智能系統，例如IBM的人工智能系統華生，僅僅把深度學習作為一個包含從貝葉斯推理和演繹推理等技術的複雜技術集合中的組成部分^[67]。

深度學習庫

PyTorch
Torch（英語：Torch (machine learning)）
TensorFlow
Theano
PaddlePaddle^[68]
Deeplearning4j
Caffe^[69]
roNNie^[70]
Keras
MXNet^[71]
深度學習軟件比較（英語：Comparison of deep learning software）

參見

傑弗里·辛頓
深度學習框架比較（英語：Comparison of deep learning frameworks）

參考資料

[1]
Deng, L.; Yu, D. Deep Learning: Methods and Applications (PDF). Foundations and Trends in Signal Processing. 2014, 7: 3–4 [2015-10-23]. （原始內容存檔 (PDF)於2016-03-14）.
[2]
Bengio, Yoshua. Learning Deep Architectures for AI (PDF). Foundations and Trends in Machine Learning. 2009, 2 (1): 1–127. （原始內容 (PDF)存檔於2016-03-04）.
[3]
Bengio, Y.; Courville, A.; Vincent, P. Representation Learning: A Review and New Perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2013, 35 (8): 1798–1828. arXiv:1206.5538 .
[4]
Schmidhuber, J. Deep Learning in Neural Networks: An Overview. Neural Networks. 2015, 61: 85–117. arXiv:1404.7828 . doi:10.1016/j.neunet.2014.09.003.
[5]
Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey. Deep Learning. Nature. 2015, 521: 436–444.
[6]
Glauner, P. Deep Convolutional Neural Networks for Smile Recognition (學位論文). Imperial College London, Department of Computing. 2015. arXiv:1508.06535 .
[7]
Song, H.A.; Lee, S. Y. Hierarchical Representation Using NMF. Neural Information Processing. Lectures Notes in Computer Sciences 8226. Springer Berlin Heidelberg. 2013: 466–473. ISBN 978-3-642-42053-5. doi:10.1007/978-3-642-42054-2_58.
[8]
Olshausen, B. A. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature. 1996, 381 (6583): 607–609.
[9]
Collobert, R. Deep Learning for Efficient Discriminative Parsing. VideoLectures.net. April 2011. 事件發生在 7min 45s [2015-10-31]. （原始內容存檔於2020-10-19）.
[10]
Gomes, L. Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts. IEEE Spectrum. 20 October 2014 [2015-10-31]. （原始內容存檔於2019-12-12）.
[11]
K. Fukushima., "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position," Biol. Cybern., 36, 193–202, 1980
[12]
P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences," PhD thesis, Harvard University, 1974.
[13]
LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989.
[14]
S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991.
[15]
S. Hochreiter et al., "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies," In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
[16]
J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively （頁面存檔備份，存於互聯網檔案館）," Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576-581, June, 1992.
[17]
J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images （頁面存檔備份，存於互聯網檔案館）," Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121-128, May, 1993.
[18]
J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron （頁面存檔備份，存於互聯網檔案館）," International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139, Nov. 1997.
[19]
G. E. Hinton., "Learning multiple layers of representation," Trends in Cognitive Sciences, 11, pp. 428–434, 2007.
[20]
J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," Neural Computation, 4, pp. 234–242, 1992.
[21]
J. Schmidhuber., "My First Deep Learning System of 1991 + Deep Learning Timeline 1962–2013."
[22]
D. C. Ciresan et al., "Deep Big Simple Neural Nets for Handwritten Digit Recognition," Neural Computation, 22, pp. 3207–3220, 2010.
[23]
R. Raina, A. Madhavan, A. Ng., "Large-scale Deep Unsupervised Learning using Graphics Processors," Proc. 26th Int. Conf. on Machine Learning, 2009.
[24]
J. Weng, J. McClelland, A. Pentland, O. Sporns, I. Stockman, M. Sur and E. Thelen, "Autonomous Mental Development by Robots and Animals （頁面存檔備份，存於互聯網檔案館）," Science, vol. 291, no. 5504, pp. 599 - 600, Jan. 26, 2001.
[25]
J. Weng, "Brains as Naturally Emerging Turing Machines （頁面存檔備份，存於互聯網檔案館）," in Proc. International Joint Conference on Neural Networks, Killarney, Ireland, 8 pages, July 12-17. 2015.
[26]
M Riesenhuber, T Poggio. Hierarchical models of object recognition in cortex. Nature neuroscience, 1999(11) 1019–1025.
[27]
Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. Backpropagation Applied to Handwritten Zip Code Recognition. Neural Computation, 1(4):541–551, 1989.
[28]
S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut f. Informatik, Technische Univ. Munich, 1991. Advisor: J. Schmidhuber
[29]
S. Hochreiter, Y. Bengio, P. Frasconi, and J. Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
[30]
Hochreiter, Sepp; and Schmidhuber, Jürgen; Long Short-Term Memory, Neural Computation, 9(8):1735–1780, 1997
[31]
Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552
[32]
A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, 2009.
[33]
Sven Behnke. Hierarchical Neural Networks for Image Interpretation. (PDF). Lecture Notes in Computer Science 2766. Springer. 2003 [2014-09-16]. （原始內容存檔 (PDF)於2021-03-08）.
[34]
Smolensky, P. Information processing in dynamical systems: Foundations of harmony theory. 1. 1986: 194–281. |journal=被忽略 (幫助)
[35]
Hinton, G. E.; Osindero, S.; Teh, Y. A fast learning algorithm for deep belief nets (PDF). Neural Computation. 2006, 18 (7): 1527–1554 [2014-09-16]. PMID 16764513. doi:10.1162/neco.2006.18.7.1527. （原始內容存檔 (PDF)於2015-12-23）.
[36]
Geoffrey Hinton. Deep belief networks. Scholarpedia. 2009-05-31, 4 (5) [2018-04-02]. ISSN 1941-6016. doi:10.4249/scholarpedia.5947. （原始內容存檔於2015-12-04）（英語）.
[37]
John Markoff. How Many Computers to Identify a Cat? 16,000.. New York Times. 25 June 2012 [2014-09-16]. （原始內容存檔於2018-07-11）.
[38]
Ng, Andrew; Dean, Jeff. Building High-level Features Using Large Scale Unsupervised Learning (PDF). 2012 [2014-09-16]. （原始內容存檔 (PDF)於2017-10-12）.
[39]
D. C. Ciresan, U. Meier, J. Masci, L. M. Gambardella, J. Schmidhuber. Flexible, High Performance Convolutional Neural Networks for Image Classification. International Joint Conference on Artificial Intelligence (IJCAI-2011, Barcelona), 2011.
[40]
Martines, H., Bengio, Y., & Yannakakis, G. N. (2013). Learning Deep Physiological Models of Affect. I EEE Computational Intelligence, 8(2), 20.
[41]
D. C. Ciresan, U. Meier, J. Masci, J. Schmidhuber. Multi-Column Deep Neural Network for Traffic Sign Classification. Neural Networks, 2012.
[42]
D. C. Ciresan, U. Meier, J. Schmidhuber. Multi-column Deep Neural Networks for Image Classification. IEEE Conf. on Computer Vision and Pattern Recognition CVPR 2012.
[43]
T. Mikolov et al., "Recurrent neural network based language model," Interspeech, 2010.
[44]
Y. LeCun et al., "Gradient-based learning applied to document recognition," Proceedings of the IEEE, 86 (11), pp. 2278–2324.
[45]
T. Sainath et al., "Convolutional neural networks for LVCSR," ICASSP, 2013.
[46]
G. E. Hinton et al., "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The shared views of four research groups," IEEE Signal Processing Magazine, pp. 82–97, November 2012.
[47]
Y. Bengio et al., "Advances in optimizing recurrent networks," ICASSP', 2013.
[48]
G. Dahl et al., "Improving DNNs for LVCSR using rectified linear units and dropout," ICASSP', 2013.
[49]
G. E. Hinton., "A Practical Guide to Training Restricted Boltzmann Machines," Tech. Rep. UTML TR 2010-003, Dept. CS., Univ. of Toronto, 2010.
[50]
G.E. Hinton., "Deep belief networks," Scholarpedia, 4(5):5947.
[51]
H. Larochelle et al., "An empirical evaluation of deep architectures on problems with many factors of variation," in Proc. 24th Int. Conf. Machine Learning, pp. 473–480, 2007.
[52]
Convolutional Neural Network. [2014-09-16]. （原始內容存檔於2020-10-29）.
↑
Honglak Lee; Roger Grosse; Rajesh Ranganath; Andrew Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. ICML '09. 2009: 609–616.
[54]
TIMIT Acoustic-Phonetic Continuous Speech Corpus Linguistic Data Consortium, Philadelphia.
[55]
http://yann.lecun.com/exdb/mnist/ （頁面存檔備份，存於互聯網檔案館）.
[56]
D. Ciresan, U. Meier, J. Schmidhuber., "Multi-column Deep Neural Networks for Image Classification," Technical Report No. IDSIA-04-12', 2012.
[57]
P. E. Utgoff and D. J. Stracuzzi., "Many-layered learning," Neural Computation, 14, pp. 2497–2529, 2002.
[58]
J. Elman, et al., "Rethinking Innateness," 1996.
[59]
J. Shrager, MH Johnson., "Dynamic plasticity influences the emergence of function in a simple cortical array," Neural Networks, 9 (7), pp. 1119–1129, 1996
[60]
SR Quartz and TJ Sejnowski., "The neural basis of cognitive development: A constructivist manifesto," Behavioral and Brain Sciences, 20 (4), pp. 537–556, 1997.
[61]
S. Blakeslee., "In brain's early growth, timetable may be critical," The New York Times, Science Section, pp. B5–B6, 1995.
[62]
{BUFILL} E. Bufill, J. Agusti, R. Blesa., "Human neoteny revisited: The case of synaptic plasticity," American Journal of Human Biology, 23 (6), pp. 729–739, 2011.
[63]
J. Shrager and M. H. Johnson., "Timing in the development of cortical function: A computational approach," In B. Julesz and I. Kovacs (Eds.), Maturational windows and adult cortical plasticity, 1995.
[64]
D. Hernandez., "The Man Behind the Google Brain: Andrew Ng and the Quest for the New AI （頁面存檔備份，存於互聯網檔案館）," Wired, 10 May 2013.
[65]
C. Metz., "Facebook's 'Deep Learning' Guru Reveals the Future of AI （頁面存檔備份，存於互聯網檔案館）," Wired, 12 December 2013.
[66]
谷歌收购DNNresearch，下一个帝国呼之欲出. CSDN. 2013-03-13 [2014-07-20]. （原始內容存檔於2020-03-24）.
[67]
G. Marcus., "Is "Deep Learning" a Revolution in Artificial Intelligence?" The New Yorker, 25 November 2012.
[68]
PaddlePaddle. [2017-07-21]. （原始內容存檔於2020-12-08）.
[69]
Caffe （頁面存檔備份，存於互聯網檔案館）
[70]
roNNie. [2018-05-02]. （原始內容存檔於2020-11-28）.
[71]
Mxnet. [2017-03-17]. （原始內容存檔於2017-08-18）.

外部連結

來自蒙特利爾大學的深度學習資訊 [1] （頁面存檔備份，存於互聯網檔案館）
傑弗里·辛頓的首頁 [2] （頁面存檔備份，存於互聯網檔案館）
深度學習影片教程 [3] （頁面存檔備份，存於互聯網檔案館）
燕樂存的首頁 [4] （頁面存檔備份，存於互聯網檔案館）
麻省理工大學生物和計算學習中心 (CBCL) [5] （頁面存檔備份，存於互聯網檔案館）
史丹福大學提供的無監督特徵學習和深度學習教程 [6] （頁面存檔備份，存於互聯網檔案館）
谷歌DistBelief框架 [7] （頁面存檔備份，存於互聯網檔案館）
Theano深度學習工具包（使用Python） [8] （頁面存檔備份，存於互聯網檔案館）
Deeplearning4j開源深度學習工具包（使用Java） [9] （頁面存檔備份，存於互聯網檔案館）
NIPS 2013會議（介紹深度學習相關資料） [10] （頁面存檔備份，存於互聯網檔案館）

[BOOK2014-1] [1]
Deng, L.; Yu, D. Deep Learning: Methods and Applications (PDF). Foundations and Trends in Signal Processing. 2014, 7: 3–4 [2015-10-23]. （原始內容存檔 (PDF)於2016-03-14）.

[BENGIODEEP-2] [2]
Bengio, Yoshua. Learning Deep Architectures for AI (PDF). Foundations and Trends in Machine Learning. 2009, 2 (1): 1–127. （原始內容 (PDF)存檔於2016-03-04）.

[BENGIO2012-3] [3]
Bengio, Y.; Courville, A.; Vincent, P. Representation Learning: A Review and New Perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2013, 35 (8): 1798–1828. arXiv:1206.5538 .

[SCHIDHUB-4] [4]
Schmidhuber, J. Deep Learning in Neural Networks: An Overview. Neural Networks. 2015, 61: 85–117. arXiv:1404.7828 . doi:10.1016/j.neunet.2014.09.003.

[NatureBengio-5] [5]
Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey. Deep Learning. Nature. 2015, 521: 436–444.

[6] [6]
Glauner, P. Deep Convolutional Neural Networks for Smile Recognition (學位論文). Imperial College London, Department of Computing. 2015. arXiv:1508.06535 .

[7] [7]
Song, H.A.; Lee, S. Y. Hierarchical Representation Using NMF. Neural Information Processing. Lectures Notes in Computer Sciences 8226. Springer Berlin Heidelberg. 2013: 466–473. ISBN 978-3-642-42053-5. doi:10.1007/978-3-642-42054-2_58.

[8] [8]
Olshausen, B. A. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature. 1996, 381 (6583): 607–609.

[9] [9]
Collobert, R. Deep Learning for Efficient Discriminative Parsing. VideoLectures.net. April 2011. 事件發生在 7min 45s [2015-10-31]. （原始內容存檔於2020-10-19）.

[10] [10]
Gomes, L. Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts. IEEE Spectrum. 20 October 2014 [2015-10-31]. （原始內容存檔於2019-12-12）.

[FUKU1980-11] [11]
K. Fukushima., "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position," Biol. Cybern., 36, 193–202, 1980

[WERBOS1974-12] [12]
P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences," PhD thesis, Harvard University, 1974.

[LECUN1989-13] [13]
LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989.

[HOCH1991-14] [14]
S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991.

[HOCH2001-15] [15]
S. Hochreiter et al., "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies," In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.

[Weng1992-16] [16]
J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively （頁面存檔備份，存於互聯網檔案館）," Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576-581, June, 1992.

[Weng1993-17] [17]
J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images （頁面存檔備份，存於互聯網檔案館）," Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121-128, May, 1993.

[Weng1997-18] [18]
J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron （頁面存檔備份，存於互聯網檔案館）," International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139, Nov. 1997.

[HINTON2007-19] [19]
G. E. Hinton., "Learning multiple layers of representation," Trends in Cognitive Sciences, 11, pp. 428–434, 2007.

[SCHMID1992-20] [20]
J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," Neural Computation, 4, pp. 234–242, 1992.

[SCHMID1991-21] [21]
J. Schmidhuber., "My First Deep Learning System of 1991 + Deep Learning Timeline 1962–2013."

[CIRESAN2010-22] [22]
D. C. Ciresan et al., "Deep Big Simple Neural Nets for Handwritten Digit Recognition," Neural Computation, 22, pp. 3207–3220, 2010.

[RAINA2009-23] [23]
R. Raina, A. Madhavan, A. Ng., "Large-scale Deep Unsupervised Learning using Graphics Processors," Proc. 26th Int. Conf. on Machine Learning, 2009.

[WengScience2001-24] [24]
J. Weng, J. McClelland, A. Pentland, O. Sporns, I. Stockman, M. Sur and E. Thelen, "Autonomous Mental Development by Robots and Animals （頁面存檔備份，存於互聯網檔案館）," Science, vol. 291, no. 5504, pp. 599 - 600, Jan. 26, 2001.

[WengIJCNN5-25] [25]
J. Weng, "Brains as Naturally Emerging Turing Machines （頁面存檔備份，存於互聯網檔案館）," in Proc. International Joint Conference on Neural Networks, Killarney, Ireland, 8 pages, July 12-17. 2015.

[26] [26]
M Riesenhuber, T Poggio. Hierarchical models of object recognition in cortex. Nature neuroscience, 1999(11) 1019–1025.

[LeCun1989-27] [27]
Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. Backpropagation Applied to Handwritten Zip Code Recognition. Neural Computation, 1(4):541–551, 1989.

[28] [28]
S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut f. Informatik, Technische Univ. Munich, 1991. Advisor: J. Schmidhuber

[29] [29]
S. Hochreiter, Y. Bengio, P. Frasconi, and J. Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.

[lstm-30] [30]
Hochreiter, Sepp; and Schmidhuber, Jürgen; Long Short-Term Memory, Neural Computation, 9(8):1735–1780, 1997

[31] [31]
Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552

[32] [32]
A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, 2009.

[33] [33]
Sven Behnke. Hierarchical Neural Networks for Image Interpretation. (PDF). Lecture Notes in Computer Science 2766. Springer. 2003 [2014-09-16]. （原始內容存檔 (PDF)於2021-03-08）.

[smolensky1986-34] [34]
Smolensky, P. Information processing in dynamical systems: Foundations of harmony theory. 1. 1986: 194–281. |journal=被忽略 (幫助)

[hinton2006-35] [35]
Hinton, G. E.; Osindero, S.; Teh, Y. A fast learning algorithm for deep belief nets (PDF). Neural Computation. 2006, 18 (7): 1527–1554 [2014-09-16]. PMID 16764513. doi:10.1162/neco.2006.18.7.1527. （原始內容存檔 (PDF)於2015-12-23）.

[36] [36]
Geoffrey Hinton. Deep belief networks. Scholarpedia. 2009-05-31, 4 (5) [2018-04-02]. ISSN 1941-6016. doi:10.4249/scholarpedia.5947. （原始內容存檔於2015-12-04）（英語）.

[markoff2012-37] [37]
John Markoff. How Many Computers to Identify a Cat? 16,000.. New York Times. 25 June 2012 [2014-09-16]. （原始內容存檔於2018-07-11）.

[ng2012-38] [38]
Ng, Andrew; Dean, Jeff. Building High-level Features Using Large Scale Unsupervised Learning (PDF). 2012 [2014-09-16]. （原始內容存檔 (PDF)於2017-10-12）.

[ciresan2011-39] [39]
D. C. Ciresan, U. Meier, J. Masci, L. M. Gambardella, J. Schmidhuber. Flexible, High Performance Convolutional Neural Networks for Image Classification. International Joint Conference on Artificial Intelligence (IJCAI-2011, Barcelona), 2011.

[martines2013-40] [40]
Martines, H., Bengio, Y., & Yannakakis, G. N. (2013). Learning Deep Physiological Models of Affect. I EEE Computational Intelligence, 8(2), 20.

[ciresan2011NN-41] [41]
D. C. Ciresan, U. Meier, J. Masci, J. Schmidhuber. Multi-Column Deep Neural Network for Traffic Sign Classification. Neural Networks, 2012.

[ciresan2011CVPR-42] [42]
D. C. Ciresan, U. Meier, J. Schmidhuber. Multi-column Deep Neural Networks for Image Classification. IEEE Conf. on Computer Vision and Pattern Recognition CVPR 2012.

[MIKO2010-43] [43]
T. Mikolov et al., "Recurrent neural network based language model," Interspeech, 2010.

[LECUN86-44] [44]
Y. LeCun et al., "Gradient-based learning applied to document recognition," Proceedings of the IEEE, 86 (11), pp. 2278–2324.

[SAIN2013-45] [45]
T. Sainath et al., "Convolutional neural networks for LVCSR," ICASSP, 2013.

[HINTON2012-46] [46]
G. E. Hinton et al., "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The shared views of four research groups," IEEE Signal Processing Magazine, pp. 82–97, November 2012.

[BENGIO2013-47] [47]
Y. Bengio et al., "Advances in optimizing recurrent networks," ICASSP', 2013.

[DAHL2013-48] [48]
G. Dahl et al., "Improving DNNs for LVCSR using rectified linear units and dropout," ICASSP', 2013.

[RBMTRAIN-49] [49]
G. E. Hinton., "A Practical Guide to Training Restricted Boltzmann Machines," Tech. Rep. UTML TR 2010-003, Dept. CS., Univ. of Toronto, 2010.

[SCHOLARDBNS-50] [50]
G.E. Hinton., "Deep belief networks," Scholarpedia, 4(5):5947.

[LAROCH2007-51] [51]
H. Larochelle et al., "An empirical evaluation of deep architectures on problems with many factors of variation," in Proc. 24th Int. Conf. Machine Learning, pp. 473–480, 2007.

[STANCNN-52] [52]
Convolutional Neural Network. [2014-09-16]. （原始內容存檔於2020-10-29）.

[12-53] 
Honglak Lee; Roger Grosse; Rajesh Ranganath; Andrew Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. ICML '09. 2009: 609–616.

[LDCTIMIT-54] [54]
TIMIT Acoustic-Phonetic Continuous Speech Corpus Linguistic Data Consortium, Philadelphia.

[YANNMNIST-55] [55]
http://yann.lecun.com/exdb/mnist/ （頁面存檔備份，存於互聯網檔案館）.

[CIRESAN2012-56] [56]
D. Ciresan, U. Meier, J. Schmidhuber., "Multi-column Deep Neural Networks for Image Classification," Technical Report No. IDSIA-04-12', 2012.

[UTGOFF-57] [57]
P. E. Utgoff and D. J. Stracuzzi., "Many-layered learning," Neural Computation, 14, pp. 2497–2529, 2002.

[ELMAN-58] [58]
J. Elman, et al., "Rethinking Innateness," 1996.

[SHRAGER-59] [59]
J. Shrager, MH Johnson., "Dynamic plasticity influences the emergence of function in a simple cortical array," Neural Networks, 9 (7), pp. 1119–1129, 1996

[QUARTZ-60] [60]
SR Quartz and TJ Sejnowski., "The neural basis of cognitive development: A constructivist manifesto," Behavioral and Brain Sciences, 20 (4), pp. 537–556, 1997.

[BLAKESLEE-61] [61]
S. Blakeslee., "In brain's early growth, timetable may be critical," The New York Times, Science Section, pp. B5–B6, 1995.

[BUFILL-62] [62]
{BUFILL} E. Bufill, J. Agusti, R. Blesa., "Human neoteny revisited: The case of synaptic plasticity," American Journal of Human Biology, 23 (6), pp. 729–739, 2011.

[SHRAGER2-63] [63]
J. Shrager and M. H. Johnson., "Timing in the development of cortical function: A computational approach," In B. Julesz and I. Kovacs (Eds.), Maturational windows and adult cortical plasticity, 1995.

[HERN2013-64] [64]
D. Hernandez., "The Man Behind the Google Brain: Andrew Ng and the Quest for the New AI （頁面存檔備份，存於互聯網檔案館）," Wired, 10 May 2013.

[METZ2013-65] [65]
C. Metz., "Facebook's 'Deep Learning' Guru Reveals the Future of AI （頁面存檔備份，存於互聯網檔案館）," Wired, 12 December 2013.

[66] [66]
谷歌收购DNNresearch，下一个帝国呼之欲出. CSDN. 2013-03-13 [2014-07-20]. （原始內容存檔於2020-03-24）.

[MARCUS-67] [67]
G. Marcus., "Is "Deep Learning" a Revolution in Artificial Intelligence?" The New Yorker, 25 November 2012.

[68] [68]
PaddlePaddle. [2017-07-21]. （原始內容存檔於2020-12-08）.

[69] [69]
Caffe （頁面存檔備份，存於互聯網檔案館）

[70] [70]
roNNie. [2018-05-02]. （原始內容存檔於2020-11-28）.

[71] [71]
Mxnet. [2017-03-17]. （原始內容存檔於2017-08-18）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]