残差神经网络

殘差神經網絡（Residual Neural Network，簡稱ResNet）^[1]屬於深度學習模型的一種，其核心在於讓網絡的每一層不直接學習預期輸出，而是學習與輸入之間的殘差關係。這種網絡通過添加「跳躍連接」，即跳過某些網絡層的連接來實現身份對映，再與網絡層的輸出相加合併。其運作機制與高速神經網絡（英語：Highway network）類似，通過極大的正偏置權重來打開「門控」。^[2] 這一設計使得擁有幾十上百層的深度學習模型可以更易於訓練，增加模型深度時還能保持甚至提高準確度。所謂的「殘差連接」即「直連跳過」，這一概念也被應用於1997年的長短期記憶模型LSTM、^[3] Transformer模型（比如BERT和GPT系列，ChatGPT等）、AlphaGo Zero、AlphaStar（英語：AlphaStar (software)）以及AlphaFold等。

殘差神經網絡由何愷明、張祥雨、任少卿和孫劍開發，這一成果在2015年的ImageNet大規模視覺辨識挑戰賽中奪冠。^[4]^[5]

Remove ads

基本原理

背景介紹

2012年，針對ImageNet競賽開發的AlexNet模型是一個包含8層的卷積神經網絡。到了2014年，牛津大學的視覺幾何組（VGG）通過疊加3x3卷積層將網絡深度增加到了19層。^[6] 但是，層級的增加卻導致訓練精度的迅速下降，^[7] 這種現象被稱為「效能退化」問題。^[1]

理論上，如果一個更深的網絡僅僅是通過在一個較淺網絡的基礎上增加額外層來構建的，那麼這個更深的網絡不應該比其較淺的網絡有更高的訓練損失。^[1] 如果這些額外層具有身份對映的能力，那麼更深的網絡應該能夠實現與其較淺網絡相同的功能。但這裏存在一個假設，即最佳化器不能有效地將這些參數化的網絡層調整為身份對映。

殘差學習

在多層神經網絡模型里，設想一個包含若干層的子網絡絡。這個子網絡絡的函數用 ${\textstyle H(x)}$ 來表示，其中 ${\textstyle x}$ 是子網絡絡的輸入。殘差學習是通過重新設定這個子網絡絡的參數，讓參數層表達一個殘差函數 ${\textstyle F(x):=H(x)-x}$ 。因此，這個子網絡絡的輸出 ${\textstyle y}$ 可以表示為：

{\begin{aligned}y&=F(x)+x\end{aligned}}

這一原理同樣適用於1997年提出的長短期記憶LSTM單元，^[3] 在隨時間反向傳播（英語：Backpropagation through time）里計算 ${\textstyle y_{t+1}=F(x_{t})+x_{t}}$ ，簡化為 ${\textstyle y=F(x)+x}$ 。

函數 ${\textstyle F(x)}$ 常通過矩陣乘法實現，並結合激勵函數以及規範化操作（如批次規範化（英語：Batch normalization）或層規範化）。

這類子網絡絡被稱作「殘差塊」。^[1] 通過疊加這樣的殘差塊，形成深度殘差網絡。

在" ${\textstyle y=F(x)+x}$ "公式中的" ${\textstyle +\ x}$ "操作是通過一個相當於恆等對映的跳躍連接來完成，它將殘差塊的輸入直接與輸出連接。在隨後的研究中，這種連接常被稱作「殘差連接」。^[8]

訊號傳遞

身份對映的引入有利於訊號在前向傳播路徑和反向傳播路徑中的傳遞。^[9]

向前傳播

如果第 ${\textstyle \ell }$ 個殘差塊的輸出是第 ${\textstyle (\ell +1)}$ 個殘差塊的輸入（這裏假設塊與塊之間沒有激勵函數），可以得到：^[9]

{\begin{aligned}x_{\ell +1}&=F(x_{\ell })+x_{\ell }\end{aligned}}

若遞歸應用此公式，例如， ${\begin{aligned}x_{\ell +2}=F(x_{\ell +1})+x_{\ell +1}=F(x_{\ell +1})+F(x_{\ell })+x_{\ell }\end{aligned}}$ ，可以推導出：

{\begin{aligned}x_{L}&=x_{\ell }+\sum _{i=l}^{L-1}F(x_{i})\\\end{aligned}}

這裏 ${\textstyle L}$ 表示任意後續殘差塊的索引（比如處於最末尾的塊）， ${\textstyle \ell }$ 代表任意靠前的塊對應的索引。該公式說明了總有一個訊號能夠直接從淺層塊 ${\textstyle \ell }$ 傳遞到深層塊 ${\textstyle L}$ 。

Remove ads

反向傳播

殘差學習的公式還在一定程度上緩解了梯度消失問題。然而，梯度消失並不是導致效能退化問題的根源，因為通過引入規範化層（如批次規範化）可在一定程度上解決此問題。根據上面的前向傳播過程，對 ${\textstyle x_{\ell }}$ 進行求導，可以得到：^[9]

{\begin{aligned}{\frac {\partial {\mathcal {E}}}{\partial x_{\ell }}}&={\frac {\partial {\mathcal {E}}}{\partial x_{L}}}{\frac {\partial x_{L}}{\partial x_{\ell }}}\\&={\frac {\partial {\mathcal {E}}}{\partial x_{L}}}\left(1+{\frac {\partial }{\partial x_{\ell }}}\sum _{i=l}^{L-1}F(x_{i})\right)\\&={\frac {\partial {\mathcal {E}}}{\partial x_{L}}}+{\frac {\partial {\mathcal {E}}}{\partial x_{L}}}{\frac {\partial }{\partial x_{\ell }}}\sum _{i=l}^{L-1}F(x_{i})\\\end{aligned}}

這裏 ${\textstyle {\mathcal {E}}}$ 是最小化損失函數。以上表明，淺層的梯度計算 ${\textstyle {\frac {\partial {\mathcal {E}}}{\partial x_{\ell }}}}$ 總會直接加上一個項 ${\textstyle {\frac {\partial {\mathcal {E}}}{\partial x_{L}}}}$ 。因此，由於額外項 ${\textstyle {\frac {\partial {\mathcal {E}}}{\partial x_{L}}}}$ 的存在，即使 ${\textstyle F(x_{i})}$ 的梯度很小，總梯度 ${\textstyle {\frac {\partial {\mathcal {E}}}{\partial x_{\ell }}}}$ 也不會消失。

Remove ads

殘差塊

基本殘差塊

基本殘差塊是原始ResNet研究中最簡單的部分。^[1] 它包括兩個串行的3x3卷積層以及一個殘差連接。這兩層的輸入輸出尺寸保持一致。

瓶頸殘差塊

瓶頸殘差塊包含三個串聯的卷積層和一個殘差連接。^[1] 該塊的第一層是1x1卷積，用於降維，比如降至輸入維度的1/4；第二層是3x3卷積；最後一層是另一個1x1卷積，用於恢復維度。ResNet-50、ResNet-101和ResNet-152模型都基於瓶頸塊構建。^[1]

預啟用殘差塊

預啟用殘差塊^[9]在應用殘差函數 ${\textstyle F}$ 之前，先使用激勵函數，如非線性和規範化的處理。預啟用殘差塊的計算可以表述為：

{\begin{aligned}x_{\ell +1}&=F(\phi (x_{\ell }))+x_{\ell }\end{aligned}}

這裏的 ${\textstyle \phi }$ 可以是如線性整流函數等任意非線性啟用或歸一化操作。這種設計減少了殘差塊間非恆等對映的數量，被用於訓練200層到1000多層的模型。^[9]

從GPT-2開始，Transformer塊常被用於預啟用塊，這在Transformer模型的相關文獻中被稱為「預規範化」。^[10]

Remove ads

Transformer塊

Transformer塊是由兩個殘差塊組成，每個殘差塊都設有一個殘差連接。

第一個殘差塊為多頭注意力塊，使用了自注意力運算，隨後連接一個線性對映層。第二個殘差塊是一個前饋式的多層感知器（MLP）塊，這個塊在某種程度上像是一個「反向」的瓶頸塊，它通過一個線性對映層（在卷積神經網絡中相當於1x1的卷積）來擴大維度，然後通過另一個線性對映層來減少維度。

一個Transformer塊包含了四層線性對映。GPT-3模型擁有96個這樣的Transformer塊（在Transformer領域的文獻中，通常將一個Transformer塊稱作一個「Transformer層」）。因此，該模型包含了大約400層的對映層，包括Transformer塊內的96x4層，以及一些額外的層用於輸入嵌入和輸出預測。

若沒有殘差連接，訓練網絡深度極高的Transformer模型將無法取得成功。^[11]

Remove ads

與生物學的聯絡

雖然最初的殘差網絡研究並未受生物學啟發，但後來的研究卻發現殘差網絡與生物學有關。^[21]^[22]

2023年《科學》雜誌上發表的一項研究展示了果蠅幼蟲大腦的完整神經連接組。^[23] 這項研究發現了類似於類神經網絡中如ResNet一樣的跳躍連接。

參考文獻

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

基本原理

背景介紹

殘差學習

訊號傳遞

向前傳播

反向傳播

殘差塊

基本殘差塊

瓶頸殘差塊

預啟用殘差塊

Transformer塊

相關研究

與生物學的聯絡

參考文獻