整流線性單位函數(Rectified Linear Unit, ReLU),又稱修正線性單元,是一種人工神經網絡中常用的激勵函數(activation function),通常指代以斜坡函數及其變種為代表的非線性函數。
此條目可參照外語維基百科相應條目來擴充。 |
比較常用的線性整流函數有斜坡函數 ,以及帶泄露整流函數(Leaky ReLU),其中 為神經元(Neuron)的輸入。線性整流被認為有一定的生物學原理[1],並且由於在實踐中通常有着比其他常用激勵函數(譬如邏輯函數)更好的效果,而被如今的深度神經網絡廣泛使用於諸如圖像識別等計算機視覺人工智能領域[1]。
定義
通常意義下,線性整流函數指代數學中的斜坡函數,即
而在神經網絡中,線性整流作為神經元的激活函數,定義了該神經元在線性變換 之後的非線性輸出結果。換言之,對於進入神經元的來自上一層神經網絡的輸入向量 ,使用線性整流激活函數的神經元會輸出
至下一層神經元或作為整個神經網絡的輸出(取決現神經元在網絡結構中所處位置)。
變種
線性整流函數在基於斜坡函數的基礎上有其他同樣被廣泛應用於深度學習的變種,譬如帶泄露線性整流(Leaky ReLU)[2], 帶泄露隨機線性整流(Randomized Leaky ReLU)[3],以及噪聲線性整流(Noisy ReLU)[4].
在輸入值 為負的時候,帶泄露線性整流函數(Leaky ReLU)的梯度為一個常數 ,而不是0。在輸入值為正的時候,帶泄露線性整流函數和普通斜坡函數保持一致。換言之,
在深度學習中,如果設定 為一個可通過反向傳播算法(Backpropagation)學習的變量,那麼帶泄露線性整流又被稱為參數線性整流(Parametric ReLU)[5]。
帶泄露隨機線性整流(Randomized Leaky ReLU, RReLU)最早是在Kaggle全美數據科學大賽(NDSB)中被首先提出並使用的。相比於普通帶泄露線性整流函數,帶泄露隨機線性整流在負輸入值段的函數梯度 是一個取自連續性均勻分布 概率模型的隨機變量,即
其中 且 。
噪聲線性整流(Noisy ReLU)是修正線性單元在考慮高斯噪聲的基礎上進行改進的變種激活函數。對於神經元的輸入值 ,噪聲線性整流加上了一定程度的正態分布的不確定性,即
其中隨機變量 。目前,噪聲線性整流函數在受限玻爾茲曼機(Restricted Boltzmann Machine)在計算機圖形學的應用中取得了比較好的成果[4]。
優勢
相比於傳統的神經網絡激活函數,諸如邏輯函數(Logistic sigmoid)和tanh等雙曲函數,線性整流函數有着以下幾方面的優勢:
- 仿生物學原理:相關大腦方面的研究表明生物神經元的訊息編碼通常是比較分散及稀疏的[6]。通常情況下,大腦中在同一時間大概只有1%-4%的神經元處於活躍狀態。使用線性修正以及正規化(regularization)可以對機器神經網絡中神經元的活躍度(即輸出為正值)進行調試;相比之下,邏輯函數在輸入為0時達到 ,即已經是半飽和的穩定狀態,不夠符合實際生物學對模擬神經網絡的期望[1]。不過需要指出的是,一般情況下,在一個使用修正線性單元(即線性整流)的神經網絡中大概有50%的神經元處於激活態[1]。
- 簡化計算過程:沒有了其他複雜激活函數中諸如指數函數的影響;同時活躍度的分散性使得神經網絡整體計算成本下降
參考資料
外部連結
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.