U-Net弗賴堡大學計算機科學係為生物醫學圖像分割開發的卷積神經網絡[1]其基於完全卷積網絡[2],並在結構上加以修改與擴展,使得它可以用更少的訓練圖像產生更精確的分割。在現代GPU上,分割一張512×512的圖像需要的時間不到一秒。

U-Net架構已經在擴散模型中採用,用於迭代式圖像去噪音[3]。這種技術位於很多現代圖像生成模型的底層,比如DALL-EMidjourneyStable Diffusion

描述

U-Net的結構源於Long、Shelhamer和Darrell提出的所謂「全卷積網絡」。[2]

其主要思想是通過連續的層來補充通常的收縮網絡,其中的匯集作業(Pooling Operation)代為升採樣操作。這些層成功增加了輸出的解像度。接着,一個連續的卷積層可以根據這些信息,組合成一個精確的輸出。[1]

U-Net的一個重要改變是,升採樣部分有大量特徵通道,這使得網絡可以將上下文信息傳播到更高的解像度層。因此,擴展路徑或多或少地同收縮部分對稱,並產生一個U形結構。該網絡只使用每個卷積的有效部分,沒有任何全連接層。[2]缺失的環境可通過鏡像翻轉輸入圖像來預測圖像邊界區域的像素,這種平鋪策略在網絡應用於大圖像時非常重要,否則解像度將受到GPU內存的限制。

歷史

U-Net首先由Olaf Ronneberger、Philipp Fischer、Thomas Brox於2015年在論文《U-Net:應用於生物醫學圖像分割的卷積網絡》中提出。 [1]U-Net是Evan Shelhamer、Jonathan Long、Trevor Darrell (2014)提出的FCN(Fully Convolutional Networks完全卷積網絡)的演進。[2]

網絡架構

U-Net網絡由一個收縮路徑(contracting path)和一個擴展路徑(expansive path)組成,使其具有U形結構。收縮路徑是一張典型的卷積網絡,包括卷積的重複應用,每個卷積之後都有一個線性整流函數單元(ReLU)和一個最大匯集作業(max pooling operation)。在收縮過程中,空間與特徵信息一減一增。擴張路徑通過連續的上卷積和與來自收縮路徑的高解像度特徵相連接來組合特徵與空間信息。[4]

Thumb
U-Net結構示例,用於為256×256的RGB圖像產生k個256×256遮罩。

應用

U-Net在生物醫學圖像分割中有大量應用,如腦圖像分割(''BRATS''[5])、肝圖像分割("siliver07"[6])和蛋白質結合點預測等等。[7]U-Net的變體也被應用於醫學圖像重建。[8]下面是U-Net的部分變體及其應用:

  1. 基於U-Net的像素回歸及其在泛銳化上的應用:;[9]
  2. 3D U-Net:從稀疏標註學習密集體積分割;[10]
  3. TernausNet:在ImageNet上預先訓練的用於圖像分割的帶VGG11編碼器U-Net;[11]
  4. 估計熒光染色的圖到圖翻譯; [12]
  5. 蛋白質結構活性位點預測。[7]

參考文獻

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.