Loading AI tools
来自维基百科,自由的百科全书
U-Net是弗賴堡大學計算機科學係為生物醫學圖像分割開發的卷積神經網絡。[1]其基於完全卷積網絡[2],並在結構上加以修改與擴展,使得它可以用更少的訓練圖像產生更精確的分割。在現代GPU上,分割一張512×512的圖像需要的時間不到一秒。
U-Net架構已經在擴散模型中採用,用於迭代式圖像去噪音[3]。這種技術位於很多現代圖像生成模型的底層,比如DALL-E、Midjourney和Stable Diffusion。
U-Net的結構源於Long、Shelhamer和Darrell提出的所謂「全卷積網絡」。[2]
其主要思想是通過連續的層來補充通常的收縮網絡,其中的匯集作業(Pooling Operation)代為升採樣操作。這些層成功增加了輸出的解像度。接着,一個連續的卷積層可以根據這些信息,組合成一個精確的輸出。[1]
U-Net的一個重要改變是,升採樣部分有大量特徵通道,這使得網絡可以將上下文信息傳播到更高的解像度層。因此,擴展路徑或多或少地同收縮部分對稱,並產生一個U形結構。該網絡只使用每個卷積的有效部分,沒有任何全連接層。[2]缺失的環境可通過鏡像翻轉輸入圖像來預測圖像邊界區域的像素,這種平鋪策略在網絡應用於大圖像時非常重要,否則解像度將受到GPU內存的限制。
U-Net首先由Olaf Ronneberger、Philipp Fischer、Thomas Brox於2015年在論文《U-Net:應用於生物醫學圖像分割的卷積網絡》中提出。 [1]U-Net是Evan Shelhamer、Jonathan Long、Trevor Darrell (2014)提出的FCN(Fully Convolutional Networks完全卷積網絡)的演進。[2]
U-Net網絡由一個收縮路徑(contracting path)和一個擴展路徑(expansive path)組成,使其具有U形結構。收縮路徑是一張典型的卷積網絡,包括卷積的重複應用,每個卷積之後都有一個線性整流函數單元(ReLU)和一個最大匯集作業(max pooling operation)。在收縮過程中,空間與特徵信息一減一增。擴張路徑通過連續的上卷積和與來自收縮路徑的高解像度特徵相連接來組合特徵與空間信息。[4]
U-Net在生物醫學圖像分割中有大量應用,如腦圖像分割(''BRATS''[5])、肝圖像分割("siliver07"[6])和蛋白質結合點預測等等。[7]U-Net的變體也被應用於醫學圖像重建。[8]下面是U-Net的部分變體及其應用:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.