數位影像處理

數位影像處理指利用電腦和特定算法處理數位影像。^[1]^[2]影像處理主要包括以下步驟：首先，通過影像獲取工具導入影像；接著，對影像進行分析和操作；最後，輸出結果，結果可以是經過改變的影像或基於影像分析的報告。

作為數位訊號處理的一個分支，數位影像處理相比於類比影像處理（英語：Analog image processing）具有幾項優勢：它可以使用更多樣的演算法處理影像資料，並有效避免處理過程中出現雜訊和失真的問題。影響數位影像處理發展的主要三大因素是：電腦技術的進步；^[3]數學領域（尤其是離散數學理論）的創新和發展；^[4]以及對此技術在環境監測、農業、軍事、工業和醫療等領域需求不斷增加。^[5]

歷史

許多數位影像處理技術是在20世紀60年代由貝爾實驗室、噴射推進實驗室、麻省理工學院、馬里蘭大學學院市分校等研究機構開發，並應用於衛星影像、電傳影像（英語：Wirephoto）標準轉換、醫學物理、視訊電話、字符識別及照片增強等領域。^[6]然而，當時使用電腦進行處理的成本相當高。早期影像處理的主要目的是改善影像品質和提升視覺效果，其處理流程包括提高品質較低影像的質素，常用技術包括影像增強、修復、編碼與壓縮。

金屬氧化物半導體（MOS）技術是現代感光元件的基礎。^[7]此技術源於1959年貝爾實驗室穆罕默德·馬丁·阿塔拉（英語：Mohamed M. Atalla）和道文·康（英語：Dawon Kahng）所發明的金屬氧化物半導體場效電晶體（MOSFET）。^[8]這個發明推動了數位半導體影像感測器的發展，主要包括電荷耦合裝置（CCD）以及後來出現的CMOS感測器。^[7]

離散餘弦變換（DCT）是數位影像壓縮技術一個重要里程碑，其原理來自1972年由納西爾·艾哈邁德首次提出的有損壓縮技術。^[9] DCT壓縮技術後來成為JPEG格式的基礎。JPEG格式於1992年由聯合照片專家組（英語：Joint Photographic Experts Group）推出後，^[10]迅速成為網際網路上最廣泛使用的影像檔格式。^[11]JPEG格式的高效壓縮演算法在數位影像和數位照片普及過程中發揮了關鍵作用。^[12]據統計，2015年每天產生的JPEG圖像達到數十億張。^[13]

到了1970年代，隨著電腦價格的下降和專用設備的實用化，數位影像處理逐漸普及。隨著通用電腦的價格下降和性能提升，數位影像處理從專用設備轉向通用電腦。到了2000年代，硬體進一步發展，大多數影像處理已經成為數位影像處理。如今，數位影像處理不僅是最具多樣性的方法，也是最便宜的方法之一。

系統與技術

數位影像處理技術是將影像訊號轉換為數字訊號，然後使用電腦處理以達到某種影像修改的目的。^[14]一個完整的數位影像處理系統包含多種元素，如影像獲取、存儲、影像處理和顯示等。^[15]感光元件用於捕捉影像感光元件會感應物體輻射的能量並將其轉換為數位形式。例如，數位相機感應光強度並將其轉換為數位影像形式。圖像處理器用於對數位影像執行各種操作，這需要硬體和軟體的結合。存儲是影像處理系統中非常重要的一部分。影像或視頻文件的大小通常很大，例如一個擁有1024 x 1024像素的8位影像需要1兆字節的存儲空間。因此，影像處理系統需要大容量存儲設備。

顯示設備用於顯示影像，這些設備可以是電腦螢幕、手機屏幕、投影機或印表機等硬拷貝設備。一個通訊通道也是必須的，用於影像的傳送和接收。數位影像處理的基本步驟包括：

影像擷取：包括使用數位相機或掃描儀捕捉影像，或將現有影像導入計算機。
影像增強：提高影像的視覺質量，如增加對比度、減少噪點和去除雜訊。
影像復原：去除影像中的劣化現象，如模糊、噪點和失真。
影像分割：將影像分割成區域或片段，每個區域對應於影像中的特定物體或特徵。
影像表示和描述：以計算機能夠分析和操作的方式表示影像，並以緊湊且有意義的方式描述影像的特徵。
影像分析：使用算法和數學模型從影像中提取資訊，如識別物體、檢測模式和量化特徵。
影像合成和壓縮：生成新影像或壓縮現有影像以減少存儲和傳輸需求。

數位圖像

經數位影像處理的圖像稱為數位圖像，它是用有限數字數值像素表示的二維圖像。數位圖像可以通過多種不同的輸入裝置和技術生成，例如數位相機、掃描器、坐標測量機、地震剖面儀和機載雷達等。此外，它們也可以從任意的非圖像數據中合成，例如數學函數或三維幾何模型，其中三維幾何模型是電腦圖形學的一個主要分支。影像的類型包括二值影像、黑白影像、8 位色彩格式、16 位色彩格式等等。

影像擷取

影像擷取是將現實世界中的影像轉換成電腦中的數位影像，這是影像處理的首要步驟，也是極為關鍵的一步。^[16]所有後續的影像處理資料都源於這一步，因此，原始影像的品質決定了後續處理的上限。在影像擷取過程中實施嚴格的品質控制至關重要。以下是一些常用的影像擷取工具簡介：

數位相機：能掃描不同大小的原始物件。
鼓式掃描器：將原材料放置於旋轉鼓上，由高強度光源掃描以捕捉影像。鼓式掃描器提供最高的影像品質，但需要原材料具有一定的靈活性且大小有限，以便能夠纏繞在鼓上。
平板掃描器：原材料平放於玻璃上，由下方通過的CCD陣列捕捉影像。平板掃描器要求原材料大小不超過玻璃範圍且必須平放且面朝下。
幻燈片掃描器：通常只能掃描35毫米的透明物質。
影像擷取卡：連接標準攝影機。任何能被攝影機拍攝的物體都可由影像擷取卡數位化，包括三維物體和運動影片，其限制在於視頻影像的品質。

影像增強

影像增強是一種處理技術，旨在提升圖像的視覺效果以符合特定的應用需求。在這個過程中，雖然有時會引入一些失真，但主要目的是強化圖像中的有用資訊，從而改善整體的圖像品質。這涉及有針對性地強調圖像的全局或局部特徵，使原本模糊的圖像變得清晰，或突顯某些感興趣的特徵。

此過程增大圖像中不同物體特徵之間的差異，抑制不重要的特徵，從而提升圖像質量、豐富訊息量，加強圖像的解讀和識別效果，滿足特定分析的需求。圖像增強主要分為兩類：頻率域法（frequency domain）和空間域法（spatial domain）。頻率域法將圖像視為二維訊號，透過二維傅立葉變換進行訊號增強，低通濾波去除雜訊，高通濾波則增強邊緣等高頻訊號，使圖像更為清晰。空間域法中，典型的算法包括局部求平均值法和中值濾波法，這些方法用於消除或減弱雜訊。

影像濾波

影像濾波（filtering）可以分為兩大類：空間域與頻率域。^[17]在空間域中，濾波處理是直接對影像像素進行操作以達成處理目的；而在頻率域中，則透過傅立葉轉換、小波轉換等方法，將影像轉換至頻率域進行處理，處理完畢後再進行逆轉換回空間域。

在空間域濾波中，使用的技術類似於數位訊號處理中討論的二維有限脈衝響應（Finite Impulse Response, FIR）濾波器。透過調整除法的係數，可以改變系統的濾波效果，這種方法在影像處理中被稱為「線性濾波」。相對地，非線性濾波，例如中值濾波，則需要將數值排序並取出中間值作為濾波器的輸出結果，這種方法不會維持輸入值的線性關係，因此稱為「非線性濾波」。

以下是一些空間域濾波與頻率域濾波的例子：^[18]

更多資訊

...

濾波類型	卷積核	例子
原圖	${\begin{bmatrix}0&0&0\\0&1&0\\0&0&0\end{bmatrix}}$
空間域低通	${\frac {1}{9}}\times {\begin{bmatrix}1&1&1\\1&1&1\\1&1&1\end{bmatrix}}$
空間域高通	${\begin{bmatrix}0&-1&0\\-1&4&-1\\0&-1&0\end{bmatrix}}$
快速傅立葉變換	Pseudo-code: image = checkerboard F = Fourier Transform of image Show Image: log(1+Absolute Value(F))
傅立葉低通
傅立葉高通

關閉

影像復原

影像復原是一種數位影像處理技術，主要目的是根據一些預先定義的客觀標準，改善或修復已經退化的圖像。與影像增強不同，影像增強偏重於主觀的視覺效果改善，而影像復原則嘗試恢復圖像的原始狀態。影像復原過程通常涉及對退化影像和退化過程的理解。一般會使用數學模型來類比影像退化的過程，包括退化函數和加成性雜訊。這些模型幫助我們推算出最接近原始影像的估計值。

此外，影像去霧是影像復原的一個特殊應用，主要用於改善因大氣散射效應導致的視覺退化。透過估計大氣光和透射率，可以有效地去除霧氣，恢復清晰的影像視覺。影像復原的成功程度很大程度上取決於對退化過程的了解程度和所用技街的適宜性。

影像分割

影像分割是一種將數字影像劃分成多個子區域（也稱作超像素）的技術。這一過程旨在簡化或變更影像的呈現方式，從而便於影像的理解和分析。^[19]影像分割主要應用於識別影像中的物體和界限（如線條和曲線）。具體來說，這涉及到為影像中的每一個像素打上標籤，使得擁有相同標籤的像素顯示出類似的視覺特性。

影像分割的結果通常表現為一系列影像子區域，這些區域合起來涵蓋整張影像，或者是從影像中提取的輪廓線集合（如邊緣檢測所得）。在這些子區域中，每個像素都按照顏色、亮度或紋理等特性表現出相似性，而相鄰的區域在這些特性上則表現出顯著的差異。^[19]

影像表示與描述

在數位影像處理中，通常會先利用影像處理技術從影像中提取出有用的物體或特徵。如果直接使用物體的區塊內容進行辨識或分析，將會非常困難且效率低下。因此，通常會先用簡單的表示方式來表達這些擷取的物體，以簡化處理過程並提高效能。之後，會用數值描述這些物體，最終再透過圖形識別或電腦視覺系統進行分析；這種有效率的物體或特徵表達方式，便是所謂的影像表示與描述。^[20]

「表示」是用簡單的圖形替代複雜的圖形，而「描述」則是用數值來細述這些簡單圖形，作為分析與辨識的基礎。因此，影像的表示和描述是圖形識別中不可或缺的前置處理步驟。

影像的表示方式主要分為四種：^[20]

外形表示（boundary representation）
骨架表示（skeleton representation）
影像列表示（row representation）
區塊表示（block representation）

其中，外形表示尤為重要，常被用於影像確認和辨識；其次是骨架表示，這在文字和指紋識別中非常常見。

影像的描述方式主要包括：^[20]

外形描述（boundary description），
區域描述（region description）。

在進行影像識別時，影像與感光元件之間的距離和方向可能會有所不同，但不能因影像的擺放位置和方向的差異而誤判為不同的影像。因此，物體的表示和描述應當與影像的大小、位置和方向無關，尤其是在進行三維影像辨識和分析時。具有這種與影像大小和方向無關的描述特性稱為不變性特徵（invariant feature）。

影像分析

影像分析是一個專注於理解和解釋影像內容的領域，它與影像處理緊密相連但又有所不同。在影像分析中，主要目標是通過使用各種數學模型和影像處理技術來識別和解釋影像中的結構和特徵，這包括影像內容的分析與辨識。這使得影像分析在圖型識別和電腦視覺等電腦科學領域中扮演了重要角色。

相較於影像處理主要集中於訊號處理方面，如調整影像對比度、影像編碼、去噪和濾波等，影像分析則更深入地挖掘影像中的有意義資訊。它不僅利用影像處理技術來改善影像品質，更進一步對影像進行解釋和理解，從而提取出具有分析價值的資訊。這種分析通常涉及從影像中提取底層特徵和上層結構，以支持更高層次的影像理解和決策制定。

影像壓縮

影像壓縮是將數據壓縮技術應用於處理數位圖像上的一種方法，目的是減少圖像數據中的冗餘資訊，以更高效的格式進行存儲和傳輸。資料越一致，統計特性越集中，包括傅立葉變換域、直方圖和特徵值等方面的集中度。壓縮的原則是利用資料的一致性，資料越一致，就越能夠進行壓縮。此外，也可以利用資料的規則性和可預測性來進行壓縮。通常來說，如果能用較簡潔的自然語言描述一個事物，那麼該事物就越能被壓縮。常用影像壓縮技術

壓縮技術分為兩種：失真壓縮和無損壓縮。

失真壓縮（Lossy Compression）：壓縮率較高，但無法重建原始數據。例如：離散傅立葉變換（DFT）、離散餘弦變換（DCT）、卡洛曼-勒維變換（KLT）（配合量化和截斷使用）、4:2:2 或 4:2:0 編碼、多項式曲線近似等。
無損壓縮（Lossless Compression）：壓縮率較低，但可以重建原始數據。例如：二元編碼（Binary Coding）、霍夫曼編碼（Huffman Coding）、算術編碼（Arithmetic Coding）和格倫布編碼（Golomb Coding）。

數位影像處理的優點和缺點

數位影像處理具有多項優點。^[14]首先，算法可以提高影像的視覺質量，使其更清晰、銳利和更具資訊性。此外，數位影像處理可以自動化許多基於影像的任務，如物體識別、模式檢測和測量，這使得這些任務變得更加高效。再者，算法能比人類更快地處理影像，使得可以在短時間內分析大量數據。最後，數位影像處理算法能提供比人類更準確的結果，尤其是在需要精確測量或定量分析的任務中，這大大提高了工作的準確性。

然而，數位影像處理也存在一些缺點。^[14]^[21]一些算法計算密集，需要大量計算資源，這導致高計算成本。此外，一些複雜或高級算法可能產生難以解釋的結果，這增加了理解和應用的難度。算法的輸出質量高度依賴於輸入影像的質量，質量差的輸入影像會導致質量差的輸出。再者，有些算法在雜亂或光線不足的場景中難以識別物體，或無法識別變形或遮擋嚴重的物體。最後，許多算法的性能取決於用於開發算法的訓練數據質量，質量差的訓練數據會導致算法性能差。

數位影像處理的應用

數位影像處理技術現已應用於多個領域，以下是一些常見的應用。^[15]

醫學

許多醫療工具使用影像處理進行各種目的，如影像增強、影像壓縮和物體識別等。X 光、電腦斷層掃描、正電子發射斷層掃描、單光子發射電腦斷層掃描、核磁共振光譜和超音波檢查等都是基於影像處理的流行醫療設備。

農業

在農業領域，影像處理在檢測雜草、食物分級、收穫控制和果實採摘等重要任務中發揮重要作用。通過使用高光譜成像、紅外光譜等技術，可以準確地進行灌溉土地測繪、植被指數測定和樹冠測量等工作。

氣象

在氣象預報中，數位影像處理在降雨、冰雹和洪水預測中也起著關鍵作用。氣象雷達廣泛用於檢測降雨雲，並根據這些資訊預測即時降雨強度。

大眾文化

在攝影和電影中，修圖和拼接照片廣泛用於報紙和雜誌，以提高圖片質量。在電影中，許多複雜的場景是通過基於影像和視頻處理的工具創建的。影像處理方法還被用來預測即將上映的電影的成功，例如全球媒體和娛樂公司 Latent View 從 IMDB 中提取了 6000 多部電影海報及其元數據（類型、演員、製作、評級等），並使用影像分析預測電影的成功。機器學習 (ML) 算法和影像處理技術被用來分析電影海報中的色彩方案和物體。

在娛樂和社交媒體中，人臉檢測和識別廣泛應用於社交網路網站，用戶上傳照片後，系統會自動識別並建議標註人物姓名。

安全領域

生物識別驗證系統提供了高水平的真實性和保密性。生物識別技術根據人的行為或特徵進行識別。視頻監控系統被用來分析人的行動和活動，以創建針對特定不良行為的警報。多家銀行和其他部門使用這些基於影像處理的視頻監控系統來檢測不良行為。

參考文獻

Loading content...

外部連結