結構相似性 指標[ 1] (英語:structural similarity index ,SSIM index)是一種用以衡量兩張數碼圖像 相似程度的指標。當兩張影像其中一張為無失真 影像,另一張為失真 後的影像,二者的結構相似性可以看成是失真影像的影像質素衡量指標。相較於傳統所使用的影像質素衡量指標,像是峰值訊噪比 (英語:PSNR ),結構相似性 在影像質素的衡量上更能符合人眼對影像質素的判斷[ 2] [ 3] 。
結構相似性的基本觀念為自然影像是高度結構化的[ 1] ,亦即在自然影像中相鄰像素 之間有很強的關聯性,而這樣的關聯性承載了場景中物體的結構資訊。人類視覺系統在觀看影像時已經很習慣抽取這樣的結構性資訊。因此,在設計影像質素衡量指標用以衡量影像失真程度時,結構性失真的衡量是很重要的一環。
給定兩個訊號
x
{\displaystyle \mathbf {x} }
和
y
{\displaystyle \mathbf {y} }
,兩者的結構相似性定義為:
SSIM
(
x
,
y
)
=
[
l
(
x
,
y
)
]
α
[
c
(
x
,
y
)
]
β
[
s
(
x
,
y
)
]
γ
{\displaystyle {\text{SSIM}}(\mathbf {x} ,\mathbf {y} )=[l(\mathbf {x} ,\mathbf {y} )]^{\alpha }[c(\mathbf {x} ,\mathbf {y} )]^{\beta }[s(\mathbf {x} ,\mathbf {y} )]^{\gamma }}
,
l
(
x
,
y
)
=
2
μ
x
μ
y
+
C
1
μ
x
2
+
μ
y
2
+
C
1
{\displaystyle l(\mathbf {x} ,\mathbf {y} )={\frac {2\mu _{x}\mu _{y}+C_{1}}{\mu _{x}^{2}+\mu _{y}^{2}+C_{1}}}}
,
c
(
x
,
y
)
=
2
σ
x
σ
y
+
C
2
σ
x
2
+
σ
y
2
+
C
2
{\displaystyle c(\mathbf {x} ,\mathbf {y} )={\frac {2\sigma _{x}\sigma _{y}+C_{2}}{\sigma _{x}^{2}+\sigma _{y}^{2}+C_{2}}}}
,
s
(
x
,
y
)
=
σ
x
y
+
C
3
σ
x
σ
y
+
C
3
{\displaystyle s(\mathbf {x} ,\mathbf {y} )={\frac {\sigma _{xy}+C_{3}}{\sigma _{x}\sigma _{y}+C_{3}}}}
。
其中,
l
(
x
,
y
)
{\displaystyle l(\mathbf {x} ,\mathbf {y} )}
比較
x
{\displaystyle \mathbf {x} }
和
y
{\displaystyle \mathbf {y} }
的亮度 ,
c
(
x
,
y
)
{\displaystyle c(\mathbf {x} ,\mathbf {y} )}
比較
x
{\displaystyle \mathbf {x} }
和
y
{\displaystyle \mathbf {y} }
的對比度 ,
s
(
x
,
y
)
{\displaystyle s(\mathbf {x} ,\mathbf {y} )}
比較
x
{\displaystyle \mathbf {x} }
和
y
{\displaystyle \mathbf {y} }
的結構(structure),
α
>
0
{\displaystyle \alpha >0}
,
β
>
0
{\displaystyle \beta >0}
,
γ
>
0
{\displaystyle \gamma >0}
,為調整
l
(
x
,
y
)
{\displaystyle l(\mathbf {x} ,\mathbf {y} )}
、
c
(
x
,
y
)
{\displaystyle c(\mathbf {x} ,\mathbf {y} )}
、
s
(
x
,
y
)
{\displaystyle s(\mathbf {x} ,\mathbf {y} )}
相對重要性的參數,
μ
x
{\displaystyle \mu _{x}}
及
μ
y
{\displaystyle \mu _{y}}
、
σ
x
{\displaystyle \sigma _{x}}
及
σ
y
{\displaystyle \sigma _{y}}
分別為
x
{\displaystyle \mathbf {x} }
和
y
{\displaystyle \mathbf {y} }
的平均值 和標準差 ,
σ
x
y
{\displaystyle \sigma _{xy}}
為
x
{\displaystyle \mathbf {x} }
和
y
{\displaystyle \mathbf {y} }
的協方差 ,
C
1
{\displaystyle C_{1}}
、
C
2
{\displaystyle C_{2}}
、
C
3
{\displaystyle C_{3}}
皆為常數,用以維持
l
(
x
,
y
)
{\displaystyle l(\mathbf {x} ,\mathbf {y} )}
、
c
(
x
,
y
)
{\displaystyle c(\mathbf {x} ,\mathbf {y} )}
、
s
(
x
,
y
)
{\displaystyle s(\mathbf {x} ,\mathbf {y} )}
的穩定。
結構相似性指標的值越大,代表兩個訊號的相似性越高。
若使用全等的兩張圖片去做SSIM運算,也就是說
μ
x
=
μ
y
{\displaystyle \mu _{x}=\mu _{y}}
且
σ
x
=
σ
y
{\displaystyle \sigma _{x}=\sigma _{y}}
,如此一來
SSIM
(
x
,
x
)
=
2
μ
x
2
+
C
1
μ
x
2
+
μ
x
2
+
C
1
×
2
σ
x
2
+
C
2
σ
x
2
+
σ
x
2
+
C
2
×
σ
x
x
+
C
3
σ
x
σ
x
+
C
3
=
1
{\displaystyle {\text{SSIM}}(\mathbf {x} ,\mathbf {x} )={\frac {2\mu _{x}^{2}+C_{1}}{\mu _{x}^{2}+\mu _{x}^{2}+C_{1}}}\times {\frac {2\sigma _{x}^{2}+C_{2}}{\sigma _{x}^{2}+\sigma _{x}^{2}+C_{2}}}\times {\frac {\sigma _{xx}+C_{3}}{\sigma _{x}\sigma _{x}+C_{3}}}=1}
實際使用時,簡化起見,一般會將參數設為
α
=
β
=
γ
=
1
{\displaystyle \alpha =\beta =\gamma =1}
及
C
3
=
C
2
/
2
{\displaystyle C_{3}=C_{2}/2}
,得到:
SSIM
(
x
,
y
)
=
(
2
μ
x
μ
y
+
C
1
)
(
2
σ
x
y
+
C
2
)
(
μ
x
2
+
μ
y
2
+
C
1
)
(
σ
x
2
+
σ
y
2
+
C
2
)
{\displaystyle {\text{SSIM}}(\mathbf {x} ,\mathbf {y} )={\frac {(2\mu _{x}\mu _{y}+C_{1})(2\sigma _{xy}+C_{2})}{(\mu _{x}^{2}+\mu _{y}^{2}+C_{1})(\sigma _{x}^{2}+\sigma _{y}^{2}+C_{2})}}}
。
在計算兩張影像的結構相似性指標時,會開一個局部性的視窗,一般為
N
{\displaystyle N}
×
N
{\displaystyle N}
的小區塊,計算出視窗內訊號的結構相似性指標,每次以像素為單位移動視窗,直到整張影像每個位置的局部結構相似性指標都計算完畢。將全部的局部結構相似性指標平均起來即為兩張影像的結構相似性指標。
結構相似性指標具有下列性質:
結構相似性指標是對稱的,亦即
SSIM
(
x
,
y
)
=
SSIM
(
y
,
x
)
{\displaystyle {\text{SSIM}}(\mathbf {x} ,\mathbf {y} )={\text{SSIM}}(\mathbf {y} ,\mathbf {x} )}
。
結構相似性指標的最大值為1,亦即
∀
x
,
y
,
SSIM
(
x
,
y
)
≤
1
,
{\displaystyle \forall \mathbf {x} ,\mathbf {y} ,{\text{SSIM}}(\mathbf {x} ,\mathbf {y} )\leq 1,}
。
當衡量的兩個訊號完全相同時,若且唯若 結構相似性指標的值為1。
SSIM
(
x
,
y
)
=
1
⇔
x
=
y
{\displaystyle {\text{SSIM}}(\mathbf {x} ,\mathbf {y} )=1\Leftrightarrow \mathbf {x} =\mathbf {y} }
。
一般認為,結構相似度指標比均方誤差 (MS)更適合用來判斷兩張圖像的相似度,原因是結構相似性指標同時考慮圖片亮度、對比與結構資訊,這跟人類的視覺系統的判斷基準較為接近。MSE只考慮兩張圖片的平均亮度誤差而不考慮結構化的資訊,所以當圖片有些微的亮度改變時,MSE改變會很劇烈,但小亮度改變並不會造成人類把兩張圖片判斷成完全不同。
另外一種計算相似度的方法是使用正規化均方根誤差 (NRMSE),NRMSE是基於MSE的公式,再除上其中一張圖像的亮度,這樣的處理使得NRMSE對於整體亮度變化比較不敏感,並且讓數值落在比較受限的範圍內以便於比較,然而NRMSE沒有考慮結構化資訊的問題依舊存在。
下面使用了五張相片做實驗,輔助說明:
Image A:原圖
Image B:(Image A * 0.5) + 128
Image C:255 - Image A
Image D:Image A 疊加影子後的結果
Image E:對照組
Image A, B, C, D, E
對人類的視覺系統來說,Image A、B、C、D 是一群較為相似的圖片,Image E 則是與其他圖片毫無相關。
這裏是使用Image A跟其他圖片進行相似度的比較,一共使用三種方法:均方誤差(MSE)、正規化方均根差(NRMSE)、結構相似度指標(SSIM)。
SSIM experiment data
然而在上述的比較實驗可以發現,只有結構相似度指標能夠正確反映這個關聯,結構相似性指標在Image B、C、D之中都得到了較高的相似度(其中Image C為負相關),而唯有Image E得到了接近零的相似度。這代表使用結構相似性指標能夠知道Image A、B、C、D之間很相似,而Image E跟其他圖片不相似。反之,MSE與NRMSE皆無法在結果上反映出Image E與其他圖片的差別。
結構相似性指標因其簡單而有效,近年來廣泛被使用在影像與視像處理的相關應用上,例如影像壓縮 [ 4] 、影像浮水印 [ 5] 、無線視像串流 [ 6] 、核磁共振成像 [ 7] 等等。
在影像壓縮、影像去噪與影像還原等領域,經常使用結構相似性指標來判斷方法的好壞。以影像壓縮的應用為例,結構相似度用於比較原圖與壓縮後的圖片的差異。原則上希望壓縮後的圖片不會跟原圖差太多,同時壓縮後的圖片又可以節省空間。如果原圖與壓縮後圖片之間的結構相似度是接近1的代表這是個優秀的壓縮方法,反之則是不佳的壓縮方法。
另外,在影像去噪的應用中,有時會採用人工合成的雜訊疊加在圖片上,並且設計去噪演算法去除人工合成上去的雜訊。在這種情況能夠使用結構相似度直接判斷原圖跟去噪後的圖片之間有多接近。結構相似度越接近1,代表去噪演算法能夠成功地把雜訊去除並將原圖還原出來。
因為結構相似性設計上盡量貼近人類的視覺系統,所以計算結構相似性的概念還能用於辨識圖片中特定的圖樣。在這類型的應用,通常需要分類演算法對特徵的平移、旋轉與縮放不敏感,所以會使用CW-SSIM取代原本的結構相似度來進行計算。而根據CW-SSIM的作者的描述[ 8] 使用CW-SSIM搭配支持向量機 作為分類器,此方法可以在MNIST數據集 上達到95%的結果。
結構相似性指標有其限制,對於影像出現位移 、縮放 、旋轉 (皆屬於非結構性的失真)的情況無法有效的運作。為解決此問題,另已發展出在小波 域進行運算的結構相似性指標,稱作複小波結構相似性 指標[ 9] (complex wavelet SSIM ,CW-SSIM )。
當圖片出現平移、旋轉或是縮放時,結構相似度指標會改變得十分劇烈,並很容易將兩張類似的圖片視為不相似的。原因與在計算SSIM時所使用的局部性視窗有關,平移、旋轉或是縮放都會導致視窗內的像素結構完全改變,使SSIM無法正確估計相似度。
下面的實驗是使用Image A 跟Image F、G、H計算相似度
Image F: Image A 往右平移30像素
Image G: Image A 逆時針旋轉30度
Image H: Image A 長寬各縮短6.25%
Limitation
可以看到Image A僅向右移30像素就導致了兩張圖片前後的SSIM為0.11,上述實驗足以說明結構相似性指標的確對這些操作很敏感,要解決這類的問題可以使用複小波結構相似性。
多尺度結構相似性 (multi-scale SSIM ,MS-SSIM)嘗試去解決結構相似度裏面,依賴特定大小的視窗進行計算的問題,因為如果輸入的圖片的解像度不同,用戶往往需要更改結構相似性的參數,才能得到較合理的結果。多尺度結構相似性,則是把輸入圖片經過若干次的低通濾波器與兩倍下採樣,每次下採樣之後都計算一次結構相似度。最後的結果會同時考量所有不同尺寸的圖片計算出的結構相似性,由此達到指標能自適應不同解像度的圖片的目的。Multi-Scale SSIM Complex Wavelet SSIM 或是 CW-SSIM的作者[ 10] 認為MS-SSIM能得到比SSIM相等或是更好的評量結果。
結構相異性(structural dissimilarity ,DSSIM)正好是結構相似性的相反。當兩張圖片相等時,結構相異性為0。反之當兩張圖片很不相似時,結構相異性可以趨近無限大。
DSSIM
(
x
,
y
)
=
1
−
SSIM
(
x
,
y
)
2
{\displaystyle {\hbox{DSSIM}}(x,y)={\frac {1-{\hbox{SSIM}}(x,y)}{2}}}
另一種結構相異性定義[ 11] [查證請求 ] 為
D
S
S
I
M
(
x
,
y
)
=
1
1
−
S
S
I
M
(
x
,
y
)
{\displaystyle DSSIM(x,y)={\frac {1}{1-SSIM(x,y)}}}
其中
S
S
I
M
(
x
,
y
)
{\displaystyle SSIM(x,y)}
為x與y的結構相似性。當DSSIM越大時,代表兩張圖片越接近,SSIM越接近1,DSSIM的值也越大,當SSIM=1,也就是DSSIM趨近無限時,和原始視訊檔案完全一致。
結構相似性雖然能大致符合人類的視覺系統的感受,但若圖片遇到幾何上的轉換,例如平移、旋轉與縮放時,結構相似性會無法正確描述兩張圖片的相似程度。因此複小波結構相似性 (complex wavelet SSIM ,CW-SSIM)針對了這個問題進行了改良,CW-SSIM的作者[ 8] 認為與其使用亮度(magnitude)進行比較,不如用相位來進行比較較具有代表性,因此CW-SSIM會在複小波域中計算區域性的相位,並用相位的差異來計算相似性,公式如下:
CW-SSIM
(
c
x
,
c
y
)
=
(
2
∑
i
=
1
N
|
c
x
,
i
|
|
c
y
,
i
|
+
K
∑
i
=
1
N
|
c
x
,
i
|
2
+
∑
i
=
1
N
|
c
y
,
i
|
2
+
K
)
(
2
|
∑
i
=
1
N
c
x
,
i
c
y
,
i
∗
|
+
K
2
∑
i
=
1
N
|
c
x
,
i
c
y
,
i
∗
|
+
K
)
{\displaystyle {\text{CW-SSIM}}(c_{x},c_{y})={\bigg (}{\frac {2\sum _{i=1}^{N}|c_{x,i}||c_{y,i}|+K}{\sum _{i=1}^{N}|c_{x,i}|^{2}+\sum _{i=1}^{N}|c_{y,i}|^{2}+K}}{\bigg )}{\bigg (}{\frac {2|\sum _{i=1}^{N}c_{x,i}c_{y,i}^{*}|+K}{2\sum _{i=1}^{N}|c_{x,i}c_{y,i}^{*}|+K}}{\bigg )}}
其中
c
x
{\displaystyle c_{x}}
是複小波轉換後的
x
{\displaystyle x}
訊號,而
c
y
{\displaystyle c_{y}}
是複小波轉換後的
y
{\displaystyle y}
訊號,另外
K
{\displaystyle K}
是用於穩定數值的一個常數
如同結構相似性,CW-SSIM的最大值為1,但是不同於結構相似性,CW-SSIM的最小值為0。
Zhou Wang, Alan C. Bovik, Hamid R. Sheikh, and Eero P. Simoncelli, "Image quality assessment: from error visibility to structural similairty," IEEE Transactions on Image Processing , vol. 13, no. 4, pp. 600−612, Apr. 2004.
Zhou Wang and Alan C. Bovik, "Mean squared error: Love it or leave it? - A new look at signal fidelity measures," IEEE Signal Processing Magazine , vol. 26, no. 1, pp 98−117, Jan. 2009.
H.R. Sheikh, M.F. Sabir, and A.C. Bovik, "A statistical evaluation of recent full reference image quality assessment algorithms," IEEE Transactions on Image Processing , vol.15, no.11, pp.3440−3451, Nov. 2006.
T. Richter, K. J. Kim, "A MS-SSIM optimal JPEG 2000 encoder," in Proc. Data Compression Conf. , pp.401−410, Mar. 2009.
A. M. Alattar, E. T. Lin, and M. U. Celik, "Digital watermarking of low bit-rate advanced simple profile MPEG-4 compressed video," IEEE Trans. Circuits Syst. Video Technol. , vol. 13, no. 8, pp. 787−800, Aug. 2003.
V. Vukadinovi and G. Karlsson, "Trade-offs in bit-rate allocation for wireless video streaming," in Proc. ACM Int. Symp. Modeling, Analysis, and Simulation of Wireless and Mobile Systems , Quebec, Canada, 2005, pp. 349−353
S. A. Reinsberg, S. J. Doran, E. M. Charles-Edwards, and M. O. Leach, "A complete distortion correction for MR images: II. Rectification of static-field inhomogeneities by similarity-based profile mapping," Phys. Med. Biol., vol. 50, no. 11, pp. 2651−2661, June 2005.
Gao, Y.; Rehman, A.; Wang, Z. (September 2011). CW-SSIM based image classification (PDF). IEEE International Conference on Image Processing (ICIP11).
Z. Wang and E. P. Simoncelli, "Translation insensitive image similarity in complex wavelet domain," in Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing , pp. 573−576, Mar. 2005.
Wang, Z.; Simoncelli, E.P.; Bovik, A.C. (2003-11-01). Multiscale structural similarity for image quality assessment. Conference Record of the Thirty-Seventh Asilomar Conference on Signals, Systems and Computers, 2004. Vol. 2. pp. 1398–1402 Vol.2.
Jian-Jiun Ding, Time frequency analysis and wavelet transform class note,the Department of Electrical Engineering, National Taiwan University (NTU), Taipei, Taiwan, 2007.