来自维基百科,自由的百科全书
在聲音處理領域中,梅爾頻率倒譜(Mel-Frequency Cepstrum)是基於聲音頻率的非線性梅爾刻度(mel scale)的對數能量頻譜的線性變換。
梅爾頻率倒譜系數 (Mel-Frequency Cepstral Coefficients,MFCCs)就是組成梅爾頻率倒譜的係數。它衍生自音訊片段的倒頻譜(cepstrum)。倒譜和梅爾頻率倒譜的區別在於,梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的,它比用於正常的對數倒頻譜中的線性間隔的頻帶更能近似人類的聽覺系統。 這樣的非線性表示,可以在多個領域中使聲音信號有更好的表示。例如在音訊壓縮中。
梅爾頻率倒譜係數(MFCC)廣泛被應用於語音識別的功能。他們由Davis和Mermelstein在1980年代提出,並在其後持續是最先進的技術之一。在MFCC之前,線性預測係數(LPCS)和線性預測倒譜系數(LPCCs)是自動語音識別的的主流方法。
聲音信號是連續變化的,為了將連續變化信號簡化,我們假設在一個短時間尺度內,音頻信號不發生改變。因此將信號以多個取樣點集合成一個單位,稱為'''訊框'''。一個訊框多為20-40毫秒,如果訊框長度更短,那每個訊框內的取樣點將不足以做出可靠的頻譜計算,但若長度太長,則每個訊框信號會變化太大。
預強化的目的就是為了消除發聲過程中,聲帶和嘴唇造成的效應,來補償語音信號受到發音系統所壓抑的高頻部分。並且能突顯高頻的共振峰。
由於訊號在時域上的變化通常很難看出訊號的特性,所以通常透過傅立葉轉換將它轉換成頻域上的能量分佈來觀察,不同的能量分佈,就能代表不同語音的特性。
由於能量頻譜中還存在大量的無用訊息,尤其人耳無法分辨高頻的頻率變化,因此讓頻譜通過梅爾濾波器。 梅爾濾波器,也就是一組20個非線性分布的三角帶通濾波器(Triangular Bandpass Filters),能求得每一個濾波器輸出的對數能量。必須注意的是:這 20 個三角帶通濾波器在'''梅爾刻度'''的頻率上是平均分佈的。 梅爾頻率代表一般人耳對於頻率的感受度,由此也可以看出人耳對於頻率 f 的感受是呈對數變化的。
http://i.stack.imgur.com/YUH48.gif (页面存档备份,存于互联网档案馆)
最後的步驟是計算對數濾波器的能量的離散傅立葉反變換,在此相當於離散餘弦反變換(IDCT)。值得注意的是,雖然通常的會有24-26個係數,但我們只保留前12個係數。這是因為丟棄高倒頻域值的DCT係數,代表一個類似低通濾波器的概念,可以使信號平滑化,能增進語音處理的性能。
在此过程中可以有很多变化,例如,映射时的窗口的形状和间距。[6] The 欧洲电信标准协会在2000年初定义了一个可以用在移动电话上的标准MFCC算法.[7]
Seamless Wikipedia browsing. On steroids.