Loading AI tools
来自维基百科,自由的百科全书
在聲音處理領域中,梅爾頻率倒譜(Mel-Frequency Cepstrum)是基於聲音頻率的非線性梅爾刻度(mel scale)的對數能量頻譜的線性變換。
梅爾頻率倒譜系數 (Mel-Frequency Cepstral Coefficients,MFCCs)就是組成梅爾頻率倒譜的系數。它衍生自音訊片段的倒頻譜(cepstrum)。倒譜和梅爾頻率倒譜的區別在於,梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的,它比用於正常的對數倒頻譜中的線性間隔的頻帶更能近似人類的聽覺系統。 這樣的非線性表示,可以在多個領域中使聲音訊號有更好的表示。例如在音訊壓縮中。
梅爾頻率倒譜系數(MFCC)廣泛被應用於語音識別的功能。他們由Davis和Mermelstein在1980年代提出,並在其後持續是最先進的技術之一。在MFCC之前,線性預測系數(LPCS)和線性預測倒譜系數(LPCCs)是自動語音識別的的主流方法。
聲音訊號是連續變化的,為了將連續變化訊號簡化,我們假設在一個短時間尺度內,音頻訊號不發生改變。因此將訊號以多個取樣點集合成一個單位,稱為'''訊框'''。一個訊框多為20-40毫秒,如果訊框長度更短,那每個訊框內的取樣點將不足以做出可靠的頻譜計算,但若長度太長,則每個訊框訊號會變化太大。
預強化的目的就是為了消除發聲過程中,聲帶和嘴唇造成的效應,來補償語音訊號受到發音系統所壓抑的高頻部分。並且能突顯高頻的共振峰。
由於訊號在時域上的變化通常很難看出訊號的特性,所以通常透過傅利葉轉換將它轉換成頻域上的能量分佈來觀察,不同的能量分佈,就能代表不同語音的特性。
由於能量頻譜中還存在大量的無用訊息,尤其人耳無法分辨高頻的頻率變化,因此讓頻譜通過梅爾濾波器。 梅爾濾波器,也就是一組20個非線性分佈的三角帶通濾波器(Triangular Bandpass Filters),能求得每一個濾波器輸出的對數能量。必須注意的是:這 20 個三角帶通濾波器在'''梅爾刻度'''的頻率上是平均分佈的。 梅爾頻率代表一般人耳對於頻率的感受度,由此也可以看出人耳對於頻率 f 的感受是呈對數變化的。
http://i.stack.imgur.com/YUH48.gif (頁面存檔備份,存於互聯網檔案館)
最後的步驟是計算對數濾波器的能量的離散傅利葉反變換,在此相當於離散餘弦反變換(IDCT)。值得注意的是,雖然通常的會有24-26個系數,但我們只保留前12個系數。這是因為丟棄高倒頻域值的DCT系數,代表一個類似低通濾波器的概念,可以使訊號平滑化,能增進語音處理的性能。
在此過程中可以有很多變化,例如,映射時的窗口的形狀和間距。[6] The 歐洲電信標準協會在2000年初定義了一個可以用在流動電話上的標準MFCC算法.[7]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.