Loading AI tools
来自维基百科,自由的百科全书
語音活性檢測 (Voice activity detection,VAD), 也稱為 speech activity detection or speech detection, 是一項用於語音處理的技術,目的是檢測語音信號是否存在。[1] VAD技術主要用於語音編碼和語音識別。它可以簡化語音處理,也可用於在音頻會話期間去除非語音片段:可以在IP電話應用中避免對靜音數據包的編碼和傳輸,節省計算時間和帶寬。
此條目需要擴充。 (2013年4月12日) |
VAD技術使得一些列基於語音的應用程式成為現實。因此,有一系列的VAD算法,具有不同的特性和延遲時間、靈敏度、精度和計算成本。有些VAD算法也提供了進一步的分析,例如講話是否濁音、清音或持續。語音活動檢測通常是與語言無關的。
VAD技術首先被用於時分語言內插法(time-assignment speech interpolation/TASI)系統.[來源請求]
VAD算法的經典設計如下:[1]
在上面這個過程中通常會有一些反饋過程,這樣可以使用VAD系統的決策來更好的估計和去除噪聲,或者適應性的調整閾值。這些反饋操作可以提升VAD系統對非穩態噪聲的性能,比如噪聲的差異很大時。[1]
一些方法在幀的基礎上使用瞬時特徵計算語音與非語言信號的距離,包括光譜斜率(Spectral_slope)、相關係數(correlation coefficients)、對數似然比(log likelihood ratio)、倒譜係數(cepstral)、加權倒譜系(weighted cepstral)和修改後的距離函數。
對於任何一個VAD算法,都要在將語音檢測為噪聲或將噪聲檢測為語音(假陽性和假陰性)之間尋求妥協。流動電話中的VAD系統必須能夠在不同類型的聲學噪聲的環境下檢測出語音。在這些比較困難的環境下,VAD算法應該在不確定是否為語音的時輸出是語音,以避免丟失真正的語音信號。這樣的環境中VAD的難點在於遇到的非常低的信噪比。當部分語音信號被噪聲淹沒時,使用一些簡單的方法可能就無法處理。
在許多例如數字移動廣播、DSVD或語音存儲中,都需要一種不連續傳輸的語音編碼參數。這樣可以降低平均功耗,提升並發傳輸的平均比特率並提升存儲晶片存儲能力;當然,這樣的改進主要取決於語音間停頓的百分比和VAD檢測的可靠性;一方面,這有利於降低信號傳輸的比例;另一方面,應該最大限度的保持語音質量;這是在重噪聲條件下VAD算法的冠軍問題。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.