Remove ads
来自维基百科,自由的百科全书
语音活性检测 (Voice activity detection,VAD), 也称为 speech activity detection or speech detection, 是一项用于语音处理的技术,目的是检测语音信号是否存在。[1] VAD技术主要用于语音编码和语音识别。它可以简化语音处理,也可用于在音频会话期间去除非语音片段:可以在IP电话应用中避免对静音数据包的编码和传输,节省计算时间和带宽。
此条目需要扩充。 (2013年4月12日) |
VAD技术使得一些列基于语音的应用程序成为现实。因此,有一系列的VAD算法,具有不同的特性和延迟时间、灵敏度、精度和计算成本。有些VAD算法也提供了进一步的分析,例如讲话是否浊音、清音或持续。语音活动检测通常是与语言无关的。
VAD技术首先被用于时分语言内插法(time-assignment speech interpolation/TASI)系统.[来源请求]
VAD算法的经典设计如下:[1]
在上面这个过程中通常会有一些反馈过程,这样可以使用VAD系统的决策来更好的估计和去除噪声,或者适应性的调整阈值。这些反馈操作可以提升VAD系统对非稳态噪声的性能,比如噪声的差异很大时。[1]
一些方法在帧的基础上使用瞬时特征计算语音与非语言信号的距离,包括光谱斜率(Spectral_slope)、相关系数(correlation coefficients)、对数似然比(log likelihood ratio)、倒谱系数(cepstral)、加权倒谱系(weighted cepstral)和修改后的距离函数。
对于任何一个VAD算法,都要在将语音检测为噪声或将噪声检测为语音(假阳性和假阴性)之间寻求妥协。移动电话中的VAD系统必须能够在不同类型的声学噪声的环境下检测出语音。在这些比较困难的环境下,VAD算法应该在不确定是否为语音的时输出是语音,以避免丢失真正的语音信号。这样的环境中VAD的难点在于遇到的非常低的信噪比。当部分语音信号被噪声淹没时,使用一些简单的方法可能就无法处理。
在许多例如数字移动广播、DSVD或语音存储中,都需要一种不连续传输的语音编码参数。这样可以降低平均功耗,提升并发传输的平均比特率并提升存储芯片存储能力;当然,这样的改进主要取决于语音间停顿的百分比和VAD检测的可靠性;一方面,这有利于降低信号传输的比例;另一方面,应该最大限度的保持语音质量;这是在重噪声条件下VAD算法的冠军问题。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.