Loading AI tools
来自维基百科,自由的百科全书
源-滤波器模型将语音表示为生源(如声带)和线性声滤波器(声道)的组合。虽然这只是近似,但由于其相对简单,被广泛用于语音合成与分析等多个领域。它还与线性预测有关。该模型的发展在很大程度上要归功于Gunnar Fant、Ken Stevens等人,他们对语音声学分析和语音合成的基础模型做出了重大贡献。[1]千叶勉和梶山正登首次提出了元音的语言声学特征与声道形状之间的关系,Fant的成果正是建立在他们的研究之上。[1]
使用源-滤波器模型的一个重要前提是声源和滤波器的独立性。[1]这时,该模型应更准确地称为“独立源-滤波器模型”。[来源请求]
1942年,千叶勉和梶山正登在《元音:其性质与构造》中发表了对元音声学和声道的研究成果。通过使用放射摄影技术创建声道模型,他们可以预测不同元音的共振峰频率,建立了两者间的关系。先锋语音科学家Gunnar Fant在《语音产生的声学原理》中,利用千叶勉和梶山正登的声道摄影研究来解释自己的俄语语音数据,建立了源-滤波器模型。[2]
不同音素可在不同程度上根据声源特性和频谱形状加以区分。浊音素(如元音)至少有一个声源,主要是周期性声门激励,时域上可以用脉冲序列近似表示,在频域上可以用谐波近似表示;滤波器则取决于舌位和圆唇等因素。[3]而[s]、[f]等擦音则至少有一个声源,因为口腔或咽的收缩处会产生湍流。[z]、[v]等浊擦音则有两个声源,一个在声门,一个在声门上的收缩处。
在实现语音合成的源-滤波器模型时,声源或激励信号通常被模拟为周期性脉冲串、用于浊语音或清语音的白噪声。在最简单的情况下,声道滤波器近似于全极滤波器(all-pole filter),其系数通过线性预测获得,以最小化待重现语音信号的均方误差。然后,将激励信号与滤波器响应进行卷积,即可生成合成语音。
言语过程的声源是声带,收缩时可产生周期性声波,放松时可产生非周期性(白噪声)声波。[4]滤波器则是声道的其他部分,可以通过对咽、口腔和鼻腔的发生动作改变形状。[3]Fant将声源和滤波器分别粗略地比作发声态和调音。声源产生振幅不同的谐波,通过声道,经过缩放后产生语音。[4]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.