语音合成
维基百科,自由的 encyclopedia
语音合成是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上,则称为语音合成器,而语音合成器可以用软/硬件所实现。文字转语音(Text-To-Speech,TTS)系统则是将一般语言的文字转换为语音,其他的系统可以描绘语言符号的表示方式,就像音标转换至语音一样[1]。
![]() |
而合成后的语音则是利用在数据库内的许多已录好的语音连接起来。系统则因为存储的语音单元大小不同而有所差异,若是要存储phone以及diphone的话,系统必须提供大量的存储空间,但是在语义上或许会不清楚。而用在特定的使用领域上,存储整字或整句的方式可以达到高质量的语音输出。另外,包含了声道模型以及其他的人类声音特征参数的合成器则可以创造出完整的合成声音输出[2]。
一个语音合成器的质量通常是决定于人声的相似度以及语义是否能被了解。一个清晰的文字转语音程序应该提供人类在视觉受到伤害或是得到失读症时,能够听到并且在个人电脑上完成工作。从80年代早期开始,许多的电脑操作系统已经包含了语音合成器了。