Síntesis de fala
From Wikipedia, the free encyclopedia
La síntesis de fala ye la producción artificial del fala. El sistema computarizado que ye usáu con esti propósitu ye llamáu ordenador de fala o sintetizador de voz y puede ser implementáu en productos software o hardware. Un sistema text-to-speech (TTS) convierte'l llinguaxe de testu normal en fala; otros sistemes recreen la representación simbólica llingüística como trescripciones fonétiques en fala.[1]
La fala sintetizada pue ser creada al traviés de la concatenación de fragmentos de fala grabaos que son almacenaos nuna base de datos. Los sistemes difieren nel tamañu de les unidaes de fala almacenaes; un sistema qu'almacena fonos y difonos dexa un mayor rangu de sonido pero escarez de claridá. Pa usos específicos, el tamañu del almacenamientu de pallabres completes o oraciones dexa una mayor calidá d'audiu. De manera alternativa, un sintetizador puede incorporar un modelu de tracto vocal o otres carauterístiques de la voz humana pa recrear dafechu una voz "sintética".[2]
La calidá d'un sintetizador de voz xulgar pola semeyanza que tenga cola voz humana y la so habilidá pa ser entendíu con claridá. Un programa de conversión de testu en fala intelixible dexa que les persones con discapacidaes visuales o dificultaes pa lleer puedan escuchar testos nun ordenador. Munchos sistemes operativos tienen sintetizadores de voz integraos dende principios de los noventa.
Un sistema o "motor" de testu a fala (TTS) ta compuestu de dos partes:[3] un front-end y back-end. El front-end tien dos tarea principales. Primero, convertir el testu con calteres, númberos, símbolos y abreviaciones nel so equivalente en pallabres escrites. Esti procesu ye llamáu como "normalización del testu", "pre-procesamientu" o "tokenización", darréu'l front-end asigna una trescripción fonética a cada pallabra, marca y estrema el testu n'unidaes prosódiques, como frases, clauses y oraciones. El procesu d'asignar trescripciones fonétiques a les pallabres ye llamáu conversión "testu a fonema" o "grafema a fonema". La información de trescripciones fonétiques o prosódiques preparen la información de la representación simbólica llingüística que ye la resultancia del front-end. El back-end, comúnmente referíu como'l "sintetizador", convierte la representación simbólica llingüística en soníu. En dellos sistemes, esta parte inclúi'l cómputu de "intención prosódica" (tonu del perfil, duración de los fonemes),[4] el cual ye implementáu na voz de salida.