Loading AI tools
De Wikipédia, l'encyclopédie libre
Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole.
Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse
Les caractères expressifs (au sens de l'art dramatique) et musicaux de la voix humaine font partie du domaine plus vaste du traitement du signal.
Les principales disciplines qui contribuent aux technologies du traitement de la parole sont
L'émergence à la fin du XIXe siècle d'une puissante industrie du téléphone, marque le début de l'effort de recherche en traitement de la parole. Passé les premières expérimentations, et les premiers appareils offrant peu de confort d'écoute, l'industrie téléphonique naissante lance des études pour déterminer les caractéristiques de base d'un signal décrivant la parole, à acheminer sur ses lignes. Dans les années 1920, l'invention de l'électronique multiplie les possibilités de traitement du signal; on détermine la bande passante et la dynamique sonore nécessaires à l'intelligibilité de la parole.
Ces études sont nécessaires pour permettre l'acheminement de plusieurs signaux sur la même paire de conducteurs (multiplexage).
Une vingtaine d'années plus tard, les bases théoriques du traitement du signal (théorème d'échantillonnage, théorie de l'information) sont établis, à partir de l'expérience des télécommunications et de la radiodiffusion.
En 1933, le premier système de synthèse vocale est construit, à partir de l'enregistrement de mots, pour l'horloge parlante.
L'application de l'électronique avec la possibilité d'enregistrer et d'analyser le signal dans un sonagramme stimule, à la même époque, les études phonétiques, phonologiques et psychoacoustiques.
Dans les télécommunications, la recherche de l'efficacité de la transmission de la voix inspire l'idée de ne plus transmettre le son, mais des commandes de synthèse vocale effectuée par un appareil à la réception. Le Vocoder est inventé en 1939, avec le bénéfice annexe de permettre le cryptage du signal téléphonique.
La technologie informatique trouve dans le traitement de la parole une application où une grande industrie peut concentrer les moyens de recherche et financer des appareils dont le coût est réparti sur des millions d'usagers.
Les codeurs de paroles, suite directe des recherches sur l'exploitation des réseaux téléphoniques, transforment le signal audible en un débit aussi réduit que possible d'information.
Un codeur spécifique à la parole doit obtenir de meilleurs résultats qu'un codeur généraliste (comme le mp3).
Les analyseurs de paroles transforment le signal porteur de la parole en une description de ses caractéristiques, sans se préoccuper de sa signification. Cette description peut servir à la commande d'un synthétiseur (Vocoder).
Ils peuvent servir à quantifier l'intelligibilité du signal transmis par un système.
Ils constituent la première étape pour les traitements de reconnaissance du locuteur et de reconnaissance du texte, pour lesquels ils constituent collections de données.
Ces dispositifs identifient la personne qui prononce un texte.
Il y a deux problèmes distincts, d'une complexité croissante :
Il s'agit de passer des caractéristiques du signal à un texte intelligible.
La difficulté augmente avec la complexité du problème à traiter
Les synthétiseurs ont pour objectif de transformer en signal,
Aucune langue ne possède une écriture totalement phonétique, et la parole comporte des intonations, comme celles qui marquent l'organisation des phrases, qui ne sont qu'indirectement inscrites dans le texte. Un synthétiseur doit résoudre ces difficultés, et aussi traiter le problème des mots nouveaux ou étrangers.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.