Correcteur (informatique)

Description

Résumé

Contexte

On ne doit pas confondre le correcteur orthographique et le correcteur grammatical (également appelé vérificateur grammatical). Le correcteur orthographique compare les mots du texte aux mots d'un dictionnaire. Si les mots du texte sont dans les dictionnaires, ils sont acceptés, sinon une ou plusieurs propositions de mots proches sont faites par le correcteur orthographique. Le correcteur grammatical vérifie que les mots du texte, bien qu'ils soient dans les dictionnaires, sont conformes aux règles de grammaire (accords, ordre des mots, etc.) et aux règles de la sémantique (phrase ayant un sens, absence de confusion d'homophones, etc.).

Ce logiciel peut être autonome et fonctionner sur un bloc de texte brut, mais la fonction de correction est souvent intégrée dans les logiciels où l'utilisateur est amené à saisir du texte. Elle l'a été au début dans les logiciels de traitements de texte et aujourd'hui dans les forums, les gestionnaires de courriel, dans les navigateurs web.

L'analyse peut se faire en temps réel, c'est-à-dire au fur et à mesure que l'utilisateur saisit le texte, les erreurs étant alors formatées d'une manière différente afin d'attirer son attention et l'inciter à corriger, avec les propositions de correction dans un menu contextuel, ou bien en une seule fois, à la demande de l'utilisateur. Les logiciels de traitement de texte disposent aussi d'une fonction de correction automatique paramétrable traitant les fautes et les abréviations à chaque validation du mot rédigé, en fonction d'une table de correspondance.

L'utilisateur peut être amené à compléter le dictionnaire intégré par défaut, en ajoutant notamment les noms propres, afin d'éviter les faux positifs.

Spécificités des langues

Résumé

Contexte

L'anglais est une exception en ce sens que la plupart des mots utilisés à l'écrit n'ont qu'une seule écriture qui peut être trouvée dans un dictionnaire standard, à l’exception de certains jargons et mots modifiés. Cependant dans les langues flexionnelles, les mots sont fréquemment amenés à adapter leur orthographe aux mots voisins. Par exemple, en français le mot « je » suivi de n'importe quel mot commençant par une voyelle est toujours écrit sous sa forme élidée, comme dans « j'ai » ou « j'irai ». En allemand, les noms composés sont souvent tirés d'autres noms existants. Certaines écritures ne séparent pas clairement les mots les uns des autres, ce qui nécessite des algorithmes de séparation de mots. Chaque langue peut donc présenter des défis distincts pour les correcteurs orthographiques de langues non anglaises.

Nouvelle orthographe française de 1990

Depuis la réforme de 1990, la langue française connaît la coexistence de deux orthographes distinctes pour certains mots^[1].

Le correcteur de la suite Office de Microsoft dispose de trois modes de fonctionnement : utilisation de l'orthographe ancienne, utilisation de l'orthographe nouvelle, acceptation des deux orthographes^[2].

Le correcteur de la suite bureautique OpenOffice.org, et de ses dérivées (Apache OpenOffice, LibreOffice), disposent de quatre dictionnaires : le « Moderne », le « Classique », le « Réforme 1990 » et le « Toutes variantes »^[3].

Le correcteur Le Robert dispose de deux modes de fonctionnement : ancienne orthographe et nouvelle orthographe.

Le correcteur logiciel Antidote dispose de trois modes de fonctionnement : correction par l'orthographe ancienne, correction par l'orthographe nouvelle, acceptation des deux orthographes^[4].

Le correcteur Cordial de Synapse développement est à jour de la nouvelle orthographe depuis 2003^[5].

Sous Debian, il existe quatre variantes du dictionnaire hunspell : hunspell-fr-classical (version classique), hunspell-fr-comprehensive (version complète), hunspell-fr-modern (version moderne), hunspell-fr-revised (version révisée).

Sensibilité au contexte

Résumé

Contexte

Les dernières recherches se sont focalisées sur le développement d'algorithmes capables de reconnaître un mot mal écrit, même lorsque le mot est dans le dictionnaire, en se basant sur les mots environnants. Cela tempère l'effet désastreux lié à l'extension des dictionnaires et permet à plus de mots d'être reconnus. L'exemple le plus courant du genre d'erreur que ce système peut détecter est l’erreur d'homonymie, comme dans la phrase suivante : Île son las pour ils sont là.

L’algorithme de correction orthographique le plus efficace du moment est l'algorithme reposant sur la technique du vannage^[6] publié en 1999 par Andrew Golding et Dan Roth : il est capable de reconnaître environ 96 % des erreurs liées au contexte, en plus de détecter les non-mots (par rapport au dictionnaire)^[7]. Les dernières versions des correcteurs grammaticaux sont sensibles au contexte. Grâce à l'analyse de gros corpus, ils disposent du contexte habituel des mots les plus courants et peuvent ainsi corriger des fautes d'homonymie (comme « lâche » et « lache » ou « vent » et « van ») avec une bonne précision. C'est le cas d'Antidote, qui a analysé un corpus de 500 millions de mots, c'est aussi le cas de Cordial, qui a analysé un corpus de 1 milliard 200 millions de mots, et du correcteur Robert.

Correcteur (informatique)

Description

Spécificités des langues

Nouvelle orthographe française de 1990

Sensibilité au contexte

Quelques correcteurs

Voir aussi

Wikiwand - on