L'analyse syntaxique (parsing, en anglais) consiste à mettre en évidence la structure d'un texte, généralement une phrase écrite dans une langue naturelle, mais on utilise également cette terminologie pour l'analyse d'un programme informatique. L'analyseur syntaxique (parser, en anglais) est le programme informatique qui réalise cette tâche. Cette opération suppose une formalisation du texte, qui est vue le plus souvent comme un élément d'un langage formel, défini par un ensemble de règles de syntaxe formant une grammaire formelle. La structure révélée par l'analyse donne alors précisément la façon dont les règles de syntaxe sont combinées dans le texte. Cette structure est souvent une hiérarchie de syntagmes, représentable par un arbre syntaxique dont les nœuds peuvent être décorés (dotés d'informations complémentaires).
L'analyse syntaxique fait habituellement suite à une analyse lexicale qui découpe le texte en un flux (parfois un graphe orienté acyclique) de lexèmes, et sert à son tour de préalable à une analyse sémantique. Connaître la structure syntaxique d'un énoncé permet d'expliciter les relations de dépendance (par exemple entre sujet et objet) entre les différents lexèmes, puis de construire une représentation du sens de cet énoncé.
En pratique, et sauf dans les cas très simples, des coroutines sont en général nécessaires pour lier les deux. Ainsi, en FORTRAN où les espaces n'étaient pas significatifs, GOTO5=1 ou DO1I=3, affectations autorisées par la syntaxe bien que perverses, auraient été par erreur considérées comme des fautes de syntaxe si l'opération d'analyse lexicale avait été réalisée totalement avant que ne commence la syntaxique. Dans la pratique, les compilateurs bas de gamme les refusaient.
Les méthodes employées pour réaliser une analyse syntaxique dépendent largement du formalisme employé pour la syntaxe du langage mais aussi du langage lui-même. Toutefois, il est souvent fait usage, pour modéliser un langage ou une langue, de grammaires de réécriture, parmi lesquelles les plus populaires sont les grammaires non contextuelles.
Ainsi, les langages de programmation sont habituellement décrits par ces grammaires, et ce depuis la formalisation d'Algol en BNF. De même, si les grammaires non contextuelles sont jugées peu adaptées pour la description des langues naturelles, les algorithmes d'analyse syntaxique inventés pour les langages non contextuels peuvent parfois être adaptés aux formalismes plus complexes utilisés en traitement des langues naturelles, comme les grammaires d'arbres adjoints (TAG).
L'équivalence entre les langages définissables par certaines classes de grammaires et ceux que reconnaissent certaines classes d'automates permettent de construire des analyseurs syntaxiques à l'aide d'automates. Ainsi, les langages définissables par une grammaire non contextuelle sont aussi ceux qui sont reconnaissables par un automate à pile.
Analyse ascendante ou descendante
Un analyseur syntaxique doit retracer le cheminement d'application des règles de syntaxe qui ont mené de l'axiome (élément initial d'une grammaire algébrique) au texte analysé.
- Une analyse descendante retrace cette dérivation en partant de l'axiome et en essayant d'appliquer les règles pour retrouver le texte. Cette analyse procède en morcelant la phrase en éléments de plus en plus réduits jusqu'à atteindre les unités lexicales. L'analyse LL est un exemple d'analyse descendante.
- Une analyse ascendante retrouve ce cheminement en partant du texte, en tentant d'associer des lexèmes en syntagmes de plus en plus larges jusqu'à ce qu'il retrouve l'axiome. L'analyse LR est un exemple d'analyse ascendante.
Analyse déterministe
Un analyseur syntaxique, en tant que système de réécriture, est déterministe si une seule règle de réécriture est applicable dans chaque configuration de l'analyseur. Par extension, il ne peut alors y avoir qu'une seule séquence de règles permettant d'analyser le texte dans sa totalité, et donc celui-ci ne peut être syntaxiquement ambigu. Toutefois, il peut être fait usage de techniques telles que la pré-vision (lookahead en anglais) ou le retour sur trace (bracktracking ou lookbehind en anglais) pour déterminer quelle règle il faut appliquer à un point donné de l'analyse.
Les méthodes d'analyse déterministes sont principalement employées pour l'analyse des langages de programmation. Par exemple, les analyses LR, LL, ou LALR (employée par Yacc) sont toutes déterministes. On ne peut cependant pas construire un analyseur déterministe pour n'importe quelle grammaire non contextuelle. Dans ce cas, et si l'on souhaite n'avoir qu'une seule analyse en sortie, on est contraint de lui adjoindre des mécanismes supplémentaires, comme des règles de désambiguïsation ou des modèles probabilistes permettant de choisir la « meilleure » analyse.
Une méthode d’analyse descendante et déterministe est dite prédictive.
Analyse non déterministe
La taille et la complexité des langues naturelles, sans oublier leur inévitable ambiguïté, rend leur analyse déterministe totalement impossible. Une analyse non déterministe s'apparente à une résolution dans un système contraint, et s'exprime assez aisément en Prolog.
L'emploi de méthodes tabulaires, mémorisant les calculs intermédiaires, sera plus efficace qu'un simple backtracking. L'analyse CYK est un exemple d'analyse tabulée, à laquelle on préférera des méthodes plus sophistiquées :
- d'analyse à chartes comme l'analyse Earley ;
- ou d'analyse LR généralisée (GLR).
Ces deux dernières méthodes d'analyse sont aussi appréciées pour l'analyse de langages de programmation dont la syntaxe est ambiguë, comme C++.
En analyse syntaxique des langages de programmation, il faut être capable de continuer l'analyse même lorsque le code source contient des erreurs, pour éviter des cycles de compilation/correction fastidieux pour le développeur. De même, en analyse syntaxique des langues naturelles, il faut pouvoir analyser des énoncés même s'ils ne sont pas couverts par la grammaire, inévitablement incomplète. La récupération sur erreur, ou rattrapage d'erreur (anglais error recovery), doit être suffisamment efficace pour détecter les problèmes, et « faire avec », moyennant une correction du source ou la faculté de produire des analyses (légèrement) déviantes par rapport à la grammaire. On peut citer quatre approches qui vont dans ce sens, à savoir :
Méthodes traditionnelles
L'exercice d'analyse syntaxique traditionnel, aussi connu sous le nom d'analyse de proposition, consiste à décomposer un texte en ses parties constitutives du langage, tout en expliquant de la forme, de la fonction, et de la relation syntaxique de chaque partie[1]. Ceci peut être déterminé surtout en étudiant des conjugaisons et des déclinaisons de la langue. Afin d'analyser une phrase telle que « l'homme mord le chien », il faut noter que le nom singulier « homme » est le sujet de la phrase, le verbe « mordre », conjugué « mord », est à la troisième personne du singulier du présent, et le nom singulier « chien » est l'objet de la phrase[1]. Pour indiquer la relation entre les éléments de la phrase, des techniques telles que les diagrammes de phrases peuvent être utilisés.
L'analyse syntaxique était autrefois essentielle à l'enseignement de la grammaire à travers les sociétés d'anglophones et était largement considérée comme fondamentale pour l'utilisation et la compréhension de la langue écrite. Cependant, l'enseignement général de ces techniques n'est plus d'actualité.
La psycholinguistique
Dans l'étude de la psycholinguistique, l'analyse syntaxique implique l'assignation de mots à des catégories (également appelée la formation de perspectives ontologiques). L'analyse implique également l’évaluation de la signification d’une phrase selon les règles de syntaxe tirées des déductions faites à partir de chaque mot de la phrase — c'est ce qu'on appelle la connotation. Cela se produit normalement lorsque les mots sont entendus ou lus. Par conséquent, les modèles psycholinguistiques d'analyse syntaxique construisent une interprétation au cours du traitement de la phrase, de laquelle est normalement exprimée sous la forme d'une structure syntaxique partielle. La création de structures initialement incorrectes se produit lors de l'interprétation des phrases d'ambiguïté syntaxique.
Bibliographie
- (en) Alfred V. Aho, Ravi Sethi, Jeffrey D. Ullman, Compilers: Principles, Techniques, and Tools, Addison Wesley Publishing Company, 1986.
- (en) Dick Grune (en), Ceriel J.H. Jacobs, Parsing Techniques - A Practical Guide, Ellis Horwood, Chichester, England, 1990.
- (en) Dick Grune, Henri E. Bal, Ceriel J.H. Jacobs, Koen G. Langendoen, Modern Compiler Design, John Wiley & Sons, Ltd., 2000.