Remove ads
De Wikipédia, l'encyclopédie libre
Language resource management – Lexical markup framework (LMF; ISO 24613)[1], est le standard de l'Organisation internationale de normalisation (plus spécifiquement au sein de l'ISO/TC37) pour les lexiques du traitement automatique des langues (TAL). L'objectif est la normalisation des principes et méthodes relatifs aux ressources langagières dans le contexte de la communication multilingue et de la diversité culturelle.
L'objectif est de fournir un modèle commun pour la création et l'utilisation des ressources langagières, de gérer l'échange des données entre ces ressources et de permettre la fusion d'un grand nombre de ressources électroniques afin de constituer un vaste réseau de descriptions linguistiques.
Les différents types d'instanciation de LMF peuvent inclure des ressources monolingues, bilingues aussi bien que multilingues. Les mêmes spécifications valent pour les petits et grands lexiques, pour les structures simples comme complexes, pour les ressources lexicales de l'écrit comme de l'oral. Les descriptions couvrent aussi bien la morphologie, la syntaxe, la sémantique que les notations multilingues. Les langues ciblées ne se limitent pas aux langues européennes mais couvrent toutes les langues naturelles. LMF est capable de représenter la plupart des lexiques, incluant les lexiques WordNet, EDR et PAROLE.
Dans le passé, la standardisation a été étudiée et implémentée dans des projets comme GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE et ISLE. Puis, les délégations de l'ISO/TC37 décidèrent de travailler sur les normes pour le TAL et les représentations lexicales. Le projet LMF commença durant l'été 2003 par une proposition de nouveau travail (i.e. New Work Item Proposal) de la part de la délégation américaine sur les lexiques électroniques en général. Durant l'automne 2003, la délégation française avec l'aide de l'AFNOR, produisit une proposition technique spécifiquement destinée aux lexiques du TAL. Au début 2004, le comité ISO/TC37 décida de former un projet ISO commun avec Nicoletta Calzolari (CNR-ILC Italie) en tant qu'animatrice, Gil Francopoulo (Tagmatica France) et Monte George (ANSI USA) en tant qu'éditeurs.
La première étape a été de collecter les descriptions des dictionnaires les plus connus et ensuite, de forger une terminologie commune à ces différents lexiques. L'étape suivante a été de concevoir un modèle capable de représenter ces dictionnaires en détail. Les éditeurs et un groupe de soixante experts ont contribué à cette tâche pour élaborer un modèle consensuel. Une attention spécifique a été apportée à la morphologie afin de mettre en place des dispositifs puissants pour couvrir des langues qui sont réputées difficiles. Treize versions du document de spécification ont été écrites, distribuées (aux experts nommés par les délégations Nationales), commentées et discutées. Après cinq années de travail, incluant de nombreuses réunions physiques et quantité de courriels, les éditeurs sont arrivés à un modèle UML cohérent.
En conclusion, LMF peut véritablement être considéré comme un état de l'art des lexiques du traitement automatique de la langue.
La dénomination ISO est 24613. Le document de spécification LMF a été publié officiellement le .
Les standards de l'ISO/TC37 sont actuellement élaborés en tant que spécifications de haut niveau et traitent de la segmentation des mots (ISO 24614), des annotations (ISO 24611 alias MAF, ISO 24612 alias LAF, ISO 24615 alias SynAF et ISO 24617-1 alias SemAF/Time), des structures de traits (ISO 24610), des conteneurs multimédia (ISO 24616 alias MLIF) et des lexiques (ISO 24613). Ces standards sont fondés sur des spécifications de bas niveau dédiées aux constantes telles que les catégories de données (révision de l'ISO 12620), les codes des langues (ISO 639), les codes des scripts (ISO 15924), les codes des pays (ISO 3166) et Unicode (ISO/CEI 10646).
Cette organisation à deux niveaux forme une famille cohérente de standards avec les règles suivantes :
Les constantes linguistiques comme /feminine/ ou /transitive/ ne sont pas définies au sein de LMF mais sont enregistrées dans le registre de catégories de données (Data Category Registry ou DCR, en anglais) qui est géré en tant que ressource globale par l'ISO/TC37 conformément à l'ISO/IEC 11179-3:2003 hal.inria.fr . Et ces constantes sont utilisées pour décorer les éléments structurels de haut niveau.
La spécification LMF respecte les principes de modélisation du langage de modélisation unifié (LMU) tels que définis par l'Object Management Group (OMG). La structure est spécifiée au moyen de diagrammes de classe LMU. Les exemples sont présentés par des diagrammes d'instance (ou objet) LMU.
LMF comprend les composants suivants :
Les extensions sont spécifiquement dédiées à la morphologie, aux MRD, à la syntaxe en TAL, à la sémantique en TAL, aux notations multilingues, aux patrons des paradigmes, aux patrons des expressions multimots et aux patrons d'expression des contraintes.
Dans l'exemple suivant, l'entrée lexicale est associée à un lemme clergyman et deux formes fléchies clergyman et clergymen. Le codage de la langue est effectué pour la totalité de la ressource lexicale. La valeur choisie est affectée pour la totalité du lexique comme présenté dans le diagramme d'instance UML suivant :
Les éléments Lexical Resource, Global Information, Lexicon, Lexical Entry, Lemma et Word Form definissent la structure du lexique. Ils sont spécifiés dans le document LMF. Au contraire, languageCoding, language, partOfSpeech, commonNoun, writtenForm, grammaticalNumber, singular, plural sont des catégories de données qui sont prises dans le registre des catégories de données. Ces marques décorent la structure. Les valeurs ISO 639-3, clergyman, clergymen sont des chaînes de caractères brutes. La valeur eng est prise dans la liste des langues définie par l'ISO 639-3.
Avec quelques informations additionnelles comme dtdVersion et feat, la même information peut être exprimée par le fragment XML suivant :
<LexicalResource dtdVersion="15">
<GlobalInformation>
<feat att="languageCoding" val="ISO 639-3"/>
</GlobalInformation>
<Lexicon>
<feat att="language" val="eng"/>
<LexicalEntry>
<feat att="partOfSpeech" val="commonNoun"/>
<Lemma>
<feat att="writtenForm" val="clergyman"/>
</Lemma>
<WordForm>
<feat att="writtenForm" val="clergyman"/>
<feat att="grammaticalNumber" val="singular"/>
</WordForm>
<WordForm>
<feat att="writtenForm" val="clergymen"/>
<feat att="grammaticalNumber" val="plural"/>
</WordForm>
</LexicalEntry>
</Lexicon>
</LexicalResource>
Cet exemple est plutôt simple. LMF est capable de représenter des descriptions linguistiques plus complexes, mais dans ce cas, le balisage XML est plus complexe.
Un livre, en anglais, publié en 2013, LMF Lexical Markup Framework [2], est entièrement consacré à LMF. Le premier chapitre traite de l'historique des modèles de dictionnaires, le deuxième est une présentation formelle du modèle et le troisième traite de la relation avec les constantes du registre de catégories de données de l'ISO. Les 14 autres chapitres traitent chacun d'un dictionnaire ou d'un système, tant dans le domaine civil que militaire, aussi bien au sein de la recherche scientifique que pour des applications industrielles. Ce sont Wordnet-LMF, Prolmf, DUELME, UBY-LMF, LG-LMF, RELISH, GlobalAtlas et Wordscape.
La première publication au sujet des spécifications LMF telles que ratifiées par l'ISO (cet article est devenu (en 2015) le neuvième article le plus cité au sein de LREC depuis les articles LREC).
Au sujet des représentations sémantiques :
Au sujet des connexions multilingues :
Au sujet des langues africaines :
Au sujet des langues asiatiques :
Au sujet des langues européennes :
Au sujet des langues sémitiques :
Au sujet des noms propres :
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.