Loading AI tools
code standardisé de variété linguistique de langue De Wikipédia, l'encyclopédie libre
Les étiquettes d’identification de langues IETF (où le sigle désigne l'Internet Engineering Task Force) sont issues d’un code standardisé qui permet d’attribuer des étiquettes structurées et hiérarchisées permettant d’identifier les langues ou familles et collections de langues ou variétés linguistiques de ces langues. Elles ne sont pas réservées aux seules données et documents écrits, mais peuvent étiqueter aussi des contenus audio, multimédia, ou tout type de données de localisation dépendantes de la langue et d’autres paramètres de nature linguistique.
Elles sont définies par la recommandation standard BCP 47 de l’IETF, qui est mis à jour régulièrement et référence toujours les dernières RFC normatives applicables (et leurs corrections et errata éventuels), qui en précise la syntaxe normative, la définition, la validité et l’utilisation dans les logiciels (notamment pour établir des correspondances et équivalences entre étiquettes) ; cette recommandation est actuellement composée des RFC 5646[1] (successeur de RFC 4646[2]) et RFC 4647[3].
Elles sont associées à un registre des éléments utilisables pour leur composition ; ce registre est maintenu et hébergé par l’IANA (actuellement intégré à l’ICANN)[4]. D’autres RFC informatives sont également publiées lors de mises à jour majeures du registre mais non remises à jour de façon exhaustive, le registre assurant lui-même pour le compte de l’IETF la maintenance des données qu’il contient, selon la politique et les protocoles définis dans les RFC normatives.
Une étiquette de langue complète (Language-Tag) est composée de sous-étiquettes (Subtag), chacune sur 1 à 8 caractères alphanumériques de 0 à 9 ou de a à z (la casse recommandée est, sauf indication contraire, en minuscules, même si elle est non significative) et séparées par des tirets simples (-). La syntaxe générale (simplifiée) en ABNF correspond à :
Language-Tag = Subtag *( "-" Subtag ) Subtag = 1*8alphanum
Cependant une étiquette complète doit correspondre de façon plus précise à l’un des formats définis ci-dessous (liste exhaustive), reconnaissable selon la première sous-étiquette utilisée. Les langues construites sont également codables localement au moyen de la sous-étiquette x
. Par exemple, art-x-pandunia
peut être utilisé pour le pandunia.
Le format standard codifie, dans l’ordre, les ensembles de sous-étiquettes suivants :
Language:
de Type:Subtag
) :Deprecated:
) ; ces sous-étiquettes gardées pour la compatibilité ascendante peuvent alors éventuellement devenir des alias synonymes d’une autre sous-étiquette de langue, mentionnée dans le registre IANA par une entrée Preferred:
mentionnant la nouvelle valeur recommandée à utiliser, si celle-ci est unique (sinon ces sous-étiquettes dépréciées sont à éviter car leur interprétation est ambiguë).Extlang:
de Type:Subtag
) :Script:
de Type:Subtag
) :Region:
de Type:Subtag
) :Variant:
de Type:Subtag
et avec l’indication des langues pour lesquelles la variante est applicable avec Prefix:
) :Singleton:
de Type:Subtag
), et de 2 à 8 caractères alphanumériques dans la (ou les) sous-étiquette(s) suivante(s) pour coder des valeurs qui seront interprétées selon le type d’extension normalisée ; les extensions normalisées peuvent être réordonnées automatiquement ensemble par ensemble (préférablement dans l’ordre ascendant des types d’extension), mais ne doivent apparaître qu’une seule fois (si nécessaire, on codera plusieurs sous-étiquettes successives dans la même extension). Les sous-étiquettes après le singleton initial obéissent à une syntaxe et un ordre spécifique à chaque type d’extension. Notes :
Un ancien format utilisé dans le registre IANA a servi à coder des langues qui étaient alors non mentionnées dans la norme ISO 639. Cet ancien format se compose des sous-étiquettes suivantes :
Language:
avec Type:Tag
), pour coder ensemble (et dans l’ordre mentionné dans le registre) une langue spécifique.Ces étiquettes historiques sont encore valides, mais sont devenues des alias synonymes (non recommandés) d'une étiquette au format standard : toutes les langues qui étaient auparavant représentées dans le registre IANA uniquement avec des étiquettes dans ce format sont aujourd’hui maintenant représentables avec une étiquette au format standard mentionnée dans le registre lui-même (cet ancien format ne devrait plus être utilisé sur Wikipédia).
Le format d’utilisation privé (private use, non inscrit dans le registre IANA), se compose des sous-étiquettes suivantes :
On peut noter que le format standard inclut aussi toutes les sous-étiquettes d’utilisation privée, définies pour les langues, familles et collections de langues, pour les systèmes, styles ou familles d’écriture, et pour les régions géographiques (provenant des normes ISO où elles ont été définies en tant qu’identifiants avant d’être importées dans le registre IANA), ainsi que des sous-étiquettes d’extension.
Ce format devrait être évité sur la plupart des sites Internet pour identifier des langues (y compris dans les pages Wikipédia, en dehors de certaines utilisations internes invisibles au lecteur et indépendantes des logiciels utilisés) car il ne permet pas l’interopérabilité sans convention préalable reconnue et acceptée à la fois par le lecteur et l’auteur de ces contenus. L’utilisation de telles étiquettes est plutôt réservée à d’autres usages spécifiques (et généralement locaux pour certains traitements internes) que la simple identification des langues.
Toute autre étiquette qui ne répond pas à un des formats ci-dessus ne doit pas être utilisée (même si elle répond à la syntaxe ABNF générale), car cela reste réservé pour le support éventuel de normes futures et leur intégration dans une mise à jour future de la recommandation BCP 47.
Les étiquettes d’identification de langues IETF permettent de faire référence à une langue ou une variété spécifique de cette langue, de catégoriser linguistiquement des données ou leur appliquer des traitements spécifiques (que ce soit pour la classification des contenus, leur rendu final, ou diverses transformations).
Leurs utilisations les plus connues en informatique sont les protocoles et standards de l’IETF (tels que HTTP, le courrier électronique et ses extensions MIME), du W3C (tels que HTML, XML, CSS), du Consortium Unicode (le standard Unicode lui-même dans ses bases de données normatives ou informative, ou le projet CLDR), ainsi que certains bureaux d’enregistrement de ces protocoles (dont les registres de noms de domaine pour l’internationalisation des noms de domaine), et les standards de langages informatiques (notamment ceux de l’ANSI et d’Ecma International).
L’ISO a développé des normes ISO 639, ISO 3166 et ISO 15924 indépendantes avec d’autres objectifs que l’IETF (notamment en termes de stabilité de la codification, car ces normes ont d’autres usages que l’Internet et n’ont pas été initialement mises à jour en assurant la compatibilité ascendante pour les applications informatiques) ; mais les deux organismes travaillent désormais en concertation afin d’assurer l’interopérabilité (via la base d’enregistrement IANA des étiquettes de langue et un suivi des travaux mutuels, par bulletins d’information émis par les bureaux d’enregistrement des normes ISO, et la publication par l’IETF de RFC informatives, voire normatives en cas de mise à jour importante de la recommandation BCP 47). Ces normes ISO (datées) sont souvent préférées par les organismes publics de normalisation nationaux et internationaux (comme l’UIT, diverses agences de l’ONU, l’UPU) et pour l’usage bibliographique ou légal (en association avec une date de référence et de classification des contenus).
Quand la précision de l’écriture n’est pas nécessaire pour une langue car c’est son système d’écriture préféré par défaut, le registre IANA ajoute un champ Suppress-Script:
dans l’enregistrement de la sous-étiquette de langue et qui mentionne alors la sous-étiquette de cette écriture : cela crée des alias pour toutes les étiquettes indiquant à la fois cette langue et cette écriture (et toute variété régionale ou variante de cette langue) vers l’étiquette préférée sans mention de la sous-étiquette d’écriture. Toutefois, des exceptions peuvent être faites pour certaines variétés régionales, elles sont incluses dans le registre dans un enregistrement supplémentaire de Type:Tag
, relatif à l’étiquette complète mentionnant à la fois la langue et la région.
Les alias synonymes mentionnés dans la section suivante à titre d’exemples ne sont pas exhaustifs : le jeu complet d'alias pour chaque langue peut être déduit des données du registre IANA, qui mentionne les éventuelles étiquettes ou sous-étiquettes dépréciées (mais toujours valides) et leur associe éventuellement une étiquette ou sous-étiquette préférée (par un champ Preferred:
ajouté dans l’enregistrement de l’étiquette ou la sous-étiquette redéfinie comme alias).
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.