Loading AI tools
internationale Norm für Sprachen Aus Wikipedia, der freien Enzyklopädie
Die ISO 639 ist eine internationale Norm der Internationalen Organisation für Normung (ISO), die Kennungen für Namen von Sprachen (Sprachkürzel, Sprachcodes, Sprachencodes, englisch language codes) definiert.
Die in der Norm definierten Kennungen werden unter anderem in der Lexikographie, Linguistik, in Bibliotheken, Informationsdiensten und im Datenaustausch verwendet. Sie dienen zur eindeutigen Angabe von Sprachen und ihrer Kennzeichnung in Dokumenten. Sie wurden nicht als Abkürzungen eingeführt,[1] da unter anderem eine Ähnlichkeit mit der bezeichneten Sprache nicht in jedem Fall gegeben ist.
Der Code ist in Kleinschreibung definiert. Damit wird eindeutig zwischen Sprachcode (Kleinschreibung) und den Ländercodes nach Standard ISO 3166 (Großschreibung) unterschieden.
Die Sprachcodes dieser Norm umfassen natürliche Sprachen und Plansprachen, aber keine Sprachen, die für die maschinelle Verarbeitung erstellt wurden, wie z. B. Programmiersprachen.
Die Norm bestand bis November 2023 aus sechs Teilnormen: Fünf davon enthielten Kennungen mit zwei Buchstaben (ISO 639-1), drei Buchstaben (ISO 639-2, ISO 639-3 und ISO 639-5) und vier Buchstaben (ISO 639-6, 2014 zurückgezogen); ein Teil enthält Richtlinien für die Anwendung (ISO 639-4). Mit der Veröffentlichung der Edition ISO 639:2023 wurden die Code-Listen der Normenteile in sog. Sets überführt.
Die offiziell eingeführten Teilnormen waren:[2]
ISO 639-1 | ISO 639-2 | ISO 639-3 | ISO 639-5 | |
---|---|---|---|---|
Einträge | 184 | > 500 | > 6900 | |
Mögliche Kombinationen | 676 | 17.576 | 17.576 | 17.576 |
Einzelsprachen | Einzelsprachen und Sprachgruppen mit starker gemeinsamer Zugehörigkeit | Einzelsprachen (auch Makrosprachen) | ||
Kollektive Gruppen | *) | Kollektive Gruppen für Sprachfamilien oder übrige Sprachen einer Familie | Kollektive Gruppen für Sprachfamilien |
Der Teil 1 der Norm wurde für den Einsatz in Terminologie, Lexikographie und Linguistik erstellt. Bis zu seiner offiziellen Verabschiedung 2002 wurde er unter dem Namen ISO 639 geführt. Vorläufer sind die Requests for Comments (RFCs) RFC 1766 (März 1995)[3] und RFC 3066 (Januar 2001).[4] ISO 639-1 soll nicht nur die in der Literatur am meisten verbreiteten Sprachen abdecken, sondern auch die am weitesten „entwickelten“ Sprachen mit einem „spezialisierten“ Vokabular aufnehmen.[1] Dabei werden nicht nur Einzelsprachen, sondern auch Sprachfamilien aufgenommen. Jede Sprache wird durch eine Kennung aus zwei Buchstaben repräsentiert (Alpha-2 Code). Zum Beispiel steht de
für die deutsche Sprache oder fr
für die französische Sprache. Insgesamt sind durch Nutzung der 26 lateinischen Buchstaben verschiedene Kennungen möglich, von denen 184 belegt sind (Stand: Dezember 2021[5]). Verwaltet wird die Norm von dem durch die UNESCO gegründeten International Information Center for Terminology (Infoterm).[6]
Die Aufnahme weiterer Sprachcodes ist vorgesehen, jedoch nur für Kennungen, die gleichzeitig der Norm ISO 639-2 hinzugefügt werden. Für bereits bestehende Einträge der ISO 639-2 werden keine Zwei-Buchstaben-Kennungen mehr vergeben. Dies soll Kompatibilität gewährleisten.[4]
Die spätere Norm ISO 639-2 erweitert die ISO 639-1 durch eine größere Menge an Sprachen. Jeder in ISO 639-1 definierte Sprachcode findet sich mit einem Code aus drei Buchstaben auch in diesem Standard wieder (Alpha-3 Code).
Für die zweite Norm der ISO 639 wurde die Kennung auf drei Buchstaben erweitert, so dass theoretisch Sprachcodes möglich sind. Bislang sind 506 (Stand: März 2014[5]) Kennungen für Einzelsprachen und Sprachfamilien aufgenommen (inklusive der Sprachen nach ISO 639-1). Ziel der Norm ist der Einsatz in „Terminologie und Bibliographie“, um unter anderem den Bedürfnissen des Bibliothekswesens nachzukommen und eine möglichst weite Auszeichnung von Werken der Welt zu ermöglichen. Aufgenommen wurden Sprachen, für die eine als geeignet empfundene Menge an Literatur herausgegeben wurde. Da der Schwerpunkt auf der geschriebenen Sprache liegt, wurde auf eine Unterscheidung von Sprachen verzichtet, die in der geschriebenen Form zwar große Übereinstimmungen besitzen, doch in ihrer gesprochenen Form abweichen. So gibt es zum Beispiel keine Unterscheidung für die chinesischen Sprachen wie Hochchinesisch und Kantonesisch.[1]
Die US-amerikanische Library of Congress übernimmt die Pflege dieser Teilnorm und veröffentlicht die aktuelle Codeliste.[5]
Der Standard ISO 639-2 erweitert ISO 639-1 und führt alle dortigen Sprachcodes. Die Kennungen aus zwei Buchstaben werden in dieser Norm mit drei Buchstaben fortgesetzt, wobei weitestgehend für die jeweilige Kennung lediglich ein weiterer Buchstabe hinzugenommen und eine Ähnlichkeit damit gewährleistet wird (siehe unten für den Spezialfall der Kennungen ISO 639-2/B).[7] Die Basis für die Sprachcodes dieser Norm war die MARC Code List for Languages,[8] die seit 1968 verwendet und ebenfalls von der Library of Congress verwaltet wurde.
Unter den hinzugekommenen Kennungen sind historische Sprachen wie Mittelhochdeutsch (gmh
für German, Middle High) oder Althochdeutsch (goh
für German, Old High).
Eine Besonderheit sind kollektive Sprachcodes (englisch collective language codes), die in der Norm ISO 639-1 nicht vorgesehen sind. Sie ermöglichen eine Kennzeichnung von Gruppen von Sprachen, für die eine Zuordnung von Kennungen zu den einzelnen Sprachen nicht vorgesehen ist. Dies kann für kleine Sprachen erfolgen, für die lediglich eine geringe Zahl an literarischen Werken vorhanden ist oder für die keine erhebliche Zunahme derer angenommen wird. Sie fassen einerseits Sprachfamilien zusammen wie die irokesischen Sprachen unter der Kennung iro
oder bieten eine Sammelbezeichnung für alle übrigen Einzelsprachen einer Familie, bei der einzelne zugehörige Sprachen einen eigenen Eintrag besitzen. Dies ist der Fall bei der Familie der samischen Sprachen (Kennung smi
für sonstige), bei der die zugehörige nordsamische Sprache bereits eine eigene Kennung besitzt (sme
). In der Tabelle der Sprachcodes wird für erstere Gruppen in der Regel der Bezeichner languages (deutsch „Sprachen“), für letztere der Bezeichner (other) (deutsch „andere“) an den Namen angehängt, um kollektive Sprachcodes auszuzeichnen. Ist ein Sprachcode für eine einzelne Sprache verfügbar, soll dieser vorgezogen werden und keine Zuordnung eines kollektiven Codes erfolgen. Dies kann auch Sprachcodes betreffen, die neu in den Standard aufgenommen werden.
Eine Beschreibung für die Zuordnung von Einzelsprachen (ohne eigenen Eintrag) zu einer der durch ISO 639-2 angebotenen kollektiven Sprachcodes findet sich nicht in dem Standard. Die Library of Congress verweist allerdings auf die oben genannte Liste der MARC Code List for Languages, die diese Funktion erfüllen kann.
Ein weiterer Unterschied zu ISO 639-1 und auch den anderen Teilnormen ist die Verwendung terminologischer (englisch terminology code) und bibliographischer Kennungen (englisch bibliographic code), die mit ISO 639-2/T und ISO 639-2/B bezeichnet werden. Diese Unterscheidung wird für 22 Einträge gemacht[9] und rührt weitestgehend daher, dass vor Einsatz der Norm bereits Konventionen im Bibliothekswesen für Drei-Buchstaben-Kennungen bestanden, die von der Benennung der bereits festgelegten Norm ISO 639-1 für zwei Buchstaben stark abwichen. Die deutsche Sprache gehört zu diesen Fällen, ihr B-Code ist ger, der T-Code deu.
Da in der Benennung eine Fortführung der ISO 639-1 angestrebt wurde, ist in den Fällen abweichender Bezeichner entschieden worden, zwei Codes einzuführen. Die terminologische Kennung führt also die Benennung nach ISO 639-1 weiter, während die bibliographische Kennung aus Kompatibilitätsgründen geführt wird und die vorherige, weitläufige Benennung reflektiert. Der Standard erlaubt die Mischung von T- und B-Codes nicht und mahnt eine Festlegung der verwendeten Art vor dem Datenaustausch durch die betroffenen Parteien an.
Ein Hinzufügen und Ändern von Sprachcodes sowie das Ändern ihrer Beschreibung ist möglich, dabei wird auf Stabilität im beschriebenen Standard geachtet. Sprachcodes nach ISO 639-2/B, die nur Kompatibilität gewährleisten sollen, sind von Änderungen jedoch ausgeschlossen. Ein nach Änderungen aufgegebener Code soll frühestens nach fünf Jahren wiederverwendet werden.
Die Norm ISO 639-3 wurde am 5. Februar 2007 herausgegeben[10] und soll aufbauend auf den ersten beiden Teilnormen eine umfassende Abdeckung aller Sprachen der Welt ermöglichen. Die Kennungen aus drei Buchstaben aus der vorhergehenden Norm ISO 639-2 werden weitergeführt und somit kann auch ISO 639-3 theoretisch über 17.576 verschiedene Kennungen verfügen (praktisch unter anderem dadurch begrenzt, dass ISO 639-5 ebenfalls Alpha-3-Codes aufnimmt, die disjunkt (elementfremd) zu denen aus ISO 639-3 sind). Aufgenommen werden alle bekannten Sprachen, worunter auch alle lebendigen, ausgestorbenen, historischen sowie auch konstruierten Sprachen fallen. Mehr als 6.900 Sprachen sind bisher in den Standard aufgenommen worden. Gedacht ist die komplette Liste vor allem für den Einsatz in der Informationstechnik, wo eine komplette Auflistung aller Sprachen wünschenswert ist.[11] Darunter sind auch Einträge wie für die schweizerdeutschen Dialekte (gsw, German SWiss),[12] Kölsch (ksh) und die bairischen Dialekte (bar).
Verwaltet wird sie von der Organisation SIL International, die mit dem Ethnologue bereits lebendige Sprachen (mit Ausnahmen[13]) und Sprachcodes erfasst. In der 15. Ausgabe des Ethnologue wurden die bisherig von SIL vergebenen Codes an jene von ISO 639-2 angepasst, um Konformität zu ermöglichen. Weitere historische und künstliche Sprachen stammen von Linguist List.[2]
Bis auf bibliographische Kennungen (ISO 639-2/B) finden sich alle Kennungen für Einzelsprachen der ISO 639-2 in dieser Norm wieder. Kollektive Sprachkennungen werden nicht geführt. Die Codes mit drei Buchstaben sind im ganzen Standard eindeutig gehalten, so dass die Bezeichner von bibliographischen und kollektiven Kennungen in ISO 639-3 nicht neu belegt werden können.[11]
Eine Erweiterung ist der Gebrauch so genannter Makrosprachen (englisch macrolanguage, als Dachsprache, nicht zu verwechseln mit Makrofamilien). Dabei werden mehrere Einzelsprachen in einem Eintrag subsumiert, wie z. B. die chinesischen Sprachen im Eintrag zho
, der unter anderem die Einzelsprachen Hochchinesisch, Hakka, Min Nan und Wu enthält. Formal werden die mehr als 50 Makrosprachen[14] in den Normen ISO 639-1 (wenn erfasst) und -2 als Einzelsprachen geführt.
Im Gegensatz zu Sprachen, die über kollektive Sprachcodes repräsentiert werden, sollen Makrosprachen Einzelsprachen zusammenfassen, wenn unter bestimmten Gesichtspunkten die Betrachtung dieser Sprachen als eine einzelne notwendig erscheint. Dazu gibt die Registrierungsstelle Beispiele an:[15]
Makrosprachen können als Konzept die verschiedenen Ansätze der Teilnormen -2 und -3 zusammenbringen. Ein einzelner Eintrag aus ISO 639-2, der mehrere Einträge aus ISO 639-3 subsumiert, wird so in das Gefüge der dritten Teilnorm eingefügt.[16] Jeder Makrosprachcode hat ein Äquivalent in ISO 639-2 mit Ausnahme der serbokroatischen Sprache (Stand: August 2007), die ursprünglich über einen nun obsoleten Eintrag in ISO 639-1 verfügte.
Einige Einzelsprachen, die in Makrosprachen zusammengefasst werden, besitzen auch eigene Einträge in den Normen ISO 639-1 oder -2. So fungiert die norwegische Sprache mit dem Code nor
als Makrosprache, die beinhalteten Sprachen Bokmål (nb
, nob
) und Nynorsk (nn
, nno
) haben aber auch entsprechende Einträge in den anderen Normen.
Bei der Zusammenfassung in Makrosprachen kann es wie bei der malaiischen Sprache zu Namenskonflikten kommen. Während der Code zlm
die Einzelsprache bezeichnet, steht msa
für den Eintrag des Malaiischen als Makrosprache. Um Verwechslungen auszuschließen, erhalten die Benennungen dieser Einträge einen qualifizierenden Zusatz in der Auflistung der Kennungen.
Eine Erklärung zur Anwendung der Normen aus ISO 639 findet man in der Norm ISO 639-4. Diese Norm selbst definiert keine Sprachcodes.[17] Die Veröffentlichung erfolgte im Juli 2010.[18]
Eine Erweiterung der kollektiven Kennungen aus ISO 639-2 bietet ISO 639-5, die am 15. Mai 2008 herausgegeben wurde. Dabei wurden die bereits vorhandenen Kennungen aus ISO 639-2 aufgenommen. Dieser Normteil teilt keine Sprachcodes mit ISO 639-3, die Mengen der geführten Kennungen schließen sich gegenseitig aus.[17]
Diese Teilnorm bietet eine Hierarchie von Sprachfamilien und erlaubt eine Strukturierung der Codes aus den Teilnormen 1–3. Dies ermöglicht eine unterschiedliche Abstufung in der Generalisierung zur Auszeichnung von Sprachdaten.
Die am 17. November 2009 veröffentlichte Norm ISO 639-6 definierte vierbuchstabige Codes (alpha-4) und bot eine Erweiterung der Sprachcodes aus den Teilen 1–3. Sie wurde am 25. November 2014 wieder zurückgezogen.[19]
Die in den verschiedenen Teilnormen definierten Sprachcodes spielen zusammen und erlauben eine Auszeichnung mit unterschiedlicher Granularität. Diese Integration wird erst mit Veröffentlichung der Normen ISO 639-4 und ISO 639-6 abgeschlossen sein.
Die Normen der Reihe ISO 639 stehen in unterschiedlicher Beziehung zueinander. ISO 639-3 definiert die Menge aller Einzelsprachen (ergänzt durch die Makrocodes), während Teil 5 eine Hierarchie aus Sprachfamilien definiert. Diese klar abgegrenzten Mengen finden sich zum Teil in den beiden älteren Teilnormen -1 und -2 und deren Elemente werden dort unstrukturiert nebeneinander gestellt. ISO 639-1 stellt eine Teilmenge von Teil 2 dar, da dort stärkere Kriterien für eine Aufnahme als zwei-buchstabige Codes existieren.
Die Verwaltung der Kennungslisten übernehmen ausgewählte Registrierungsstellen (Registration Authorities), deren Aufgabe in der Annahme und Prüfung der Anfragen zur Aufnahme neuer Kennungen sowie Änderungen bestehender Einträge ist.[21] Die Registrierungsstelle für ISO 693-1 ist Infoterm, für ISO 639-2 die Library of Congress und ISO 639-3 wird von SIL International verwaltet.
Die Benennung der Kennungen soll möglichst der landessprachlichen Bezeichnung der kodierten Sprache folgen. Ausnahmen werden unter Umständen gemacht, wenn Länder, in denen die betroffene Sprache gesprochen wird, eine andere Benennung wünschen.
Die beiden Normen ISO 639-2 und ISO 639-3 verfügen über spezielle Kennungen, um einen flexiblen Umgang mit der Identifizierung von Texten zu ermöglichen, darunter mis
(von englisch missing code für „fehlender Code“) für Sprachen, denen noch kein Code zugeordnet wurde.
Die Kennungen von qaa
bis qtz
(inklusive der alphabetisch dazwischen liegenden Kennungen) sind für die lokale Verwendung registriert und werden von der Registrierungsstelle nicht vergeben.
Für eine Kennzeichnung für Dokumente ohne sprachlichen Inhalt wurde die Kennung zxx
erst später eingeführt.[21] Sie kann für die Kennzeichnung von Dokumenten verwendet werden, die keinen Text enthalten, z. B. Notendrucke oder Fotos.[22]
Zwei weitere besondere Kennungen sind mul
(von englisch multiple languages für „mehrere Sprachen“), der für die Auszeichnung mehrerer Sprachen gedacht ist, wenn eine Kennzeichnung durch alle einzelnen Kennungen nicht angebracht ist, sowie und
(von englisch undetermined für „unbekannt“) für eine nicht identifizierbare Sprache.[23]
Eine Kombination der Sprachcodes der ISO-639-Norm mit weiteren Normen zur Kennzeichnung von Sprachen und Schriften wird durch die RFC 5646[24] gegeben. Dort wird das Zusammenspiel von Sprachcodes (ISO 639), geographischen Codes (ISO 3166-1) und Schriftcodes (ISO 15924) beschrieben. Das gilt als best current practice BCP47
.
Die Norm ISO 3166-1 kennzeichnet geographische Entitäten und kann so für die Bezeichnung von Sprachen und Dialekten einer bestimmten Region genutzt werden. Wie ISO 639-1 verwendet auch ISO 3166-1 zwei-buchstabige Kürzel. Dort wird empfohlen, geographische Codes in Großbuchstaben darzustellen. Sprach- und Regionscodes überschneiden sich, so bezeichnet de
nach ISO 639-1 die deutsche Sprache und DE
nach ISO 3166-1 das Land Deutschland, fr
die französische Sprache und FR
analog das Gebiet des Staates Frankreich. Es können aber gleiche Codes in den verschiedenen Standards auch unterschiedliche Begrifflichkeiten markieren, wie BE
für Belgien und be
für die belarussische Sprache, EU
für die Europäische Union und eu
andererseits für die baskische Sprache („Euskara“). Diese Überschneidungen spielen aber in der Praxis keine Rolle, da immer der Sprachcode an erster Stelle – vor dem Bindestrich – steht.
Mit ISO 15924 können Schriftsysteme identifiziert werden. Typischerweise werden sie mit einem vier-buchstabigen Code dargestellt, dessen erster Buchstabe in der Regel groß geschrieben wird. So stehen Cyrl
für die Schrift nach dem kyrillischen Alphabet und Latn
für die Schrift nach dem lateinischen Alphabet.
Ein Beispiel für einen Code nach RFC 5646[24] ist fr-Latn-CA
für Französisch nach dem lateinischen Alphabet wie es in Kanada geschrieben wird.
RFC 5646[24] verlangt, dass zwischen Groß- und Kleinschreibung nicht unterschieden wird. So ist z. B. fr-Latn-CA
identisch mit fr-latn-ca
. Gleichwohl ist für Menschen nach außen in Groß- und Kleinschreibung darzustellen, während das bei der internen Verarbeitung ignoriert werden muss.
Diese Tabelle zeigt (sortiert nach Sprachcodes) die verschiedenen Spracheinträge und stellt Zusammenhänge zwischen den Teilnormen der ISO 639 dar. So werden lebendige, historische und künstliche Sprachen aufgeführt. Manche Kennungen existieren nicht in den anderen Normen, oder sie existieren in einer anderen Form.
Sprache | ISO 639-1 | ISO 639-2 (B/T) | ISO 639-3 | Art des Beispiels |
---|---|---|---|---|
Altkirchenslawisch | cu | chu | chu | historische Sprache, Sakralsprache |
Deutsch | de | ger/deu | deu | B- und T-Kennung für ISO 639-2 |
Esperanto | eo | epo | epo | konstruierte Sprache (Plansprache) |
Altgriechisch | – | grc | grc | historische Sprache, Sakralsprache, wissenschaftliche Fachterminologie (v. a. Medizin und Geisteswissenschaften) |
Obersorbisch | – | hsb | hsb | Minderheitensprache |
irokesische Sprachen | – | iro | – | kollektive Kennung für Sprachfamilie |
japanische Sprache | ja | jpn | jpn | Alpha-2- und Alpha-3-Kennung teilen sich nicht zwei Buchstaben |
Latein | la | lat | lat | historische Sprache, Sakralsprache, wissenschaftliche Fachterminologie (v. a. Medizin) |
Lettgallisch | lv | lav | lav | fällt ohne eigenen Eintrag unter die lettische Sprache[25] |
ladakhische Sprache | – | sit | lbj | Sprache ohne eigenen Sprachcode für ISO 639-2, dort unter sonstige sinotibetische Sprachen |
Sanskrit | sa | san | san | historische Sprache, als Zweitsprache noch in Verwendung |
nordsamische Sprache | se | sme | sme | Sprache mit eigenem Sprachcode, trotz Existenz einer zugehörigen, kollektiven Kennung |
andere samische Sprachen | – | smi | – | Sprachfamilie mit kollektiver Kennung, nur für Sprachen ohne eigenen Eintrag |
Klingonisch | – | tlh | tlh | konstruierte Sprache, für die Unterhaltungsbranche erfunden |
chinesische Sprachen | zh | chi/zho | zho | Eintrag für Sprachfamilie mit gleicher Schriftsprache aber ohne gegenseitige Verständlichkeit in der gesprochenen Sprache; in ISO 639-3 Makrosprache |
Nachschlagelisten:
Sonstiges:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.