Loading AI tools
kontrolliertes Vokabular, dessen Begriffe durch Relationen miteinander verbunden sind Aus Wikipedia, der freien Enzyklopädie
Ein Thesaurus (altgriechisch θησαυρός thēsaurós, deutsch ‚Schatz, Schatzhaus‘; latinisiert thēsaurus, woher auch Tresor stammt) bzw. Wortnetz ist in der Dokumentationswissenschaft ein kontrolliertes Vokabular, dessen Begriffe durch Synonymie-Beziehungen miteinander verbunden sind. Die Bezeichnung wird auch für linguistische Thesauri oder wissenschaftliche Wortschatzsammlungen, auch Schatzkammern genannt, einer Sprache verwendet.
Als Thesaurus bezeichnet man ein Modell, das versucht, ein Themengebiet genau zu beschreiben und zu repräsentieren. Es besteht aus einer systematisch geordneten Sammlung von Begriffen, die in thematischer Beziehung zueinander stehen. Der Thesaurus ist ein kontrolliertes Vokabular, auch Attributwertebereich genannt, für das jeweils zu beschreibende Attribut. Es werden in erster Linie Synonyme, aber auch Ober- und Unterbegriffe verwaltet. Oft werden jedoch keine Antonyme (gegenteilige Begriffe) aufgeführt.
Beispiele:
Thesauri sind eine Art von Begriffssystemen.[1]
Wenn Medien entsprechend bestimmter Thesauri indexiert wurden, kann bei der Mediensuche von Bilbiothekskatalogen, mithilfe dieser Thesauri die Suchergebnisse optimiert werden. So können zum Beispiel Schlagwörter herausgesucht werden, die das Suchergebnis konkretisieren, ausweiten oder die verwandte Ergebnisse anzeigen.[2]
Im allgemeinen Wortsinn bezeichnete es zunächst einen „Wissensspeicher“ wie beispielsweise ein Wörterbuch oder eine Enzyklopädie. 1572 erschien der fünfbändige Thesaurus Graecae Linguae von Henricus Stephanus (Henri Estienne), das zu seiner Zeit umfassendste Wörterbuch, erwähnt auch in den Tagebüchern des Samuel Pepys (Dezember 1661). Der vor allem im englischen Sprachraum einflussreiche, 1852 von Peter Mark Roget veröffentlichte Roget’s Thesaurus of English Words and Phrases rückte die Bedeutung des Begriffs in die Richtung eines linguistischen Thesaurus.[3] In diesem hat Roget zahlreiche Herausforderungen der Linguistik behandelt, wie Synonyme, Antonyme, Meronyme oder auch Äquivokation.[1]
Im Bereich des Information-Retrieval wurde der Begriff erstmals 1957 von Hans Peter Luhn verwendet, als in den 1950er-Jahren verschiedene Systeme zur Indexierung entwickelt wurden. Zu den ersten Thesauri, die in der Praxis zur Erschließung eingesetzt wurden, gehören das System von Du Punt (1959) und der Thesaurus of ASTIA Descriptors (1960). Ein einheitliches Format für Thesauri wurde 1967 mit dem Thesaurus of Engineering and Scientific Terms (TEST) vorgelegt. Aus den bereits von Anfang an entwickelten Regeln für den Aufbau von Thesauri entwickelten sich mit der Zeit allgemeine Standards, die die Form des klassischen Thesaurus zur Dokumentation festlegen. Dazu gehören die von Derek Austin und Dale entworfenen UNESCO’s Guidelines for the Establishment and Development of Monolingual Thesauri, deren Inhalte in den ISO-Standard 2788 (1986) einflossen.[3]
In der Dokumentationswissenschaft hat sich der Thesaurus als geeignetes Hilfsmittel zur Sacherschließung und zum Auffinden von Dokumenten erwiesen. Dabei dienen Relationen zwischen den einzelnen Begriffen zum Auffinden bei der Indexierung (Vergabe von Schlagworten) und bei der Recherche. Im Gegensatz zu einem linguistischen Thesaurus enthält ein Thesaurus zur Dokumentation ein kontrolliertes Vokabular, d. h. eindeutige Benennungen (Deskriptoren) für jeden Begriff. Unterschiedliche Schreibweisen (Photo/Foto), Synonyme bzw. als gleichbedeutend behandelte Quasi-Synonyme, Abkürzungen, Übersetzungen etc. werden durch Äquivalenzrelationen miteinander in Beziehung gesetzt. Begriffe werden außerdem durch Assoziationsrelationen und hierarchische Relationen vernetzt.
Der Thesaurus dient als Dokumentationssprache zum Indexieren, Speichern und Finden von Dokumenten. Die Relationen ermöglichen es, bei der Indexierung und Recherche passende Benennungen für gesuchte Begriffe zu finden. Bei der Suche können Thesauri durch die automatische Erweiterung der Suchanfrage auf Synonyme und Unterbegriffe hilfreich sein.
Ein Thesaurus kann damit auch allgemein zur Begriffsklärung dienen und hat im besten Fall die Funktion einer Normdatei inne. Im Gegensatz zu einer monohierarchischen Tabelle oder Datenbank kann der Thesaurus eine polyhierarchische Struktur besitzen (d. h. ein Unterbegriff kann mehrere Oberbegriffe haben).
Die Thesaurusnormen DIN 1463-1 bzw. das internationale Äquivalent ISO 2788 sehen folgende Relationsarten und dazugehörige Abkürzungen vor:
Kürzel und Bezeichnung | |||
---|---|---|---|
DIN 1463-1 | ISO 2788 | ||
BF | Benutzt für | UF | Used for |
BS | Benutze Synonym | USE/SYN | Use synonym |
OB | Oberbegriff | BT | Broader term |
UB | Unterbegriff | NT | Narrower term |
VB | Verwandter Begriff | RT | Related term |
SB | Spitzenbegriff | TT | Top term |
Die häufigsten Relationen in einem Thesaurus sind Äquivalenz-, Assoziations- und hierarchische Relationen.
In der Regel wird ein Element einer Äquivalenzrelation, also eine Benennung, als Vorzugsbenennung festgelegt. Die Nicht-Vorzugsbenennungen erhalten einen Verweis auf die ihnen äquivalente Vorzugsbenennung.
Früher verstand man unter einem Thesaurus ein wissenschaftliches Sammelwerk mit dem gesamten Wortschatz einer Sprache. Bekannt sind unter anderem der Thesaurus Linguae Graecae und der Thesaurus Linguae Latinae. Bei diesen Werken handelt es sich genaugenommen um Wörterbücher.
Die ersten in der Elektronischen Textverarbeitung (EDV) verwendeten Thesauri waren ebenfalls einfache Wörterbücher, welche eingegebene Vokabeln mit enthaltenen Einträgen abgleichen und dem Anwender Rückmeldungen geben konnten. Die Rückmeldungen ließen sich zunächst nur für die Erkennung von einfachen Rechtschreibfehlern verwenden und konnten mit Suchläufen, später aber im Hintergrund ermittelt werden, was dem heutigen Standard entspricht. Ursprünglich entstanden die dazu benötigten Datenbanken aus manuell in Datenformat konvertierten Wort-Sammlungen, die für kommerzielle Programme zunächst fortlaufend durch den Hersteller ergänzt und mit Aktualisierungen an den Kunden ausgeliefert wurden. Mit dem Aufkommen von individuell durch den Benutzer ergänzbaren Worteinträgen entstand die Möglichkeit, große, quasi-kollaborative nutzerbasierte Plattformen zur Sammlung neuer Einträge zu verwenden, wobei die auf einem Server liegende Datenbank durch Rücksendung der individuellen Arbeitskopien von Thesauri verschiedener Benutzer kurzzeitig sehr stark wuchsen. Auch dabei war aber eine Handsichtung notwendig, um den Eintrag häufig falsch geschriebener und deshalb irrtümlich häufig eingesendeter falscher Vokabeln zu verhindern. Aufgrund des begrenzten Vokabulars jeder Sprache sind heute jedoch für die meisten Sprachen nahezu vollständige Datensätze verfügbar, die die jeweilige Sprache erschöpfend wiedergeben. Der Eintrag neuer Wörter entspricht heute nur noch dem natürlichen Wachstum der jeweiligen Sprachen.
Zeitgleich wurden die elektronischen Thesauri zu immer komplexeren Programmen weiterentwickelt, welche auch grammatikalische Regeln und Stilregeln kontrollieren sowie Synonyme anbieten können. An ihren Grenzbereichen geben moderne Thesauri heute auch Übersetzungshilfen und lassen Texte automatisch durchsichten, wobei der Anwender zuvor zahlreiche Optionen anwählen kann.
Eine besondere Form der Thesauri bedient Eingabehilfen für Piktogramm-Schriften wie beispielsweise die Chinesische Schrift unter Verwendung einer westlichen Computer-Tastatur. Diese Schriftzeichen lassen sich wegen ihrer Vielzahl oft nicht auf praktisch handhabbaren Tastaturen abbilden, weshalb die Thesauri dem Anwender Zeichen vorschlagen, die dann von ihm angenommen oder abgelehnt werden können.
So gibt es für die Eingabe japanischer oder chinesischer Schriftzeichen zahlreiche Methoden, die Silben oder Abkürzungen nach thesauriden Datenbankeinträgen in Schriftzeichen umwandeln. Von diesen Methoden konnte sich jedoch bislang keine standardisiert durchsetzen, weil die asiatischen Schriftsprachen sehr komplex aufgebaut sind und die Bedeutung der Zeichen oftmals kontextabhängig ist.
Der Lernaufwand zur Nutzung dieser Thesauri-basierten Programmlösungen ist für Asiaten extrem hoch, und native Sprecher benutzen meist nur jeweils eine Softwarelösung, mit der sie akzeptabel hohe Schreibgeschwindigkeiten erreichen können, welche jedoch hinter der der lateinischen Buchstabenschrift weit zurückbleibt. Lateinische Schreiber schreiben wesentlich schneller als asiatische, obwohl die Lesegeschwindigkeit bei Piktogrammschriften für kundige Leser höher ist als bei lateinischen Schriften. Einem einheitlichen Thesaurus für Piktogrammschriften stehen traditionelle, konzeptionelle und syntaktische Probleme entgegen.
In einem linguistischen Thesaurus sind statt Begriffen Wörter ähnlicher und verwandter Bedeutung durch Verweise verknüpft. Diese Art von lexikalisch-semantisch organisiertem Nachschlagewerk kann unter anderem als Formulierungshilfe benutzt werden. Es gibt Nachschlagewerke dieser Art in gedruckter Form[4] oder in elektronischer Form, hier zumeist als Hintergrundressource von Textverarbeitungsprogrammen.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.