Loading AI tools
Schnittstelle zwischen Sprachwissenschaft und Informatik Aus Wikipedia, der freien Enzyklopädie
Die Computerlinguistik (CL) oder linguistische Datenverarbeitung (LDV)[1] untersucht, wie natürliche Sprache in Form von Text- oder Sprachdaten mit Hilfe des Computers algorithmisch verarbeitet werden kann. „Sie erarbeitet die theoretischen Grundlagen der Darstellung, Erkennung und Erzeugung gesprochener und geschriebener Sprache durch Maschinen“[2] und ist Schnittstelle zwischen Sprachwissenschaft und Informatik. In der englischsprachigen Literatur und Informatik ist neben dem Begriff natural language processing (NLP) auch computational linguistics (CL) gebräuchlich.
Computerlinguistik lässt sich als Begriff in die 1960er Jahre zurückverfolgen.[3] Mit den Anfängen der künstlichen Intelligenz auch bei Alan Turing war die Aufgabenstellung schon nahegelegt. Noam Chomskys Syntactic Structures von 1957 präsentierte eine Sprachauffassung, nach der die Sprache in einem formalen Rahmen beschreibbar wurde (Chomsky-Hierarchie der formalen Sprachen). Hinzu kamen die Sprachlogiken von Saul Kripke und Richard Montague. Die teilweise aus dem US-Verteidigungsbudget sehr hoch geförderten Forschungen brachten jedoch nicht die erhofften Durchbrüche. Besonders Chomsky und Joseph Weizenbaum dämpften die Erwartungen an Automatisierungen von Sprachübersetzung. Der Wende von behavioristischen Wissenschaftskonzeptionen zu mentalistischen (Chomsky) folgten umfassende Konzipierungen in den Kognitionswissenschaften.
In den siebziger Jahren erschienen zunehmend häufiger Publikationen mit dem Begriff Computerlinguistik im Titel. In Deutschland wurde parallel der Begriff Linguistische Datenverarbeitung (LDV) verwendet.[4] Es gab bereits finanziell aufwändige Versuche der Anwendungen (Konkordanzen, Wort- und Formstatistik), aber auch schon größere Projekte zur maschinellen Sprachanalyse und zu Übersetzungen. Die ersten Computerlinguistik-Studiengänge in Deutschland wurden in den 1980er Jahren an der Universität des Saarlandes und in Stuttgart eingerichtet. Die Computerlinguistik bekam mit der Verbreitung von Arbeitsplatzrechnern (Personal Computer) und mit dem Aufkommen des Internets neue Anwendungsgebiete. Im Gegensatz zu einer Internetlinguistik, die insbesondere menschliches Sprachverhalten und die Sprachformen im und mittels Internet untersucht, entstand in der Computerlinguistik eine stärker informatisch-praktische Ausrichtung. Dennoch gab das Fach die klassischen philosophisch-linguistischen Fragen nicht ganz auf und wird heute in theoretische und praktische Computerlinguistik unterschieden.
Natural language processing (NLP) verwendet verschiedene Techniken, um gesprochene und geschriebene Sprache zu verarbeiten. Dazu zählen Interpretationen statistischer Daten, Datenmaterial aus sozialen Netzwerken, Suchergebnisse sowie Methoden des machine learning und von Regeln durchsetzte algorithmische Herangehensweisen.[5] Methoden verschiedener Disziplinen wie Informatik, Künstliche Intelligenz, Linguistik und Datenwissenschaft werden genutzt, um Computern das Verständnis natürlicher Sprache zu ermöglichen. NLP gliedert sich in die Unterbereiche natural language understanding (NLU), and natural language generation (NLG).[6] Künstliche Intelligenz wird auch in Übersetzungsprogrammen wie zum Beispiel DeepL verwendet, wodurch Sprachbarrieren reduziert werden können.[7] Mittels Computerlinguistik wird die digitale Transformation in Unternehmen und Gesellschaft beschleunigt, da Arbeitsprozesse durch Algorithmen ausgeführt werden. So nutzt zum Beispiel das Software-Unternehmen Nvidia NLP.[8] Allerdings gibt es auch Gefahren durch inhaltliche Verzerrungen, die in den verarbeiteten sprachlichen Daten enthalten sind und durch Algorithmen dann verstärkt werden, z. B. eine Benachteiligung marginalisierter Bevölkerungsgruppen.[9]
Computer verarbeiten Sprache entweder in der Form von akustischer Information oder in der Form von Buchstabenketten (wenn die Sprache in Schriftform vorliegt). Um die Sprache zu analysieren, arbeitet man sich schrittweise von dieser Eingangsrepräsentation in Richtung Bedeutung vor und durchläuft dabei verschiedene sprachliche Repräsentationsebenen. In praktischen Systemen werden diese Schritte typischerweise sequentiell durchgeführt, daher spricht man vom Pipelinemodell,[10] mit folgenden Schritten:
Es ist allerdings nicht so, dass sämtliche Verfahren der Computerlinguistik diese komplette Kette durchlaufen. Die zunehmende Verwendung von maschinellen Lernverfahren hat zu der Einsicht geführt, dass auf jeder der Analyseebenen statistische Regelmäßigkeiten existieren, die zur Modellierung sprachlicher Phänomene genutzt werden können. Beispielsweise verwenden viele aktuelle Modelle der maschinellen Übersetzung Syntax nur in eingeschränktem Umfang und Semantik so gut wie gar nicht; stattdessen beschränken sie sich darauf, Korrespondenzmuster auf Wortebene auszunutzen.[11]
Am anderen Ende der Skala stehen Verfahren, die nach dem Prinzip Semantics first, syntax second arbeiten. So baut die auf dem MultiNet-Paradigma beruhende, kognitiv orientierte Sprachverarbeitung auf einem semantikbasierten Computerlexikon auf, das auf einem im Wesentlichen sprachunabhängigen semantischen Kern mit sprachspezifischen morphosyntaktischen Ergänzungen beruht.[12] Dieses Lexikon wird beim Parsing von einer Wortklassen-gesteuerten Analyse zur unmittelbaren Erzeugung von semantischen Strukturen eingesetzt.
Praktische Computerlinguistik ist ein Begriff, der sich im Lehrangebot einiger Universitäten etabliert hat. Solche Ausbildungsgänge sind nahe an konkreten Berufsbildern um die informatisch-technische Wartung und Entwicklung von sprachverarbeitenden Maschinen und ihrer Programme. Dazu gehören zum Beispiel:
Computerlinguistik wird an mehreren Hochschulen im deutschsprachigen Raum als eigenständiger Studiengang angeboten. In der deutschen Hochschulpolitik ist die Computerlinguistik als Kleines Fach eingestuft.[14] Es sind Bachelor- wie auch Master-Studienabschlüsse[15] möglich. Zu den bekanntesten Angeboten zählen die Studiengänge der:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.