Loading AI tools
automatische Texterstellung mit Hilfe eines Computeralgorithmus Aus Wikipedia, der freien Enzyklopädie
Als Textgenerierung (auch natürlichsprachliche Generierung; englisch Natural Language Generation, NLG) bezeichnet man die automatische Produktion von natürlicher Sprache durch eine Maschine. Die Generierung von Texten ist sowohl ein Teilbereich der Computerlinguistik als auch der künstlichen Intelligenz.[1]
Beim Generierungsprozess können sowohl anhand unterschiedlicher Eingabeformate, als auch nach unterschiedlichen technischen Herangehensweise klassifiziert werden. Basierend auf dem Format der Daten, die der Textgenerierung zugrunde liegen, wird unterschieden zwischen:[2]
Während die klassische Definition der Textgenerierung noch eine nicht-linguistische Quelle als Eingabe vorsah[1], also die Text zu Text Generierung ausschloss, ist die Generierung basierend auf Texten, wie bei der Übersetzung oder der Vereinfachung von Texten, inzwischen fester Bestandteil des Feldes.[2]
Auf technischer Ebene wird insbesondere zwischen Pipeline- und End-to-end-Architekturen unterschieden. Pipeline-Architekturen bestehen dabei aus einzelnen, meist regelbasierten, Komponenten, die die Textgenerierung schrittweise vollführen. Nach Reiter und Dale[1] sind die Schritte zur Textgenerierung:
Moderne Systeme zur Textgenerierung, insbesondere in der Forschung[3], verwenden heute häufig End-to-end Architekturen. Hierbei werden Modelle des Maschinellen Lernens auf großen Datensätzen bestehend aus Eingabedaten (zum Beispiel strukturierte Daten) und korrespondierenden, häufig menschlich verfassten, Texten trainiert.
Unter dem medial geprägten Begriff „Roboterjournalismus“ werden Algorithmen verstanden, die aus Datenbanken und ‑kolonnen fertige Nachrichtentexte generieren können. Bei diesem Verfahren steht die Einsparung bzw. Fokussierung humaner Journalisten im Vordergrund. Redaktionen können durch die maschinelle Entlastung einerseits mit weniger Mitarbeitern höherwertige weil aufwändiger recherchierte Nachrichtenprodukte gewinnen. Andererseits können sie Berichte veröffentlichen, die aus Mangel an Zeit oder wegen zu wenig Interessenten nicht geschrieben werden könnten. Der Einsatz von Software im Journalismus ist noch umstritten, es wird vor allem diskutiert, worin der menschliche Journalist der Software überlegen ist.[4] Zudem ist die Frage ungeklärt, inwiefern automatisch generierte Texte dem Urheberrecht unterliegen.[5] Die speziell auf die Inputdaten zugeschnittenen Algorithmen berechnen permanent Werte und verfassen Berichte über diese, entweder in bestimmten Zeitintervallen (z. B. tägliche Wetterberichte) oder wenn sich Werte stark verändern (z. B. Erdbeben-Warnung[6]). Besonders häufige Einsatzgebiete von „Roboterjournalisten“ sind zum Beispiel Sportmeldungen[7], Wetterberichte und Börsenticker.[8] Aber auch die datengetriebene Erstellung von automatisierten Inhalten für die Berichterstattung zu lokalen Themen kommt bereits zur Anwendung.[9]
In textbasierten Dialogsystemen, wie Chatbots, wird die Textgenerierung zur Kommunikation mit dem Nutzer verwendet. Bekanntes historisches Beispiel ist das Programm ELIZA.[10]
Ein Teil der Kommunikation mit hochentwickelten Intelligenten virtuellen Agenten beruht auf diesem Prinzip, wobei die Qualität des Dialogs unter anderem von der Verknüpfung des Agenten mit Wissensbasen abhängt. Der Dialog eines Menschen mit verschiedenen Schnittstellen kann erleichtert werden, wenn ein Agent Text generiert, der Fragen produktiv beantwortet:
Laut einer Studie ist die Marketing-Branche, die Branche, auf die Künstliche Intelligenz den größten Einfluss haben wird[11]. Im Marketing werden verschiedene Tools genutzt, um Inhalte zu generieren, wie z. B. das Erstellen von Werbetexten, die Generierung von Newsletter-Betreffzeilen, und das Validieren von den KI-generierten Ergebnissen.
Laut einer Umfrage des Digitalverbandes Bitkom Anfang 2023 plant jedes sechste Unternehmen den KI-Einsatz zur Textgenerierung.[12]
Phrasendreschmaschinen oder Bullshit-Generatoren (englisch bullshit generators, auch buzzword generators) gab es vor der Umsetzung in Software als mechanische Geräte. Wahrscheinlich die erste als Software ausgeführte Phrasendreschmaschine war LoveLetters_1.0, 1952 programmiert von Christopher Strachey an der University of Manchester für den Ferranti Mark I.[16] Ähnliche Generatoren sind in vielen weiter entwickelten Ausführungen im Internet zu finden.
Solche Programme arbeiten nach einfachen Konzepten, die bei anspruchsvolleren Verfahren der Textgenerierung komplexer ausgestaltet angewandt werden: Begriffe oder Satzteile werden aus Listen entnommen, aneinandergereiht und grammatikalisch korrekt angepasst (grammatische Realisierung). Ein dafür oft angewendetes Verfahren ist die Generierung mit Markow-Ketten.[17] Es entsteht syntaktisch korrekter Text, der sinnhaltig wirken kann, tatsächlich aber Blödsinn (englisch bullshit) ist, weil Phrasendreschmaschinen nicht auf Wissen über die Bedeutung verwendeter Partikel zugreifen. So lässt sich scherzhaft beispielsweise leere Rhetorik von Fachliteratur persiflieren.
Abgesehen von mechanischen Phrasendreschmaschinen als Vorläufern und abgesehen von frühesten Versuchen, Texte durch Software zu generieren, beginnt die erste Phase natürlichsprachiger Generierung mit Programmen, die zur Textgenerierung schematisch auf Wissen zugreifen, das bereits in Textform abgelegt ist. So funktionierte ab 1963 BASEBALL, ein Interface zu den Baseballdaten der amerikanischen Baseballiga und SAD SAM, ein Interface zur Eingabe von Verwandtschaftsbeziehungen, das bereits auf Fragen antwortete. Nach mehreren anderen Arbeiten in dieser Richtung erschien 1966 ELIZA, programmiert von Joseph Weizenbaum. In der zweiten Phase ist das Wissen in Fakten und Regeln kodiert: LUNAR, 1972, ist das Interface zur Datenbank über die Mondprobensammlung der Apollo 11 Mission. PARRY, 1975, simuliert einen Paranoiden im Gespräch mit einem Psychiater. ROBOT, 1977, ist das erste kommerzielle Frage-Antwort-System. VIE-LANG, 1982, von Ernst Buchberger, ist ein Dialogsystem in deutscher Sprache, das Sätze aus einem semantischen Netz generiert.[18] HAM-ANS, 1983, von Wolfgang Hoeppner, ist ein Dialogsystem in deutscher Sprache, das beispielsweise einen Hotelmanager simuliert.[19]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.