Warum diese Maschinen brillant und gleichzeitig erstaunlich dumm sein können
Künstliche Intelligenz schreibt Gedichte, fasst Verträge zusammen und beantwortet komplexe Fragen – aber sie scheitert an einem simplen Kreuzworträtsel. Wie kann das sein? Um das zu verstehen, müssen wir uns ansehen, was hinter den Kulissen eines sogenannten Large Language Model (LLM) tatsächlich passiert.
Was steckt in der Maschine?
Ein LLM wie ChatGPT oder Claude ist im Kern ein mathematisches Modell mit Milliarden von Zahlenwerten – sogenannten Parametern. Man kann sich das vorstellen wie ein riesiges Netz aus Knotenpunkten, die miteinander verbunden sind. Jede Verbindung hat eine bestimmte Stärke, ausgedrückt als Zahl. Diese Zahlen bestimmen, wie das Modell auf eine Eingabe reagiert.
Aber woher kommen diese Zahlen?
Das Training: Lesen lernen im Schnelldurchlauf
Phase 1: Das Internet als Schulbuch
Bevor ein LLM auch nur ein einziges Wort erzeugen kann, muss es trainiert werden. Dafür wird dem Modell eine gewaltige Menge an Text vorgelegt – Bücher, Webseiten, wissenschaftliche Artikel, Forenbeiträge, Nachrichtenartikel. Wir sprechen von Hunderten Milliarden Wörtern.
Das Modell liest diese Texte aber nicht so, wie wir das tun. Es zerlegt den Text in kleine Bruchstücke, sogenannte Tokens. Ein Token ist dabei nicht unbedingt ein ganzes Wort. Das Wort „Unabhängigkeitserklärung” wird beispielsweise in mehrere Tokens zerlegt – etwa „Unab”, „hängig”, „keits”, „erklärung”. Kurze, häufige Wörter wie „der” oder „ist” sind hingegen jeweils ein eigenes Token.
Dieser Punkt ist wichtig, und wir werden darauf zurückkommen.
Phase 2: Das Ratespiel
Das eigentliche Training funktioniert nach einem verblüffend einfachen Prinzip: Das Modell bekommt den Anfang eines Satzes und muss das nächste Token vorhersagen.
Nehmen wir den Satz: „Die Hauptstadt von Österreich ist …”
Am Anfang des Trainings rät das Modell völlig zufällig. Es könnte „Banane” vorhersagen. Das ist offensichtlich falsch. Das Trainingsverfahren berechnet nun, wie weit die Vorhersage vom tatsächlichen nächsten Wort entfernt war, und passt die Milliarden von Parametern ein winziges Stück an – so, dass „Wien” beim nächsten Mal etwas wahrscheinlicher wird.
Diesen Vorgang wiederholt das Modell Billionen Mal, mit Billionen verschiedenen Textausschnitten. Stück für Stück lernt es dabei die Muster und Strukturen der menschlichen Sprache: Grammatik, Fakten, Argumentationsweisen, Schreibstile und sogar so etwas wie gesunden Menschenverstand.
Phase 3: Feinschliff durch Menschen
Nach diesem Grundtraining kann das Modell zwar Texte fortsetzen, aber es ist noch kein hilfreicher Assistent. Es würde auf die Frage „Was ist die Hauptstadt von Österreich?” nicht unbedingt mit „Wien” antworten, sondern vielleicht einfach weitere Fragen generieren – weil es in seinen Trainingsdaten häufig gesehen hat, dass auf eine Frage eine weitere folgt.
Deshalb folgt ein zweiter Trainingsschritt: Menschliche Trainer bewerten die Antworten des Modells. Sie zeigen ihm, welche Antworten hilfreich, korrekt und sicher sind – und welche nicht. Durch dieses Feedback lernt das Modell, sich wie ein nützlicher Gesprächspartner zu verhalten, statt einfach nur Text weiterzuspinnen.
Im Einsatz: Wie eine Antwort entsteht
Wenn Sie einem LLM eine Frage stellen, passiert Folgendes:
Ihre Eingabe wird in Tokens zerlegt. Diese Tokens wandern durch das neuronale Netz – durch Hunderte Schichten von Berechnungen. Am Ende steht eine Wahrscheinlichkeitsverteilung: Das Modell berechnet für jedes Token in seinem Wortschatz, wie wahrscheinlich es als nächstes kommt.
Dann wird ein Token ausgewählt – und der Vorgang beginnt von vorne. Das gerade erzeugte Token wird an die bisherige Sequenz angehängt, und das Modell berechnet das nächste. Wort für Wort, Token für Token, entsteht so die Antwort.
Das bedeutet: Ein LLM plant seine Antwort nicht im Voraus. Es hat keinen fertigen Gedanken im Kopf, den es dann formuliert. Es erzeugt jeden Textbaustein einzeln, immer nur auf Basis dessen, was bisher dasteht. Es ist, als würde jemand einen Roman schreiben, ohne die Handlung zu kennen – Satz für Satz, immer nur mit Blick auf das bisher Geschriebene.
Was LLMs bemerkenswert gut können
Trotz dieses scheinbar simplen Mechanismus sind die Fähigkeiten von LLMs erstaunlich:
Texte verstehen und zusammenfassen. Geben Sie einem LLM einen zwanzigseitigen Vertrag, und es liefert Ihnen in Sekunden eine präzise Zusammenfassung der wichtigsten Punkte.
Zwischen Sprachen übersetzen. Da das Modell Texte in Dutzenden Sprachen gelesen hat, hat es deren Muster verinnerlicht und kann flüssig zwischen ihnen wechseln.
Komplexe Sachverhalte erklären. Ein LLM kann ein und dasselbe Thema für ein Fachpublikum, für Studierende oder für Zehnjährige erklären – weil es gelernt hat, wie Menschen auf verschiedenen Niveaus kommunizieren.
Programmcode schreiben. Code ist letztlich auch eine Sprache mit klaren Regeln, und LLMs haben Millionen von Programmen in ihren Trainingsdaten gesehen.
Kreativ formulieren. Ob Gedicht, Werbetext oder Kurzgeschichte – LLMs können stilistisch erstaunlich vielseitig sein.
All diese Stärken haben eines gemeinsam: Es geht um Muster in der Sprache. Und genau darin sind LLMs Weltmeister.
Wo die Maschine scheitert: Das Kreuzworträtsel-Problem
Und damit kommen wir zum Kreuzworträtsel. Stellen Sie sich folgende Aufgabe vor:
Gesucht: Europäische Hauptstadt, 4 Buchstaben, dritter Buchstabe ist ein „r”.
Für einen Menschen ist das einfach. Wir denken an Hauptstädte, zählen die Buchstaben ab, prüfen den dritten – und kommen auf „Bern”.
Für ein LLM ist genau diese Aufgabe ein Albtraum. Und der Grund liegt in dem, was wir vorhin über Tokens gelernt haben.
Das Token-Problem
Erinnern Sie sich: Ein LLM sieht keine einzelnen Buchstaben. Es sieht Tokens – Wortfragmente, die oft mehrere Buchstaben umfassen. Das Wort „Bern” ist für das Modell ein einzelner Token, ein unteilbares Stück. Es hat keinen direkten Zugang zu der Information, dass „Bern” aus den Buchstaben B-e-r-n besteht, dass es vier Buchstaben hat, oder dass der dritte davon ein „r” ist.
Das ist, als würde man Sie bitten, den dritten Buchstaben eines Wortes zu nennen – aber Sie dürfen das Wort nur als versiegelten Umschlag sehen, ohne hineinzuschauen.
Was das Modell stattdessen tut
Wenn ein LLM mit einer Kreuzworträtsel-Frage konfrontiert wird, versucht es, das zu tun, was es immer tut: Es sucht nach Mustern. Es hat in seinen Trainingsdaten vielleicht Kreuzworträtsel-Lösungen gesehen und kann manchmal die richtige Antwort „erraten” – nicht weil es die Buchstaben wirklich zählt, sondern weil es das Muster „Europäische Hauptstadt + 4 Buchstaben” mit „Bern” assoziiert hat.
Aber sobald die Aufgabe etwas kniffliger wird – etwa wenn eine ungewöhnliche Buchstabenkombination gefragt ist oder wenn es keine geläufige Assoziation gibt – scheitert das Modell kläglich. Es rät dann oft falsch und behauptet dabei mit großer Überzeugung, die Antwort sei korrekt.
Was wir daraus lernen
Dieses Beispiel zeigt eine fundamentale Einschränkung: LLMs verarbeiten Sprache nicht so, wie wir Menschen das tun. Sie haben kein inneres Modell von Buchstaben, Silben oder der physischen Struktur von Wörtern. Sie operieren auf einer anderen Ebene – der Ebene statistischer Muster zwischen Token-Sequenzen.
Das bedeutet auch: Was für uns Menschen trivial einfach ist, kann für ein LLM unlösbar schwer sein – und umgekehrt. Eine dreißigseitige wissenschaftliche Arbeit zusammenzufassen ist für ein LLM ein Leichtes. Zu zählen, wie oft der Buchstabe „e” in einem Satz vorkommt, kann es dagegen überfordern.
Was heißt das für den Alltag?
LLMs sind mächtige Werkzeuge – aber eben Werkzeuge, keine denkenden Wesen. Sie erkennen und reproduzieren Muster in Sprache auf einem Niveau, das noch vor wenigen Jahren undenkbar schien. Aber sie verstehen die Welt nicht in dem Sinne, wie wir Menschen das tun.
Wer das im Kopf behält, kann LLMs enorm gewinnbringend einsetzen: als Recherche-Hilfe, als Schreibassistenz, als Sparringpartner für Ideen, als Übersetzer, als Erklärer komplexer Sachverhalte. Man sollte ihre Ausgaben aber immer kritisch prüfen – besonders dort, wo es auf exakte Details ankommt, die sich nicht aus sprachlichen Mustern ableiten lassen.
Die nächste Generation von KI-Systemen arbeitet bereits daran, einige dieser Schwächen zu überwinden – etwa durch die Fähigkeit, zwischendurch „nachzudenken” und Probleme schrittweise zu lösen, statt immer nur das nächste Wort vorherzusagen. Aber das Grundprinzip bleibt: Diese Systeme sind Meister der Mustererkennung. Und das ist gleichzeitig ihre größte Stärke und ihre fundamentalste Grenze.
Dieser Artikel erklärt die grundlegende Funktionsweise sogenannter Large Language Models (LLMs) in vereinfachter Form. Die tatsächliche technische Umsetzung ist in vielen Details komplexer, als hier dargestellt.