Spilled Energy in Large Language Models – warum LLMs gerne Halluzinieren; Ein Test auf Schwäbisch!

In einem Paper für die ICLR 2026 haben einige Wissenschaftler unter dem Titel „Spilled Energy in Large Language Models“ eine wie ich meine bemerkenswerte Interpretation dieser problematischen Eigenschaft vorgestellt und empirisch begründet (https://arxiv.org/abs/2602.18671). Das fanden wir so spannend, dass wir das in einem etwas verständlicheren Artikel nochmal beschreiben und erklären wollten. Und deswegen gibt es dann am Schluss auch noch ein schwäbisches Beispiel zur Erklärung.

Für ihren Konferenzbeitrag analysieren die Forscher die grundsätzliche Funktionsweise von LLMs. Um einen Text zu generieren, „raten“ LLMs ja eigentlich nur das nächste Wort (bzw. Token), und schreiben so den Text immer weiter fort.

Um das nächste Wort zu kalkulieren, berechnet das Netzwerk für alle Begriffe des Vokabulars eine Bewertung, die sich aus den im Netzwerk gelernten Beziehungen der Begriffe ergibt. Diese Bewertungen bewegen sich in größeren Zahlenbereichen, sind also nicht einfach Wahrscheinlichkeitswerte zwischen 0 und 1. Um dann die Wahrscheinlichkeit zu berechnen, wird eine „Softmax“ genannte Funktion verwendet, die alle diese Ergebnisse in eine 0 – 1 Wahrscheinlichkeit „zusammendampft“. Die Wissenschaftler aber setzen früher an: Sie betrachten die berechneten Werte vor der Reduktion zu einer Wahrscheinlichkeit. Dabei sollte eigentlich gelten, dass der berechnete Wert des im letzten Schritt gewählten Begriffs (Tokens) eigentlich gleich sein sollte der Summe (eigentlich steckt da noch mehr Berechnung dahinter, das spielt hier aber nicht die große Rolle) der Werte über das gesamte Vokabular des nächsten Schrittes. In der Praxis ist das aber nicht immer der Fall. Und die Differenz zwischen den beiden Werten ist umso größer, je höher die Wahrscheinlichkeit für eine fehlerhafte Fortsetzung des Textes ist.

Da die Wissenschaftler die berechneten Werte als „Energie“ bezeichnen, bezeichnen sie die Differenz auch als „spilled Energy“ – was zum Titel des Beitrages führt.

Dabei ist das wirklich auffällig und seltsam, denn: Eigentlich sollten mathematisch die beiden Werte gleich sein!? Nur – sie sind es nicht. Und das macht nun die Suche nach den Ursachen so nützlich.

Tatsächlich gibt es zwei wesentliche Ursachen für die Problematik:

Keine Ahnung von Nicht-Wissen

Die Modelle können nicht mit „ich weiß nicht“ umgehen! Sie lernen nur die Wahrscheinlichkeiten (und „Aufmerksamkeiten“) der Begriffe untereinander. Aber es gibt keine Möglichkeit für das Modell in der gesamten Mechanik, „Nicht-Wissen“ auszudrücken. Wenn das Modell nicht weiter weiß, dann folgt es der „Augen zu und durch“ Strategie.

Das Modell plant nur Schritt für Schritt, keine ganzen Sätze

Das zweite Problem: Zwar kann das Modell (zumindest im betrachteten Kontext) immer die Abhängigkeit zwischen allen Begriffen berechnen. Der nächste zu wählende Begriff wird aber immer nur optimal für den nächsten Schritt berechnet. Um das an einem Beispiel zu zeigen:

Das Modell hat als nächsten Schritt den Begriff B1 gewählt, da dieser die höchste Wahrscheinlichkeit hat. Allerdings sind auch die Begriffe B2, B3 und B4 in den nächsten Schritten nicht wirklich so ganz passend und die Wahrscheinlichkeiten sind von Schritt zu Schritt nicht sehr gut.

Hätte das Modell als am Anfang den Begriff Bx1 gewählt, dann wäre es mit den Begriffen Bx2, Bx3 und Bx4 viel besser gefahren – allerdings eben hatte Bx1 eine geringere Wahrscheinlichkeit als B1. Das Modell konnte nicht wissen, dass die Kombination Bx1, Bx2, Bx3, Bx4 viel besser ist als B1, B2, B3 und B4, weil eben die Optimierung immer nur den aktuellen Schritt betrachtet.

Damit macht das Modell zwangsläufig immer dann Fehler, wenn Texte auf längere Distanz durchdacht werden sollten.

Drei wichtige Schlussfolgerungen

Die geniale Idee der Forscher ist es, die einfach erkennbare Differenz der beiden Werte als „Lügendetektor“ zu verwenden, um zu jeder Zeit Halluzinationen einfach erkennen zu können. Das kann eine Entwicklung der Zukunft sein – wir werden sehen.

Man kann aber noch weitere Punkte aus dem Beitrag entnehmen.

Denn das Interessante an dem Beitrag der Forscher ist, dass sie damit auch einen Weg anbieten, um Halluzinationen besser ganz praktisch vermeiden zu können.

Ganz wichtig: Unbekanntes ist ein echtes Problem. Das Modell darf nicht mit Themen konfrontiert werden, die es nicht kennt. Immer dann, wenn das Modell im Unsicheren steht, wird es nicht auf diese Unsicherheit hinweisen, sondern eben mit „dem Kopf durch die Wand“.

Und als zweites: Da die Berechnung des nächsten Schrittes fehlerhaft sein kann ist es zuweilen nützlich, diese Rechnung mehrfach durchzuführen. Das heißt, man verwendet einfach Reasoning.

Vereinfacht gesprochen bedeutet Reasoning in diesem Fall, dass das Modell „dieselbe Textstelle“ immer wieder durchläuft, um den nächsten Schritt zu berechnen. Und da diese Rechnung immer einer gewissen statistischen Schwankung unterliegt, kann das System eben auch bessere Alternativen finden, als nur eine möglicherweise falsche, halluzinierte.

Das kann man sogar ganz praktisch probieren – der scwhäbische Test

Aus unserer Sicht kann man das ganz praktisch ausprobieren.

Ich habe hier folgenden Satz:

„Woisch, des isch so: Oigentlich hem’mr g’sagt ghet, dass mr des nomol nemme den was m’r schon uf dr tsetseweh zoigt ghet hen. Do sen fascht elle Sache drin, die wo dr noletschsenter ko. We’mr no no zoiget, wie des Ding oim helfe tut beim mache von am noletschnaget, no isch des klasse.“

Nun ja, der Satz ist in schwäbischem Dialekt und sagt folgendes:

„Es ist so: Wir hatten vereinbart, dass wir das nochmal verwenden, was wir schon auf der CCW präsentiert hatten. Da sind nahezu alle Funktionen des Knowledge Centers abgedeckt. Wenn wir dann noch dazu präsentieren, wie das System beim Erstellen von Knowledge Nuggets unterstützt, dann ist das eine super Präsentation“.

Konfrontieren wir nun das sicherlich sehr gute Opus 4.6 mit der Aufgabe, diesen Text in’s Business English zu übertragen, dann ist das Ergebnis erwartungsgemäß unbefriedigend:

Opus 4.6 OHNE Reasoning

„Here’s the situation: We had originally agreed that we would no longer present what we’ve already shown on the CSW. That version covers nearly all of the capabilities the newsletter can offer. If we could additionally demonstrate how the tool assists in creating a newsletter, that would be excellent.“

Da das System manche Dinge (wie Knowledge Center oder Knowledge Nugget) nicht so einfach wissen kann, halluziniert es von „Newsletter“, obwohl dazu nichts im Text steht.

Nutzen wir nun zusätzlich Reasoning, erhalten wir folgenden Text:

“Here’s the situation: We had essentially agreed to reuse the content we already presented on the [tsetseweh*]. That covers nearly all the capabilities of the Knowledge Center. If we can additionally demonstrate how the tool supports users in creating a Knowledge Nugget, that would be excellent.”

Und das ist nun bemerkenswert, denn nun ist die Qualität der Übersetzung perfekt! Und das Modell bemerkt, dass es keine einfache Übersetzung des Begriffes (tsetseweh) CCW hat und markiert ihn entsprechend. Reasoning führt hier zu deutlich besseren Ergebnissen, obwohl es hier nicht um ein Schlussfolgern im eigentlichen Sinn ging.

Was wir davon lernen können

Für verlässliche AI ist es wichtig, das System nicht im Unbekannten zu lassen. Es darf keine Begrifflichkeiten und Zusammenhänge geben, die für das System unbekannt oder nicht interpretierbar sind. Und tatsächlich meinen wir, ist das keine unmögliche Forderung, diesen Vorschlag enthält auch unser Guide für „AI ready documents“. Hier ist das aber sehr sauber und wissenschaftlich belegt.

Und Reasoning ist nicht nur ein Ansatz, um komplexe Schlussfolgerungen zu ziehen. Reasoning ist auch ein Qualitätsthema, da auf diese Weise Fehler vermieden werden können, die durch einmaliges und lokales Optimieren entstehen können. Damit kann man auch Reasoning gezielt einsetzen, wenn Antworten entsprechende Qualität benötigen.

Rely-QA

Spilled Energy in Large Language Models – warum LLMs gerne Halluzinieren; Ein Test auf Schwäbisch!

Drei wichtige Schlussfolgerungen

Das kann man sogar ganz praktisch probieren – der scwhäbische Test

Was wir davon lernen können

Schreibe einen Kommentar Antwort abbrechen