GPT 5.4 wurde – wie seine Vorgänger aus – doch mit einigen Superlativen in den Markt gebracht.
Wie immer ist das für uns ein Anlass, das System zu testen. Die Ergebnisse dazu findet man auch auf https://rely-qa.de/benchmarks/.
Nun – man muss zugeben, dass wir ja nur einen kleinen Ausschnitt der Funktionen dieser Modelle testen. GPT 5.4 kann den Computer bedienen und ist besonders optimiert für Aufgaben mit Dokumenten, Präsentationen, Tabellen und Code. Das ist sicherlich ein wichtiger Schritt.
Als Spezialist für verlässliche AI konzentrieren wir uns auf den „Agenten-UseCase“ im Sinne des Erstellens von Antworten auf Basis eines bereitgestellten Contextes. Sicherlich nur ein kleiner Ausschnitt, aber eben auch die wesentliche Funktion von GenAI.
Aber auch hier soll GPT 5.4 neue Dimensionen erreichen. Das logische Denken ist verbessert, die Genauigkeit erhöht und die mögliche Context-size auf ca. eine Million Token erhöht.
Und da wollen wir natürlich gleich testen. Dabei drehen sich unsere Tests bewusst um kritische Fälle in der Generierung von Antworten.
So füttern wir das System mit widersprüchliche Informationen und prüfen, ob das System in seiner Antwort auf diese Widersprüchlichkeiten hinweist.
Wir geben ihm umfangreiche Inhalte und stellen Fragen, für die die verschiedensten Bereiche des Contextes betrachtet werden müssen, um eine vollständige Antwort erzeugen zu können (Die Context size bleibt dabei in allen Fällen unter 12.000 Token, ist also sehr weit von 1 Million entfernt). Dabei muss das System selbst ableiten, welche Teile des bereitgestellten Textes wichtig sind, um die Antwort zu generieren.
Das sind ganz praktische Anforderungen, die mit jedem verlässlichen Chatbot täglich eine Rolle spielen können. Enthalten die Dokumente widersprüchliche Informationen, dann muss ein Anwender idealerweise auf eine mögliche Widersprüchlichkeit der Antwort hingewiesen werden.
Auch die Vollständigkeit ist wichtig. In unserem Beispiel muss die Software eine Reparaturanweisung für einen speziellen Fall aus einem umfangreichen Handbuch erzeugen. Dabei ist es wichtig, nicht nur die technischen Anweisungen zu ermitteln, sondern auch die Prozessanweisungen zu erstellen, die für eine korrekte Abwicklung des Reparaturauftrages wichtig sind. Ein ganz alltäglicher Use Case.
Alle von Use Cases wurde mit verschiedenen Modellen schon getestet. Manche Modelle schneiden hervorragend ab wie Claude oder Gemini 3. Manche sind eher zurückhalten.
Wir waren gespannt auf GPT 5.4 Aber tatsächlich sind wir eher ernüchtert.
GPT 5.4 generiert tendenziell keine falschen Aussagen im Sinne des Erfindens von Aussagen, die nicht in den Dokumenten stehen. Die dazu gehörenden UseCases wurde durchaus gut absolviert.
Das System übersah jedoch sehr häufig wesentliche Aussagen und Inhalte im Context und konnte so keine vollständigen Antworten generieren. So „vergaß“ es verlässlich die Prozessanweisungen in der generierten Reparaturanleitung.
Statt auf Widersprüche hinzuweisen, antwortete das System eben mit einer möglichen Antwort und gab sich damit zufrieden, diese Antwort gefunden zu haben.
Im Test Case „Information Integration“ war die Antwort kaum zu verwenden. In der Praxis hätte ein Anwender mit dieser Antwort nicht viel anfangen können.
Es mag sein, dass dieses Übersehen von Inhalten mit einer gewissen Sparsamkeit zusammenhängt, die GPT 5.4 für das Verwalten einer großen Context Size benötigt. Aber sie birgt eben auch Risiken.
GPT 5.4 mag ein wichtiger Schritt in vielen Funktionen sein. Für den Einsatz in verlässlichen Chatbots jedenfalls empfiehlt sich das getestete GPT-5.4-2026-03-05 im Moment nicht.


Schreibe einen Kommentar