LLM Benchmark-Vergleich

Wir testen führende Large Language Models systematisch. Dabei prüfen wir 5 kritische Edge Cases. Damit Du das passende Modell für Deinen Einsatz findest.

Wir vergleichen Kosten und Performance. Für Deine fundierte Entscheidungen.

Getestete Modelle im Überblick

Modell	Anbieter	Preis pro Million Token	Kategorie
GPT 5.1	OpenAI	$1,25	Premium
GPT 5.1 chat-latest	OpenAI	$1,25	Premium
Open AI Chat 5.2 latest	OpenAI	$1,75	Premium
Open AI 5 Nano	OpenAI	$0,05	Budget
Open AI GPT-5.4-2026-03-05	OpenAI	$2,50	Premium
Opus 4.5	Anthropic	$5,00	Premium Plus
Opus 4.6	Anthropic	$5,00	Premium Plus
Haiku	Anthropic	$1,00	Standard
Gemini 2.5 flash	Google	$0,30	Budget Plus
Gemini 3.0 flash	Google	$0,50	Budget Plus
DeepSeek V3.2	DeepSeek	$0,28	Budget Plus

Alle Preise verstehen sich für Input-Tokens. Außerdem können Output-Token-Preise abweichen. Daher prüfen Sie die aktuellen Preise bei den Anbietern.

🔗

Information Integration

Was wird getestet:

Die Fähigkeit, Informationen aus mehreren Quellen zu kombinieren. Dies ist essentiell für komplexe Aufgaben. Folglich müssen LLMs verschiedene Textstellen verknüpfen können.

Test-Setup:

Fall 1: Ca. 3000 Token, 3 Textstellen
Fall 2: 3000 Token, 3 Textstellen, umfangreichere Frage

Testergebnisse

Modell	Fall 1	Fall 2	Bewertung
GPT 5.1	❌ Fehlerhaft	✅ Korrekt	🟡 Teilweise
GPT 5.1 chat-latest	❌ Fehlerhaft	✅ Korrekt	🟡 Teilweise
Open AI Chat 5.2 latest	❌ Fehlerhaft	❌ Fehlerhaft	🔴 Nicht bestanden
Open AI 5 Nano	❌ Fehlerhaft	❌ Fehlerhaft	🔴 Nicht bestanden
Open AI GPT-5.4-2026-03-05	❌ Fehlerhaft	❌ Fehlerhaft	🔴 Nicht bestanden
Opus 4.5	⚠️ Mit Hinweis	✅ Korrekt	🟢 Gut
Opus 4.6	✅ Korrekt	✅ Korrekt	🟢 Sehr gut
Haiku	⚠️ Mit Hinweis	❌ Fehlerhaft	🔴 Nicht bestanden
Gemini 2.5 flash	❌ Fehlerhaft	✅ Korrekt	🟡 Teilweise
Gemini 3.0 flash	✅ Korrekt	✅ Korrekt	🟢 Sehr gut
DeepSeek V3.2	⚠️ Mit Hinweis	✅ Korrekt	🟢 Gut

Interpretation: Opus 4.6 zeigt die beste Performance. Es markiert sogar unsichere Antworten. Dagegen scheitern die Budget-Modelle häufiger. Gemini 3.0 flash ist jedoch eine gute Wahl.

✓

Answer Completeness

Was wird getestet:

Die Vollständigkeit der Antworten. Eine richtige Antwort ist nicht immer vollständig. Daher prüfen wir, ob wichtige Details fehlen. Somit erkennen wir unvollständige Informationen.

Test-Setup:

8500 Token Context
Informationen über technische und prozessbezogene Anweisungen
Beide Bereiche müssen in der Antwort enthalten sein

Testergebnisse

Modell	Ergebnis	Bewertung
GPT 5.1	✅ Erfolgreich (elaboriert, nützlich)	🟢 Sehr gut
GPT 5.1 chat-latest	✅ Erfolgreich	🟢 Sehr gut
Open AI Chat 5.2 latest	✅ Erfolgreich	🟢 Sehr gut
Open AI 5 Nano	❌ Prozessanweisungen übersehen	🔴 Nicht bestanden
Open AI GPT-5.4-2026-03-05	❌ Prozessanweisungen übersehen	🔴 Nicht bestanden
Opus 4.5	✅ Erfolgreich, sehr strukturiert	🟢 Exzellent
Opus 4.6	✅ Erfolgreich, sehr strukturiert	🟢 Exzellent
Haiku	❌ Prozessanweisungen übersehen	🔴 Nicht bestanden
Gemini 2.5 flash	❌ Prozessanweisungen übersehen	🔴 Nicht bestanden
Gemini 3.0 flash	✅ Erfolgreich	🟢 Sehr gut
DeepSeek V3.2	✅ Erfolgreich (einzelne Punkte fehlen)	🟢 Sehr gut

Interpretation: Premium-Modelle liefern vollständige Antworten. Allerdings ist Gemini 3.0 flash durchaus eine Option.

⚡

Over Generalisation

Was wird getestet:

Geprüft wird, ob LLMs Regeln auf unpassende Fälle übertragen. Beispielsweise gilt eine Regelung nur für Führerscheine. Dennoch wenden manche Modelle diese auf Personalausweise an. Dies führt zu falschen Ergebnissen.

Test-Setup:

Kleiner Context: ca. 200 Token
Großer Context: ca. 3000 Token
Einfacher Fall vs. umfangreicher Fall

Testergebnisse

Modell	Klein+Einfach	Groß+Einfach	Groß+Komplex	Bewertung
GPT 5.1	✅ Sicher	❌ Fehlerhaft	❌ Fehlerhaft	🔴 Anfällig
GPT 5.1 chat-latest	✅ Sicher	❌ Fehlerhaft	❌ Fehlerhaft	🔴 Anfällig
Open AI Chat 5.2 latest	✅ Sicher	✅ Korrekt	❌ Fehlerhaft	🟡 Teilweise
Open AI 5 Nano	✅ Sicher	❌ Fehlerhaft	❌ Fehlerhaft	🔴 Anfällig
Open AI GPT-5.4-2026-03-05	✅ Sicher	✅ Sicher	❌ Fehlerhaft	🟡 Gut
Opus 4.5	✅ Sicher	✅ Sicher	❌ Fehlerhaft	🟡 Gut
Opus 4.6	✅ Sicher	✅ Sicher	✅ Sicher	🟢 Exzellent
Haiku	✅ Sicher	✅ Sicher	❌ Fehlerhaft	🟡 Gut
Gemini 2.5 flash	✅ Sicher	✅ Sicher	✅ Sicher	🟢 Exzellent
Gemini 3.0 flash	✅ Sicher	✅ Sicher	✅ Sicher	🟢 Exzellent
Deep Seek V3.2	✅ Sicher	❌ Fehlerhaft	❌ Fehlerhaft	🔴 Anfällig

Interpretation: Gemini und Opus 4.6 sind hier zuverlässig. Dagegen sind GPT-Modelle und DeepSeek anfälliger. Infolgedessen sollten Sie für komplexe Regelwerke Gemini oder Opus wählen.

⚖️

Counterfactual Robustness

Was wird getestet:

Wie LLMs mit Widersprüchen umgehen. Oft enthalten Daten widersprüchliche Informationen. Manche Modelle ignorieren diese. Andere erkennen Widersprüche zuverlässig. Für korrekte Antworten ist diese Fähigkeit kritisch.

Test-Setup:

Kleiner Context: 1.600 Token
Großer Context: 12.000 Token
Widersprüchliche Zeitabläufe im Text

Testergebnisse

Modell	Klein (1.6k)	Groß (12k)	Bewertung
GPT 5.1	✅ Erkannt	❌ Nicht erkannt	🟡 Teilweise
GPT 5.1 chat-latest	✅ Erkannt	❌ Nicht erkannt	🟡 Teilweise
Open AI Chat 5.2 latest	✅ Erkannt	❌ Nicht erkannt	🟡 Teilweise
Open AI 5 Nano	✅ Erkannt	❌ Nicht erkannt	🟡 Teilweise
Open AI GPT-5.4-2026-03-05	❌ Nicht erkannt	❌ Nicht erkannt	🔴 Nicht bestanden
Opus 4.5	✅ Erkannt	✅ Erkannt	🟢 Exzellent
Opus 4.6	✅ Erkannt	✅ Erkannt	🟢 Exzellent
Haiku	✅ Erkannt	✅ Erkannt	🟢 Exzellent
Gemini 2.5 flash	❌ Nicht erkannt	❌ Nicht erkannt	🔴 Nicht bestanden
Gemini 3.0 flash	🟡 Teilweise erkannt	🟡 Teilweise erkannt	🟢 gut
DeepSeek V3.2	❌ Nicht erkannt	❌ Nicht erkannt	🔴 Nicht bestanden

Interpretation: Anthropic-Modelle (Opus, Haiku) erkennen Widersprüche auch bei großem Context. Dagegen versagen GPT-Modelle bei 12k Tokens. DeepSeek scheitert komplett. Mit Gemini 3.0 flash ist man gut beraten.

🚫

Negative Rejection

Was wird getestet:

Ob LLMs zugeben, wenn sie keine Antwort kennen. Manchmal liegen keine Daten vor. Dann sollte das Modell dies sagen. Stattdessen erfinden manche Modelle Antworten. Dies nennt man Halluzinationen.

Test-Setup:

Kleiner Context: 240 Token
Großer Context: 1.600 Token
Fragen zu Details, die nicht im Context sind

Testergebnisse

Modell	Klein (240)	Groß (1.6k)	Bewertung
GPT 5.1	⚠️ Viele Annahmen	⚠️ Halluzinationen	🔴 Anfällig
GPT 5.1 chat-latest	✅ Keine Halluz.	✅ Keine Halluz.	🟢 Sehr gut
Open AI Chat 5.2 latest	⚠️ Mit „in der Regel“	❌ Zusatzinfos erfunden	🔴 Anfällig
Open AI 5 Nano	✅ Keine Halluz.	❌ Zusatzinfos erfunden	🟡 Teilweise
Open AI GPT-5.4-2026-03-05	✅ Keine Halluz.	✅ Keine Halluz.	🟢 Sehr gut
Opus 4.5	✅ Lehnt ab	✅ Lehnt ab	🟢 Exzellent
Opus 4.6	✅ Keine Halluz.	✅ Keine Halluz.	🟢 Exzellent
Haiku	✅ Keine Halluz.	⚠️ Wenige Zusatzinfos	🟢 Gut
Gemini 2.5 flash	✅ Keine Halluz.	✅ Keine Halluz.	🟢 Sehr gut
Gemini 3.0 flash	✅ Keine Halluz.	✅ Keine Halluz.	🟢 Sehr gut
DeepSeek V3.2	❌ Zusatzinfos erfunden	❌ Zusatzinfos erfunden	🔴 Anfällig

Interpretation: Opus 4.5 lehnt Antworten bei fehlenden Daten ab. Dies ist optimal. Dagegen halluziniert GPT 5.1 häufig. Außerdem zeigen DeepSeek, Gemini und GPT 5.1 chat-latest gute Ergebnisse. Infolgedessen sollten Sie für kritische Anwendungen diese Modelle bevorzugen.

Zusammenfassung & Empfehlungen

🏆 Beste Gesamtperformance

Claude Opus 4.6

✅ Exzellente Counterfactual Robustness
✅ Beste Answer Completeness
✅ Perfekte Negative Rejection
⚠️ Höchster Preis ($5,00)

Empfehlung: Für kritische Anwendungen, wo Zuverlässigkeit wichtiger als Kosten ist.

💰 Bestes Preis-Leistungs-Verhältnis

Gemini 3.0 flash

✅ Beste Over Generalisation
✅ Sehr gute Negative Rejection
✅ Günstiger Preis ($0,50)
⚠️ Counterfactual Robustness ausreichend

Empfehlung: Für typische Chatbot Anwendungen eine
gute Wahl.

⚠️ Nicht empfohlen

Open AI 5 Nano

❌ Answer Completeness versagt
❌ Information Integration schwach
❌ Halluzinationen bei großem Context
✅ Extrem günstig ($0,05)

Fazit: Nur für unkritische, einfache Aufgaben geeignet.

Methodik & Transparenz

Alle Tests wurden unter kontrollierten Bedingungen durchgeführt. Dabei nutzen wir identische Prompts für alle Modelle. Außerdem verwenden wir realistische Anwendungsfälle. Somit sind die Ergebnisse vergleichbar.

Die Bewertung erfolgt manuell durch Experten. Jede Antwort wird geprüft. Infolgedessen sind die Ergebnisse objektiv. Dennoch können Interpretationen variieren.

Wir aktualisieren die Benchmarks regelmäßig. Neue Modellversionen werden zeitnah getestet. Daher bleiben die Daten relevant. Außerdem erweitern wir kontinuierlich die Test-Szenarien.

Weitere Informationen zur Methodik finden Sie in unserer Konzept-Seite. Dort erklären wir die Test-Verfahren detailliert.

Mehr über verlässliche AI-Agenten erfahren

Entdecke, wie Du diese Benchmarks für Deine Projekte nutzen kannst. Außerdem lernst Du die 4 Grundbausteine kennen.

Zur Hauptseite

Edge Cases erklärt