LLM Benchmark-Vergleich
Wir testen führende Large Language Models systematisch. Dabei prüfen wir 5 kritische Edge Cases. Damit Du das passende Modell für Deinen Einsatz findest.
Wir vergleichen Kosten und Performance. Für Deine fundierte Entscheidungen.
Getestete Modelle im Überblick
| Modell | Anbieter | Preis pro Million Token | Kategorie |
|---|---|---|---|
| GPT 5.1 | OpenAI | $1,25 | Premium |
| GPT 5.1 chat-latest | OpenAI | $1,25 | Premium |
| Open AI Chat 5.2 latest | OpenAI | $1,75 | Premium |
| Open AI 5 Nano | OpenAI | $0,05 | Budget |
| Open AI GPT-5.4-2026-03-05 | OpenAI | $2,50 | Premium |
| Opus 4.5 | Anthropic | $5,00 | Premium Plus |
| Opus 4.6 | Anthropic | $5,00 | Premium Plus |
| Haiku | Anthropic | $1,00 | Standard |
| Gemini 2.5 flash | $0,30 | Budget Plus | |
| Gemini 3.0 flash | $0,50 | Budget Plus | |
| DeepSeek V3.2 | DeepSeek | $0,28 | Budget Plus |
Alle Preise verstehen sich für Input-Tokens. Außerdem können Output-Token-Preise abweichen. Daher prüfen Sie die aktuellen Preise bei den Anbietern.
🔗
Information Integration
Was wird getestet:
Die Fähigkeit, Informationen aus mehreren Quellen zu kombinieren. Dies ist essentiell für komplexe Aufgaben. Folglich müssen LLMs verschiedene Textstellen verknüpfen können.
Test-Setup:
- Fall 1: Ca. 3000 Token, 3 Textstellen
- Fall 2: 3000 Token, 3 Textstellen, umfangreichere Frage
Testergebnisse
| Modell | Fall 1 | Fall 2 | Bewertung |
|---|---|---|---|
| GPT 5.1 | ❌ Fehlerhaft | ✅ Korrekt | 🟡 Teilweise |
| GPT 5.1 chat-latest | ❌ Fehlerhaft | ✅ Korrekt | 🟡 Teilweise |
| Open AI Chat 5.2 latest | ❌ Fehlerhaft | ❌ Fehlerhaft | 🔴 Nicht bestanden |
| Open AI 5 Nano | ❌ Fehlerhaft | ❌ Fehlerhaft | 🔴 Nicht bestanden |
| Open AI GPT-5.4-2026-03-05 | ❌ Fehlerhaft | ❌ Fehlerhaft | 🔴 Nicht bestanden |
| Opus 4.5 | ⚠️ Mit Hinweis | ✅ Korrekt | 🟢 Gut |
| Opus 4.6 | ✅ Korrekt | ✅ Korrekt | 🟢 Sehr gut |
| Haiku | ⚠️ Mit Hinweis | ❌ Fehlerhaft | 🔴 Nicht bestanden |
| Gemini 2.5 flash | ❌ Fehlerhaft | ✅ Korrekt | 🟡 Teilweise |
| Gemini 3.0 flash | ✅ Korrekt | ✅ Korrekt | 🟢 Sehr gut |
| DeepSeek V3.2 | ⚠️ Mit Hinweis | ✅ Korrekt | 🟢 Gut |
Interpretation: Opus 4.6 zeigt die beste Performance. Es markiert sogar unsichere Antworten. Dagegen scheitern die Budget-Modelle häufiger. Gemini 3.0 flash ist jedoch eine gute Wahl.
✓
Answer Completeness
Was wird getestet:
Die Vollständigkeit der Antworten. Eine richtige Antwort ist nicht immer vollständig. Daher prüfen wir, ob wichtige Details fehlen. Somit erkennen wir unvollständige Informationen.
Test-Setup:
- 8500 Token Context
- Informationen über technische und prozessbezogene Anweisungen
- Beide Bereiche müssen in der Antwort enthalten sein
Testergebnisse
| Modell | Ergebnis | Bewertung |
|---|---|---|
| GPT 5.1 | ✅ Erfolgreich (elaboriert, nützlich) | 🟢 Sehr gut |
| GPT 5.1 chat-latest | ✅ Erfolgreich | 🟢 Sehr gut |
| Open AI Chat 5.2 latest | ✅ Erfolgreich | 🟢 Sehr gut |
| Open AI 5 Nano | ❌ Prozessanweisungen übersehen | 🔴 Nicht bestanden |
| Open AI GPT-5.4-2026-03-05 | ❌ Prozessanweisungen übersehen | 🔴 Nicht bestanden |
| Opus 4.5 | ✅ Erfolgreich, sehr strukturiert | 🟢 Exzellent |
| Opus 4.6 | ✅ Erfolgreich, sehr strukturiert | 🟢 Exzellent |
| Haiku | ❌ Prozessanweisungen übersehen | 🔴 Nicht bestanden |
| Gemini 2.5 flash | ❌ Prozessanweisungen übersehen | 🔴 Nicht bestanden |
| Gemini 3.0 flash | ✅ Erfolgreich | 🟢 Sehr gut |
| DeepSeek V3.2 | ✅ Erfolgreich (einzelne Punkte fehlen) | 🟢 Sehr gut |
Interpretation: Premium-Modelle liefern vollständige Antworten. Allerdings ist Gemini 3.0 flash durchaus eine Option.
⚡
Over Generalisation
Was wird getestet:
Geprüft wird, ob LLMs Regeln auf unpassende Fälle übertragen. Beispielsweise gilt eine Regelung nur für Führerscheine. Dennoch wenden manche Modelle diese auf Personalausweise an. Dies führt zu falschen Ergebnissen.
Test-Setup:
- Kleiner Context: ca. 200 Token
- Großer Context: ca. 3000 Token
- Einfacher Fall vs. umfangreicher Fall
Testergebnisse
| Modell | Klein+Einfach | Groß+Einfach | Groß+Komplex | Bewertung |
|---|---|---|---|---|
| GPT 5.1 | ✅ Sicher | ❌ Fehlerhaft | ❌ Fehlerhaft | 🔴 Anfällig |
| GPT 5.1 chat-latest | ✅ Sicher | ❌ Fehlerhaft | ❌ Fehlerhaft | 🔴 Anfällig |
| Open AI Chat 5.2 latest | ✅ Sicher | ✅ Korrekt | ❌ Fehlerhaft | 🟡 Teilweise |
| Open AI 5 Nano | ✅ Sicher | ❌ Fehlerhaft | ❌ Fehlerhaft | 🔴 Anfällig |
| Open AI GPT-5.4-2026-03-05 | ✅ Sicher | ✅ Sicher | ❌ Fehlerhaft | 🟡 Gut |
| Opus 4.5 | ✅ Sicher | ✅ Sicher | ❌ Fehlerhaft | 🟡 Gut |
| Opus 4.6 | ✅ Sicher | ✅ Sicher | ✅ Sicher | 🟢 Exzellent |
| Haiku | ✅ Sicher | ✅ Sicher | ❌ Fehlerhaft | 🟡 Gut |
| Gemini 2.5 flash | ✅ Sicher | ✅ Sicher | ✅ Sicher | 🟢 Exzellent |
| Gemini 3.0 flash | ✅ Sicher | ✅ Sicher | ✅ Sicher | 🟢 Exzellent |
| Deep Seek V3.2 | ✅ Sicher | ❌ Fehlerhaft | ❌ Fehlerhaft | 🔴 Anfällig |
Interpretation: Gemini und Opus 4.6 sind hier zuverlässig. Dagegen sind GPT-Modelle und DeepSeek anfälliger. Infolgedessen sollten Sie für komplexe Regelwerke Gemini oder Opus wählen.
⚖️
Counterfactual Robustness
Was wird getestet:
Wie LLMs mit Widersprüchen umgehen. Oft enthalten Daten widersprüchliche Informationen. Manche Modelle ignorieren diese. Andere erkennen Widersprüche zuverlässig. Für korrekte Antworten ist diese Fähigkeit kritisch.
Test-Setup:
- Kleiner Context: 1.600 Token
- Großer Context: 12.000 Token
- Widersprüchliche Zeitabläufe im Text
Testergebnisse
| Modell | Klein (1.6k) | Groß (12k) | Bewertung |
|---|---|---|---|
| GPT 5.1 | ✅ Erkannt | ❌ Nicht erkannt | 🟡 Teilweise |
| GPT 5.1 chat-latest | ✅ Erkannt | ❌ Nicht erkannt | 🟡 Teilweise |
| Open AI Chat 5.2 latest | ✅ Erkannt | ❌ Nicht erkannt | 🟡 Teilweise |
| Open AI 5 Nano | ✅ Erkannt | ❌ Nicht erkannt | 🟡 Teilweise |
| Open AI GPT-5.4-2026-03-05 | ❌ Nicht erkannt | ❌ Nicht erkannt | 🔴 Nicht bestanden |
| Opus 4.5 | ✅ Erkannt | ✅ Erkannt | 🟢 Exzellent |
| Opus 4.6 | ✅ Erkannt | ✅ Erkannt | 🟢 Exzellent |
| Haiku | ✅ Erkannt | ✅ Erkannt | 🟢 Exzellent |
| Gemini 2.5 flash | ❌ Nicht erkannt | ❌ Nicht erkannt | 🔴 Nicht bestanden |
| Gemini 3.0 flash | 🟡 Teilweise erkannt | 🟡 Teilweise erkannt | 🟢 gut |
| DeepSeek V3.2 | ❌ Nicht erkannt | ❌ Nicht erkannt | 🔴 Nicht bestanden |
Interpretation: Anthropic-Modelle (Opus, Haiku) erkennen Widersprüche auch bei großem Context. Dagegen versagen GPT-Modelle bei 12k Tokens. DeepSeek scheitert komplett. Mit Gemini 3.0 flash ist man gut beraten.
🚫
Negative Rejection
Was wird getestet:
Ob LLMs zugeben, wenn sie keine Antwort kennen. Manchmal liegen keine Daten vor. Dann sollte das Modell dies sagen. Stattdessen erfinden manche Modelle Antworten. Dies nennt man Halluzinationen.
Test-Setup:
- Kleiner Context: 240 Token
- Großer Context: 1.600 Token
- Fragen zu Details, die nicht im Context sind
Testergebnisse
| Modell | Klein (240) | Groß (1.6k) | Bewertung |
|---|---|---|---|
| GPT 5.1 | ⚠️ Viele Annahmen | ⚠️ Halluzinationen | 🔴 Anfällig |
| GPT 5.1 chat-latest | ✅ Keine Halluz. | ✅ Keine Halluz. | 🟢 Sehr gut |
| Open AI Chat 5.2 latest | ⚠️ Mit „in der Regel“ | ❌ Zusatzinfos erfunden | 🔴 Anfällig |
| Open AI 5 Nano | ✅ Keine Halluz. | ❌ Zusatzinfos erfunden | 🟡 Teilweise |
| Open AI GPT-5.4-2026-03-05 | ✅ Keine Halluz. | ✅ Keine Halluz. | 🟢 Sehr gut |
| Opus 4.5 | ✅ Lehnt ab | ✅ Lehnt ab | 🟢 Exzellent |
| Opus 4.6 | ✅ Keine Halluz. | ✅ Keine Halluz. | 🟢 Exzellent |
| Haiku | ✅ Keine Halluz. | ⚠️ Wenige Zusatzinfos | 🟢 Gut |
| Gemini 2.5 flash | ✅ Keine Halluz. | ✅ Keine Halluz. | 🟢 Sehr gut |
| Gemini 3.0 flash | ✅ Keine Halluz. | ✅ Keine Halluz. | 🟢 Sehr gut |
| DeepSeek V3.2 | ❌ Zusatzinfos erfunden | ❌ Zusatzinfos erfunden | 🔴 Anfällig |
Interpretation: Opus 4.5 lehnt Antworten bei fehlenden Daten ab. Dies ist optimal. Dagegen halluziniert GPT 5.1 häufig. Außerdem zeigen DeepSeek, Gemini und GPT 5.1 chat-latest gute Ergebnisse. Infolgedessen sollten Sie für kritische Anwendungen diese Modelle bevorzugen.
Zusammenfassung & Empfehlungen
🏆 Beste Gesamtperformance
Claude Opus 4.6
- ✅ Exzellente Counterfactual Robustness
- ✅ Beste Answer Completeness
- ✅ Perfekte Negative Rejection
- ⚠️ Höchster Preis ($5,00)
Empfehlung: Für kritische Anwendungen, wo Zuverlässigkeit wichtiger als Kosten ist.
💰 Bestes Preis-Leistungs-Verhältnis
Gemini 3.0 flash
- ✅ Beste Over Generalisation
- ✅ Sehr gute Negative Rejection
- ✅ Günstiger Preis ($0,50)
- ⚠️ Counterfactual Robustness ausreichend
Empfehlung: Für typische Chatbot Anwendungen eine
gute Wahl.
⚠️ Nicht empfohlen
Open AI 5 Nano
- ❌ Answer Completeness versagt
- ❌ Information Integration schwach
- ❌ Halluzinationen bei großem Context
- ✅ Extrem günstig ($0,05)
Fazit: Nur für unkritische, einfache Aufgaben geeignet.
Methodik & Transparenz
Alle Tests wurden unter kontrollierten Bedingungen durchgeführt. Dabei nutzen wir identische Prompts für alle Modelle. Außerdem verwenden wir realistische Anwendungsfälle. Somit sind die Ergebnisse vergleichbar.
Die Bewertung erfolgt manuell durch Experten. Jede Antwort wird geprüft. Infolgedessen sind die Ergebnisse objektiv. Dennoch können Interpretationen variieren.
Wir aktualisieren die Benchmarks regelmäßig. Neue Modellversionen werden zeitnah getestet. Daher bleiben die Daten relevant. Außerdem erweitern wir kontinuierlich die Test-Szenarien.
Weitere Informationen zur Methodik finden Sie in unserer Konzept-Seite. Dort erklären wir die Test-Verfahren detailliert.
Mehr über verlässliche AI-Agenten erfahren
Entdecke, wie Du diese Benchmarks für Deine Projekte nutzen kannst. Außerdem lernst Du die 4 Grundbausteine kennen.
