DeepSeek V3.2 im Test: Ein ernstzunehmender KI-Player

Chinesische Unternehmen sorgen in letzter Zeit oft für Schlagzeilen im Bereich der künstlichen Intelligenz – und offensichtlich kann das Land leistungsfähige LLMs (Large Language Models) bereitstellen. Da war es höchste Zeit, auch DeepSeek 3.2 einmal genauer unter die Lupe zu nehmen.

Ein erster Überblick

DeepSeek 3.2 ist noch recht neu (Release: 01.12) und per API verfügbar. Der Preis liegt bei 0,28 USD pro 1 Million Token. Verschiedene Varianten stehen zur Auswahl; wir haben uns für DeepSeek-Chat entschieden.

DeepSeek 3.2 ist auch deswegen etwas besonderes, weil mit dieser Version eine neue Technologie für die Auswahl der für den Attention Mechanismus ausgewählten Token entwickelt wurde, die eine Optimierung im Umgang mit großen Kontexten erlaubt. Damit können reduzierte Kosten erreicht werden bei laut DeepSeek dennoch großen Kontexten.

Neben der API gibt es DeepSeek auch in einer Chat-Oberfläche, die – ähnlich wie ChatGPT – auf „Reasoning nach Bedarf“ setzt. Bei unserer API-Testversion wurde allerdings kein Reasoning aktiviert.

Kurz gesagt: DeepSeek schlägt sich gut. Die Benchmark-Vergleiche zu anderen Modellen findet ihr hier.

Test 1: Logische Integration umfangreicher Einzelaussagen

Hier wird geprüft, ob das Modell verschiedene Einzelaussagen aus umfangreichen Dokumenten zu einer kohärenten und vollständigen Antwort zusammenführen kann – in unserem Fall Bedingungen, die bei der Antwort berücksichtigt werden müssen.
Ergebnis: Hervorragend. DeepSeek machte praktisch keinen Fehler (zum Benchmark-Test).

Test 2: Vollständigkeit der Antworten

Die zweite Aufgabe bestand darin, sicherzustellen, dass alle relevanten Themen in der Antwort berücksichtigt werden – sowohl Prozessanweisungen als auch technische Details. Auch hier überzeugte DeepSeek. Einige Punkte „vergaß“ das Modell, die Leistung ist jedoch mit GPT-5.2 vergleichbar (zum Benchmark-Test).

Test 3: Generalisierung vs. Kontexttreue

Interessanterweise neigt DeepSeek dazu, Informationen zu generalisieren. In diesem Test geht es darum, die in einem Kontext genannten Regeln nicht einfach auch auf einen anderen anzuwenden, nur weil da nichts Gegenteiliges steht. Das klappt nur bei sehr kleinen Kontextgrößen; bei größeren Kontexten scheitert das System, ähnlich wie GPT-5.2. Bisher konnte nur Gemini 2.5 diese Aufgabe zuverlässig meistern. Allerdings ist das eine wirklich praxisrelevante Funktion, daher testen wir diese Fähigkeit (zum Benchmark-Test).

Anmerkung: Generell würde ich bezweifeln, dass diese Funktion schon das geänderte Kontext-Management in DeepSeek testet, die auftretenden Fehler würde ich schon als eher genereller Natur einschätzen da mit steigender Textlänge im Kontext natürlich die Kalkulation unschärfer wird.

Test 4: Umgang mit Widersprüchen in den Daten

Bei widersprüchlichen Daten ignoriert DeepSeek einfach die Konflikte. Modelle wie die von Anthropic identifizieren hingegen in diesem Test alle Widersprüche (zum Benchmark-Test).

Test 5: Unzulässige Vervollständigung unvollständiger Beschreibungen (Halluzination)

In diesem Test generiert DeepSeek mal umfangreiche Halluzinationen, mal verhält es sich ganz korrekt. In der Mehrzahl der Fälle jedoch werden Halluzinationen generiert. (zum Benchmark-Test).

Fazit

DeepSeek V3.2 überzeugt vor allem durch:

Sehr gute Integration komplexer Informationen
Vollständige Antworten bei technischen Aufgaben

Schwächen sind vor allem:

Neigung zur Generalisierung bei großen Kontexten
Potentiell umfangreiche Halluzinationen
Ignorieren von Widersprüchen

Insgesamt zeigt DeepSeek, dass es ein ernstzunehmender Spieler im Bereich KI-Modelle ist – sowohl technisch stark als auch in der Praxis interessant.

Fun Fact

Der Test zu Halluzinationen besteht darin, dass das System aus einer sehr groben und unvollständigen Anfahrtsbeschreibung eine detaillierte erstellen soll – was natürlich nicht möglich ist. Doch das System begann, plausible Annahmen zu treffen: Es schlug die B10 oder alternativ die A8 als Route vor, erfand Straßennamen wie „Bahnhofstraße“ oder „Gartenstraße“ und beschrieb Landschaftsmerkmale und Entfernungen, die nicht in den Eingabedaten enthalten waren.

Auf Nachfrage erklärte das System:

„Das ist die entscheidende Schwachstelle meiner Antwort – und ein perfektes Beispiel dafür, wie KI-Modelle bei fehlenden Informationen plausible Annahmen treffen, die in der Realität völlig unzutreffend sein können.“

Ehrlichkeit ist selten, und so ein transparentes Verhalten kann in der Praxis durchaus hilfreich sein.

Referenzen

Unsere Benchmarks — https://rely-qa.de/benchmarks/
DeepSeek API Dokumentation – Einstieg & Beispiele (inkl. Modellnamen, Endpunkte, Nutzungshinweise) — https://api-docs.deepseek.com/
DeepSeek‑V3.2 Release Notes und technische Details (offizielle Release‑Infos & Modelldokumentation) — https://api-docs.deepseek.com/news/news251201

Rely-QA