DeepSeek – durchaus ernstzunehmen, aber im Alltags-Reasoning echte Schwächen

DeepSeek ist in den letzten Wochen mit sehr tiefgehenden Innovationen aufgefallen. Sowohl mHC (magnifold-Constrained Hyper-Connections) als auch Engram sind Innovationen, die sich direkt mit dem Kern der Architektur des Deep Learnings beschäftigen und die das Lerntempo und die notwendigen Ressourcen optimieren.

In unseren Tests hatte DeepSeek nicht schlecht abgeschnitten und das Handelsblatt vermutet, dass der Druck auf das Unternehmen, Innovationen zu entwickeln, recht hoch sein sollte.
(https://www.handelsblatt.com/finanzen/maerkte/china-vier-thesen-zum-riskanten-ki-boersenboom-der-volksrepublik/100190578.html).

Und da es gerade Themen rund um’s Reasoning gab dachten wir, testen wir doch mal DeepSeek auf seine Reasoningfähigkeiten.

Die von uns gewählte Aufgabe bewegt sich eher im Bereich des Alltagswissens: Das System muss eine Idee dafür entwickeln, wie man aus einem DinA2 Papier durch Falten und Reißen ein DinA4 und ein DinA3 Papier erzeugen kann. Dazu kommt die Anforderung, dass die Linien sowohl auf dem DinA2 als auch auf dem DinA4 Papier quer verlaufen sollen und der erst rechte Rand auf die linke Seite wechseln soll.

Gemini 3.0 ist da ganz gewieft und findet eine Lösung. Es geht sehr strategisch vor und plant erstmal seine Vorgehensweise. Es unterteilt seine Überlegungen in Einzelschritte wie „Analyzing Available Paper Sizes“, „Mapping Paper Formats Logically“, „Adressing A4 Lined Requirements“ etc. Tatsächlich wirken die „Denkschritte“ sehr zielorientiert. Nach wenigen Sekunden liegt eine meist korrekte Lösung vor.

Unser Interesse war geweckt und wir haben das dann noch ein bisschen tiefer mit anderen Beispielen probiert. Und tatsächlich plant Gemini seine Denkstrategie sehr intelligent und versucht auch, aus den von ihm gelernten Methoden und Modellen diejenigen auszusuchen, die zu dem jeweiligen Einsatzzweck passen.

DeepSeek braucht bis zu 400 Sekunden und eine Unzahl Thinking Tokens, um zu einer Lösung zu kommen. Und im Unterschied zu Gemini ist kein „Denkweg“ erkennbar.

DeepSeek beginnt immer wieder, Lösungen anzudenken und stoppt die Überlegung, wenn sie sich als nicht gleich als erfolgreich erweisen.

„Wie bekommen wir das hin?“ fragt es sich zu Beginn des Denkprozesses. Ungefähr 50 Worte später werden die ersten Möglichkeiten beschrieben. Nach weiteren ca. 100 Worten kommt „Eine bessere Idee:“, die mit einem „Aber“ und dem Hinweis auf ein Problem beendet wird. Nach einem weiteren, längeren Denkvorgang kommt dann ein „Vorschlag:“. Der beendet wird mit „Aber dann haben wir das A3 noch nicht.“. Auch der nächste Ansatz wird beendet mit „Also geht das nicht“.

Und so geht es über 400 Sekunden hin und her. Eine echte „Denk-Strategie“ ist nicht erkennbar. Und in den meisten Fällen wird auch keine Lösung erreicht.

Für uns war das ein interessantes Ergebnis, denn in den „offiziellen“ Reasoning-Benchmarks wie AIME-2025 ist DeepSeek 3.2 nicht weit weg von Gemini oder GPT 5.2.

Und gibt man DeepSeek eine Differentialgleichung zur Lösung, dann funktioniert das auch hervorragend. Aber eine „einfache“ Alltagsaufgabe, das ist in den Reasoningstrategien von DeepSeek (noch) nicht vorgesehen.

Wir haben diese Testaufgabe auch noch mit anderen LLMs getestet. Wie auch in anderen Tests zeigt sich, dass Gemini 3.0 pro hier im Moment schon echt Standards setzt. Sicherlich das Modell im Moment, das sich für komplexes Reasoning anbietet.

Rely-QA

DeepSeek – durchaus ernstzunehmen, aber im Alltags-Reasoning echte Schwächen

Schreibe einen Kommentar Antwort abbrechen