Verlässlichkeit und Vorhersehbarkeit – AI, auf die man sich verlassen kann

Auch modernste AI ist immer mal wieder unzuverlässig und generiert Antworten oder führt Aktionen aus, bei denen sich der gesunde Menschenverstand an den Kopf greift.

Geht es jedoch zum Beispiel um den Einsatz eines Agenten oder auch nur eines Service Chatbots für eine Versicherung, dann setzt man eine hohe Verlässlichkeit voraus, denn sonst ist das Risiko eines Einsatzes schlicht zu hoch.

„Aber leider“ – so heißt es dann – „sind Large Language Models nun mal keine deterministischen Systeme, sondern probabilistische“. Was man damit sagen möchte ist: Ein bisschen ist es Zufall, ob die Antwort richtig ist oder nicht.

In diesem Beitrag wollen wir die drei wesentlichen Bausteine vorstellen, die man benötigt, um tatsächlich verlässliche, sichere AI zu erreichen.

Wie funktioniert GenAI

Ein auf einem LLM basierender Agent wird gerne wie ein „denkender Akteur“ behandelt, dessen Arbeitsergebnisse sich eben ein bisschen zufällig ergeben. Man „probiert mal aus“, was denn ein Agent in einem speziellen Fall macht oder sagt – ohne eine Idee davon zu haben, was das erwartete Verhalten sein sollte.

Es zahlt sich aus, diese Systeme als verstehbare und planbare Maschinen zu verstehen.

Es ist richtig, dass aller Output eines LLMs Ergebnis eines statistischen Prozesses ist. Aber das ist beispielsweise das Essen am Ende eines Kochvorganges auch. Wie ganz genau das Essen nun schmeckt, hängt von so vielen vorher nur wenig bestimmbaren Parametern ab, dass man immer mal wieder eine gewisse Schwankungsbreite hinnehmen muss.

Wichtig ist dabei, dass man den Gesamtprozess des Kochens so im Griff hat, dass diese Schwankungsbreite den Ansprüchen genügt. Dieses „den Gesamtprozess im Griff haben“ ist der wesentliche Ansatz, um auch verlässliche AI zu erreichen.

Der Gesamtprozess ist so komplex – auf was man sich konzentrieren kann

AI basierte Systeme bestehen aus vielen Bausteinen, die teilweise sehr komplexe Verhaltensmuster zeigen. Daher scheinen sie oft unverstehbar, wenig vorhersehbar und die Ergebnisse werden als wenig beeinflussbar hingenommen. Sind die Ergebnisse nicht wie gewünscht, dann sagt man eben „soweit ist die Technik dann doch noch nicht“.

Und bleibt beim Status quo, was ja auch ein bisschen bequem ist.

Um ein AI System etwas besser verstehen zu können macht es Sinn, es zumindest in drei Hauptbestandteile zu unterteilen, die dann einzeln in ihren Eigenschaften verstanden, analysiert und gesteuert werden können.

Schauen wir uns diese drei Bestandteile an:

Die Grundlage: Die Daten im Context

Nehmen wir das Beispiel eines einfachen Chatbots, der Kunden Antworten geben soll. Natürlich benötigt dieser Chatbot Daten, mit denen das System die passenden Antworten erstellen kann. Diese Daten liegen in irgendeiner Wissensdatenbank, im Filesystem oder wo auch immer.

Diese Daten müssen nun irgendwie in den „Context“ des Large Language Models geladen werden. Zusammen mit allen anderen Anweisungen, denn der Context ist das einzige „Gedächtnis“, mit dem das LLM arbeitet.

So ein Context ist bis zu einer Million Token groß – das sind vielleicht 3 – 4 Millionen Zeichen. Das ist schon eine ganze Menge. Allerdings muss man beachten, dass die Antworten eines LLMs um so unzuverlässiger werden, je größer der Inhalt im Context ist. Es ist deutlich besser, wenn sich nur ca. 100.000 – 200.000 Token im Context befinden. Das ist für die meisten Modelle und Fälle abhängig von der Komplexität schon die Obergrenze für eine verlässliche Bearbeitung.

Neben der Menge der Inhalte im Context spielt der Aufbau, die Komplexität eine große Rolle. Einige Beispiele dazu:

Verweise zwischen den Inhalten sind immer etwas kritisch und erhöhen die Komplexität für das LLM
Sind zusammengehörende Inhalte weit verstreut, weit entfernt voneinander, dann besteht das Risiko, dass Antworten nicht vollständig sind
Man kann ein LLM auch „ablenken“. Sind ähnliche Inhalte im Kontext enthalten, dann kann es schnell mal sein, dass Inhalte verwechselt und falsch verwendet werden.
Wenn Aufzählungen mittendrin unterbrochen werden oder Überschriftenhierarchien irritierend sind, kann das LLM zuweilen nicht einschätzen, ob der Text noch zu der vorhergehenden Überschrift gehört oder etwas Neues ist.

Den „Produktionsprozess“ eines LLM basierten Agenten im Griff zu haben bedeutet zu wissen, was denn im Context des LLMs steht.

Dazu ist es notwendig, einen Überblick über die Dokumente zu besitzen und zu wissen, wie denn der Context gefüllt wird. (Spannende Details findet man hier https://rely-qa.de/2026/04/25/reasoning-im-kundenservice-wenn-die-ki-nicht-nur-antwortet-sondern-nachdenkt/)

Es gibt hier Softwaretools, die permanent zum Beispiel den Zusammenhang zwischen der Frage und dem Context-Inhalt überprüfen und entsprechend die Produktion permanent überwachen. Aus unserer Sicht ist das allerdings schon ein wenig an den Symptomen „rumgebastelt“. Viel besser ist es zu wissen, mit welchem Prozess der Context gefüllt wird und wie er typischerweise aussieht.

DEr Plan: Übersicht zu Aufgaben und Fragen

Grundsätzlich kann man unendlich viele Fragen stellen. Daher benötigt ein Agent eine konkrete Begrenzung auf die von ihm zu leistenden Antworten. „Beantworte nur Fragen, zu denen Du Informationen in den Dokumenten findest“ schränkt Systeme nicht sinnvoll ein.

Nehmen wir das Beispiel eines Behörden-Chatbots, der verlässlich und gute Antworten zu Fragestellungen gibt wie:

Was kostet ein neuer Führerschein
Wie bekomme ich einen neuen Personalausweis

Alle diese Fragen beantwortet er sehr gut.Fragt man ihn nach Dingen, die nicht in seinen Dokumenten stehen, dann kann er die Antwort ablehnen:

„Dazu habe ich leider keine Informationen in meinen Dokumenten“.

Soweit, so gut. Aber nun fragt ein Anwender:

„Ich bin umgezogen. Welche Behördengänge muss ich machen“

Oder

„Ich habe geheiratet. In welcher Reihenfolge arbeite ich nun meine Behördengänge ab“.

Ausgeschlossen ist die Beantwortung der Frage ja nicht, denn man kann grundsätzlich schlussfolgern, dass die relevanten Behördengänge in den Daten zu finden sind.

Allerdings steht zu Lebenssituationen oder Reihenfolgen nichts in den Dokumenten, daher wird das System dann typischerweise falsch antworten. Es sei denn, die Fragen sind von vorneherein begrenzt.

Und das ist die entscheidende Idee: Ein Agent ist nur dann verlässlich, wenn ganz klar definiert ist, welche typischen Aufgaben er erledigt und welche nicht. Begegnen einem Agenten Aufgaben, die ihrer Art nach unbekannt sind, dann steigt das Risiko einer falschen Bearbeitung.

Die zweite wesentliche Anforderung ist es also, die zu bearbeitenden Fragen zu definieren und den Chatbot dann auch so zu bauen, dass er genau nur diese Fragen auch tatsächlich beantwortet. Und keine anderen!

Manchmal macht es auch Sinn, Fragen so umzuschreiben, dass sie beantwortbar werden (Hier spannende Ideen dazu https://rely-qa.de/2026/03/26/mit-der-richtigen-frage-zur-richtigen-antwort-oder-warum-es-besser-ist-in-einem-jaguar-zu-sitzen-als-auf-einem/)

Das Werkzeug – man muss das Model kennen

Irgendwie ist jedes angebotene Modell das Beste. Benchmarks sind so komplex, dass sie oft nicht wirklich verständlich sind. Und ob sie konkret zu meinen Anforderungen passen ist aus einem Benchmark nicht so einfach ableitbar.

Welches Modell soll ich dann in meinem Projekt nehmen? Welche Leistungsfähigkeit brauche ich für meinen Agenten?

Tatsächlich kann man das nur wissen, wenn man die konkrete Aufgabe weiß.

Haben wir aber eine Vorstellung der Inhalte im Context und wissen wir, welche Fragen gestellt werden, dann können wir auch die Komplexität der Aufgabe abschätzen und verschiedene Beispielfälle konstruieren und testen. Wichtig dabei ist es, nicht einfach unbedacht 10 oer 20 Fälle fachlich herauszugreifen, sondern Beispiele verschiedener Komplexitätsstufen zu verwenden.

Und da kann es sich dann beispielsweise rausstellen, dass es durchaus möglich ist, sicher zu Eigenschaften von Produkten zu beauskunften, dass aber die Beantwortung von Produktvergleichen oder Produktberatungen nicht sinnvoll möglich sind.

Ein paar Tipps dazu findet man auch in hier: https://rely-qa.de/2026/04/09/testen-ist-ja-gut-aber-hoert-das-auch-mal-wieder-auf/

Fazit

Wie immer macht es keinen Sinn, einfach nur „auszuprobieren“. Ob AI verlässlich agiert kann man im Vorfeld ganz gut abschätzen. Wichtig ist, sich detailliert mit den drei benannten Hauptparametern zu beschäftigen:

Welche Aufgaben/Fragen sollen bearbeitet werden?
Welche Daten sind tatsächlich im Context und wie sind sie strukturiert
Wie hoch ist die Komplexität der vom LLM zu leistenden Funktionen und mit welchem Modell kann das geleistet werden

Rely-QA