Context Engineering für Chatbots: Bewerten durch Fragen

Context Engineering für Chatbots – Oder wie Sie mit ein paar Fragen herausfinden, ob ein Chatbot wirklich dialogfähig ist

Eine geeignete Wissensbasis vorausgesetzt, können Chatbots Kunden bei der Produktauswahl beraten, häufige Fragen beantworten oder sogar technische Probleme diagnostizieren und Lösungsvorschläge liefern.

Solange Wissensbasis, Fragestellung und die Fähigkeiten des eingesetzten Large Language Models (LLM) sauber aufeinander abgestimmt sind, sind die Antworten auch verlässlich – zumindest bei der ersten Frage.

Die eigentliche Bewährungsprobe beginnt jedoch mit der zweiten und jeder weiteren Frage. Dann zeigt sich, ob ein Chatbot tatsächlich dialogfähig ist oder lediglich einzelne Anfragen isoliert beantwortet. Ist Letzteres der Fall, können im Gesprächsverlauf gravierende Fehler entstehen.

Typische Fehlerbilder aus der Praxis

In verschiedenen Projekten und Tests sind uns unter anderem folgende Situationen begegnet:

– In einem Beratungsgespräch zu Hausangeboten änderte sich die besprochene Wohnfläche im Verlauf des Dialogs von rund 160 qm auf nahezu 190 qm.

– In einer Produktberatung empfahl ein Chatbot ausschließlich die vom Kunden selbst genannten Produkte und schlug keine sinnvollen Alternativen vor.

– Ein Chatbot nannte für eine Behördenfrage ein nicht existentes „Straßenbeleuchtungsamt“ als zuständige Stelle.

– Ein Chatbot behauptete, zwei Produkte könnten gemeinsam eingesetzt werden, obwohl sie technisch nichts miteinander zu tun hatten – eine objektiv falsche Auskunft.

Diese Fehler sind keine Einzelfälle und lassen sich in der Regel nicht auf „schlechte KI“ zurückführen, sondern auf ein unzureichendes Context Engineering.

Was bedeutet Context bei Chatbots?

Der Kontext eines Chatbots – streng genommen des zugrunde liegenden LLMs – lässt sich vereinfacht als dessen Aufmerksamkeitsspanne beschreiben. In diesem Kontext werden unter anderem gehalten:

– die aktuelle und vorherige Nutzerfragen,

– Systemanweisungen,

– gefundene Dokumente bzw. Chunks aus einer Wissensbasis,

– sowie Teile früherer Antworten.

Zu Beginn wird der Kontext mit der Einstiegsfrage und den dazu passenden Dokumenten gefüllt. Daraus entsteht die erste Antwort. Mit jeder weiteren Rückfrage wächst der Kontext weiter: Neue Nutzerinputs, neue Dokumente und zusätzliche Annahmen kommen hinzu.

Ohne aktives Management wird dieser Kontext schnell unübersichtlich. Das LLM kann dann nicht mehr zuverlässig unterscheiden,

– welche Aussagen zusammengehören,

– welche Informationen aus Dokumenten stammen und

– welche lediglich vom Nutzer selbst eingebracht wurden.

So entsteht beispielsweise plötzlich die falsche Wohnfläche von 190 qm, weil Dokumente oder Gesprächsteile verwechselt werden. Oder Nutzerbeispiele werden wie bestätigte Fakten behandelt. Oder zufällig gemeinsam im Kontext stehende Dokumente führen zu der Annahme, zwei Produkte könnten miteinander kombiniert werden.

Um solche Effekte zu vermeiden, wird der Kontext in vielen Systemen aktiv bereinigt oder begrenzt. Diese Bereinigung kann jedoch ebenfalls problematisch sein, wenn dabei relevante Gesprächsinformationen verloren gehen.

Ein einfaches Test-Framework zur Bewertung der Dialogfähigkeit

Um die Dialogqualität und das Kontextmanagement eines Chatbots systematisch und schnell zu beurteilen, hat sich ein dreiteiliges Test-Framework bewährt. Es lässt sich ohne technische Einblicke oder Logdaten ausschließlich über den Dialog selbst durchführen.

Ziel des Frameworks

Das Framework prüft, ob ein Chatbot in der Lage ist,

– Kontext über mehrere Dialogschritte konsistent zu halten,

– Themen und Informationsquellen sauber zu organisieren,

– über den eigenen Dialogverlauf zu reflektieren und

– auch bei längeren Gesprächen stabil zu bleiben.

Test 1: Dialogzusammenfassung (Kontextpersistenz)

Vorgehen:

Führen Sie einen längeren Dialog (mindestens 10–15 Interaktionen) zu mehreren Themen oder Aspekten eines Themas.

Testfrage:

> „Bitte fasse unser bisheriges Gespräch zusammen.“
(Anmerkung: Die hier genannten Fragen können nicht immer in dieser Form gestellt werden. Es ist hilfreich, die Fragen in den Kontext des Gesprächs zu bringen und es ist oft notwendig, Textpassagen hinzuzufügen die deutlich machen, dass es dem Anwender hilft, z.B. eine Zusammenfassung zu erhalten. Sonst kann es auch passieren, dass die Aufforderung abgelehnt wird.).

Bewertung:

– Werden tatsächlich alle besprochene Themen korrekt wiedergegeben? Oder werden z.B. ältere Teile abgeschnitten?

– Bleiben zentrale Fakten konsistent?

– Ist die Zusammenfassung logisch strukturiert?

– Tauchen Inhalte auf, die nie Teil des Dialogs waren?

In einem unserer Tests fasste ein Chatbot einen Dialog über ein konkretes Hausangebot mit den Worten zusammen:

> „Wir haben über verschiedene Themen im Zusammenhang mit Hausbau und Immobilien gesprochen. Dazu gehören die Übertragung von Eigentum bei Immobilien, der Baukostenindex für 2024 sowie allgemeine Informationen zu Geld & Recht sowie Innenausbau & Einrichtung.“

Keines dieser Themen war tatsächlich Gegenstand des Gesprächs – ein klarer Hinweis darauf, dass der Kontext entweder unkontrolliert gewachsen oder zu stark bereinigt worden war.

Test 2: Rekontextualisierung der Einstiegsfrage (Kontextreflexion)

Testfrage:

> „Wie hätte meine erste Frage formuliert sein müssen, damit ich schneller eine präzisere Antwort erhalten hätte?“

Erweiterung:

> „Welchen Themen hast du meine Fragen im Verlauf zugeordnet?“

Bewertung:

– Erkennt der Chatbot das ursprüngliche Ziel der Anfrage noch?

– Kann er die Fragestellung sinnvoll abstrahieren?

– Sind die genannten Themen plausibel und nachvollziehbar?

Wenn der Chatbot lediglich seine letzte Antwort wiederholt oder sehr vage Meta-Aussagen trifft, deutet dies darauf hin, dass der Dialogkontext nicht mehr konsistent organisiert ist. In solchen Fällen drehen sich Gespräche häufig im Kreis oder der Chatbot „erfindet“ Gesprächsanteile.

Test 3: Offenlegung der verwendeten Informationsquellen (Kontextrobustheit)

Testfrage:

> „Welche Dokumente oder Informationsquellen hast du zur Beantwortung meiner Fragen verwendet?“

Bewertung:

– Werden Quellen transparent benannt?

– Passen sie thematisch zum Dialogverlauf?

– Ist die Liste fokussiert oder ungewöhnlich lang?

Sehr lange oder thematisch heterogene Dokumentlisten deuten auf ein unkontrolliertes Kontext- oder Retrieval-Design hin und erhöhen zudem die Angriffsfläche für gezielte Kontextmanipulationen. Zuweilen werden auch Dokumente entfernt oder entfernte Dokumente und entfernte Fragen passen nicht zusammen – was auch wieder zu Halluzinationen führen kann.

Einordnung der Testergebnisse

Mit diesen drei Tests erhalten Sie einen fundierten Eindruck davon,

– ob der Kontext eines Chatbots kontinuierlich und kontrolliert wächst,

– ob er aktiv, aber sinnvoll gemanaged wird oder

– ob relevante Informationen verloren gehen bzw. vermischt werden

– und ob der Chatbot sie darüber informiert, was er über das Gespräch weiß oder nach längeren Gesprächen beginnt, sich zu verlieren.

Optional lassen sich die Tests auch mit einer einfachen Bewertungsskala (z. B. von 1 = unbrauchbar bis 5 = robust) versehen, um unterschiedliche Systeme vergleichbar zu machen.

Fazit

Dialogprobleme bei Chatbots sind selten Zufall. Sie sind fast immer ein Symptom unzureichenden Context Engineerings – sei es durch unkontrolliertes Kontextwachstum, mangelhafte Strukturierung oder zu aggressive Bereinigung.

Die hier vorgestellten drei Fragen bilden ein einfaches, aber wirkungsvolles Test-Framework, mit dem Sie die Dialogqualität eines Chatbots realistisch einschätzen können. Gleichzeitig liefern sie unmittelbare Hinweise auf mögliche Optimierungen, etwa durch besseres Dokumentenmanagement, thematische Rahmung oder explizite Kontextsteuerung.

Probieren Sie es aus. Und wenn Sie Ergebnisse gesammelt haben, freuen wir uns über Ihr Feedback!

Rely-QA

Context Engineering für Chatbots – Oder wie Sie mit ein paar Fragen herausfinden, ob ein Chatbot wirklich dialogfähig ist

Context Engineering für Chatbots – Oder wie Sie mit ein paar Fragen herausfinden, ob ein Chatbot wirklich dialogfähig ist

Typische Fehlerbilder aus der Praxis

Was bedeutet Context bei Chatbots?

Ein einfaches Test-Framework zur Bewertung der Dialogfähigkeit

Einordnung der Testergebnisse

Fazit

Schreibe einen Kommentar Antwort abbrechen