Verlässliche AI-Agenten bauen

Large Language Models bieten enorme Möglichkeiten. Dennoch scheitern viele Projekte an fehlender Verlässlichkeit. Wir beschreiben hier was notwendig ist, um Verlässlichkeit sicherzustellen. Dafür benötigt man vier Bausteine.

Wir helfen Dir damit, die richtige Vorgehensweise zu wählen, das LLM richtig einzusetzen und das passende und für Deinen Fall kostengünstigste Modell auszuwählen.

Die Herausforderung: GenAI ist probabilistisch

Large Language Models arbeiten statistisch. Sie berechnen Wahrscheinlichkeiten. Folglich liegen Ergebnisse in einer Verteilungskurve. Dies ist normal für KI-Systeme.

Allerdings sind Texte nicht-linear. Ein einzelnes Wort ändert die Bedeutung komplett. Beispielsweise macht „nicht“ aus einer Zustimmung eine Ablehnung. Daher sind Texte herausfordernd für statistische Verfahren.

Dennoch können wir das Verhalten zumindest allgemein vorhersagen. Die Fehlerrate hängt von messbaren Details ab. Und damit lässt sich die Performance steuern.

Viele Projekte scheitern an Halluzinationen. LLMs erfinden Fakten. Außerdem liefern sie unvollständige Antworten. Darüber hinaus generalisieren sie falsch.

Diese Probleme sind jedoch vorhersehbar. Sie treten in bekannten Mustern auf. Somit können wir sie systematisch adressieren. Dies erfordert allerdings strukturiertes Vorgehen.

Aus diesem Grund macht ein Ansatz mit vier Grundbausteinen Sinn. Dieser garantiert verlässliche Ergebnisse. Ergebnisse, die messbar und reproduzierbar sind.

Die 4 Grundbausteine

Jeder Baustein ist essentiell. Zusammen garantieren sie verlässliche AI-Agenten. Außerdem sind sie messbar und reproduzierbar.

🎯

1. Tool Proficiency

Verstehen Sie die Grenzen Ihres Modells

❓

2. Festgelegte Fragen

Kontrollieren Sie, was gefragt werden darf

🔧

3. Context Engineering

Stellen Sie die richtigen Informationen bereit

📚

4. Information Architecture

Garantieren Sie hohe Content-Qualität

🎯

Baustein 1: Tool Proficiency

Kennen Sie die Grenzen Ihres Modells

Tool Proficiency bedeutet vollständiges Verständnis. Du musst wissen, wie sich Dein LLM verhält. Welche Fehlerquoten sind zu erwarten? Dies variiert je nach Aufgabe und Umgebung.

Beispielsweise scheitert GPT-5 bei großem Context. Die Fehlerrate steigt ab 10.000 Tokens deutlich. Dagegen bleibt Claude Opus auch bei 12.000 Tokens zuverlässig. Folglich musst Du diese Grenzen kennen.

Außerdem variiert das Verhalten zwischen Edge Cases. Ein Modell ist stark bei Information Integration. Dennoch versagt es bei Negative Rejection. Daher benötigst Du umfassende Tests.

Warum ist das kritisch?

Ohne Tool Proficiency tappst Du im Dunkeln. Du weißt nicht, wann Fehler auftreten. Und kannst daher das Verhalten nicht steuern. Somit entstehen unvorhersehbare Probleme.

Darüber hinaus verschwendest Du Budget. Teure Modelle sind nicht immer besser. Manchmal reicht ein günstiges Modell völlig. Allerdings musst Du das durch Tests belegen.

So erreichen Sie Tool Proficiency

Systematische Tests: Nutze unsere Edge Case Benchmarks
Eigene Testfälle: Erstelle Szenarien aus Deiner Domäne
Context-Variation: Teste mit verschiedenen Größen
Dokumentation: Halte Ergebnisse fest
Kontinuierlich testen: Neue Versionen verhalten sich anders

Praxis-Beispiel

Ausgangslage:
Ein Unternehmen nutzt GPT-5 für Kundenanfragen.

Problem:
15% der Antworten sind unvollständig.

Analyse:
Tests zeigen: GPT-5 Nano versagt bei Answer Completeness.

Lösung:
Wechsel zu Gemini 2.5 flash ($0,30 statt $0,0005).

Ergebnis:
Fehlerrate sinkt auf 2%. Kosten steigen nur minimal.

Zu den Benchmarks →

❓

Baustein 2: Festgelegte Fragen und Aufgaben

Kontrolliere, was gefragt werden darf

Viele Projekte erlauben jede Frage. Dies ist jedoch gefährlich. Das LLM beantwortet auch Fragen ohne Datengrundlage. Folglich entstehen Halluzinationen. Daher müsst Du den Frageraum begrenzen.

Beispielsweise enthält Dein Dokumentenbestand Produktinformationen. Dennoch fragen Nutzer nach Lieferzeiten. Diese Information liegt nicht vor. Das Modell erfindet dann eine Antwort. Somit verbreiten sich falsche Angaben.

Außerdem schützen festgelegte Fragen vor Missbrauch. Nutzer können keine beliebigen Anweisungen geben. Infolgedessen bleibt das System stabil und die Fehlerrate sinkt erheblich.

Wie kann man Fragen festlegen?

Analysiere zunächst Deine Dokumente. Welche Informationen liegen vor? Welche Fragen sind beantwortbar? Danach definiere Fragekategorien.

Nutze Intent Classification. Das System erkennt die Absicht. Nur zugelassene Intents werden bearbeitet. Unbekannte Fragen lehnt es ab. Somit entsteht ein kontrollierbares System.

Praktische Umsetzung

Fragekatalog erstellen: Liste erlaubte Fragetypen auf
Intent-Klassifikation: Trainiere bzw. Definiere ein Klassifikationsmodell (single shot classification)
Whitelist-Prinzip: Nur bekannte Intents durchlassen
Ablehnungen loggen: Lerne aus abgelehnten Fragen
Iterativ erweitern: Füge schrittweise neue Fragen hinzu

Beispiel: Produktsupport

Erlaubte Fragen:

Technische Spezifikationen
Bedienungsanleitungen
Fehlerbehebung
Kompatibilität

Nicht erlaubt:

Preisanfragen (→ Verkauf)
Lieferzeiten (→ Logistik)
Reklamationen (→ Service)
Allgemeine Fragen (→ zu breit)

Ergebnis: Halluzinationen sinken um 80%

🔧

Baustein 3: Context Engineering

Stelle die richtigen Informationen bereit

LLMs verarbeiten nur den aktuellen Context. Nichts anderes. Sie haben kein externes Wissen. Folglich müssen Sie alle relevanten Informationen bereitstellen. Dies nennt man Context Engineering.

Beispielsweise fragt ein Nutzer nach Teilzeitmitarbeitern. Das System muss drei Informationen kombinieren. Diese liegen an verschiedenen Stellen. Daher müssen alle drei in den Context geladen werden. Sonst ist die Antwort unvollständig.

Außerdem ist die Reihenfolge wichtig. Frühe Informationen werden stärker gewichtet. Spätere Details gehen verloren. Somit beeinflusst die Struktur das Ergebnis erheblich.

Zentrale Herausforderungen

Retrieval: Welche Dokumente sind relevant? Retrieval-Augmented Generation (RAG) hilft. Dennoch musst Du die Suche optimieren. Sonst fehlen wichtige Informationen.

Chunk-Größe: Zu kleine Chunks fehlt Kontext. Zu große Chunks überfordern das Modell. Daher musst Du experimentieren und prüfen, was denn genau das LLM machen soll. Die optimale Größe hängt vom Use Case ab.

Ordering: Die Anordnung beeinflusst das Ergebnis. Wichtige Informationen gehören nach vorne. Außerdem sollten zusammengehörende Chunks nebeneinander stehen.

Best Practices

Hybrid Search: Kombiniere Keyword- und Semantic-Search
Re-Ranking: Sortiere Ergebnisse nach Relevanz
Context Window: Nutze den verfügbaren Platz optimal
Metadata: Füge Kontext-Informationen hinzu
Testing: Prüfe verschiedene Retrieval-Strategien

Typische Fehler

❌ Zu viel Context
Das Modell verliert den Überblick. Wichtige Details gehen unter.

❌ Zu wenig Context
Essentielle Informationen fehlen. Antworten sind unvollständig.

❌ Schlechtes Retrieval
Relevante Dokumente werden nicht gefunden. Irrelevantes wird einbezogen.

❌ Keine Struktur
Informationen sind ungeordnet. Das Modell kann nicht folgen.

Weitere Informationen finden Sie in der OpenAI Prompt Engineering Dokumentation.

📚

Baustein 4: Information Architecture

Garantiere hohe Content-Qualität

LLMs benötigen tatsächliches Wissen. Sie können nicht raten. Oder besser: Das will man gar nicht, dass die Modelle raten! Fehlerhafte Dokumente führen zu falschen Antworten. Daher ist hohe Content-Qualität essentiell. Dies erfordert systematisches Vorgehen.

Beispielsweise enthalten alte Dokumente veraltete Informationen. Das Modell kann dies nicht erkennen. Es nutzt die vorhandenen Daten und verbreitet so fehlerhafte Angaben. Somit ist ein Aktualisierungsprozess notwendig.

Außerdem müssen Informationen verständlich sein. Komplizierte Formulierungen verwirren das Modell. Außerdem erhöhen sie die Fehlerrate. Daher solltest Du auf klare Sprache achten.

Qualitätskriterien

Vollständigkeit: Alle relevanten Informationen müssen vorliegen. Lücken führen zu unvollständigen Antworten. Daher Dokumente systematisch prüfen.

Aktualität: Veraltete Informationen sind gefährlich. Implementiere einen Review-Prozess. Außerdem solltest Du Dokumente mit Zeitstempel versehen.

Konsistenz: Widersprüche verwirren das Modell. Führe ein Single-Source-of-Truth Prinzip ein. Somit vermeidest Du Inkonsistenzen.

Verständlichkeit: Nutze klare Formulierungen. Vermeide Fachjargon wo möglich. Falls nötig, füge Erklärungen hinzu.

Redaktionsprozess etablieren

Content-Audit: Prüfe bestehende Dokumente
Style Guide: Definiere Standards
Review-Prozess: Implementiere Freigaben
Versionierung: Tracke Änderungen
Continuous Improvement: Lernen aus Fehlern

Checkliste: Gute Dokumente

✅ Alle Fakten sind korrekt
✅ Informationen sind aktuell
✅ Keine Widersprüche vorhanden
✅ Klare, verständliche Sprache
✅ Vollständige Informationen
✅ Strukturiert aufgebaut
✅ Metadata vorhanden
✅ Versionsnummer aktuell
✅ Freigegeben durch Experten

Faustregel: Wenn Menschen das Dokument nicht verstehen, versteht es auch das LLM nicht.

Häufig gestellte Fragen

Müssen alle 4 Bausteine implementiert sein?

Ja, alle vier sind essentiell. Jeder Baustein adressiert verschiedene Fehlerquellen. Folglich benötigen Sie alle für verlässliche Systeme. Allerdings können Sie schrittweise vorgehen. Priorisieren Sie nach Ihrem Anwendungsfall.

Wie lange dauert die Implementierung?

Das hängt vom Umfang ab. Tool Proficiency benötigt Wochen für gründliche Tests. Context Engineering erfordert Experimente. Information Architecture ist ein kontinuierlicher Prozess. Rechnen Sie mit mindestens 2-3 Monaten für ein robustes System.

Welcher Baustein ist am wichtigsten?

Alle sind gleichwertig. Allerdings variiert die Priorität. Für neue Projekte starten Sie mit Tool Proficiency. Dies zeigt, ob Ihr Modell überhaupt geeignet ist. Danach folgen die anderen Bausteine. Somit bauen Sie systematisch auf.

Kann ich bestehende Systeme nachträglich anpassen?

Ja, definitiv. Analysieren Sie zunächst Ihre Fehlerquellen. Dann priorisieren Sie die Bausteine entsprechend. Häufig hilft schon die Einschränkung erlaubter Fragen. Außerdem bringt besseres Retrieval schnelle Verbesserungen. Somit können Sie iterativ optimieren.

Wo finde ich weitere Ressourcen?

Nutzen Sie unsere Benchmarks für Tool Proficiency. Die Edge Cases-Seite erklärt typische Fehler. Außerdem bietet OpenAI umfangreiche Dokumentation. Ebenso hilft Anthropics Dokumentation. Darüber hinaus empfehlen wir Fachkonferenzen.

Setze das Konzept um

Nutze unsere Benchmarks für Tool Proficiency. Lerne die Edge Cases kennen. Und baue robuste AI-Agenten.

Zu den Benchmarks →

Edge Cases verstehen