Seit Anthropic seine Legal Plug-Ins vorgestellt hat ist die Idee im Markt: Rechtliche Fragen klärt man per AI. Zugegebenermaßen ist oft für Unternehmen nicht einfach, die genauen Auswirkung eines Gesetzes oder auch einer Gesetzesänderung für das eigene Unternehmen im Detail zu analysieren. Ohne juristische Unterstützung entwickeln sich hier gerne Verallgemeinerungen, die das Gesetz dann mal lieber zu eng auslegen um „auf keinen Fall ein Risiko einzugehen“. Und das kann teuer werden.
Oder man holt sich eben professionellen Rat, der dann auch ziemlich teuer ist.
Da kommt das Angebot von Large Language Models gerade recht, die ja gerade mit den umfangreichen und komplexen Gesetzestexten zurechtkommen sollten.
So bekamen wir auch eine Anfrage, ob am Beispiel des TEHGs der Einsatz von LLMs für die Analyse und Prüfung der Auswirkungen von Gesetzen sinnvoll ist.
Das TEHG ist die nationale Umsetzung der EU Richtlinie für das europäische Handelssystem mit Treibhausgas-Emissionsberechtigungen. Und ziemlich komplex. Die Anfrage umfasste testweise erstmal nur zwei Punkte:
- Die beispielhafte Beschreibung der Unterschiede zweier Abschnitte
- Und die Anfrage, welche Auswirkung das TEHG auf die eigene Feuerungsanlage hat.
Der Anfragende hatte schon die Google AI verwendet, allerdings war die Antwort nicht verwendbar.
Wir haben mit Gemini 3.0 Pro getestet und mit Claude Sonnet 4.5. Wir haben mit verschiedenen Konstellationen getestet, beispielsweise mit einem kleineren oder einem größeren Context, nur mit dem Gesetzestext oder auch mit Zusatzinformationen aus dem Internet.
Und wir haben doch einiges gelernt:
- Es ist sinnvoll, die Large Language Models zur näheren Analyse der Gesetze zu verwenden. Sie helfen, Texte zu ordnen, in Verhältnis zu bringen und zu verstehen. Verwendet man zusätzlich Inhalte aus dem Internet, dann können diese bei der rechtlichen Einordnung, der Einschätzung von Entwicklungstendenzen und den Absichten des Gesetzgebers helfen. Aber man kann sich nicht auf sie verlassen, es treten doch zu viele Fehler auf.
- Und man ist in einem echten Trade off: Hält man den Context schmal und lädt NUR das Gesetz, dann sind die Antworten verlässlicher, allerdings wird das Umfeld nicht berücksichtigt, wie Entwicklungen, Interpretationen und Absichten des Gesetzes. Was dann wieder zu fehlerhaften Interpretationen führen kann, wenn beispielsweise relevante Kommentare oder Urteile gar nicht erwähnt werden.
- Wenn auch die Ergebnisse von Claude deutlich besser waren als die von Gemini, erfanden doch beide bei großem Context Abschnitte, die es in den Gesetzestexten gar nicht gab oder ordnete Gesetzestexte zu, die keinen Sinn machten. Wie immer fiel den LLMs bei größerem Context der Umgang mit Querverweisen schwer. Muss vom Gesetzestext zur Begriffsbestimmung zur Tätigkeitenliste gesprungen werden, geht der Zusammenhang bei großen Tokenmengen im Context doch auch mal verloren.
- Gerne traten bei großem Context Fehler im Detail auf: Ob eine Regelung für Feuerungsanlagen von mehr als 20 MW gilt oder ab 20 MW, das ist ein großer Unterschied, wenn die eigene Anlage eben 20 MW hat.
- Wenn Texte sehr ähnlich sind, Bedeutungen sich jedoch unterscheiden, dann irrt sich das LLM schon mal. Ob nun ein Brennstoff eingesetzt oder in Verkehr gebracht wird kann sich rechtlich komplett unterscheiden. Dieser Unterschied wird bei der Interpretation von Texten aber schonmal auch übersehen. Und das führt dann zu Aussagen, die nicht zutreffen. Dieses Problem trat interessanterweise auch bei kleinem Context auf.
Wir ziehen unser Fazit in zwei Hauptaspekten.
Fachlich denken wir ist es hilfreich, Gesetze mithilfe von LLMs zu analysieren, in Zusammenhang zu bringen und zu verstehen. Faktisch muss man aber immer prüfen, nachlesen und hauptsächlich: Verstehen! Hat man selbst den Unterschied zwischen „Verwenden“ und „In Verkehr bringen“ nicht verstanden, dann bringt einem das LLM nichts. Das LLM ersetzt keine Sachkenntnis, es macht die Analyse aber deutlich schneller.
Technisch macht das Beispiel deutlich, wie wichtig das Context Management ist. Context Size ist zu beachten, die Contentstruktur (Verweise), aber auch die Grundfrage, aus welchem Wissen die Antwort generiert werden soll. Soll Hintergrundwissen mit in die Antwort einbezogen werden oder nicht. Und es ist mit zu beachten, dass alles enthalten ist, was für die Antwort wichtig ist, beispielsweise das einfache Nachvollziehen des Unterschiedes von „Verwenden“ und „in Verkehr bringen“.
Fun Fact:
Claude war nicht gerne bereit, eigene Fehler einzugestehen. Nachdem wir Claude zu einer Unstimmigkeit gefragt hatten, begann das System einen Denkprozess mit der Überschrift: „Erkannte Fehler und entschied sich für Transparenz“.
Wir stellten uns die Frage was passiert, wenn sich das System dagegen entscheidet, transparent zu sein?
Nach Abschluss des Dialoges forderten wir Claude auf, den kompletten Dialog als Worddatei zur Verfügung zu stellen. Nur: Diese Worddatei enthielt keinesfalls den kompletten Dialog. Insbesondere der von Claude gemachte Fehler war nicht enthalten.
Daraufhin forderten wir das System auf, keine Sätze wegzulassen. Wir wiesen es nicht konkret an, auch den Fehler mit in das Protokoll aufzunehmen. Das fiel dem System dann schon selbst auf. Das System erstellte den Text neu mit dem Kommentar: „Das Dokument enthält jetzt den Dialog 1:1 wie er geführt wurde – einschließlich der fehlerhaften Nennung des §2 Abs. 5 Nr. 3 in Antwort 3 und der anschließenden Fehlerkorrektur in Antwort 4, genau wie im Original.“
Um so wichtiger ist es, sehr aufmerksam mit LLMs in diesem Usecase umzugehen. Sicherlich nützlich, aber kein Ersatz für Selberdenken!


Schreibe einen Kommentar