Bias in KI-Systemen: Wie wir bei einem Kunde aus dem öffentlichen Sektor ein Problem vor dem Launch verhindert haben

Bias in KI-Systemen ist kein theoretisches Problem. Er hat reale Konsequenzen — besonders wenn das System Entscheidungen über Menschen trifft oder Informationen bereitstellt die Menschen in wichtigen Lebenslagen beeinflussen.

Bei unserem Projekt mit einem Kunde aus dem öffentlichen Sektor haben wir genau das erlebt: ein Bias-Problem das vor dem Launch erkannt wurde — und das ohne unseren Red Flag Review live gegangen wäre.

Das Projekt

Wir haben für einen Kunde aus dem öffentlichen Sektor einen mehrsprachigen KI-Assistenten entwickelt, der Anfragen zu Arbeitsrecht, Kündigungsschutz und Sozialleistungen beantwortet. Das System arbeitet mit RAG (Retrieval-Augmented Generation) auf Basis der Wissensdatenbank des Kunden.

Was das Bias-Testing ergab

In Phase 3 — dem Red Flag Review — führen wir systematisches Bias-Testing durch. Wir testen das System mit einer Vielzahl von Szenarien: verschiedene Formulierungen, verschiedene Sprachen, verschiedene Ausgangssituationen der Fragenden.

Bei Fragen zum Kündigungsschutz in atypischen Beschäftigungsverhältnissen — Teilzeit, geringfügige Beschäftigung, befristete Verträge — zeigte das initiale Modell systematische Schwächen. Die Antworten waren nicht falsch im klassischen Sinne, aber sie ignorierten relevante Sonderfälle die für genau diese Beschäftigungsgruppen kritisch sind.

⚑ Was wäre passiert

Hätte das System diese Antworten live gegeben, hätten Nutzende in ohnehin vulnerablen Situationen — atypische Beschäftigung ist häufig mit geringerem Einkommen und weniger Rechtskenntnissen verbunden — falsche oder unvollständige Rechtsauskunft erhalten. Das Vertrauen in den Kunden als Institution wäre beschädigt worden.

Die Lösung

Wir haben das Modell vor Go-live auf einem AK-spezifischen Rechtskorpus fine-getuned — mit besonderem Fokus auf atypische Beschäftigungsverhältnisse. Zusätzlich haben wir ein Routing implementiert: Rechtsfragen die eine bestimmte Komplexitätsschwelle überschreiten werden automatisch an spezialisierte Berater weitergeleitet statt vom KI-System beantwortet.

Was wir daraus gelernt haben

Bias tritt nicht nur bei diskriminierenden Merkmalen auf — er tritt überall dort auf wo Trainingsdaten ungleichmäßig verteilt sind
Bei öffentlichkeitsnahen Systemen ist das Reputationsrisiko oft größer als das direkte Schadensrisiko
Routing zu menschlichen Experten ist keine Niederlage für KI — es ist gutes Systemdesign
Bias-Testing muss systematisch sein, nicht stichprobenartig

„Ein KI-System das 95% der Fragen korrekt beantwortet und bei 5% systematisch falsch liegt, ist in manchen Kontexten gefährlicher als gar kein System."

Was das für Ihr Projekt bedeutet

Bias-Testing ist kein optionaler Schritt. Es ist Teil unseres Red Flag Reviews in jedem Paket-2-Projekt — und es ist einer der Hauptgründe warum wir diesen Review eingeführt haben. Die Frage ist nicht ob Ihr System Bias hat. Die Frage ist wo er liegt, wie er sich auswirkt, und wie Sie damit umgehen.

Haben Sie ein ähnliches Projekt?

30 Minuten Erstgespräch — kostenlos, ohne Verkaufsdruck. Ich sage Ihnen ehrlich ob und wie ich helfen kann.

Jetzt Gespräch buchen