Red Teaming (KI)
Red Teaming bezeichnet die strukturierte adversariale Prüfung eines KI-Systems, bei der ein Team gezielt Schwachstellen, Missbrauchs-Szenarien und Sicherheits-Lücken sucht, bevor es echte Angreifer tun.
Definition und Aufbau
Drei Ebenen werden unterschieden: Modell-Red-Teaming (Eingaben gegen das Modell), Anwendungs-Red-Teaming (gegen das Gesamt-System inklusive Tools, Daten, Identität) und Sozio-Technisches Red-Teaming (mit Domain-Experten, etwa Compliance-Officer oder Mediziner). Die EU-KI-Verordnung Artikel 55 verlangt für Allzweck-KI mit systemischem Risiko adversariale Tests einschließlich Red-Teaming.
Was Impetora hier liefert
Wir setzen Red Teaming in zwei Phasen ein: vor der Pilot-Phase (Bedrohungsmodell, Szenarien-Sammlung) und vor der Produktion (automatisierte und manuelle Adversarial-Suite). Ergebnisse werden in der Bewertungsharness als Regression-Tests verankert. NIST und MITRE ATLAS liefern die Taxonomie.
Verwandte Begriffe
OWASP LLM Top 10: Schwachstellen-Liste. Bewertungsharness: Eval Harness.
Diese deutsche Fassung wird laufend ausgebaut. Für ein konkretes Projekt nutzen Sie bitte das Beratungsgespräch oder schreiben an info@ainora.lt.