Bewertungsharness
Ein Bewertungsharness (engl. Evaluation Harness) ist die reproduzierbare Test-Infrastruktur, mit der ein KI-System gegen einen Gold-Standard und gegen Sicherheits-/Bias-Kriterien gemessen wird. Er ist 2026 die wichtigste Pflicht-Komponente, die in den meisten KI-Projekten anfangs fehlt und später zur grössten Verzögerungs-Quelle wird.
Was er enthält
Gold-Standard-Datensätze für jede Kern-Aufgabe. Metriken pro Aufgabe (Genauigkeit, Vollständigkeit, Halluzinations-Rate, Quellverweis-Korrektheit). Sicherheits-Tests (Prompt-Injection, sensible Daten-Leckage). Bias-Tests entlang relevanter Schutz-Dimensionen. Performance-Tests (Latenz, Kosten).
Wann er läuft
Vor jeder Produktions-Frei-Schaltung. Nach jeder Modell-Version, Prompt-Änderung oder Werkzeug-Änderung. Periodisch im Betrieb, um Drift früh zu erkennen. Schwellwerte für Modell-Stop sind vorab definiert, nicht reaktiv. Ohne grünen Harness keine Produktions-Freigabe.
Aufsicht und Audit
EU-KI-Verordnung Art. 15 verlangt nachweisbare Genauigkeit und Robustheit. Ein dokumentierter Bewertungsharness mit historischen Lauf-Ergebnissen ist der direkteste Beleg. ISO 42001 Anhang A.6 (Auswirkungen-Bewertung) und A.9 (Lebenszyklus) verweisen ebenfalls auf solche Test-Infrastruktur. BaFin und EZB-JST erwarten reproduzierbare Test-Berichte bei Modell-Validierung.
Diese deutsche Fassung wird laufend ausgebaut. Für ein konkretes Projekt nutzen Sie bitte das Beratungsgespräch oder schreiben an info@ainora.lt.