Red Teaming (IA)
Le red teaming désigne l'examen adverse structuré d'un système d'IA, où une équipe cherche délibérément des vulnérabilités, des scénarios de détournement et des failles de sécurité avant que de vrais attaquants ne le fassent.
On distingue trois niveaux : red teaming modèle (entrées contre le modèle), red teaming application (contre le système complet avec outils, données et identité) et red teaming sociotechnique (avec experts métier, par exemple compliance ou médecins). L'article 55 du Règlement IA exige pour les modèles à usage général à risque systémique des tests adverses incluant le red teaming.
Nous mobilisons le red teaming en deux phases : avant la phase pilote (modèle de menace, recueil de scénarios) et avant la production (suite adverse automatisée et manuelle). Les résultats sont ancrés dans le harness d'évaluation comme tests de régression. NIST et MITRE ATLAS fournissent la taxonomie.