Harness d'évaluation
Dispositif technique permettant d'exécuter automatiquement un jeu de tests versionné sur un système d'intelligence artificielle, et de comparer les sorties à une référence.
Un harness d'évaluation transforme l'évaluation d'un système IA en pratique d'ingénierie reproductible. Il combine un jeu de tests versionné (questions et réponses attendues, ou critères d'acceptation), un orchestrateur d'exécution, des métriques (précision, rappel, F1, fidélité, robustesse adversariale) et un tableau de bord. Sans harness, l'évaluation reste subjective et les régressions passent inaperçues.
Pour les systèmes IA en production, le harness sert trois usages : valider une mise à jour avant déploiement, détecter les dérives sur production, et fournir des preuves au régulateur en cas de contrôle. Le coût initial de mise en place est compensé en quelques mois par la réduction des incidents en production. Notre méthodologie TRACE intègre le harness comme livrable systématique.