I
Impetora

Comment déployer la génération augmentée par récupération (RAG) dans une entreprise réglementée

By Impetora -

La génération augmentée par récupération (RAG) associe un corpus de documents source consultable par recherche vectorielle à un modèle génératif, de sorte que chaque réponse s'appuie sur un texte citable plutôt que sur une mémoire paramétrique. Pour les entreprises réglementées en banque, assurance, santé et secteur public, le RAG est l'architecture par défaut : elle préserve une chaîne de citations vers des documents faisant autorité, maintient les contenus propriétaires hors de l'entraînement du modèle et produit une piste auditable conforme aux attentes des superviseurs au titre du règlement IA de l'UE, du RGPD, du NIST AI RMF et de régimes sectoriels comme SR 11-7 ou Solvabilité II [1][2][5].

Règl. 2024/1689
Règlement IA, article 9 - système de gestion des risques pour les systèmes à haut risque
EUR-Lex
RGPD art. 22
intervention humaine requise pour les décisions entièrement automatisées
EUR-Lex
NIST.AI.600-1
Profil IA générative du cadre de gestion des risques NIST
NIST

Le playbook de déploiement en sept étapes

Un système RAG de qualité production en environnement réglementé se conçoit comme une suite d'étapes gouvernées, et non comme un pipeline unique. Chaque étape produit un artefact qu'un auditeur interne ou un superviseur externe pourra ultérieurement examiner.

  1. Gouvernance du corpus source. Classifiez chaque document selon sa sensibilité, sa résidence et sa rétention avant qu'il n'entre dans l'index. Tenez un catalogue de données écrit, consignez la provenance et la base légale au titre de l'article 6 du RGPD et excluez les catégories particulières de données sauf condition explicite de l'article 9. Les documents destinés à l'effacement au titre de l'article 17 doivent pouvoir être retirés de l'index dans la fenêtre contractuelle.
  2. Stratégie de découpage et d'embeddings. Choisissez la taille des chunks et le chevauchement par type de document, pas globalement. Les textes réglementaires, les contrats et les recommandations cliniques bénéficient d'un découpage sémantique respectant les frontières de clauses et de sections ; les journaux transactionnels bénéficient de fenêtres fixes. Enregistrez avec chaque vecteur la version du modèle d'embedding, afin de pouvoir relancer un re-embedding lorsqu'un modèle est déprécié ou qu'un texte réglementaire est révisé.
  3. Choix de la base vectorielle. Retenez une base hébergée en régions UE, qui chiffre les données au repos avec des clés gérées par le client, publie une liste de sous-traitants et prend en charge le contrôle d'accès par locataire ou par document. Vérifiez les attestations ISO/IEC 27001 et, lorsque disponibles, ISO/IEC 42001 de l'opérateur [3].
  4. Évaluation du retrieval. Constituez un jeu de référence à partir de questions réelles traitées par des experts métier. Mesurez recall@k, mean reciprocal rank et précision du contexte avant de raccorder un point de terminaison LLM. Une couche de retrieval qui ne renvoie pas les bons chunks ne sera pas sauvée par un meilleur générateur.
  5. Génération avec citation imposée. Contraignez la couche d'orchestration de manière que chaque sortie cite au moins un chunk récupéré et que les réponses non ancrées soient rejetées ou marquées pour revue. La littérature du Stanford CRFM sur l'ancrage montre que la citation imposée réduit sensiblement les hallucinations par rapport à la génération libre [4].
  6. Revue humaine pour les décisions réglementées. Toute sortie qui affecte de manière significative une personne concernée doit passer par un relecteur qualifié avant de produire effet. C'est la lecture opérationnelle de l'article 22 du RGPD et de l'article 14 du règlement IA, et elle n'est pas optionnelle dans le crédit, la souscription d'assurance, le triage clinique ou les décisions de prestations [1][2].
  7. Banc d'évaluation continu. Exécutez à chaque livraison des tests de fidélité, de pertinence de la réponse et de complétude des citations. Suivez la dérive du modèle d'embedding, du corpus source et des publications de l'autorité. Traitez les mises à jour réglementaires comme des évènements de release : lorsque l'EBA, l'EIOPA, l'ENISA ou l'AI Office publient, le corpus et les tests sont mis à jour la même semaine [6][7].

Qu'est-ce qui change dans les secteurs réglementés par rapport à l'entreprise classique ?

L'architecture est identique, les obligations ne le sont pas. Un déploiement réglementé doit pouvoir, à la demande, démontrer comment chaque sortie a été produite et comment chaque choix de conception a été justifié.

  • L'article 9 du règlement IA exige un système de gestion des risques documenté, opérant sur l'ensemble du cycle de vie d'un système à haut risque, avec identification, évaluation et atténuation explicites des risques prévisibles [1].
  • L'article 5 du RGPD, principe de minimisation, s'applique au sein même de l'étape de retrieval. Le pipeline ne doit pas récupérer de données personnelles dont le générateur n'a pas besoin ; les bons leviers sont les filtres au moment de la requête et les portées d'accès par rôle.
  • L'article 32 du RGPD couvre le chiffrement en transit et au repos, le contrôle d'accès granulaire, des journaux d'audit immuables et une réponse à incident éprouvée. Les journaux doivent permettre de reconstruire toute réponse individuelle.
  • L'article 35 du RGPD impose une analyse d'impact relative à la protection des données avant la mise en production lorsque le traitement est susceptible d'engendrer un risque élevé pour les personnes, ce qui constitue l'hypothèse par défaut pour les systèmes génératifs traitant des données personnelles.
  • L'article 22 combiné à l'article 14 du règlement IA codifie l'exigence de supervision humaine : un relecteur compétent, doté du pouvoir et de l'information nécessaires pour annuler le système, doit être dans la boucle pour les décisions consequentielles.
  • Surcouches sectorielles. Les déploiements bancaires doivent satisfaire à la gouvernance du risque modèle SR 11-7, avec validation indépendante et surveillance continue. Les déploiements en assurance relèvent des orientations de l'EIOPA et du pilier 2 de Solvabilité II. Les déploiements en santé qui éclairent une décision clinique doivent s'aligner sur le règlement Dispositifs médicaux, et sur HITRUST ou des contrôles équivalents pour les informations de santé protégées [6].

Modes de défaillance courants

Cinq modes de défaillance reviennent dans les audits de systèmes RAG en production ; chacun est évitable avec le bon test dans le banc d'évaluation.

  • Perte silencieuse d'ancrage. Un document source est mis à jour, les anciens vecteurs restent dans l'index, et le système continue de citer un passage obsolète. Mesure : chaque chunk porte un hash de contenu et une version de document source, les vecteurs périmés sont évincés à l'ingestion.
  • Dérive d'embedding sur révision réglementaire. Lorsque l'autorité modifie un texte clé, l'embedding du nouvel article se trouve à un point différent de l'espace vectoriel. Mesure : re-embedding planifié sur évènement de publication, avec test de parité contre l'index précédent.
  • Re-ranker masquant la citation. Un re-ranker promeut un chunk de forte similarité mais de faible autorité, et la citation ne pointe plus vers le document sur lequel la réponse s'est réellement appuyée. Mesure : journalisation des citations sensible au rang, enregistrant chaque chunk ayant influencé la réponse finale.
  • Injection d'instruction via les documents importés. Un utilisateur charge un PDF dont le contenu cherche à supplanter l'instruction système. Mesure : séparer le contenu non fiable des instructions au niveau de l'orchestration, assainir les imports et suivre les orientations de l'ENISA sur la modélisation des menaces IA [7].
  • Fuite de retrieval entre locataires. Un filtre mal configuré renvoie des chunks d'un autre locataire ou d'un autre département. Mesure : identifiant de locataire en prédicat obligatoire de chaque requête, tests automatisés à requêtes adverses et isolation d'index par locataire pour les corpus les plus sensibles.

Comment évaluer un déploiement RAG

L'évaluation en environnement réglementé est une pratique d'ingénierie continue, pas un point de contrôle au lancement. La matrice minimale comporte six dimensions.

  • Fidélité. Part des affirmations générées appuyées sur le contexte récupéré. Mesurée contre un jeu de référence labellisé.
  • Pertinence de la réponse. La réponse traite-t-elle effectivement la question posée plutôt qu'un sujet adjacent.
  • Précision et rappel du contexte. Le retriever a-t-il fait remonter les bons chunks et seulement les bons chunks.
  • Complétude des citations. Chaque affirmation matérielle de la réponse pointe-t-elle vers un passage récupéré identifiable.
  • Latence p95. Un workflow réglementé qui expire à l'étape de revue humaine est inutilisable ; le budget de latence doit inclure orchestration, retrieval, génération et garde-fous.
  • Coût par requête. Suivi par classe d'intention, afin que le métier décide où appliquer le système et où une recherche déterministe coûte moins cher.

Les frameworks open source d'évaluation RAG ont suffisamment mûri pour que des acheteurs réglementés exécutent ces métriques en intégration continue. Les frameworks diffèrent par leur modèle de scoring et leur reporting ; le choix importe moins que la discipline de les exécuter à chaque livraison [4].

Questions fréquentes

Combien coûte typiquement un déploiement RAG réglementé ?
Le coût varie largement selon la portée, la taille du corpus et la surface d'intégration. Un déploiement ciblé sur une seule charge de travail, un seul domaine source et un seul groupe d'utilisateurs peut être livré pour des montants à six chiffres bas, artefacts de gouvernance compris. Les programmes multidomaines couvrant plusieurs unités et plusieurs autorités se situent un ordre de grandeur au-dessus, car l'évaluation de conformité, l'AIPD et l'intégration croissent avec la surface, pas avec la dépense modèle. L'infrastructure est rarement le poste limitant ; ce sont la revue et l'assurance.
Quel est le délai typique de mise en production ?
Une charge de travail réglementée bien cadrée prend généralement de trois à six mois entre le lancement et la production avec un groupe d'utilisateurs unique, à condition que le corpus source existe sous une forme exploitable et que la base légale soit réglée. Les programmes incluant la remise en état des documents source, de nouveaux accords de partage de données ou une nouvelle AIPD sont plus longs, et le goulet d'étranglement est presque toujours la gouvernance, pas l'ingénierie.
Comment maintenir les données en résidence UE de bout en bout ?
Sélectionnez une base vectorielle et un point de terminaison LLM garantissant contractuellement le traitement en régions UE, restreignez stockage et inférence à ces régions par configuration, empêchez la sortie via la politique réseau et exigez des clauses de divulgation de sous-traitants dans chaque contrat fournisseur. Vérifiez les contrôles lors de l'achat et revérifiez à chaque release fournisseur touchant la chaîne de traitement.
Quel est le plancher réaliste d'hallucination avec un RAG ancré ?
Avec citation imposée et corpus curé, des scores de fidélité dans le haut des quatre-vingt-dix pour cent sont atteignables sur les questions factuelles tirées du corpus. Le plancher est fixé par la qualité du retrieval et l'ambiguïté des documents source, pas par le générateur. Les questions dont la réponse n'est pas dans le corpus doivent être refusées plutôt que synthétisées, et ce comportement de refus est le garde-fou le plus important à tester.
Quand faut-il choisir le fine-tuning plutôt que le RAG ?
Choisissez le fine-tuning quand la tâche est une transformation entrée-sortie stable, que le comportement souhaité ne peut pas être spécifié dans un prompt et que le corpus est fermé. Choisissez le RAG quand la source de vérité change, quand des citations sont requises ou quand l'autorité s'attend à voir le document sur lequel la réponse repose. En environnement réglementé, le défaut est le RAG ; le fine-tuning est réservé à des tâches stylistiques ou de mise en forme étroites.
Comment traiter les données personnelles dans les documents source ?
Classifiez et étiquetez les données personnelles à l'ingestion, restreignez leur retrieval par portées d'accès par rôle, expurgez au niveau du chunk lorsque l'usage ne les requiert pas et n'incluez jamais de données personnelles dans des journaux d'évaluation qui sortent du périmètre de production. Pour les catégories particulières, exigez une base légale explicite et un test de nécessité documenté avant même indexation.
À quoi ressemble réellement la piste d'audit ?
Chaque réponse est associée à l'identité de l'utilisateur, à la requête, aux chunks récupérés avec leurs hash de contenu et versions de document source, à la version du modèle, à la configuration de la couche d'orchestration, aux citations affichées à l'utilisateur, au relecteur humain le cas échéant et à la disposition finale. Les journaux sont immuables, synchronisés en temps et conservés pour la durée la plus longue entre minimum contractuel et minimum réglementaire. Un superviseur doit pouvoir reconstruire toute sortie individuelle de bout en bout.
Faut-il l'ISO/IEC 42001 pour mettre du RAG en production ?
Ce n'est pas une condition légale, mais l'ISO/IEC 42001 est devenue le standard d'achat pour les acheteurs qui veulent un système de management de l'IA structuré. La norme complète le règlement IA et s'articule proprement avec les contrôles ISO/IEC 27001 existants. Considérez-la comme un modèle d'exploitation, pas comme un livrable.
Impetora

Prêt à cadrer votre projet ? Soumettez un brief court - nous répondons sous un jour ouvré.

Sources citées

Sources citées (8) - afficher
  1. Règlement (UE) 2024/1689 (Règlement sur l'intelligence artificielle). Journal officiel de l'Union européenne, 2024-07-12. https://eur-lex.europa.eu/eli/reg/2024/1689/oj
  2. Règlement (UE) 2016/679 (Règlement général sur la protection des données). Journal officiel de l'Union européenne, 2016-05-04. https://eur-lex.europa.eu/eli/reg/2016/679/oj
  3. ISO/IEC 42001:2023 - Système de management de l'intelligence artificielle. International Organization for Standardization, 2023-12. https://www.iso.org/standard/81230.html
  4. AI Risk Management Framework : Generative AI Profile (NIST AI 600-1). National Institute of Standards and Technology, 2024-07. https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.600-1.pdf
  5. Stanford CRFM - publications sur le retrieval et l'ancrage. Stanford CRFM, 2024. https://crfm.stanford.edu/publications.html
  6. Rapport de l'EBA sur le machine learning pour les modèles IRB. Autorité bancaire européenne, 2023-11. https://www.eba.europa.eu/publications-and-media/publications
  7. Multilayer Framework for Good Cybersecurity Practices for AI. ENISA, 2023-06. https://www.enisa.europa.eu/publications/multilayer-framework-for-good-cybersecurity-practices-for-ai
  8. Implications pour la stabilité financière : intelligence artificielle et apprentissage automatique. Conseil de stabilité financière, 2017-11. https://www.fsb.org/2017/11/artificial-intelligence-and-machine-learning-in-financial-services/
À propos d'Impetora
Impetora conçoit, développe et déploie des systèmes d'intelligence artificielle sur mesure pour les entreprises de secteurs réglementés. Basés à Vilnius, nous travaillons en cinq langues.
Appel de découverte

Réserver un appel de découverte

Dites-nous ce que vous souhaitez construire. Nous répondons sous un jour ouvré.

Appel de 30 minutes. Sans frais. Sans engagement.