Extraction documentaire
Capacité à transformer un document non structuré (PDF, image, courrier) en données structurées exploitables, avec citation source et niveau de confiance.
L'extraction documentaire moderne combine reconnaissance optique, segmentation, modèles linguistiques et règles métier. La qualité d'un système se mesure sur trois axes : précision de l'extraction, traçabilité (chaque champ extrait pointe vers la zone source), et taux de revue humaine économisé. Pour les usages en assurance, recouvrement, banque et santé, les jeux d'évaluation versionnés sont indispensables : ils servent à mesurer les régressions à chaque mise à jour du modèle.
La résistance aux dérives suppose une boucle de retour exploitable : les corrections humaines alimentent la revalidation. Sans cette boucle, la qualité dérive insidieusement. Les contraintes RGPD imposent souvent un traitement local ou en UE, ce qui restreint les choix de fournisseurs.