Injection de prompt
L'injection de prompt désigne la famille d'attaques où des entrées malveillantes ou des contenus tiers conduisent un modèle de langage à agir contre les consignes de son exploitant. OWASP la classe LLM01.
Deux formes principales sont établies : l'injection directe via la saisie utilisateur et l'injection indirecte via des données externes (e-mails, pages web, documents, corpus RAG). L'injection indirecte est la plus dangereuse car elle permet de détourner des outils et des appels d'outils légitimes (Excessive Agency, LLM06).
Les contre-mesures combinent plusieurs couches : schéma de sortie strict, liste blanche d'outils, principe du moindre privilège, séparation entre prompt système et contenu de données, filtres sémantiques (par exemple classifieurs constitutionnels), red teaming continu et pistes d'audit. Une seule mesure ne suffit pas.
Sur tout système agentique avec accès outil (lecture de fichiers, envoi d'e-mails, appels d'API), l'injection de prompt est le risque numéro un. Nous configurons les outils selon le moindre privilège, validons les sorties contre des schémas JSON et faisons tourner pour chaque agent en production un jeu de tests adverses automatisés avant chaque release.