Inyeccion de prompt
La inyeccion de prompt es la familia de ataques en los que entradas maliciosas o contenidos de terceros llevan a un modelo de lenguaje a actuar contra las instrucciones de su operador. OWASP la clasifica como LLM01.
Qué es Inyeccion de prompt?
Existen dos formas principales: inyeccion directa por entrada del usuario e inyeccion indirecta por datos externos (correos, paginas web, documentos, corpus RAG). La inyeccion indirecta es mas peligrosa porque permite manipular herramientas y llamadas a herramientas legitimas (Excessive Agency, LLM06). Las contramedidas combinan varias capas: esquema de salida estricto, lista blanca de herramientas, principio de minimo privilegio, separacion entre prompt de sistema y contenido de datos, filtros semanticos (por ejemplo clasificadores constitucionales), red teaming continuo y pistas de auditoria. Una sola medida no basta.
Cómo se aplica Inyeccion de prompt en la IA empresarial?
En cualquier sistema agentico con acceso a herramientas (lectura de archivos, envio de correos, llamadas a APIs) la inyeccion de prompt es el riesgo numero uno. Configuramos las herramientas segun minimo privilegio, validamos las salidas contra esquemas JSON y ejecutamos para cada agente en produccion un conjunto de pruebas adversariales automatizadas antes de cada release.
Términos relacionados
Necesita aplicar Inyeccion de prompt a su empresa? Envíenos un resumen corto y responderemos en un día laborable.