I
Impetora

Cómo desplegar la generación aumentada por recuperación (RAG) en una empresa regulada

By Impetora -

La generación aumentada por recuperación (RAG) combina un corpus de documentos fuente consultable mediante búsqueda vectorial con un modelo generativo, de modo que cada respuesta se apoya en texto citable y no en la memoria paramétrica. Para empresas reguladas en banca, seguros, sanidad y sector público, RAG es la arquitectura por defecto: preserva una cadena de citas hacia documentos con autoridad, mantiene el contenido propietario fuera del entrenamiento del modelo y produce un rastro auditable que satisface las expectativas de los supervisores conforme al Reglamento de IA de la UE, el RGPD, el NIST AI RMF y regímenes sectoriales como SR 11-7 o Solvencia II [1][2][5].

Regl. 2024/1689
Reglamento de IA, artículo 9 - sistema de gestión de riesgos para sistemas de alto riesgo
EUR-Lex
RGPD art. 22
intervención humana exigida para decisiones totalmente automatizadas
EUR-Lex
NIST.AI.600-1
Perfil de IA Generativa del marco de gestión de riesgos del NIST
NIST

El playbook de despliegue en siete pasos

Un sistema RAG apto para producción en un entorno regulado se diseña como una secuencia de etapas gobernadas, no como una única tubería. Cada etapa produce un artefacto que un auditor interno o un supervisor externo podrá inspeccionar más adelante.

  1. Gobierno del corpus fuente. Clasifique cada documento por sensibilidad, residencia y retención antes de que entre en el índice. Mantenga un catálogo de datos por escrito, registre la procedencia y la base jurídica conforme al artículo 6 del RGPD y excluya las categorías especiales de datos salvo que aplique una condición explícita del artículo 9. Los documentos marcados para supresión bajo el artículo 17 deben poder eliminarse del índice dentro de la ventana contractual.
  2. Estrategia de fragmentación e incrustaciones. Elija el tamaño y el solapamiento de los fragmentos por tipo de documento, no de forma global. Los textos regulatorios, contratos y guías clínicas se benefician de una fragmentación semántica que respete los límites de cláusulas y secciones; los registros transaccionales se benefician de ventanas fijas. Registre con cada vector la versión del modelo de incrustaciones, para poder lanzar un re-embedding cuando un modelo quede obsoleto o un texto regulatorio se revise.
  3. Selección del almacén vectorial. Escoja un almacén que opere en regiones de la UE, cifre los datos en reposo con claves gestionadas por el cliente, publique una lista de subencargados y soporte control de acceso por inquilino o por documento. Verifique las atestaciones ISO/IEC 27001 y, cuando estén disponibles, ISO/IEC 42001 del operador [3].
  4. Evaluación de la recuperación. Construya un conjunto de verdad sobre el terreno a partir de preguntas reales respondidas por expertos en la materia. Mida recall@k, mean reciprocal rank y precisión de contexto antes de cablear cualquier endpoint LLM. Una capa de recuperación que no devuelva los fragmentos correctos no se salvará con un mejor generador.
  5. Generación con cita obligatoria. Restrinja la capa de orquestación para que cada salida cite al menos un fragmento recuperado y las respuestas no fundamentadas se rechacen o se marquen para revisión. La literatura del Stanford CRFM sobre fundamentación muestra que la cita obligatoria reduce de forma material las alucinaciones frente a la generación libre [4].
  6. Revisión humana para decisiones reguladas. Toda salida que afecte materialmente a una persona interesada debe pasar por un revisor cualificado antes de surtir efecto. Es la lectura operativa del artículo 22 del RGPD y del artículo 14 del Reglamento de IA, y no es opcional en concesión de crédito, suscripción de seguros, triaje clínico o decisiones de prestaciones [1][2].
  7. Banco de evaluación continua. Ejecute en cada release pruebas de fidelidad, relevancia de la respuesta y completitud de las citas. Vigile la deriva del modelo de incrustaciones, del corpus fuente y de las publicaciones del supervisor. Trate las actualizaciones regulatorias como eventos de release: cuando publican EBA, EIOPA, ENISA o la AI Office, el corpus y las pruebas se actualizan en la misma semana [6][7].

Qué cambia en sectores regulados respecto a la empresa general

La arquitectura es la misma, las obligaciones no. Un despliegue regulado debe poder demostrar, bajo demanda, cómo se produjo cada salida y cómo se justificó cada decisión de diseño.

  • El artículo 9 del Reglamento de IA exige un sistema documentado de gestión de riesgos que opere a lo largo de todo el ciclo de vida de un sistema de alto riesgo, con identificación, evaluación y mitigación explícitas de los riesgos previsibles [1].
  • El artículo 5 del RGPD, principio de minimización, se aplica dentro del propio paso de recuperación. La tubería no debe recuperar datos personales que el generador no necesita; los controles correctos son los filtros en tiempo de consulta y los ámbitos de acceso por rol.
  • El artículo 32 del RGPD cubre el cifrado en tránsito y en reposo, el control de acceso granular, los registros de auditoría inmutables y la respuesta a incidentes probada. Los registros deben ser suficientes para reconstruir cualquier respuesta individual.
  • El artículo 35 del RGPD exige una Evaluación de Impacto de Protección de Datos antes de la puesta en producción siempre que el tratamiento pueda suponer un alto riesgo para las personas, lo que es el supuesto por defecto en sistemas generativos que tratan datos personales.
  • El artículo 22 junto con el artículo 14 del Reglamento de IA codifica la supervisión humana: un revisor competente, con la autoridad y la información para anular el sistema, debe estar en el bucle para decisiones consecuentes.
  • Capas sectoriales. Los despliegues bancarios deben cumplir SR 11-7 sobre gobierno del riesgo de modelo, con validación independiente y supervisión continua. Los despliegues en seguros caen bajo las orientaciones de EIOPA y el pilar 2 de Solvencia II. Los despliegues sanitarios que informan decisiones clínicas deben alinearse con el Reglamento de Productos Sanitarios y, para información sanitaria protegida, con HITRUST o controles equivalentes [6].

Modos de fallo habituales

Cinco modos de fallo aparecen recurrentemente en auditorías de sistemas RAG en producción; cada uno es prevenible con la prueba adecuada en el banco de evaluación.

  • Pérdida silenciosa de fundamentación. Un documento fuente se actualiza, los vectores antiguos permanecen en el índice y el sistema sigue citando un pasaje obsoleto. Mitigación: cada fragmento lleva un hash de contenido y una versión de documento fuente, y los vectores caducados se desalojan en la ingestión.
  • Deriva de incrustaciones en revisiones regulatorias. Cuando el supervisor enmienda un texto clave, la incrustación del nuevo apartado queda en otro punto del espacio vectorial. Mitigación: re-embedding planificado en eventos de publicación regulatoria, con prueba de paridad contra el índice anterior.
  • Re-ranker que enmascara la cita. Un re-ranker promueve un fragmento de alta similitud pero baja autoridad y la cita ya no apunta al documento en el que la respuesta realmente se apoyó. Mitigación: registro de citas sensible al rango que registre cada fragmento que influyó en la respuesta final.
  • Inyección de instrucciones vía documentos cargados. Un usuario sube un PDF cuyo contenido intenta sobreescribir la instrucción del sistema. Mitigación: separar el contenido no fiable de las instrucciones en la capa de orquestación, sanear las cargas y seguir las orientaciones de ENISA sobre modelado de amenazas en IA [7].
  • Fugas de recuperación entre inquilinos. Un filtro mal configurado devuelve fragmentos de otro inquilino o de otro departamento. Mitigación: identificadores de inquilino como predicado obligatorio en cada consulta, pruebas automatizadas con consultas adversarias y aislamiento de índice por inquilino para los corpus más sensibles.

Cómo evaluar un despliegue RAG

La evaluación en entornos regulados es una práctica de ingeniería continua, no un punto de control de lanzamiento. La matriz mínima de métricas tiene seis dimensiones.

  • Fidelidad. Proporción de afirmaciones generadas respaldadas por el contexto recuperado. Medida frente a un conjunto de verdad etiquetado.
  • Relevancia de la respuesta. Si la respuesta aborda la pregunta del usuario y no un asunto colindante.
  • Precisión y recuperación de contexto. Si el recuperador trajo los fragmentos correctos y solo los correctos.
  • Completitud de citas. Si cada afirmación material de la respuesta apunta a un pasaje recuperado concreto.
  • Latencia p95. Un flujo regulado que expira en el paso de revisión humana es inutilizable; el presupuesto de latencia debe incluir orquestación, recuperación, generación y cualquier salvaguarda.
  • Coste por consulta. Seguido por clase de intención, para que el negocio decida dónde aplicar el sistema y dónde una búsqueda determinista resulta más barata.

Los marcos de evaluación de RAG de código abierto han madurado lo suficiente como para que los compradores regulados ejecuten estas métricas en integración continua. Los marcos difieren en modelo de puntuación e informes; importa más la disciplina de ejecutarlos en cada release que la elección concreta [4].

Preguntas frecuentes

¿Cuánto cuesta normalmente un despliegue RAG regulado?
El coste varía mucho según alcance, tamaño del corpus y superficie de integración. Un despliegue acotado a una carga de trabajo, un dominio fuente y un grupo de usuarios puede entregarse por cifras bajas de seis dígitos incluyendo los artefactos de gobierno. Los programas multidominio que abarcan varias unidades y varios supervisores se sitúan un orden de magnitud por encima, porque la evaluación de conformidad, la EIPD y la integración escalan con la superficie y no con el gasto de modelo. La infraestructura rara vez es el cuello de botella; lo son la revisión y el aseguramiento.
¿Cuál es el plazo típico hasta producción?
Una carga regulada bien acotada suele tardar de tres a seis meses desde el arranque hasta producción con un único grupo de usuarios, asumiendo que el corpus fuente existe en forma utilizable y que la base jurídica está resuelta. Programas con remediación de documentos fuente, nuevos acuerdos de cesión de datos o una EIPD nueva tardan más, y el cuello de botella es casi siempre el gobierno, no la ingeniería.
¿Cómo mantenemos los datos en residencia UE de extremo a extremo?
Seleccione un almacén vectorial y un endpoint LLM que garanticen contractualmente el tratamiento en regiones UE, restrinja almacenamiento e inferencia a esas regiones por configuración, evite la salida con política de red y exija cláusulas de divulgación de subencargados en cada contrato de proveedor. Verifique los controles durante la compra y reverifique en cada release del proveedor que toque la ruta de tratamiento.
¿Cuál es el suelo realista de alucinación con RAG fundamentado?
Con cita obligatoria y un corpus curado, son alcanzables puntuaciones de fidelidad en el rango alto del noventa por ciento para preguntas factuales respondidas desde el corpus. El suelo lo establecen la calidad de la recuperación y la ambigüedad de los propios documentos fuente, no el generador. Las preguntas cuya respuesta no está en el corpus deben rechazarse y no sintetizarse, y ese comportamiento de rechazo es la salvaguarda más importante a probar.
¿Cuándo conviene fine-tuning en lugar de RAG?
Elija fine-tuning cuando la tarea es una transformación estable de entrada a salida, el comportamiento deseado no se puede especificar en un prompt y el corpus está cerrado. Elija RAG cuando la fuente de verdad cambia, cuando se requieren citas o cuando el supervisor espera ver el documento en el que se apoyó la respuesta. En entornos regulados el valor por defecto es RAG; el fine-tuning queda reservado a tareas estilísticas o de formato estrechas.
¿Cómo se manejan los datos personales en los documentos fuente?
Clasifique y etiquete los datos personales en la ingestión, restrinja su recuperación mediante ámbitos de acceso por rol, redacte a nivel de fragmento cuando el caso de uso no los requiera y nunca incluya datos personales en registros de evaluación que salgan del perímetro de producción. Para categorías especiales, exija una base jurídica explícita y una prueba de necesidad documentada antes incluso de indexar.
¿Cómo se ve realmente el rastro de auditoría?
Cada respuesta se vincula con la identidad del usuario, la consulta, los fragmentos recuperados con sus hashes de contenido y versiones de documento fuente, la versión del modelo, la configuración de la capa de orquestación, las citas mostradas al usuario, el revisor humano si lo hubiera y la disposición final. Los registros son inmutables, sincronizados en tiempo y conservados durante el plazo más largo entre el mínimo contractual y el regulatorio. Un supervisor debe poder reconstruir cualquier salida individual de extremo a extremo.
¿Necesitamos ISO/IEC 42001 para desplegar RAG en producción?
No es un requisito legal, pero ISO/IEC 42001 se ha convertido en el estándar de compra para compradores que quieren un sistema de gestión de IA estructurado. La norma complementa al Reglamento de IA y encaja con limpieza con los controles ya existentes de ISO/IEC 27001. Trátela como modelo operativo, no como entregable.
Impetora

¿Listo para definir su proyecto? Envíe un resumen breve - respondemos en un día hábil.

Fuentes citadas

Fuentes citadas (8) - mostrar
  1. Reglamento (UE) 2024/1689 (Reglamento de Inteligencia Artificial). Diario Oficial de la Unión Europea, 2024-07-12. https://eur-lex.europa.eu/eli/reg/2024/1689/oj
  2. Reglamento (UE) 2016/679 (Reglamento General de Protección de Datos). Diario Oficial de la Unión Europea, 2016-05-04. https://eur-lex.europa.eu/eli/reg/2016/679/oj
  3. ISO/IEC 42001:2023 - Sistema de gestión de inteligencia artificial. International Organization for Standardization, 2023-12. https://www.iso.org/standard/81230.html
  4. Marco de gestión de riesgos de IA: Perfil de IA Generativa (NIST AI 600-1). National Institute of Standards and Technology, 2024-07. https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.600-1.pdf
  5. Stanford CRFM - publicaciones sobre recuperación y fundamentación. Stanford CRFM, 2024. https://crfm.stanford.edu/publications.html
  6. Informe de la EBA sobre machine learning para modelos IRB y expectativas supervisoras. Autoridad Bancaria Europea, 2023-11. https://www.eba.europa.eu/publications-and-media/publications
  7. Multilayer Framework for Good Cybersecurity Practices for AI. ENISA, 2023-06. https://www.enisa.europa.eu/publications/multilayer-framework-for-good-cybersecurity-practices-for-ai
  8. Implicaciones para la estabilidad financiera: inteligencia artificial y aprendizaje automático. Consejo de Estabilidad Financiera, 2017-11. https://www.fsb.org/2017/11/artificial-intelligence-and-machine-learning-in-financial-services/
Sobre Impetora
Impetora diseña, construye y despliega sistemas de inteligencia artificial a medida para empresas en sectores regulados. Operamos desde Vilnius y trabajamos en cinco idiomas.
Llamada de descubrimiento

Reserva una llamada de descubrimiento

Cuéntanos qué quieres construir. Respondemos en un día hábil.

Llamada de 30 minutos. Gratis. Sin compromiso.