I
Impetora
Arquitectura

Harness de evaluación

Banco de pruebas reproducible que mide la calidad de un sistema de IA antes y después de cada cambio. Es la diferencia entre un prototipo y un sistema operable en producción.

Qué es Harness de evaluación?

Un harness de evaluación contiene un conjunto dorado de casos anotados por expertos del dominio, métricas por tarea (precisión, exhaustividad, latencia, coste), un ejecutor que aplica el sistema bajo prueba sobre el conjunto y un cuadro comparativo entre versiones. La automatización es total: cada despliegue dispara la evaluación y bloquea el cambio si una métrica clave cae bajo umbral. La revisión humana entra en los casos donde el harness automático no puede juzgar (estilo, tono, fundamentación).

Cómo se aplica Harness de evaluación en la IA empresarial?

Para sistemas en sectores regulados, el harness de evaluación cumple tres funciones. Primera, evidencia de validación previa al despliegue, que el artículo 17 de la Ley de IA y el sistema de gestión de calidad de la 42001 esperan ver. Segunda, monitorización continua post-despliegue, que el artículo 72 de la Ley exige documentar. Tercera, control de regresión cuando se cambia el modelo base, los datos o el prompt: sin harness, no se sabe qué se ha roto hasta que el cliente lo reporta.

Términos relacionados

Referencias externas

Impetora

Necesita aplicar Harness de evaluación a su empresa? Envíenos un resumen corto y responderemos en un día laborable.

Reservar una llamada de descubrimientoVolver al glosario
Llamada de descubrimiento

Reserva una llamada de descubrimiento

Cuéntanos qué quieres construir. Respondemos en un día hábil.

Llamada de 30 minutos. Gratis. Sin compromiso.