Operación
KPIs para monitorizar un agente de IA en producción

En la primera semana después de un despliegue, todo el mundo quiere ver una métrica. La tentación natural es elegir precisión. Es tranquilizadora, fácil de calcular y, en producción, frecuentemente engañosa. Un agente puede tener una precisión muy alta en su salida y aun así estar haciendo daño al negocio si está respondiendo lo que no debería responder o ignorando consultas críticas.
Tres planos que tienen que convivir
En los proyectos donde trabajamos, un cuadro de mando útil contempla tres planos a la vez. Cada uno cuenta una historia diferente y los tres son necesarios.
- Calidad: precisión, cobertura, tasa de respuestas que requirieron corrección humana.
- Operación: tiempo de respuesta, tasa de error técnico, coste por consulta.
- Negocio: tiempo ahorrado por usuario, conversiones asistidas, incidentes evitados o provocados.
Métricas que parecen útiles y no lo son
Hay métricas que generan tranquilidad y poco más. La satisfacción binaria de los usuarios, sin contexto, suele ser una de ellas. La gente puntúa bien por amabilidad y mal por estar de mal humor. Tampoco ayuda mirar solo el volumen de uso. Un agente puede tener mucho uso porque la gente prueba y luego abandona, o porque está atrapando consultas que deberían ir a otro sitio.
Lo que sí queremos ver al cabo de un trimestre
Pasados tres meses, las preguntas honestas son cuatro. ¿Hay menos trabajo manual en el área que el agente apoya? ¿Hay menos incidentes o tickets escalados? ¿El coste por consulta es estable o predecible? ¿Hay confianza visible entre los usuarios internos del sistema? Si las respuestas son ambiguas, el sistema todavía no es un activo, es un experimento prolongado.
Una recomendación de instrumentación
Conviene loguear todo desde el primer día, aunque no se mire en semanas. Es mucho más barato instrumentar antes que reconstruir el histórico cuando alguien empieza a hacer preguntas. La observabilidad no es un gasto técnico, es lo que permite tomar decisiones cuando el sistema lleva seis meses funcionando y hay que decidir si se mantiene, se rehace o se amplía.


