Operación
Backfills y fallos silenciosos: la cara oculta de operar IA

Los fallos ruidosos son fáciles. El sistema deja de responder, alguien recibe una alerta, se actúa. Los fallos silenciosos son los que duelen. El sistema sigue funcionando, las respuestas siguen llegando, pero algo sutil ha cambiado y nadie lo nota durante semanas.
De dónde vienen
En sistemas de IA, los fallos silenciosos suelen tener tres orígenes. Un cambio de versión del modelo que altera el estilo o la estructura de las salidas. Una actualización en la documentación de origen que rompe la indexación sin que nadie se entere. Un cambio en los patrones de uso real, donde aparecen consultas que el sistema no se diseñó para manejar y a las que responde de cualquier manera.
En los tres casos, el sistema sigue contestando. Solo que peor. Y el negocio sigue tomando decisiones basadas en esas respuestas.
Cómo detectarlos a tiempo
- Comparar resultados periódicamente con un conjunto de casos de control que no cambia con el tiempo.
- Revisar muestras aleatorias de la salida cada semana, aunque sea un puñado de respuestas.
- Vigilar métricas indirectas: tiempo medio de respuesta, longitud media de la salida, tasa de escalado.
- Crear un canal explícito para que los usuarios reporten resultados raros sin fricción.
Backfills: la operación que casi nadie planifica
Cuando se detecta un fallo silencioso, no basta con arreglar hacia adelante. Hay que decidir qué hacer con los resultados pasados. ¿Se reprocesan? ¿Se notifican a los usuarios? ¿Se descartan? Esa decisión, conocida como backfill, es operativa y a menudo política.
En los proyectos donde trabajamos, los backfills son una de las operaciones que más tiempo consumen y peor se planifican. Conviene asumir desde el principio que harán falta varios a lo largo de la vida del sistema, presupuestar tiempo para ellos y dejar el sistema preparado para reprocesar bajo demanda. Sin esa preparación, lo que se queda en el histórico es ruido permanente.
Una idea para dirección
En la conversación con dirección, vale la pena explicar que un sistema de IA en producción no es una entrega cerrada. Es una operación viva que requiere personas mirándola, decisiones recurrentes y, de vez en cuando, intervenciones de mantenimiento que parecen invisibles pero protegen lo construido.


