Tabla de contenido:
A pesar de nuestros mayores esfuerzos para evitarlos, los incidentes de TI son una parte inevitable del trabajo, y tratar de adelantarse al tiempo de inactividad que afecta el negocio solo se está volviendo más complicado. Los sistemas actuales están estrechamente acoplados y son cada vez más complejos, y con más partes móviles, hay más oportunidades para que las cosas salgan mal.
Esta es una razón por la cual cada vez más organizaciones están recurriendo a microservicios para una mayor disponibilidad de servicio y una mejor capacidad de recuperación ante fallas. Pero si bien estas son excelentes premisas para romper las aplicaciones monolíticas, también pueden potencialmente aumentar el riesgo de falla, a menos que estén diseñadas expresamente teniendo en cuenta la capacidad de recuperación.
Preparándose para el fracaso
Dada la naturaleza inherentemente caótica de los sistemas distribuidos, los servicios deben desarrollarse no solo para anticipar la falla, sino también para recuperarse automáticamente en caso de falla. Esto significa instigar fallas de forma regular para garantizar que sus sistemas puedan manejar el caos sin interrumpir el servicio a los clientes finales. Y para lograr esto, necesita la capacidad de simular tráfico similar a la producción en entornos de prueba.