Q:
¿Cómo maximizan las empresas el tiempo de actividad?
UN:Mantener los servicios de TI en funcionamiento es obviamente importante. Los fabricantes de sistemas han pensado mucho en el tema. Algunas computadoras financieras críticas han estado funcionando continuamente durante años. Hay una historia en Internet sobre una computadora Novell Netware 3 que finalmente se apagó después de 16 años. Al considerar el tiempo de actividad de la red, el estándar es para "Cinco 9s", o disponibilidad del 99.999%. Lograr un tiempo de actividad máximo es una consideración importante para cualquier oferta de servicios de TI.
¿Cómo se alcanza el tiempo de actividad máximo? La buena gestión es la clave. La Organización Internacional de Normalización (ISO) creó un marco para la gestión de redes llamado FCAPS, que significa:
- Gestión de fallos
- Gestión de la configuración
- Gerencia de Contabilidad
- Gestión del rendimiento
- Gestion de seguridad
Los problemas con componentes de red individuales se manejan de manera proactiva y reactiva utilizando este modelo. Las fallas se monitorean mediante alarmas y notificaciones de eventos. Estos son recopilados por agentes de protocolos como SNMP (protocolo de administración de redes de sistemas) o algunas otras soluciones patentadas. Los umbrales personalizables pueden activar alarmas e incluso generar automáticamente tickets que terminan en las colas del personal de monitoreo en los centros de datos. Las grandes redes de operadores pueden tener departamentos separados para ocuparse de las capas centrales, de distribución o de acceso de la red. El análisis de causa raíz intenta aislar y definir problemas críticos después de un evento importante.
Se utilizan procesos similares para la gestión del sistema. Los proveedores de servicios de Internet (ISP) y los centros de alojamiento administrados emplean administradores de sistemas para monitorear y administrar la viabilidad de servidores, sistemas de almacenamiento u otros dispositivos. Los procesos individuales en máquinas con Windows o Linux, por ejemplo, se pueden ver y controlar a través de programas de administración de interfaz gráfica de usuario (GUI) de la misma manera que los protocolos de red.
La vigilancia remota y la configuración de componentes y sistemas de red proporcionan capacidad en tiempo real para maximizar el tiempo de actividad del sistema. Eso se extiende a los cambios de configuración, la recopilación de indicadores clave de rendimiento o la implementación de mejoras de seguridad.
Una forma de ver el tiempo de actividad y la solidez de cualquier sistema es con el modelo que IBM llamó RAS: confiabilidad, disponibilidad y facilidad de servicio. Para garantizar RAS, se han desarrollado muchos métodos. Estos incluyen redundancia, respaldo de datos, fuente de alimentación ininterrumpida (UPS), componentes intercambiables en caliente y actualizaciones automáticas. Los cambios planificados y las ventanas de mantenimiento ofrecen oportunidades para corregir o mejorar problemas conocidos sin molestar al usuario.
Finalmente, los sistemas y las redes fallarán. La redundancia es una de las claves para la resistencia del sistema. Esto puede aplicarse al hardware, software o datos. Los responsables de garantizar la confiabilidad en una red o sistema de software buscarán lo que puede considerarse un solo punto de falla (SPOF). ¿Toda la red fluye a través de un solo conmutador o cable? ¿Todos los procesos tienen lugar en un servidor solitario? ¿Hay solo una copia de un conjunto de datos críticos? Sin redundancia, una empresa puede, en un instante, perder lo que puede haber tardado años en desarrollarse.
Maximizar el tiempo de actividad es un esfuerzo de "todo lo anterior". Las mejores prácticas se han desarrollado a través de décadas de experiencia y colaboración. Continuamente se están implementando nuevas soluciones, como redes de autocuración, virtualización, análisis de datos y arquitectura mejorada. Ningún método único responderá todos los problemas que surjan en sistemas complejos. Cada empresa intenta hacer el mejor uso de sus recursos de TI de la manera más eficiente posible dentro del ciclo de vida del equipo a su disposición.