Cómo responder a tres alertas comunes de TI

Cuando aparecen esas alertas de TI, el equipo de operaciones debe responder. Tome medidas para solucionar los problemas, pero también busque las posibles fuentes de los mismos.

por

Brian Kirsch, Milwaukee Area Technical College

Publicado: 21 dic 2020

Como la punta de un iceberg, una alerta de TI es la parte que usted ve. Lo que hay debajo de la superficie puede ser algo mucho más grande. Los buenos equipos de operaciones necesitan saber cómo reaccionar.

Las alertas de TI a menudo se dividen en tres categorías principales: advertencias de capacidad, problemas de rendimiento y fallas de disponibilidad. La clave es ver cómo genera la alerta una herramienta que forma parte de un sistema de TI más grande; usted debe poder seguir el flujo desde la alerta hasta los efectos y finalmente hasta la resolución en la causa raíz.

1. Problemas de capacidad

Digamos que el equipo de operaciones se entera de que un servidor o sistema clave se está quedando sin espacio. Con cargas de trabajo virtualizadas, es bastante simple aumentar el espacio. Esa es una solución rápida. Sin embargo, la mayoría de los sistemas no se quedan sin espacio sin mostrar una curva de utilización del espacio constante que debería poder verse en desarrollo durante semanas o meses. Los sistemas que de repente ven un aumento en el uso del espacio y activan alertas deben revisarse.

¿Se parchó el sistema recientemente? ¿Fue actualizado? Un administrador puede haber dejado GB en el software de actualización sin limpiar. Este es un caso en el que corregir el problema rápidamente tiene muchas ramificaciones, incluso si es tan simple como los instaladores dejados atrás. Este uso de espacio adicional afecta las copias de seguridad y otras capacidades de recuperación de desastres, sin mencionar lo que podría hacer si hablamos de recursos en la nube en los que paga por todo lo que usa.

La clave cuando se trata de problemas de capacidad es la tendencia. Si ve una tasa de crecimiento promedio con pocos picos, es probable que sea un comportamiento normal. La solución correcta sería agregar capacidad. Sin embargo, investigue los picos, porque una vez que comience a abordar estos problemas ampliando la capacidad, es casi imposible detenerlos. Necesita investigar. Las reacciones bruscas pueden arreglar las cosas por ahora, pero no resolverán lo que sea que haya causado ese repentino problema de capacidad.

2. Rendimiento lento

Cuando una aplicación parece tardar una eternidad en responder, esto se considera una alerta de falla general. Y puede ser uno de los problemas más complejos de localizar. Muchas aplicaciones utilizan una variedad de sistemas de TI, por lo que la fuente del problema podría estar en varios lugares.

Es fundamental comprender el flujo de la aplicación. Cuando conoce todas las piezas que toca a lo largo de su camino hacia un usuario, puede comenzar a ver una imagen general. Esto le permite abordar el problema en pedazos. La desventaja de este tipo de respuesta es que lleva tiempo. Y cuando la gente se queja, cualquier retraso parecerá excesivo.

La tendencia de nuevo será clave aquí. Las estadísticas de rendimiento de un momento en el tiempo no siempre pueden resolver lo que está sucediendo, pero pueden ayudarlo a identificar posibles lugares para comenzar. Y, cuando se combinan con datos históricos, las estadísticas de rendimiento pueden revelar la fuente de su problema. Estos datos dirigirán su atención y lo acercarán a una solución, incluso si no le muestran la causa raíz.

3. Preguntas sobre disponibilidad

Si bien el hardware y otros sistemas pueden fallar abruptamente, es raro que lo hagan. Un gran desafío cuando algo falla es determinar por qué. Esa información se puede perder cuando el personal de TI trabaja rápidamente para restaurar los servicios porque esos reinicios y restauraciones a veces pierden los datos sobre por qué algo falló. Es fundamental capturar todos los datos que pueda antes de comenzar la restauración. Esto puede ser algo tan simple como tomar una foto de un código de error o una pantalla de volcado. Si bien todos los errores deben capturarse en archivos de registro, en realidad, eso no siempre sucede.

Si bien un cambio en un sistema de TI a menudo desencadena un problema de disponibilidad, la falta de cambio también puede tener un efecto. Es fácil para un área de TI ocupada descuidar algunos sistemas, especialmente los que no están orientados al cliente. Los sistemas establecidos para manejar el sistema de nombres de dominio, los protocolos de configuración de host dinámicos, los servicios de administración de claves, etc., realizan sus funciones sin cuidado diario y son fáciles de olvidar. Si no se reinician, parchan o mantienen, estos servicios críticos pueden sucumbir a pérdidas de memoria y fallar. La pérdida de un servidor de administración de claves de Microsoft o algo similar tendrá efectos de amplio alcance en todos los productos de Microsoft en su entorno. Ese tipo de problema puede ser increíblemente difícil de localizar, por lo que debe ser bueno para comprender el flujo de sus aplicaciones.

Lo bueno y lo malo de las alertas de TI

Las alertas en TI son útiles y molestas. Demasiadas alertas harán que el personal ignore las advertencias. Con muy pocas alertas, el personal puede perder la oportunidad de reaccionar antes de que un pequeño problema se convierta en uno grande.

Algunas alertas señalarán el inicio de algo importante, mientras que otras indicarán un asunto menos serio que puede esperar hasta el lunes. Ver la diferencia proviene de conocer las herramientas en uso y comprender los entornos a un nivel profundo.

Cómo responder a tres alertas comunes de TI

Cuando aparecen esas alertas de TI, el equipo de operaciones debe responder. Tome medidas para solucionar los problemas, pero también busque las posibles fuentes de los mismos.

1. Problemas de capacidad

2. Rendimiento lento

3. Preguntas sobre disponibilidad

Lo bueno y lo malo de las alertas de TI

Investigue más sobre Gestión de centros de datos

Dónde llevará a operaciones de TI el futuro de los casos de uso de AIOps

Tres señales que alertan sobre la necesidad de una transformación en procesos

¿Cuáles son los cinco diferentes tipos de gestión de red?

Gestión de la infraestructura de centros de datos o DCIM