alphaspirit - Fotolia
Monitorear umbrales determina las alertas de rendimiento de TI
Una estrategia de monitoreo de TI depende de las aplicaciones y los sistemas que rige. Los umbrales estáticos y dinámicos tienen beneficios y desventajas, pero es posible encontrar un equilibrio.
El monitoreo de TI es un campo complejo con varios enfoques para administrar el monitoreo y las alertas. La mayoría de los sistemas funcionan con umbrales de monitoreo y notifican al personal de operaciones de TI cuando el uso de los recursos los viola. La pregunta es cómo establecer los umbrales de monitoreo para obtener los mejores resultados.
Algunas herramientas de monitoreo de TI usan umbrales estáticos que se ajustan manualmente, mientras que otros usan un sistema de aprendizaje para establecer umbrales específicos para el entorno determinado. Ambos métodos tienen un objetivo común: informar al equipo de operaciones de TI cuando hay un problema y señalar una causa, idealmente antes de que los usuarios noten algún efecto. Los umbrales de monitoreo tanto estáticos como dinámicos tienen ventajas y desventajas.
Umbrales de monitoreo estático
Los umbrales estáticos son valores fijos que representan los límites del rendimiento aceptable. Por ejemplo, un servidor con más del 90% de utilización de la CPU generalmente es algo malo, no importa cuándo ocurre o en qué servidor. Para otros contadores de rendimiento, es menos obvio lo que es aceptable y lo que es peligroso. Los productos de supervisión vienen con umbrales predeterminados para cada contador de rendimiento que el equipo de TI puede ajustar. No todas las cargas de trabajo de TI se benefician de los mismos umbrales de monitoreo. El equipo de TI de un banco necesita saber acerca de la utilización de CPU que supera el 60% durante unos minutos, por ejemplo, mientras que un fabricante podría no necesitarlo.
El ajuste del umbral de monitoreo estático es un desafío importante para los equipos de TI. El ajuste limita, de forma efectiva, el número de umbrales y, por lo general, significa que se utilizan los mismos umbrales en todas las máquinas virtuales, a pesar de que estas máquinas virtuales ofrecen aplicaciones empresariales notablemente diferentes. Por ejemplo, un servidor de informes es saludable con un 90% de utilización de CPU, mientras que un servidor web con la misma tasa de utilización requiere soporte de TI. Se necesita más ajuste manual para anular el umbral estándar para las aplicaciones que tienen estos requisitos diferentes. Hasta que se perfeccione el ajuste manual, la herramienta de monitoreo no informará problemas reales, informará en exceso o por debajo la gravedad de un problema o informará de problemas donde no existen.
Los umbrales estáticos no permiten la variación cíclica. Es común en los entornos de TI que la utilización de CPU llegue al 95% durante dos horas durante la noche, a medida que se ejecuta la copia de seguridad, pero solo durante esa breve ventana. Algunas herramientas permiten a los usuarios establecer umbrales en horas y fuera de horario por separado. Sin embargo, la infraestructura de TI también puede experimentar variaciones semanales y mensuales normales en la carga. Los umbrales estáticos no responden a estas cargas de trabajo cíclicas y requieren mucho trabajo para evitar falsos positivos y problemas perdidos.
Umbrales de monitoreo dinámicos que aprenden
Las herramientas inteligentes de monitoreo de TI aprenden lo que es normal en el entorno y solo envían una alerta cuando las cosas están fuera de los parámetros y ciclos normales. Los umbrales dinámicos generalmente aprenden el rango normal para un contador de rendimiento –tanto un umbral alto como uno bajo– en cada punto del día, semana y mes. Por lo tanto, identifican ciclos diarios, semanales, mensuales e incluso anuales en los sistemas de TI. Un sistema dinámico sabe que la alta carga de CPU durante la copia de seguridad es normal, pero que el 80% de utilización de CPU en un martes por la mañana es anormal. Como el ajuste es automático, la estrategia de monitoreo de TI puede incluir miles de umbrales, incluso los que cambian con el tiempo para seguir los ciclos comerciales.
Los umbrales dinámicos no son tan inteligentes como las personas. Una configuración de monitoreo dinámico puede confundirse cuando la actividad cíclica no ocurre de acuerdo con los patrones habituales. Por ejemplo, el personal de soporte recibirá una alerta de que la carga del sistema es baja en un día festivo, porque los usuarios están en la playa en lugar de en sus escritorios creando carga.
Las herramientas de monitoreo dinámico implementadas en un entorno de TI que no funciona bien o que funciona mal pueden aprender ese estado como normal e incluso comenzar a enviar alertas debido a que mejora. Por ejemplo, una aplicación tiene una fuga de memoria, por lo que la utilización de la memoria aumenta con el tiempo. Pero el servidor se reinicia mensualmente para los parches. El sistema dinámico aceptará este ciclo mensual de aumento de la utilización de memoria como normal. Los sistemas dinámicos también están inclinados a ver cosas que se rompen por un tiempo como la nueva normalidad. Si una matriz de almacenamiento se sobrecarga lentamente y no responde, el sistema de monitoreo de umbral dinámico registrará el estado sobrecargado como el nuevo normal.
Una estrategia de monitoreo de TI para el mundo real
En el mundo real, la mayoría de las herramientas de monitoreo hacen más que solo observar los umbrales, e incluso los sistemas de umbral dinámico incorporan también algunos parámetros estáticos. En general, las herramientas de monitoreo de TI que construyen umbrales automáticamente son más útiles que aquellas que requieren una gran cantidad de ajuste manual. La tediosa afinación nunca se completa en una organización de TI ocupada, lo que lleva a la costumbre de ignorar las falsas alertas ruidosas.
Una estrategia de monitoreo inteligente utiliza más que solo contadores de rendimiento. Las herramientas incorporan los registros del sistema para ayudar a identificar problemas y vincular el monitoreo de la infraestructura con el monitoreo de la aplicación. Esta configuración rastrea la disponibilidad de la aplicación y el tiempo de respuesta para correlacionarla con el rendimiento de la infraestructura. Un sistema de monitoreo con todos sus cuadrantes mostrados en verde no es la historia completa; busque múltiples formas de identificar problemas en el entorno.