Mike Kiev - Fotolia
Gestión de fallas de red en los centros de datos complejos
Los diseños y tecnologías de red pueden cambiar, pero identificar –y remediar– fallas es una tarea fundamental para los administradores de sistemas de hoy en día. Esto es lo que necesita saber.
Detectar, identificar y corregir los fallos de la red nunca ha sido fácil. Los grandes centros de datos actuales y las redes de nubes hacen la gestión de las fallas de red aún más difícil. Es un marcado alejamiento del pasado, cuando gobernaba cliente-servidor, las aplicaciones corrían en un servidor designado, y los usuarios finales estaban conectados ya sea a través de Ethernet en el edificio, enlaces rentados WAN u otros servicios.
Las tecnologías cambian, pero el resultado final es lo que importa. La pregunta es: ¿Están los usuarios recibiendo la calidad de servicio requerida? La respuesta depende tanto de las aplicaciones, como del rendimiento de la red.
Las aplicaciones hoy a menudo se ejecutan en una nube pública, privada o híbrida. Las aplicaciones se mueven de un servidor a otro, conforme las cargas se desplazan. El rendimiento entre los servidores y los almacenes de datos varía en función de la carga colocada en los enlaces compartidos por otras aplicaciones.
El rendimiento de red depende del tipo y la capacidad de la red que conecta a los usuarios con la aplicación. Los usuarios locales pueden conectarse a través de Ethernet o WiFi. Los usuarios remotos se conectan a través de diversas tecnologías WAN, incluyendo la internet pública o la red celular. Cada una requiere métodos especializados para mantener el rendimiento requerido. Los fallos en cualquiera de estas ubicaciones –aplicación o red– puede impedir la satisfacción del usuario.
Detección de fallos en la nube
Muchas topologías y diseños –entre ellos, los servidores virtualizados, múltiples redes de área local virtuales (VLAN) y redes superpuestas– complican la detección de fallos en la nube y la gestión de fallos de red. Un problema de rendimiento en la aplicación de un inquilino puede parecer que no está conectado a un problema que afecta a otro inquilino diferente, pero ambos pueden provenir de la misma fuente. La aplicación de cada inquilino puede estar ejecutándose en el mismo servidor sobrecargado o mal configurado, o podría ser que la red superpuesta de ambos inquilinos está enrutada a través del mismo enlace sobrecargado o defectuoso.
El gran número de servidores, componentes de red y enlaces crea una fuente de fallos. El hardware moderno es extremadamente fiable. A pesar de que cada componente puede tener un tiempo medio entre fallos de años, con miles de dispositivos individuales ocurrirán fallos de hardware.
Los errores de configuración son otra fuente de problemas que pueden ser rastreados por la gestión de fallos de red. Constantemente se añaden servidores y dispositivos de red, actualizados o sustituidos. Una gran nube suele incluir componentes de muchos proveedores, e incluso los componentes idénticos de un solo proveedor pueden estar ejecutando diferentes niveles de revisión de software. En este entorno, cualquier cambio presenta una oportunidad para el error, y un cambio en uno de los componentes puede afectar a otros.
Simplemente detectar y notificar errores no es suficiente. Cada fallo puede resultar en docenas de informes de errores. Un fallo de enlace esporádico puede generar indicaciones de fallo de hardware de los switches en ambos extremos del enlace, y ambos emitirán un nuevo informe cada vez que el enlace caiga y vuelva a subir. Los protocolos de Capa 2 y 3 informan de los cambios de ruta, al igual que los monitores de tráfico de enlace, ya que señalan cuando los niveles de tráfico en rutas alternas están cerca del máximo. Mientras tanto, los monitores de rendimiento de aplicaciones están reportando problemas de cada una de las aplicaciones que enrutan tráfico a través de ese enlace.
Correlación de fallos y su papel en la red
Ningún administrador de red humano podría clasificar a través de la avalancha de informes generados como resultado de un fallo único, e identificar rápidamente la causa raíz. El software de correlación de fallos es esencial. Es un componente crítico de los productos de gestión de red de cada uno de los principales proveedores de sistemas.
Los paquetes de correlación de fallos utilizan una variedad de mecanismos para detectar problemas, entre ellos trampas SNMP, mensajes TL1, registros de aplicación y entradas de syslog. El SNMP y los monitores de encuestas de productos específicos cargan en los servidores, switches y enlaces. Las herramientas de correlación también monitorean cosas tales como la temperatura del dispositivo, las tensiones de suministro de energía y el espacio libre en disco para anticipar problemas futuros.
El software de gestión de fallos de red debe mantener una imagen precisa y actualizada de la red. El software debe ser actualizado, ya sea manualmente o por medio de asignación de red, para rastrear componentes y enlaces añadidos, eliminados o actualizados. Se debe mantener modelos internos de cada componente, describiendo su configuración y capacidades, y conteniendo descripciones de las políticas de operación de la red. También debe ser actualizado con información, tal como acuerdos de nivel de servicio (SLA), cuando se agregan aplicaciones.
Además, el software de correlación de fallos debe interactuar con el software de orquestación de nube para realizar un seguimiento de qué aplicaciones se están ejecutando, en qué servidores se están ejecutando, y las VLANs y redes superpuestas asociadas a cada inquilino. El software de gestión de fallos de red también debe monitorear continuamente los niveles de rendimiento de las aplicaciones contra los SLA.
Cuando se produce un problema, el software de correlación reúne todas las indicaciones de fallo entrantes y utiliza su información acerca de la topología de la red y de cómo los datos se movían antes de la falla para determinar la causa raíz y proporcionar un informe conciso a los administradores de red.
Redes SDN cambian la ecuación
Las nubes y los centros de datos gestionados por la tecnología SDN enfrentan la misma serie de problemas potenciales que los basados en técnicas tradicionales. Ambos requieren un software de correlación de fallos, pero las arquitecturas SDN requieren que el software de correlación esté incorporado en el controlador de red, o fuertemente integrado con él.
La razón de esta diferencia es que los protocolos tradicionales, como Spanning Tree y Open Shortest Path First se implementan dentro de los dispositivos de red. Ellos desvían el tráfico, según sea necesario, cuando un problema de enlace o puerto bloquea el tráfico. Con SDN, todas las rutas se determinan en el controlador. El software de correlación de fallos debe informar al controlador sobre estos tipos de problemas, para que pueda determinar una ruta alternativa.
Los switches de caja blanca compatibles con OpenFlow soportan sistemas operativos de una variedad de diferentes proveedores, cada uno con su propio método de detección y notificación de fallos. Los sistemas operativos de Big Switch y Pica8, por ejemplo, soportan SNMP, pero el sistema operativo del controlador y el switch de Big Switch utiliza los mensajes no solicitados de OpenFlow para comunicarse hacia y desde los dispositivos. El software de correlación se comunica a través de interfaces con el controlador para recibir mensajes desde los dispositivos y sondearlos por su estado.
WiFi y WAN
WiFi se basa en un conjunto especializado de herramientas para diagnosticar problemas. La conectividad WiFi puede sufrir de problemas tales como la interferencia de señales, paredes u objetos sólidos que bloquean la señal, y vulnerabilidades de seguridad. Una variedad de productos de solución de problemas están disponibles, abarcando productos de software freeware y profesionales. También se requiere productos de hardware especializados para diagnosticar algunos tipos de problemas.
En el caso de las conexiones WAN de propiedad y gestionadas por un proveedor de servicios de red, los parámetros clave son el rendimiento y el tiempo de ida y vuelta. También en este caso hay disponibles productos tanto profesionales, como gratuitos.
Cumplir con las expectativas de rendimiento del usuario final requiere que todos los aspectos del rendimiento de las aplicaciones funcionen correctamente. Los problemas ocurrirán y los productos de gestión de fallas de red y de detección de errores deberán identificar la causa, para que puedan ser rápidamente arreglados y se restaure el buen funcionamiento.