Failover o conmutación por error
¿Qué es failover?
La conmutación por error o failover es un modo operativo de respaldo en el que un componente secundario asume las funciones de un componente del sistema cuando el componente principal deja de estar disponible —ya sea por falla o por tiempo de inactividad programado. La conmutación por error es una parte integral de los sistemas de misión crítica.
¿Qué hace la conmutación por error?
El propósito del failover es hacer que un sistema sea más tolerante a errores. La conmutación por error puede aplicarse a cualquier aspecto de un sistema: dentro de una computadora personal, por ejemplo, la conmutación por error puede ser un mecanismo para proteger contra un procesador fallido; dentro de una red, la conmutación por error se puede aplicar a cualquier componente de red o sistema de componentes, como una ruta de conexión, un dispositivo de almacenamiento o un servidor web. Por ejemplo, un servidor de conmutación por error resulta cuando un servidor de respaldo está configurado y preparado para asumir el control cuando falla el servidor primario.
¿Cómo funciona la conmutación por error?
El failover implica la descarga automática de tareas a un componente del sistema en espera. El procedimiento debe ser lo más fluido posible para el usuario final. La capacidad de conmutación por error automática significa que se pueden mantener las funciones normales a pesar de las inevitables interrupciones causadas por problemas con el equipo.
¿Por qué es importante la conmutación por error en el centro de datos?
Originalmente, los datos almacenados se conectaban a servidores en configuraciones muy básicas: punto a punto o de acoplamiento cruzado. En un entorno de este tipo, la falla (o incluso el mantenimiento) de un solo servidor con frecuencia hacía imposible el acceso a los datos para una gran cantidad de usuarios hasta que el servidor volvía a estar en línea.
El surgimiento de las redes de área de almacenamiento (SAN), hizo posible la conectividad de cualquiera a cualquier entre servidores y sistemas de almacenamiento de datos. En general, las redes de almacenamiento utilizan muchas rutas —cada una de las cuales consta de conjuntos completos de todos los componentes involucrados— entre el servidor y el sistema. Una ruta fallida puede resultar de la falla de cualquier componente individual de una ruta. Se utilizan varias rutas de conexión, cada una con componentes redundantes, para ayudar a garantizar que la conexión siga siendo viable incluso si una (o más) rutas fallan.