Recolección de datos en tiempo real para almacenes de datos Oracle
El tiempo es casi siempre un problema para la extracción de información desde el software de almacenamiento de datos. La integración puede ayudar.
Con el software de almacenamiento de datos, una de las limitaciones más comunes es la ventana de tiempo disponible para el procesamiento de extracción por lotes sobre los sistemas de origen. Generalmente el proceso de extracción que consume muchos recursos debe realizarse fuera de las horas laborables y restringe el acceso a los sistemas de origen críticos.
Un software de integración de datos en tiempo real y de bajo impacto puede liberar a sus sistemas de esas ventanas de lotes. Cuando el componente de extracción utiliza un método no invasivo –como la lectura de los registros de transacciones de la base de datos para capturar solo los datos modificados– no generará una carga sobre los sistemas de origen. Por lo tanto, la extracción de datos puede realizarse en cualquier momento del día y durante todo el día, mientras los usuarios están en línea.
Cuando la extracción se produce en tiempo real, los datos pueden aportar un valor excepcional para el negocio, aunque no modifica la forma en que se ajustan los elementos en el proceso de recolección de datos para dar soporte a esa naturaleza de datos en tiempo real. Y aún más, los datos tienen que estar efectivamente protegidos, y es difícil aplicar técnicas de recuperación de desastres y de respaldo sobre datos que están en constante movimiento.
Pero la misma tecnología que puede permitir la integración de datos en tiempo real para los almacenes de datos, también puede ser utilizada para proteger aún más los datos. Después de todo, la tecnología que mueve datos en tiempo real también interactúa con los datos en tiempo real, creando un punto de entrada para las tecnologías de protección de datos. Sin embargo, la velocidad y la eficiencia de los datos en movimiento puede verse afectada por la latencia introducida durante el proceso de protección.
Eso significa que una de las primeras consideraciones a tener en cuenta cuando se desplazan a un régimen de recolección de datos activo que se integra con un almacén de datos, debe ser el flujo de los datos a través de sistemas de TI y la latencia que se puede introducir. En otras palabras, la integración de datos en tiempo real requiere de una comprensión de los datos en movimiento y de los componentes que mejoran o impiden ese movimiento.
Obviamente, las empresas quieren proteger sus datos. Sin embargo, a medida que crece la demanda por el volumen de datos, la tecnología de almacenamiento se convierte en un activo crítico sobre el que se apoya la continuidad del negocio. Y a medida que los análisis de datos en tiempo real se convierten en parte de un proceso de línea de negocio, también cae dentro del ámbito de la continuidad. El enfoque más básico para proporcionar seguridad y continuidad de los datos, es la replicación de hardware o software que mantiene automáticamente una copia secundaria de los datos críticos. No son desconocidos los métodos de respaldo en las instalaciones y que se basan en software de código abierto.
Las empresas están invirtiendo en cinco áreas críticas relacionadas con la gestión de los datos: recuperación de desastres, alta disponibilidad, copia de seguridad, rendimiento de procesamiento de datos y migración hacia bases de datos más avanzadas. Esto prepara el escenario para que las TI desarrollen tecnologías avanzadas, como la integración de datos en tiempo real y sus elementos de infraestructura asociados. Además, esas inversiones estratégicas pueden brindar los recursos presupuestarios para acelerar la adopción de tecnologías en tiempo real, al tiempo que mejoran el rendimiento de la inversión y justifican el modelo de negocio propuesto para un proyecto de integración de datos en tiempo real.
No obstante, es fundamental asignar esas áreas de inversión en elementos en especie de un sistema de integración de datos en tiempo real, y eso trae aparejada una comprensión profunda de los componentes que conforman ese sistema y cómo tales componentes son impulsados por las necesidades de los datos de la organización. Entre ellos se incluyen los siguientes:
- Volumen de datos (tamaño de los datos y cantidad de actualizaciones)
- Frecuencia del movimiento de datos
- Requisitos de transformación
- Lapsos de interrupción y continuidad del negocio
Son esos elementos los que impulsarán qué productos se elegirán para construir una infraestructura completa para la integración de datos en tiempo real. Pero la expresión en tiempo real nos lleva a un significado un tanto diferente al incorporar las tecnologías de adquisición de datos. Algunas tecnologías se centran en el concepto de “momento adecuado” para la inteligencia empresarial (BI). La expresión se refiere a las diversas necesidades de los usuarios finales para acceder a la inteligencia, y eso significa que tales necesidades cambian en diferentes casos de uso.
Sin embargo, para un almacenamiento de datos en funcionamiento, la tecnología no debe basarse en un paradigma del momento adecuado. La tecnología debería ofrecer verdaderas capacidades de tiempo real y luego dejar que el usuario de negocios elija el momento adecuado para acceder a los datos. Sin embargo, algunas empresas pueden hallar valor en la ideología del momento adecuado de BI, lo cual plantea la pregunta: ¿Cuándo una organización debería utilizar integración de datos en tiempo real?
En el mundo real, las empresas utilizan arquitecturas mixtas de TI de múltiples proveedores (a menudo un legado de la historia de la empresa). Cuando elija una tecnología de integración de datos en tiempo real, busque una que fácilmente pueda reunir información de una variedad de bases de datos y plataformas de aplicaciones. Esta es la clave más importante para el éxito.
La plataforma de integración es la base para los datos en tiempo real, y la compatibilidad de productos cruzados es uno de sus principales habitantes. Pero encontrar una plataforma que combine estos elementos y que admita el procesamiento en tiempo real sin traer dificultades será todo un desafío.
El producto de Oracle para esta plataforma es GoldenGate, que trabaja con bases de datos Oracle y productos de la competencia. También existen otras plataformas de tiempo real, y todo ello debe ser examinado bajo varios escenarios en los que se esté evaluando la integración de datos en tiempo real:
Alta disponibilidad. Deberá mantener automáticamente una copia remota en vivo de los datos provisionales de la aplicación. Esto es para que su aplicación empresarial pueda conmutar por error hacia un almacenamiento secundario, ante un escenario de recuperación de desastres, con un tiempo de inactividad mínimo.
Migración en vivo. La actualización, la migración o el mantenimiento de un sistema de producción implican normalmente un tiempo de inactividad. Una plataforma de integración de datos en tiempo real idealmente permitiría la migración con tiempo de inactividad cero, para que el nuevo sistema pueda ser completado con los datos del sistema antiguo sin tiempo de inactividad.
Integración de sistemas heterogéneos. Sus aplicaciones se basan en Oracle, Microsoft SQL Server, Sybase, DB2. Una plataforma de integración de datos en tiempo real puede hacer que todos funcionen a partir de los mismos datos compartidos, con un mínimo esfuerzo de integración.
Fusiones, adquisiciones y consolidación de TI en una empresa en crecimiento. Antes de que se divise su arquitectura final y uniforme, una técnica de captura de cambios de datos puede rápidamente consolidar los datos de las sucursales y departamentos (por cierto, ambos sabemos que no existe tal cosa llamada la “arquitectura final”).
Descarga de consultas. Un interesante efecto colateral del hecho de compartir datos replicados entre múltiples data marts es la mejora del rendimiento y la disponibilidad de OLTP. Las consultas gestionadas simultáneamente por varios servidores deberían ejecutarse más rápidamente y tener sus informes preparados antes.
Los clientes de Oracle tienen opciones adicionales que pueden fortalecer el proceso de integración de los datos en tiempo real. Los productos tales como Oracle Active Data Guard son útiles si el origen y las copias se basan en las mismas versiones y modelos de datos de Oracle, mientras que Oracle Real Application Clusters promete una transparente recuperación de aplicaciones si las copias se encuentran cerca. Por último, con la Infraestructura como modelo de Servicio conquistando el mercado por su precio y elasticidad, usted puede aprovechar las ventajas de la nube remota para alojar una copia secundaria de los datos críticos del negocio.