Getty Images
DataOps le ayuda a desbloquear sus iniciativas de datos
El modelo de DataOps aplica las mejores prácticas de ingeniería ágil y DevOps a la gestión de datos para ayudar a las organizaciones a desbloquear el valor de sus datos y aprovechar al máximo su inversión.
En todos los sectores, las empresas siguen centrándose cada vez más en recopilar datos y encontrar formas innovadoras de obtener información práctica. Las organizaciones están dispuestas a invertir mucho tiempo y dinero para conseguirlo.
Según IDC, el mercado de software de datos y análisis y servicios en la nube alcanzó los 90 mil millones de dólares en 2021 y se espera que se duplique con creces para 2026, ya que las empresas siguen invirtiendo en inteligencia artificial (IA), aprendizaje automático (ML, por sus siglas en inglés) y en iniciativas de datos modernas.
Sin embargo, a pesar de los altos niveles de inversión, los proyectos de datos a menudo pueden arrojar resultados mediocres. Una encuesta reciente de McKinsey, sobre los principales programas avanzados de análisis, reveló que las empresas dedican el 80 % de su tiempo a tareas repetitivas, como la preparación de datos, en las que el trabajo de valor añadido es limitado. Además, descubrieron que sólo el 10 % de las empresas creen tener este problema bajo control.
Entonces, ¿por qué son tan altos los índices de fracaso de los proyectos de datos a pesar del aumento de la inversión y la atención? Son muchas las variables que pueden influir en el éxito de un proyecto. Entre los factores más citados se encuentran la complejidad del proyecto y la escasez de talentos. Los científicos de datos, arquitectos de nubes e ingenieros de datos escasean en todo el mundo. Las empresas también reconocen que muchos de sus proyectos de datos fracasan porque tienen dificultades para poner en marcha las iniciativas de datos a escala en la producción.
Esto ha llevado a la aparición de DataOps, como un nuevo marco para superar los retos comunes. DataOps es la aplicación de las mejores prácticas de ingeniería ágil y DevOps al campo de la gestión de datos, para ayudar a las organizaciones a convertir rápidamente los nuevos conocimientos en entregables de producción totalmente operativos que desbloqueen el valor empresarial de los datos. Las herramientas y metodologías de DataOps pueden ayudarle a aprovechar al máximo su inversión en datos. Pero si quiere tener éxito en su viaje DataOps, debe ser capaz de operacionalizar los datos.
Retos de la orquestación de datos
La mayoría de los flujos de trabajo de canalización de datos son inmensamente complejos y se ejecutan a través de muchas aplicaciones, fuentes de datos y tecnologías de infraestructura dispares que deben trabajar juntas. Aunque el objetivo es automatizar estos procesos en la producción, la realidad es que, sin una potente plataforma de orquestación de flujos de trabajo, la entrega de estos proyectos a escala empresarial puede resultar costosa y a menudo requiere dedicar mucho tiempo al trabajo manual.
Los proyectos de orquestación de flujos de trabajo de datos tienen cuatro etapas clave:
- La ingesta, implica recopilar datos de fuentes tradicionales, como soluciones de planificación de recursos empresariales (ERP) y de gestión de recursos de clientes (CRM), sistemas financieros y muchos otros sistemas de registro, además de datos de fuentes modernas como dispositivos, sensores de internet de las cosas (IoT) y redes sociales.
- El almacenamiento, aumenta la complejidad con numerosas herramientas y tecnologías diferentes que forman parte de la canalización de datos. Dónde y cómo se almacenan los datos depende mucho de la persistencia, el valor relativo de los conjuntos de datos, la frecuencia de actualización de los modelos analíticos y la velocidad a la que se pueden trasladar los datos al procesamiento.
- El procesamiento presenta muchos de los mismos retos. ¿Cuánto procesamiento puro se necesita? ¿Es constante o variable? ¿Es programado, basado en eventos o ad hoc? ¿Cómo minimizar los costos? La lista es interminable.
- Para obtener información, hay que trasladar la salida de datos a los sistemas de análisis. Esta capa también es compleja, con un número creciente de herramientas que representan la última milla en la canalización de datos.
Con la frecuente introducción de nuevas tecnologías de datos y en la nube, las empresas reevalúan constantemente sus pilas tecnológicas. Esta innovación en constante evolución crea una presión y una rotación que pueden suponer un reto, ya que las empresas necesitan adoptar fácilmente las nuevas tecnologías y escalarlas en producción. En última instancia, si un nuevo servicio de análisis de datos no está en producción a escala, las empresas no están obteniendo información procesable ni logrando valor.
Lograr la producción a escala
Ejecutar con éxito flujos de trabajo críticos para el negocio a escala en producción no sucede por accidente. La plataforma de orquestación de flujos de trabajo adecuada puede ayudarle a agilizar sus canalizaciones de datos y a obtener la información práctica que necesita.
Teniendo esto en cuenta, he aquí ocho capacidades esenciales que debe buscar en su plataforma de orquestación de flujos de trabajo:
- Admitir flujos de trabajo heterogéneos: Las empresas se están moviendo rápidamente a la nube, y en el futuro previsible tendrán flujos de trabajo a través de una mezcla altamente compleja de entornos híbridos. Para muchas, esto incluirá el soporte de sistemas mainframe y distribuidos a través del centro de datos y múltiples nubes privadas y/o públicas. Si su plataforma de orquestación no puede gestionar la diversidad de aplicaciones e infraestructuras subyacentes, tendrá una estrategia de automatización muy fragmentada, con muchos silos de automatización que requieren engorrosas integraciones personalizadas para gestionar las dependencias de flujos de trabajo entre plataformas.
- Gestión de acuerdos de nivel de servicio (SLA): Los flujos de trabajo empresariales, que van desde los modelos de ML que predicen el riesgo, hasta el cierre financiero y la liquidación de pagos, todos tienen SLA de finalización que a veces se rigen por directrices establecidas por organismos reguladores. Su plataforma de orquestación debe ser capaz de comprender y notificarle los fallos y retrasos de tareas en flujos de trabajo complejos, y debe ser capaz de asignar problemas a impactos empresariales más amplios.
- Gestión de errores y notificaciones: Cuando se ejecutan en producción, incluso los flujos de trabajo mejor diseñados tendrán fallos y retrasos. Es vital que se notifique a los equipos adecuados, de modo que se eviten las largas discusiones en la sala de guerra sólo para averiguar quién tiene que trabajar en un problema. Su plataforma de orquestación debe enviar automáticamente notificaciones a los equipos adecuados en el momento oportuno.
- Autorreparación y corrección: Cuando los equipos responden a fallos de trabajo dentro de los flujos de trabajo empresariales, toman medidas correctivas, como reiniciar un trabajo, eliminar un archivo o vaciar una caché o una tabla temporal. Su plataforma de orquestación debe permitir a los ingenieros de automatización configurar dichas acciones para que se realicen automáticamente la próxima vez que se produzca el mismo problema.
- Visibilidad de extremo a extremo: Los flujos de trabajo ejecutan procesos empresariales interconectados a través de pilas tecnológicas híbridas. Su plataforma de orquestación debe ser capaz de mostrar claramente el linaje de sus flujos de trabajo. Esto es fundamental para ayudarle a comprender las relaciones entre las aplicaciones y los procesos empresariales a los que dan soporte. También es importante para la gestión de cambios. A la hora de realizar cambios, es vital ver qué ocurre aguas arriba y aguas abajo de un proceso.
- Experiencia de usuario (UX) de autoservicio para múltiples personas: La orquestación de flujos de trabajo es un deporte de equipo con muchas partes interesadas, como equipos de datos, desarrolladores, operaciones, propietarios de procesos empresariales, etc. Cada equipo tiene diferentes casos de uso y preferencias sobre cómo desea interactuar con las herramientas de orquestación. Esto significa que su plataforma de orquestación debe ofrecer la interfaz de usuario (UI) y la experiencia de usuario (UX) adecuadas para cada equipo, de modo que puedan beneficiarse de la tecnología.
- Normas de producción: Ejecutar flujos de trabajo en producción requiere adherirse a estándares, lo que significa utilizar convenciones de nomenclatura correctas, patrones de gestión de errores, etc. Su plataforma de orquestación debe tener un mecanismo que proporcione una forma muy sencilla de definir dichos estándares, y guie a los usuarios hacia los estándares apropiados cuando construyan flujos de trabajo.
- Compatibilidad con prácticas DevOps: A medida que las empresas adoptan prácticas DevOps, como la integración continua y las secuencias de despliegue continuo (CI/CD), el desarrollo de flujos de trabajo, la modificación e incluso el despliegue de infraestructura de flujos de trabajo, su plataforma de orquestación debe ser capaz de adaptarse a las prácticas de lanzamiento modernas.
La necesidad de datos va en aumento y no muestra signos de disminuir, lo que significa que tener la capacidad de almacenar, procesar y operacionalizar esos datos seguirá siendo crucial para el éxito de cualquier organización. Las prácticas de DataOps, junto con potentes capacidades de orquestación, pueden ayudar a las empresas a orquestar canalizaciones de datos, agilizar el proceso de entrega de datos y mejorar los resultados empresariales.
Sobre el autor: Guy Eden es vicepresidente de Gestión de Productos en BMC. Es responsable de la gestión de productos de la línea de productos Digital Business Automation, y se incorporó a BMC en 2018. Anteriormente, fue vicepresidente de gestión de productos en el proveedor de infraestructura de mercados financieros Traiana, ahora propiedad de la Bolsa Mercantil de Chicago, y antes de eso fue jefe de gestión de productos en la Bolsa de Londres y en diversos cargos en SunGard (ahora FIS). Es licenciado en Matemáticas y Física por la Universidad de Harvard, en Matemáticas y Física por la Universidad de Manchester, y realizó investigaciones sobre física de partículas en el Instituto Weizmann de Ciencias.