Definition

DataOps, operaciones de datos

Las operaciones de datos, o DataOps, son un enfoque ágil para diseñar, implementar y mantener una arquitectura de datos distribuidos que admitirá una amplia gama de herramientas y marcos de código abierto en la producción. El objetivo de DataOps es crear valor comercial a partir de big data.

Inspirada en el movimiento DevOps, la estrategia DataOps se esfuerza por acelerar la producción de aplicaciones que se ejecutan en marcos de procesamiento de big data. Además, DataOps busca desglosar los silos entre las operaciones de TI y los equipos de desarrollo de software, alentando a las partes interesadas de la línea de negocio a trabajar también con ingenieros de datos, científicos de datos y analistas. Esto ayuda a garantizar que los datos de la organización se puedan utilizar de la manera más flexible y efectiva posible para lograr resultados comerciales positivos.

Dado que incorpora tantos elementos del ciclo de vida de los datos, DataOps abarca una serie de disciplinas de tecnología de la información, incluido el desarrollo de datos, la transformación de datos, la extracción de datos, la calidad de los datos, la gobernanza de datos, el control de acceso de datos, la planificación de la capacidad del centro de datos y las operaciones del sistema. Los equipos de DataOps a menudo son administrados por el científico de datos o el director de análisis de una organización y cuentan con el apoyo de empleados como ingenieros de datos o analistas de datos.

Al igual que con DevOps, no hay herramientas de software específicas para "DataOps"; solo existen marcos y conjuntos de herramientas relacionados que admiten un enfoque DataOps para la colaboración y una mayor agilidad. Dichas herramientas incluyen herramientas de extracción, carga y transformación (ETL/ELT), herramientas de conservación y catalogación de datos, analizadores de registros y monitores de sistemas. Las herramientas que admiten arquitecturas de microservicios, así como el software de código abierto que permite a las aplicaciones combinar datos estructurados y no estructurados, también están asociados con el movimiento DataOps. Dicho software puede incluir MapReduce, HDFS, Kafka, Hive y Spark.

Cómo funciona DataOps

El objetivo de DataOps es combinar las metodologías DevOps y Agile para administrar los datos en alineación con los objetivos comerciales. Por ejemplo, si el objetivo es aumentar la tasa de conversión de clientes potenciales, DataOps posicionaría los datos para hacer mejores recomendaciones para comercializar productos, convirtiendo así más clientes potenciales. Los procesos ágiles se utilizan para el desarrollo de análisis y gobernanza de datos, mientras que los procesos DevOps se utilizan para optimizar el código, la creación de productos y la entrega.

La creación de un nuevo código es solo una parte de DataOps, ya que racionalizar y mejorar el almacén de datos es igualmente importante. Similar al proceso de manufactura esbelta, DataOps utiliza el control estadístico de procesos (SPC) para monitorear y verificar el flujo de análisis de datos de manera consistente. SPC se asegura de que las estadísticas permanezcan dentro de los rangos factibles, avanza la eficiencia del procesamiento de datos y aumenta la calidad de los datos. Si se produce una anomalía o error, SPC ayuda a alertar a los analistas de datos de inmediato para obtener una respuesta.

Cómo implementar DataOps

Como se estima que el volumen de datos continuará creciendo exponencialmente, la implementación de una estrategia DataOps se ha vuelto crucial. El primer paso para DataOps consiste en limpiar datos sin procesar y desarrollar una infraestructura que los haga disponibles para su uso, generalmente en un modelo de autoservicio. Una vez que los datos están disponibles, se deben desarrollar o implementar software, plataformas y herramientas que orquesten los datos y se integren con los sistemas actuales. Estos componentes procesarán continuamente nuevos datos, supervisarán el rendimiento y producirán información en tiempo real.

Algunas de las mejores prácticas asociadas con la implementación de una estrategia de DataOps incluyen:

  • Establecer puntos de referencia de progreso y mediciones de rendimiento en cada etapa del ciclo de vida de los datos.
  • Definir reglas semánticas para datos y metadatos desde el principio.
  • Incorporar bucles de retroalimentación para validar los datos.
  • Utilizar herramientas de ciencia de datos y plataformas de datos de inteligencia empresarial para automatizar la mayor parte del proceso posible.
  • Optimizar los procesos para lidiar con cuellos de botella y silos de datos; esto generalmente implica la automatización de software de algún tipo.
  • Diseñar para crecimiento, evolución y escalabilidad.
  • Utilizar entornos desechables que imiten el entorno de producción real para la experimentación.
  • Crear un equipo de DataOps con una variedad de habilidades técnicas y antecedentes.
  • Tratar a DataOps como una manufactura esbelta enfocándose en mejoras continuas a la eficiencia.

Beneficios de DataOps

La transición a una estrategia DataOps puede brindarle a una organización los siguientes beneficios:

  • Proporciona información de datos en tiempo real.
  • Reduce el tiempo de ciclo de las aplicaciones de ciencia de datos.
  • Permite una mejor comunicación y colaboración entre los equipos y los miembros del equipo.
  • Aumenta la transparencia mediante el uso de análisis de datos para predecir todos los escenarios posibles.
  • Los procesos están diseñados para ser reproducibles y reutilizar código siempre que sea posible.
  • Asegura una mayor calidad de datos.
  • Crea un centro de datos unificado e interoperable.

Este contenido se actualizó por última vez en julio 2020

Investigue más sobre Aplicaciones de negocios