Gestión de datos
La gestión de datos es el proceso de ingerir, almacenar, organizar, utilizar y mantener los datos creados y recopilados por una organización. La gestión de datos eficaz es una pieza fundamental de la implementación de los sistemas de TI que ejecutan aplicaciones comerciales y proporcionan información analítica para ayudar a impulsar la toma de decisiones operativas y la planificación estratégica por parte de ejecutivos corporativos, gerentes comerciales y otros usuarios finales.
El proceso de gestión de datos incluye una combinación de diferentes funciones que, en conjunto, tienen como objetivo garantizar que los datos de los sistemas corporativos sean precisos, estén disponibles y sean accesibles. La mayor parte del trabajo requerido lo realizan los equipos de administración de datos y TI, pero los usuarios comerciales generalmente también participan en algunas partes del proceso para garantizar que los datos satisfagan sus necesidades y para que se adhieran a las políticas que rigen su uso.
Esta guía para la gestión de datos explica con más detalle qué es y proporciona información sobre las disciplinas individuales que incluye, las mejores prácticas para la gestión de datos, los desafíos que enfrentan las organizaciones y los beneficios comerciales de una estrategia de gestión de datos exitosa. También encontrará una descripción general de las herramientas y técnicas de administración de datos.
Importancia de la gestión de datos
Los datos se ven cada vez más como un activo corporativo que se puede utilizar para tomar decisiones comerciales más informadas, mejorar las campañas de marketing, optimizar las operaciones comerciales y reducir los costos, todo con el objetivo de aumentar los ingresos y las ganancias. Pero la falta de una gestión de datos adecuada puede cargar a las organizaciones con silos de datos incompatibles, conjuntos de datos incoherentes y problemas de calidad de los datos que limitan su capacidad para ejecutar aplicaciones de análisis e inteligencia empresarial (BI) o, lo que es peor, llevar a resultados erróneos.
La gestión de datos también ha ganado en importancia a medida que las empresas están sujetas a un número cada vez mayor de requisitos de cumplimiento normativo, incluidas las leyes de protección y privacidad de datos, como el GDPR y la Ley de Privacidad del Consumidor de California. Además, las empresas están capturando volúmenes de datos cada vez mayores y una variedad más amplia de tipos de datos, ambos sellos distintivos de los sistemas de big data que muchos han implementado. Sin una buena gestión de datos, estos entornos pueden volverse difíciles de manejar y difíciles de navegar.
Tipos de funciones de gestión de datos
Las distintas disciplinas que forman parte del proceso general de gestión de datos cubren una serie de pasos, desde el procesamiento y almacenamiento de datos hasta la gobernanza de cómo se formatean y utilizan los datos en los sistemas operativos y analíticos. El desarrollo de una arquitectura de datos suele ser el primer paso, especialmente en organizaciones grandes con muchos datos que administrar. Una arquitectura proporciona un modelo para las bases de datos y otras plataformas de datos que se implementarán, incluidas tecnologías específicas para adaptarse a aplicaciones individuales.
Las bases de datos son la plataforma más común utilizada para almacenar datos corporativos; contienen una colección de datos que está organizada para que se pueda acceder a ella, actualizarla y administrarla. Se utilizan tanto en sistemas de procesamiento de transacciones que crean datos operativos, como registros de clientes y pedidos de ventas, como en almacenes de datos, que almacenan conjuntos de datos consolidados de sistemas comerciales para BI y análisis.
La administración de la base de datos es una función central de gestión de datos. Una vez que se han configurado las bases de datos, se debe realizar un seguimiento y ajuste del rendimiento para mantener tiempos de respuesta aceptables en las consultas de la base de datos que los usuarios ejecutan para obtener información de los datos almacenados en ellas. Otras tareas administrativas incluyen el diseño, la configuración, la instalación y las actualizaciones de la base de datos; seguridad de datos; copia de seguridad y recuperación de la base de datos; y aplicación de actualizaciones de software y parches de seguridad.
La gestión de datos implica una variedad de funciones interrelacionadas.
La tecnología principal utilizada para implementar y administrar bases de datos es un sistema de administración de bases de datos (DBMS), que es un software que actúa como una interfaz entre las bases de datos que controla y los administradores de bases de datos, los usuarios finales y las aplicaciones que acceden a ellas. Las plataformas de datos alternativas a las bases de datos incluyen sistemas de archivos y servicios de almacenamiento de objetos en la nube; almacenan datos de formas menos estructuradas que las bases de datos convencionales, lo que ofrece más flexibilidad sobre los tipos de datos que se pueden almacenar y cómo se formatean. Como resultado, sin embargo, no son una buena opción para aplicaciones transaccionales.
Otras disciplinas fundamentales de gestión de datos incluyen el modelado de datos, que esquematiza las relaciones entre los elementos de datos y cómo los datos fluyen a través de los sistemas; integración de datos, que combina datos de diferentes fuentes de datos para usos operativos y analíticos; gobernanza de datos, que establece políticas y procedimientos para garantizar que los datos sean coherentes en toda la organización; y gestión de la calidad de los datos, cuyo objetivo es corregir errores e incoherencias en los datos. Otro es la gestión de datos maestros (MDM), que crea un conjunto común de datos de referencia sobre cosas como clientes y productos.
Herramientas y técnicas de gestión de datos
Se puede emplear una amplia gama de tecnologías, herramientas y técnicas como parte del proceso de gestión de datos. Eso incluye las siguientes opciones disponibles para diferentes aspectos de la gestión de datos.
Sistemas de gestión de bases de datos. El tipo más común de DBMS es el sistema de gestión de bases de datos relacionales. Las bases de datos relacionales organizan los datos en tablas con filas y columnas que contienen registros de la base de datos; Los registros relacionados en diferentes tablas se pueden conectar mediante el uso de claves primarias y externas, evitando la necesidad de crear entradas de datos duplicadas. Las bases de datos relacionales se construyen alrededor del lenguaje de programación SQL y un modelo de datos rígido que se adapta mejor a los datos de transacciones estructurados. Eso y su compatibilidad con las propiedades de transacción de ACID —atomicidad, consistencia, aislamiento y durabilidad— las han convertido en la principal opción de base de datos para aplicaciones de procesamiento de transacciones.
Sin embargo, otros tipos de tecnologías DBMS han surgido como opciones viables para diferentes tipos de cargas de trabajo de datos. La mayoría están categorizadas como bases de datos NoSQL, que no imponen requisitos rígidos sobre modelos de datos y esquemas de bases de datos; como resultado, pueden almacenar datos no estructurados y semiestructurados, como datos de sensores, registros de flujo de clics de internet y registros de redes, servidores y aplicaciones.
Hay cuatro tipos principales de sistemas NoSQL: bases de datos de documentos que almacenan elementos de datos en estructuras similares a documentos, bases de datos de valor-clave que emparejan claves únicas y valores asociados, almacenes de columnas anchas con tablas que tienen una gran cantidad de columnas y bases de datos de gráficos que conectar elementos de datos relacionados en un formato de gráfico. El nombre NoSQL se ha convertido en un nombre poco apropiado —aunque las bases de datos NoSQL no se basan en SQL, muchas ahora admiten elementos de este y ofrecen cierto nivel de conformidad con ACID.
Las opciones adicionales de bases de datos y DBMS incluyen bases de datos en memoria que almacenan datos en la memoria de un servidor en lugar de en el disco para acelerar el rendimiento de E/S y bases de datos en columnas que están orientadas a aplicaciones de análisis. Las bases de datos jerárquicas que se ejecutan en mainframes y son anteriores al desarrollo de sistemas relacionales y NoSQL también están disponibles para su uso. Los usuarios pueden implementar bases de datos en sistemas locales o basados en la nube; además, varios proveedores de bases de datos ofrecen servicios de base de datos gestionados en la nube, en los que se encargan de la implementación, configuración y administración de la base de datos para los usuarios.
Gestión de big data. Las bases de datos NoSQL se utilizan a menudo en implementaciones de big data debido a su capacidad para almacenar y administrar varios tipos de datos. Los entornos de big data también se construyen comúnmente alrededor de tecnologías de código abierto como Hadoop, un marco de procesamiento distribuido con un sistema de archivos que se ejecuta en grupos de servidores básicos; su base de datos HBase asociada; el motor de procesamiento Spark; y las plataformas de procesamiento de flujos Kafka, Flink y Storm. Cada vez más, los sistemas de big data se implementan en la nube, utilizando almacenamiento de objetos como Amazon Simple Storage Service (S3).
Almacenes de datos y lagos de datos. Dos repositorios alternativos para administrar datos analíticos son los almacenes de datos y los lagos de datos. El almacenamiento de datos es el método más tradicional —un almacén de datos generalmente se basa en una base de datos relacional o en columnas, y almacena datos estructurados reunidos de diferentes sistemas operativos y preparados para el análisis. Los principales casos de uso del almacén de datos son las consultas de BI y los informes empresariales, que permiten a los analistas y ejecutivos comerciales analizar las ventas, la gestión de inventario y otros indicadores clave de rendimiento.
Un almacén de datos empresarial incluye datos de los sistemas empresariales de una organización. En las grandes empresas, las subsidiarias individuales y las unidades de negocio con autonomía de gestión pueden construir sus propios almacenes de datos. Los data marts son otra opción —son versiones más pequeñas de los almacenes de datos que contienen subconjuntos de los datos de una organización para departamentos o grupos de usuarios específicos.
Los lagos de datos, por otro lado, almacenan grupos de big data para su uso en modelos predictivos, aprendizaje automático y otras aplicaciones de análisis avanzado. Por lo general, se crean en clústeres de Hadoop, aunque las implementaciones de lago de datos también se realizan en bases de datos NoSQL o almacenamiento de objetos en la nube; además, se pueden combinar diferentes plataformas en un entorno de lago de datos distribuido. Los datos pueden procesarse para su análisis cuando se ingieren, pero un lago de datos a menudo contiene datos sin procesar almacenados tal cual. En ese caso, los científicos de datos y otros analistas suelen hacer su propio trabajo de preparación de datos para usos analíticos específicos.
Integración de datos. La técnica de integración de datos más utilizada es extraer, transformar y cargar (ETL), que extrae datos de los sistemas de origen, los convierte a un formato coherente y luego carga los datos integrados en un almacén de datos u otro sistema de destino. Sin embargo, las plataformas de integración de datos ahora también admiten una variedad de otros métodos de integración. Eso incluye extraer, cargar y transformar (ELT), una variación de ETL que deja los datos en su forma original cuando se cargan en la plataforma de destino. ELT es una opción común para trabajos de integración de datos en lagos de datos y otros sistemas de big data.
ETL y ELT son procesos de integración por lotes que se ejecutan a intervalos programados. Los equipos de gestión de datos también pueden realizar la integración de datos en tiempo real, utilizando métodos como la captura de datos de cambios, que aplica los cambios a los datos en las bases de datos a un almacén de datos u otro repositorio, y la integración de datos de transmisión, que integra flujos de datos en tiempo real en de forma continua. La virtualización de datos es otra opción de integración —utiliza una capa de abstracción para crear una vista virtual de los datos de diferentes sistemas para los usuarios finales en lugar de cargar físicamente los datos en un almacén de datos.
Gobernanza de datos, calidad de datos y MDM. La gobernanza de datos es principalmente un proceso organizativo; hay disponibles productos de software que pueden ayudar a administrar los programas de gobierno de datos, pero son un elemento opcional. Si bien los programas de gobierno pueden ser administrados por profesionales de la gestión de datos, generalmente incluyen un consejo de gobierno de datos formado por ejecutivos de negocios que toman decisiones colectivamente sobre definiciones de datos comunes y estándares corporativos para crear, formatear y usar datos.
Otro aspecto clave de las iniciativas de gobernanza es la administración de datos, que implica supervisar los conjuntos de datos y garantizar que los usuarios finales cumplan con las políticas de datos aprobadas. El administrador de datos puede ser un puesto de tiempo completo o parcial, según el tamaño de una organización y el alcance de su programa de gobierno. Los administradores de datos también pueden provenir tanto de las operaciones comerciales como del departamento de TI; de cualquier manera, un conocimiento detallado de los datos que supervisan es normalmente un requisito previo.
La gobernanza de datos está estrechamente relacionada con los esfuerzos de mejora de la calidad de los datos; las métricas que documentan las mejoras en la calidad de los datos de una organización son fundamentales para demostrar el valor comercial de los programas de gobierno. Las técnicas de calidad de datos incluyen la elaboración de perfiles de datos, que escanea conjuntos de datos para identificar valores atípicos que podrían ser errores; limpieza de datos, también conocida como depuración de datos, que corrige errores de datos modificando o eliminando datos incorrectos; y validación de datos, que compara los datos con las reglas de calidad preestablecidas.
La gestión de datos maestros también está relacionada con la gobernanza y la calidad de los datos, aunque MDM no se ha adoptado tan ampliamente como las otras dos funciones de gestión de datos. Eso se debe en parte a la complejidad de los programas MDM, que en su mayoría los limita a las grandes organizaciones. MDM crea un registro central de datos maestros para dominios de datos seleccionados —lo que a menudo se denomina registro dorado. Los datos maestros se almacenan en un concentrador MDM, que alimenta los datos a los sistemas analíticos para generar informes y análisis empresariales consistentes; si lo desea, el concentrador también puede enviar datos maestros actualizados a los sistemas de origen.
Modelado de datos. Los modeladores de datos crean una serie de modelos de datos conceptuales, lógicos y físicos que documentan conjuntos de datos y flujos de trabajo de forma visual y los asignan a los requisitos comerciales para el procesamiento y análisis de transacciones. Las técnicas comunes para modelar datos incluyen el desarrollo de diagramas de relación de entidades, mapeos de datos y esquemas. Además, los modelos de datos deben actualizarse cuando se agregan nuevas fuentes de datos o cuando la información de una organización necesita cambios.
Mejores prácticas de gestión de datos
Un programa de gobierno de datos bien diseñado es un componente crítico de las estrategias efectivas de administración de datos, especialmente en organizaciones con entornos de datos distribuidos que incluyen un conjunto diverso de sistemas. También es imprescindible un fuerte enfoque en la calidad de los datos. Sin embargo, en ambos casos, los equipos de gestión de datos y TI no pueden hacerlo solos. Los ejecutivos de negocios y los usuarios deben participar para asegurarse de que se satisfagan sus necesidades de datos y no se perpetúen los problemas de calidad de los datos. Lo mismo se aplica a los proyectos de modelado de datos.
Además, la multitud de bases de datos y otras plataformas de datos disponibles para su implementación requiere un enfoque cuidadoso al diseñar una arquitectura de datos y evaluar y seleccionar tecnologías. Los administradores de datos y TI deben asegurarse de que los sistemas que implementen sean adecuados para el propósito previsto y brindarán las capacidades de procesamiento de datos y la información analítica requerida por las operaciones comerciales de una organización.
La Organización de Profesionales de Gobernanza de Datos, DAMA International, y otros grupos de la industria trabajan para avanzar en la comprensión de las disciplinas de gestión de datos y ofrecer orientación sobre las mejores prácticas. Por ejemplo, DAMA ha publicado DAMA-DMBOK: Data Management Body of Knowledge, un libro de referencia que intenta definir una vista estándar de las funciones y métodos de gestión de datos. Comúnmente conocido como DMBOK, el libro se publicó por primera vez en 2009; en 2017 se lanzó una segunda edición de DMBOK2.
Riesgos y desafíos de la gestión de datos
Si una organización no tiene una arquitectura de datos bien diseñada, puede terminar con sistemas aislados que son difíciles de integrar y administrar de manera coordinada. Incluso en entornos mejor planificados, permitir que los científicos de datos y otros analistas encuentren y accedan a datos relevantes puede ser un desafío, especialmente cuando los datos se distribuyen en varias bases de datos y sistemas de big data. Para ayudar a que los datos sean más accesibles, muchos equipos de administración de datos están creando catálogos de datos que documentan lo que está disponible en los sistemas y, por lo general, incluyen glosarios comerciales, diccionarios de datos basados en metadatos y registros de linaje de datos.
El cambio a la nube puede facilitar algunos aspectos del trabajo de gestión de datos, pero también crea nuevos desafíos. Por ejemplo, migrar a bases de datos en la nube y plataformas de big data puede resultar complicado para las organizaciones que necesitan mover datos y procesar cargas de trabajo desde sistemas locales existentes. Los costos son otro gran problema en la nube: el uso de los sistemas en la nube y los servicios administrados deben monitorearse de cerca para asegurarse de que las facturas de procesamiento de datos no excedan los montos presupuestados.
Muchos equipos de administración de datos se encuentran ahora entre los empleados que son responsables de proteger la seguridad de los datos corporativos y limitar las posibles responsabilidades legales por violaciones de datos o uso indebido de datos. Los administradores de datos deben ayudar a garantizar el cumplimiento de las regulaciones gubernamentales y de la industria sobre seguridad, privacidad y uso de los datos. Eso se ha convertido en una preocupación más apremiante con la aprobación de GDPR, la ley de privacidad de datos de la Unión Europea que entró en vigencia en mayo de 2018, y la Ley de Privacidad del Consumidor de California, que se convirtió en ley en 2018 y está programada para entrar en vigencia a principios de 2020.
Tareas y roles de gestión de datos
El proceso de gestión de datos implica una amplia gama de tareas, deberes y habilidades. En organizaciones más pequeñas con recursos limitados, los trabajadores individuales pueden manejar múltiples roles. Pero, en general, los profesionales de la gestión de datos incluyen arquitectos de datos, modeladores de datos, administradores de bases de datos (DBA), desarrolladores de bases de datos, ingenieros y analistas de calidad de datos, desarrolladores de integración de datos, administradores de gobierno de datos, administradores de datos e ingenieros de datos, que trabajan con equipos de análisis para construir canalizaciones de datos y preparar los datos para su análisis.
Detalles básicos sobre la profesión de gestión de datos.
Los científicos de datos y otros analistas de datos también pueden manejar algunas tareas de administración de datos por sí mismos, especialmente en sistemas de big data con datos sin procesar que deben filtrarse y prepararse para usos específicos. Del mismo modo, los desarrolladores de aplicaciones a menudo ayudan a implementar y administrar entornos de big data, que requieren nuevas habilidades en general en comparación con los sistemas de bases de datos relacionales. Como resultado, las organizaciones pueden tener que contratar nuevos trabajadores o volver a capacitar a los administradores de bases de datos tradicionales para satisfacer sus necesidades de administración de big data.
Beneficios de una buena gestión de datos
Una estrategia de gestión de datos bien ejecutada puede ayudar a las empresas a obtener ventajas competitivas potenciales sobre sus rivales comerciales, tanto al mejorar la eficacia operativa como al permitir una mejor toma de decisiones. Las organizaciones con datos bien administrados también pueden volverse más ágiles, lo que hace posible detectar las tendencias del mercado y moverse para aprovechar las nuevas oportunidades comerciales más rápidamente.
La gestión de datos eficaz también puede ayudar a las empresas a evitar violaciones de datos, problemas de privacidad de datos y problemas de cumplimiento normativo que podrían dañar su reputación, agregar costos inesperados y ponerlos en peligro legal. En última instancia, el mayor beneficio que puede proporcionar un enfoque sólido de la gestión de datos es un mejor rendimiento empresarial.
Historia y evolución de la gestión de datos
El primer florecimiento de la gestión de datos fue impulsado en gran medida por los profesionales de TI que se centraron en resolver el problema de la entrada y salida de basura en las primeras computadoras después de reconocer que las máquinas llegaron a conclusiones falsas porque se alimentaron con datos inexactos o inadecuados.
A partir de la década de 1960, los grupos industriales y las asociaciones profesionales promovieron las mejores prácticas para la gestión de datos, especialmente en términos de formación profesional y métricas de calidad de datos. Las bases de datos jerárquicas basadas en mainframe también estuvieron disponibles esa década.
La base de datos relacional surgió en la década de 1970 y luego consolidó su lugar en el centro del proceso de gestión de datos en la década de 1980. La idea del almacén de datos se concibió a fines de la década de 1980, y los primeros en adoptar el concepto comenzaron a implementar almacenes de datos a mediados de la década de 1990. A principios de la década de 2000, el software relacional era una tecnología dominante, con un bloqueo virtual en las implementaciones de bases de datos.
Pero la versión inicial de Hadoop estuvo disponible en 2006 y fue seguida por el motor de procesamiento Spark y varias otras tecnologías de big data. Una variedad de bases de datos NoSQL también comenzaron a estar disponibles en el mismo período de tiempo. Si bien la tecnología relacional todavía tiene la participación más grande con diferencia, el aumento de las alternativas de big data y NoSQL y los nuevos entornos de lago de datos que permiten ha brindado a las organizaciones un conjunto más amplio de opciones de administración de datos.