polygraphus - Fotolia
Técnicas de integración de datos para ayudar a mantener consistentes los datos de BI
Los procesos de integración de datos que no se gestionan correctamente pueden crear datos incoherentes en las aplicaciones de BI y analítica. Aquí hay algunos pasos para evitar ese problema.
La sabiduría convencional en la gestión de datos sostiene que las dimensiones críticas de la calidad de los datos incluyen precisión, integridad, puntualidad y consistencia. Pero, ¿qué significa realmente la consistencia de los datos? ¿Cuáles son sus implicaciones para los equipos de gestión de datos? ¿Y qué tipo de técnicas de integración de datos puede usar para ponerlas en funcionamiento en múltiples aplicaciones?
La necesidad de coherencia de los datos se basa en la condición de que los mismos conjuntos de datos de origen se utilizan a menudo de múltiples maneras para diferentes aplicaciones de BI y analíticas. Por ejemplo, un conjunto de transacciones de ventas diarias podría usarse para informes operacionales para comparar ventas de productos similares en diferentes ubicaciones minoristas y para aplicaciones analíticas avanzadas, como el desarrollo de perfiles de clientes basados en los tipos de productos que la gente ha comprado.
Los mismos datos de transacción se utilizan para ambos tipos de aplicaciones, aunque los procesos que se usan para extraer, transformar, reorganizar y luego transmitir los datos a las aplicaciones posteriores presentan riesgos de introducir al menos cuatro formas diferentes de inconsistencia de datos.
Formas de equivocarse en la integración de datos
Hay una incoherencia temporal, que puede resultar de extraer datos de un sistema fuente en diferentes momentos; hacerlo significa modificaciones hechas a los datos después de que una extracción se incluya en los posteriores.
La inconsistencia estructural implica valores de datos que se colocan en diferentes formatos durante el proceso de integración de datos; por ejemplo, cuando los códigos postales se infieren erróneamente como otro tipo de datos y los que comienzan con cero se transforman en números de cuatro dígitos.
La inconsistencia semántica ocurre cuando las aplicaciones objetivo interpretan de manera diferente lo que significan los datos. El uso del término cliente, por ejemplo, puede tener diferentes definiciones según si los datos se originan en sistemas de marketing, ventas o atención al cliente.
La incoherencia de la transformación se produce cuando los trabajos de integración de datos aplican transformaciones diferentes a los mismos datos de origen, por ejemplo, con base en reglas comerciales separadas que alteran los valores de los atributos de forma condicional.
En muchos casos, la falta de coordinación entre los desarrolladores de aplicaciones e integración de datos permite que tales inconsistencias se cuelen en las aplicaciones de destino. Ese es un síntoma de las prácticas de administración de datos no administradas: las operaciones de negocios en silos desarrollan sus procesos de integración de datos en un vacío virtual, con una comunicación poco frecuente a través de líneas funcionales.
Por lo tanto, el primer paso es documentar las técnicas y prácticas de integración de datos existentes que se utilizan en toda su organización. Identifique qué trabajos de integración acceden a las fuentes de datos, en qué circunstancias y en qué momentos. Al hacerlo, permitirá que los administradores de datos examinen las diversas secuencias de integración para determinar si hay conflictos obvios que puedan generar incoherencias en los datos.
Tome el control del proceso de integración
Como segundo paso, garantizar la coherencia de los datos en todas las aplicaciones requiere controles para evitar la introducción de incoherencias. Eso requiere instituir políticas y procedimientos para combatir los efectos de secuencias de integración de datos descoordinadas. Aquí hay algunas ideas sobre cómo usar nuevas técnicas de integración para lograr eso y evitar cada uno de los cuatro tipos de inconsistencias de datos descritos anteriormente:
- Sincronice las secuencias de integración de datos. Si la causa raíz de la incoherencia temporal es la extracción de datos asíncrona de los sistemas operativos o de transacción, cree un desencadenador sincronizado para iniciar las diferentes secuencias de integración. Este enfoque puede acomodar las extracciones programadas y los datos de transmisión, el último almacenando en caché los datos y soltándolos en todos los trabajos de integración al mismo tiempo.
- Estandarice formatos para valores de datos. La especificación de estándares de almacenamiento y presentación para formatos de datos tiene como objetivo reducir las diferencias introducidas por los desarrolladores de aplicaciones que trabajan de forma independiente. Los profesionales de los datos pueden desarrollar servicios para toda la empresa que validen los valores de los datos en comparación con los estándares de formato definidos, lo que reduce la incoherencia estructural.
- Armonice las definiciones de datos. Las variaciones en las definiciones de datos, o peor aún, la ausencia de ellas, permiten a los usuarios de datos suponer que pueden imponer sus propios significados en los conjuntos de datos. La colaboración interna para identificar, revisar y armonizar las diferentes definiciones de datos ayudará a reducir la incoherencia semántica.
- Coordine las transformaciones de datos. Muchos trabajos de integración de datos están impulsados por reglas comerciales definidas. Una revisión de los diferentes conjuntos de reglas de negocios por administradores de datos puede ayudar a identificar situaciones en las que se pueden aplicar transformaciones inconsistentes. Estos pueden armonizarse para que los resultados sean consistentes o calificados, de modo que los resultados se especifiquen de forma independiente para reconocer inconsistencias en los datos.
En última instancia, la combinación de estándares de datos, validación de datos, buenas prácticas de administración de datos y técnicas de integración de datos bien planificadas introducirán las muy necesarias disciplina y coherencia en sus procesos de integración.