sakkmesterke - stock.adobe.com

Consejo

Siete pasos para una implementación exitosa de un lago de datos

Inundar un clúster de Hadoop con datos que no están organizados y administrados correctamente puede obstaculizar los esfuerzos de analítica. Siga estos pasos para ayudar a que su lago de datos sea accesible y utilizable.

por

David Loshin, Knowledge Integrity Inc.

Publicado: 16 abr 2018

El concepto del lago de datos se originó con el surgimiento de big data como un activo central para las empresas y la llegada de Hadoop como una plataforma para almacenarlo y administrarlo. Sin embargo, sumergirse ciegamente en la implementación de un lago de datos de Hadoop no necesariamente llevará a su organización a la era del big data, al menos no de manera exitosa.

Esto es particularmente cierto en los casos en que los recursos de datos de todas las formas y tamaños se canalizan hacia un entorno de Hadoop de forma no gobernada. Un enfoque fortuito de este tipo conduce a varios desafíos y problemas que pueden obstaculizar gravemente el uso de un lago de datos para soportar aplicaciones de análisis de big data.

Por ejemplo, es posible que no pueda documentar qué objetos de datos están almacenados en un lago de datos o sus fuentes y procedencia. Eso dificulta que los científicos de datos y otros analistas encuentren datos relevantes distribuidos en un clúster de Hadoop y que los administradores de datos puedan rastrear quién accede a determinados conjuntos de datos y determinar qué nivel de privilegios de acceso se necesitan.

Organizar datos y "agrupar" objetos de datos similares para ayudar a facilitar el acceso y el análisis también es un desafío si no cuenta con un proceso bien administrado.

Ninguno de estos problemas tiene que ver con la arquitectura física del lago de datos o del entorno Hadoop subyacente. Más bien, los mayores impedimentos para una implementación exitosa del lago de datos son el resultado de una planificación y supervisión inadecuadas de la administración de datos.

Haga lo que necesite hacer con los datos de Hadoop

La buena noticia, sin embargo, es que los desafíos se superan fácilmente. Aquí hay siete pasos para enfrentarlos y evitarlos:

Cree una taxonomía de clasificaciones de datos. Organizar objetos de datos en un lago de datos depende de cómo se clasifiquen. Identifique las dimensiones clave de los datos como parte de sus clasificaciones, como tipo de datos, contenido, escenarios de uso, grupos de posibles usuarios y sensibilidad de los datos. Esto último se relaciona con la protección de datos personales y corporativos, como la información de identificación personal sobre los clientes en el primer caso y la propiedad intelectual en el segundo.
Diseñe una arquitectura de datos adecuada. Aplique la taxonomía de clasificación definida para dirigir cómo se organizan los datos en su entorno Hadoop. El plan resultante debe incluir cosas como estructuras de jerarquía de archivos para el almacenamiento de datos, convenciones de nombres de archivos y carpetas, métodos de acceso y controles para diferentes conjuntos de datos, al igual que mecanismos para guiar la distribución de datos.
Emplee herramientas de creación de perfiles de datos. En muchos casos, la ausencia de conocimiento sobre todos los datos que entran en un lago de datos se puede aliviar parcialmente analizando su contenido. Las herramientas de creación de perfiles de datos pueden ayudar al reunir información sobre lo que hay en los objetos de datos, lo que proporciona información para clasificarlos. La elaboración de perfiles de datos como parte de la implementación de un lago de datos también ayuda a identificar problemas de calidad de los datos que deberían evaluarse para detectar posibles soluciones a fin de garantizar que los analistas estén trabajando con información precisa.
Estandarice el proceso de acceso a datos. Las dificultades en el uso efectivo de conjuntos de datos almacenados en un lago de datos de Hadoop a menudo se derivan del uso de una variedad de métodos de acceso a datos, muchos de ellos sin documentar, por diferentes equipos de analítica. En cambio, instituir una API común y directa puede simplificar el acceso a los datos y, en última instancia, permitir que más usuarios aprovechen los datos.
Desarrolle un catálogo de datos con capacidad de búsqueda. Un obstáculo más insidioso al acceso y uso efectivo de los datos es que los usuarios potenciales desconozcan qué hay en un lago de datos y dónde se encuentran los diferentes conjuntos de datos en el entorno Hadoop, además de información sobre el linaje, la calidad y la actualidad de los datos. Un catálogo de datos colaborativo permite que estos y otros detalles sobre cada activo de datos sean documentados. Por ejemplo, captura metadatos estructurales y semánticos, registros de procedencia y linaje, información sobre privilegios de acceso y más. Un catálogo de datos también proporciona un foro para grupos de usuarios para compartir experiencias, problemas y consejos sobre cómo trabajar con los datos.
Implemente suficientes protecciones de datos. Además de los aspectos convencionales de la seguridad de TI, como las defensas del perímetro de la red y los controles de acceso basados en roles, se utilizan otros métodos para evitar la exposición de información confidencial contenida en un lago de datos. Esto incluye mecanismos como el cifrado de datos y el enmascaramiento de datos, junto con la supervisión automatizada para generar alertas sobre el acceso o transferencia de datos no autorizados.
Aumente la conciencia de datos internamente. Finalmente, asegúrese de que los usuarios de su lago de datos sean conscientes de la necesidad de administrar y gobernar activamente los activos de datos que contiene. Capacítelos sobre cómo usar el catálogo de datos para encontrar conjuntos de datos disponibles y cómo configurar aplicaciones de analítica para acceder a los datos que necesitan. Al mismo tiempo, recalque la importancia del uso adecuado de los datos y la buena calidad de los datos.

Para cumplir con el objetivo final de hacer accesible y utilizable un lago de datos, es fundamental tener un plan bien diseñado para manejar los datos antes de migrarlos a su entorno Hadoop. Seguir los pasos que se detallan aquí ayudará a simplificar el proceso de implementación del lago de datos. Más importante aún, la combinación correcta de planificación, organización y gobierno ayudará a maximizar su inversión en un lago de datos y reducirá el riesgo de una implementación fallida.

Próximos pasos

Quizás le interese revisar también:

Conjuntos de datos diversificados para analítica entregan resultados de primera

La tecnología semántica apuntala la IA conversacional y otros usos de big data

El análisis de datos no estructurados es crítico, pero difícil

Investigue más sobre Almacenamiento flash y en drives

E-Handbook: Cómo manejar los grandes volúmenes de datos

Articulo2 de 3

Up Next

Fundamentos para proyectos de big data

Con el veloz incremento en la cantidad de datos que se generan diariamente a través de múltiples dispositivos, las empresas necesitan implementar soluciones que les permitan no solamente almacenar, sino también filtrar, analizar y gestionar dichos volúmenes de datos. Este hendbook ofrece algunos consejos para empezar con los proyectos de big data.