Sergey Galushko - Fotolia
¿Debería hospedar su lago de datos en la nube?
En el sitio o en la nube: ¿Cuál es el mejor lugar para la administración de su lago de datos? Aquí hay algunas cosas a considerar antes de decidir dónde almacenar su lago de datos.
Las compañías globales tienen muchas aplicaciones. Una empresa con la que trabajé recientemente tenía más de 600 aplicaciones de TI documentadas, una de las cuales era su sistema ERP. Para tener una idea del rendimiento del negocio en toda la empresa, debe agregar de alguna manera estos datos, resolviendo inconsistencias en las clasificaciones de productos, clientes, proveedores, etc.
Esta tarea no trivial, que requiere tratar el tema espinoso de la calidad de los datos, da como resultado un almacén de datos (data warehouse). Mantener ese almacén de datos actualizado en medio de la reestructuración corporativa, las adquisiciones y otros cambios comerciales es un desafío importante, pero eso es en lo que las empresas, con grados mixtos de éxito, confiaron para darles una visión unificada de su negocio.
Bienvenidos lagos de datos
El advenimiento de los grandes datos en volúmenes demasiado grandes para que los puedan manejar las bases de datos con licencia comercial complicó más las cosas económicamente. Dichos datos incluyen datos de medidores inteligentes, sensores, registros web, mástiles telefónicos, redes sociales y más. Un avión moderno genera 5 TB de datos por vuelo, mientras que un automóvil autónomo arroja 40 TB por día. Las bases de datos tradicionales nunca se diseñaron para volúmenes tan altos, y los costos pueden aumentar rápidamente al escalar.
Una opción de almacenamiento más barata ha sido Hadoop, un marco de procesamiento distribuido de código abierto. Esto permite que grandes volúmenes de datos se almacenen y administren en grupos de hardware básico. Hadoop ha sido puesto en servicio para lidiar con los grandes datos que las empresas generan ahora, pero es importante comprender que estos datos son crudos y no se procesan ni resumen como el tipo que se encuentra en un almacén de datos.
El término lago de datos se usa para describir un almacén de datos sin procesar. Piense en la diferencia entre el agua de un lago real en comparación con una botella de Evian, que ha sido limpiada, marcada y empaquetada para facilitar su consumo.
Inicialmente, todos los lagos de datos estaban alojados dentro del firewall corporativo en hardware dedicado. Sin embargo, mantener un lago de datos en crecimiento (agregando y administrando servidores a medida que los datos ingresan) requiere recursos. Así como los proveedores han entrado en otros mercados que las compañías solían manejar internamente, no es sorprendente que haya sucedido lo mismo con los lagos de datos.
Lagos de datos en la nube
La gestión de lagos de grandes datos en su propio centro de datos corporativo –ocupándose de copias de seguridad, fallas de seguridad y hardware, etc.–, es un gran esfuerzo. Es por eso que los servicios gestionados en la nube se han convertido en una alternativa importante a Hadoop para los lagos de datos.
Amazon, Microsoft y Google ofrecen lagos de datos en la nube. Pero hay algunos problemas importantes de administración de lagos de datos a tener en cuenta antes de entregar sus datos a un proveedor de servicios en la nube.
En el lado positivo, la administración es un problema de otra persona, y puede ampliar o reducir según sea necesario sin tener que invertir en nuevo hardware. Por otro lado, debe considerar si confía en el proveedor para manejar la seguridad de sus datos, muchos de los cuales pueden ser muy sensibles, y si confía en su capacidad para mantener un servicio operativo en funcionamiento.
Aunque la mayoría de los proveedores se están volviendo más confiables, incluso en 2019 hubo interrupciones importantes que afectaron a Google Cloud (el 2 de junio) y Microsoft (el 24 de enero). ¿Pero es menos probable que su centro de datos interno tenga un problema con las interrupciones?
La decisión de ejecutar un lago de datos en la nube o internamente se reduce a si tiene fe en un proveedor externo para mantener sus datos de manera segura en comparación con la administración interna.
En los primeros días de la nube, las corporaciones estaban muy nerviosas por tener su lago de datos en la nube, fuera del firewall corporativo. Gradualmente, los beneficios económicos superaron esas preocupaciones.
En estos días, cada vez más aplicaciones se están moviendo a la nube, incluidos los lagos de datos, con la computación en la nube en 2019 creciendo casi un 24 % con respecto a 2018, según un informe de IDC, y con el 90 % de las empresas utilizando algún tipo de servicio en la nube, según una encuesta de 2017 realizada por 451 Research.
Hacer que esos datos sean útiles
Antes de decidir si debe alojar su lago de datos en la nube o en la empresa, el obstáculo más grande que enfrentan las compañías es cómo utilizar los datos para llenar sus lagos de datos a un ritmo cada vez mayor.
Ser un analista de datos enfrentado a un volumen tan alto de datos es como tratar de beber de una manguera contra incendios. Debe clasificar los datos que se almacenan en el lago de datos, etiquetar sus conjuntos de datos con metadatos significativos que los hagan identificables más adelante, y comenzar a mapear cómo se relacionan estos datos con sus datos corporativos. Agregar metadatos o etiquetas significativas a los datos sin procesar es especialmente importante. Si no lo hace, su lago de datos será más como un pantano de datos.
Las empresas suelen configurar sus lagos de datos junto con sus almacenes de datos tradicionales, con datos bombeados del lago al almacén según sea necesario. Antes de decidir si optar por un servicio en la nube para su lago de datos, debe considerar si ese servicio es un buen complemento para su almacén de datos.
Por ejemplo, si su lago de datos toma las líneas de redes sociales con comentarios de los clientes sobre su marca, ¿cómo puede relacionar estos datos con su base de datos de clientes? Es posible que desee prestar mucha más atención a un cliente que se queja si es un cliente valioso en su esquema de lealtad corporativa, ¿pero puede hacer esa conexión?
Discutir el lago de datos en bruto y combinarlo con los datos corporativos principales presenta muchas oportunidades, pero también es un gran desafío para el presionado personal de gestión de datos.