Sergey Nivens - Fotolia
El CEO de Talend analiza la importancia de extraer datos relevantes
Las empresas no pueden hacer una buena inteligencia de negocios sin buenos datos. En esta sesión de preguntas y respuestas, el CEO de Talend, Mike Tuchen, habla sobre lo difícil que puede ser extraer los datos correctos.
La inteligencia empresarial (BI) solo existe al extraer datos relevantes.
Sin la capacidad de encontrar los datos correctos, no hay BI real en la cual basar las decisiones.
Sin embargo, extraer datos relevantes no es una tarea simple.
Dada la complejidad organizativa de las grandes empresas actuales –muchas son multinacionales con oficinas en todo el mundo, otras amalgamas de empresas unidas a lo largo de los años por fusiones y adquisiciones con líneas de productos que van más allá de un pequeño nicho– la cantidad de datos disponibles acumulados por décadas pueden ser abrumadoras y desorganizadas.
Para ayudar a las organizaciones a conservar sus datos y obtener información significativa, proveedores como Talend en la nube, fundado en 2005 y con sede en Redwood City, California, junto con otros como el proveedor de integración de datos en la nube Informatica y MuleSoft, recientemente adquiridos por Salesforce, han aumentado y se han convertido en especialistas en integración de datos.
En la primera parte de la entrevista, el CEO de Talend, Mike Tuchen, habla sobre los problemas de integración de datos que las empresas deben superar. En esta entrega, Tuchen analiza a profundidad la dificultad que enfrentan las empresas para extraer datos relevantes.
En términos de extraer datos relevantes, ¿cuáles son los desafíos que enfrentan las organizaciones?
Mike Tuchen: El mayor desafío que tiene cada empresa es que sus datos están por todas partes. Están en muchos sistemas diferentes. Están en muchos formatos diferentes, algunos de los cuales quizás sean conocidos, pero la mayoría de ellos no lo son. ¿Dónde está toda la información relevante y cómo se relaciona entre sí? Una vez que comiencen a encontrar todos estos datos, rápidamente comenzarán a darse cuenta de que han pasado de no saber dónde está la información a, de repente, encontrar que tienen 10 versiones diferentes de todo, y que todo es inconsistente y se superpone. ¿Cómo empezar? ¿A dónde ir para encontrar la información correcta? ¿Cómo conseguir que todas esas cosas sean consistentes? Esos son los problemas centrales que enfrenta cada empresa.
¿Cómo hemos llegado hasta este punto? ¿Qué ha sucedido en los últimos 10 a 15 años para llevarnos al punto donde la extracción de datos relevantes es tan difícil?
Tuchen: Fue más simple hace 10 o 15 años, pero eso no fue necesariamente un beneficio. Era más simple porque muchas compañías simplemente no habían digitalizado. Tenían una gran cantidad de procesos manuales, por lo que los datos simplemente no estaban disponibles en ningún sistema electrónico. La primera parte de una transformación digital es la digitalización, tener todo en el sistema y ahora tener flujos de trabajo electrónicos, y eso es un gran paso adelante. Pero eso nos lleva al segundo paso, que es la creación de información electrónica que puede aprovecharse y analizarse. Esa es una gran oportunidad que recién se está comenzando a aprovechar, pero conduce exactamente a los problemas que acabamos de discutir. ¿Dónde están todos los datos que son relevantes, cómo se relacionan entre sí, cuál es la información correcta, cómo puedo hacer que sea coherente y correcta y cómo encuentro esa información para comenzar desde allí y usarla para impulsar mi análisis? De ahí viene el valor.
¿Qué puede hacer una empresa para encontrar los datos que necesita?
Tuchen: Uno de los primeros pasos que da una empresa es comenzar a catalogar sus datos. Hay compañías como nosotros que proporcionan un catálogo de datos que le permite comprender dónde están todos los datos para llegar al punto en el que se tiene una definición común. Cuando hablo de ingresos recurrentes anuales, ¿cuál es la definición real y cómo la estoy definiendo aquí? No hay un estándar de contabilidad que diga qué significan los ingresos recurrentes anuales, por lo que cada organización debe definirla en algún lugar; entonces, ¿cómo lo defino y digo que aquí están las tablas de origen donde se formará todo ese tipo de cosas? Se inicia por catalogarlo, y luego se impulsa el proceso de limpieza y gobernanza, se recopilan los datos, automatizando los pasos de limpieza para que sea consistente y correcto. Y luego, a medida que se han desarrollado esas dos capacidades principales, se llega al punto en que los datos son consistentes y correctos y se sabe lo que son. Se han delineado las definiciones más importantes y su equipo sabe a dónde ir para analizarlas.
¿Existen posibles dificultades que pueden surgir al extraer datos relevantes?
Tuchen: El problema secundario que se ha creado y que ahora estamos comenzando a abordar es que diferentes equipos analíticos, sin tener un catálogo para buscar los datos, comenzarán a recrearlos ellos mismos: no solo se está creando un trabajo duplicado, sino que en algunos casos se realizará trabajo inconsistente, lo que es aún peor. No es solo que están perdiendo tiempo que podría haberse ahorrado, es que están llegando a diferentes resultados creando diferentes definiciones o diferentes flujos que dan como resultado diferentes respuestas. Están creando más confusión. Al crear un catálogo, al comprender dónde están sus datos e impulsar la convergencia y la coherencia, se inicia con los datos correctos y todos comienzan en el mismo lugar y se maximiza el uso.