BillionPhotos.com - stock.adobe.

El análisis de datos no estructurados es crítico, pero difícil

A veces, es difícil saber si sus datos son solo basura, a menos que tenga las herramientas adecuadas de preparación y análisis para implementación de big data.

Big data es fácil, ¿verdad? Todo lo que tiene que hacer es construir un clúster de Hadoop, enlazarlo con todas tus bases de datos, contratar a un buen científico de datos que conozca MySQL, y está listo, ¿no? Incorrecto. Muchas empresas han adoptado exactamente ese enfoque, y prácticamente ninguna de ellas ha tenido éxito. En lugar de eso, han gastado sumas considerables para averiguar que el hardware y el software son las partes fáciles de big data. En big data, lo difícil son los datos.

Con ello, quiero decir que usted puede tener muchos datos empresariales y acceso a muchas otras fuentes de datos públicos, pero eso no significa que sean datos utilizables. “¿Y esta noción de análisis de datos no estructurados?”, preguntará usted. “¿No se trataba big data sobre el uso de datos no estructurados junto con datos estructurados?".

Sí, pero el análisis de datos no estructurados no significa datos no curados. Los datos, para ser utilizables, deben ser asignados a un lago común de datos. Deben limpiarse de basura inutilizable que sea irrelevante o errónea. Sin la preparación de datos, el viejo adagio de ‘mete basura, saca basura’ está en plena vigencia. Sin embargo, con big data y la analítica asociada, a menudo es imposible saber si usted está sacando basura simplemente porque el análisis es tan complejo y el lago de datos tan vasto. De hecho, donde las implementaciones de big data han ido mal, es en la entrega de conclusiones incompletas o inexactas que han sellado su destino. Todo lo que se necesita es una recomendación defectuosa, basada en un análisis de big data, para destruir la confianza en la tecnología.

Las empresas trabajan para superar la parálisis del análisis

Las empresas que contemplan big data deben primero asumir que sus datos están en grave necesidad de preparación. Esto puede ser una tarea costosa y que requiere mucho tiempo. Y no se hace una vez: se hace cada vez que se introduce un nuevo conjunto de datos en el lago de datos. Las encuestas de Stratecast indican que entre un 60% y un 80% del tiempo de un analista de negocios puede gastarse simplemente limpiando datos o interpretando resultados que son entregados por consultas a un lago de datos.

¿Hay alguna manera de reducir esta sobrecarga? Sí, hay utilidades que se pueden utilizar para administrar y automatizar la limpieza de datos. IBM, por ejemplo, ha invertido mucho en la tecnología de limpieza de datos, y tiene varias aplicaciones en su suite analítica. Otra empresa que ha tomado la delantera en la limpieza de datos es Paxata. El enfoque de Paxata se basa en una plataforma de preparación de datos que analiza en la parte frontal y asegura que el análisis solo se aplica a los datos curados, independientemente de quién en la organización está enviando las consultas.

En cualquier caso, sin un enfoque fanático sobre la integridad de los datos y un análisis de datos no estructurados, es poco probable que las implementaciones de big data devuelvan mucho valor a la organización. Con un conjunto de datos limpio, sin embargo, big data y el análisis avanzado pueden proporcionar una importante ventaja competitiva; una que puede traducirse en mayores ingresos y costos de operación reducidos. La clave, sin embargo, es comenzar con los datos, y luego pensar en los grandes datos (big data).

Próximos pasos

Quizás le interese también:

Defiéndase contra las APT con análisis de seguridad de big data

Análisis de big data, clave para la lucha contra el crimen, dice Microsoft

Infraestructura convergente y nube ayudan a entregar resultados de BI en tiempo real

Investigue más sobre Big data y gestión de la información