Problemas de la ciencia de analítica de Big Data

Las organizaciones deben centrarse en los patrones de comportamiento mediante la recopilación de los datos estructurados y no estructurados.

Muchas organizaciones se hunden con inversiones y TI en lugar de tomarse el tiempo para analizar sus  grandes datos. El primer paso es ver si puede reunir los datos en los que el problema radica, aconsejó Herb Kelsey, vicepresidente de análisis en Opera Solutions, "y a veces eso es una gran cantidad de datos." Estos pedazos de medición pueden incluir, por ejemplo, todos los registros de la red en una variedad de sistemas; datos sobre el comportamiento de los empleados –¿cuándo entran al edificio, qué bases de datos están accediendo, o si están introduciendo aplicaciones al ambiente?

Las organizaciones deben centrarse en los patrones de comportamiento mediante la recopilación de los datos de las máquinas, las aplicaciones y las huellas digitales de las personas a medida que avanzan en sus quehaceres diarios, acordó Mark Seward, director senior de seguridad y el cumplimiento de Splunk. "Tienes que ser capaz de ver una amplia información –estructurada y no estructurada– de un período de seis meses, por lo menos, para detectar los tipos de cambios de comportamiento que estoy hablando", dijo. Eso significa ser capaz de observar terabytes e incluso petabytes de datos para los patrones o anomalías.

El segundo obstáculo, sobre todo si se trata de datos no estructurados, es tener las personas, ya sean internas o externas, que en realidad son expertos en hacer el análisis estadístico y los análisis que le permiten llegar a respuestas "reales", en esencia, las señales que son indicativos de un evento en particular. Hipotéticamente, esto significa que alguien podría mirar todos esos datos y determinar: si alguien está accediendo a este tipo de información en este momento del día con un correspondiente sitio web en particular, seguiremos eso como una especie de intento malicioso. "Necesita esas personas a su disposición", dijo Kelsey.

En tercer lugar, se necesita alguna manera de presentar la información a los poderes fácticos ya sea un reporte físico o de alguna otra forma, de acuerdo con Kelsey: "Encontramos que la gente quiere la información en tiempo real, pero ahora estamos desarrollando una aplicación. "
Muchas empresas tienen problemas en dos áreas: "Lo que estamos encontrando es que la mayoría de las organizaciones carecen de las habilidades para recopilar los datos, especialmente datos no estructurados, en gran parte porque se repiten en varios idiomas", dijo Kelsey. El segundo problema consiste en encontrar personas que realmente pueden hacer los análisis. Hay una fuerte competencia y la gente está luchando para encontrar profesionales de análisis de grado avanzado en los Estados Unidos o incluso en todo el mundo. "Ellos están promoviendo a la misma gente –Amazon, Google, nosotros mismos y las agencias de informes de crédito– es un grupo bastante pequeño de personas", dijo Kelsey, quien indicó que Opera Solutions ha tenido que duplicar el número científicos de datos en su personal en los últimos 18 meses.

Para poner a trabajar la analítica de grandes volúmenes de datos, las organizaciones tienen que utilizar las observaciones colectivas, la experiencia y el análisis lógico para identificar patrones en los datos. "El análisis predictivo es realmente la aplicación de análisis estadístico y del modelaje a la observación", dijo Seward, "y luego ver si algo de lo que se ve en el presente o el pasado será una tendencia en el futuro, a partir de esas observaciones y con base en un modelo estadístico." Añadió: "El conocimiento de la observación y el tipo de modelo estadístico que desea ejecutar es suyo y de nadie más –usted tiene que decidir esas cosas."

Los fans de la película "Minority Report" (Sentencia Previa, en español), pueden aplaudir el modelo predictivo policíaco que surge en algunas de las principales áreas metropolitanas como Los Ángeles. Combina el análisis estadístico avanzado de los delitos anteriores, la visualización, el aprendizaje automático y la inteligencia artificial para predecir cuándo y dónde se producirán los delitos en un esfuerzo para prevenirlos, y ahorrar recursos. Gran parte de la investigación sobre "PredPol" se está haciendo en la UCLA (Universidad de Los Ángeles, en California).
Sin embargo, la mayoría de las organizaciones y las industrias están por su cuenta cuando se trata de modelos estadísticos y análisis de big data. "No hay nada 'enlatado' que se pueda comprar y que mágicamente analice la seguridad de sus grandes datos", dijo Anton Chuvakin, director de investigación de seguridad y gestión de riesgos en Gartner. "Todas las implementaciones de analítica que he visto usan tanto una plataforma desarrollada internamente como analítica hecha en casa. Hay vendedores que venden una implementación de Hadoop personalizado, pero no hay vendedores que construirán su analítica por usted."

La propensión de los falsos positivos y malas interpretaciones presenta sus propios riesgos. Kate Crawford, investigador principal de Microsoft Research, advirtió a los profesionales de la analítica de big data contra los sesgos ocultos en un reciente blog del Harvard Business Review y ofreció varios ejemplos. Ella denomina al problema "fundamentalismo de datos", o "la idea de que la correlación indica siempre la causalidad, y que los grandes conjuntos de datos y análisis predictivo siempre reflejan la verdad objetiva."

Además de la implementación de la tecnología, otro problema que enfrentan muchas empresas es quién es el dueño de los análisis y ello puede reducirse a una combinación de talento altamente cualificado. "Algunos de los esfuerzos exitosos han combinado la propiedad del sistema con los equipos de seguridad y fraude", dijo Chuvakin. "El equipo de seguridad tendría que invertir en personas con conjuntos de habilidades poco comunes y, a menudo costosos, como las estadísticas. Por supuesto, si es posible jalarse a un estadístico de otro proyecto de la empresa, sería muy bueno también. Sin embargo, este experto en estadística tiene que ser emparejado con alguien que conozca el asunto relevante –la seguridad".

Las escuelas de negocios están introduciendo más cursos sobre análisis de grandes datos, liderados en parte por los programas de empresas como Cloudera.
Aun así, en realidad no hay una manera de satisfacer la demanda de talentos altamente cualificados en los próximos años, de acuerdo con Kelsey. "El impulso en los últimos dos años ha sido de alrededor de la infraestructura y otras capacidades que le permiten organizar los datos, y una gran cantidad de empresas están empezando a adoptarlo –el problema es que la infraestructura no tiene realmente la capacidad analítica", dijo.

"Si realmente quiere escalarlo, que es lo que todo el mundo tiene que hacer, tiene que tener las herramientas", continuó, "por lo que hay que averiguar, cómo poner esta herramienta en un entorno utilizable para que un científico de datos no tenga que lidiar [con los usuarios de la empresa] para resolver ese problema cada vez. Realmente ese punto abrirá muchas posibilidades", dijo. "Ahora, ¿las empresas todavía tratarán de hacerlo por sí mismas? Sí, pero ese talento no puede crecer lo suficientemente rápido, y eso es cierto en el gobierno también."
 

Sobre el autor: Kathleen Richards es editor de informes de la revista Information Security. Puede contactarla en [email protected].

Investigue más sobre Big data y gestión de la información