Fotolia

Técnicas de visualización de datos, herramientas de núcleo del análisis avanzado

El papel central de la visualización de datos en aplicaciones de analítica avanzada incluye usos en la planificación y desarrollo de modelos predictivos, así como la presentación de informes sobre los resultados de los análisis que producen.

El modelo predictivo y otros tipos de análisis avanzados se realizan con un potente software construido específicamente para ejecutar algoritmos complejos en grandes conjuntos de datos, tales como lenguajes de programación del tipo de R y Python y herramientas de analítica como SAS y SPSS de IBM. Sin embargo, muchos científicos de datos y gestores de análisis le dirán que una gran parte de su trabajo –y en última instancia, de su capacidad de proporcionar información útil a los ejecutivos de negocios– también depende en gran medida de las herramientas de visualización de datos más humildes.

Más allá de ser un actor secundario en aplicaciones de análisis, la visualización de datos llena varios papeles cruciales en todo el proceso. Desde la exploración de datos inicial hasta el desarrollo de modelos de predicción para informar sobre los resultados analíticos producidos por los modelos, las técnicas de visualización de datos y el software son componentes clave de la caja de herramientas del científico de datos. Sin ellos, los equipos de analítica están participando en una tarea casi imposible que es equivalente a volar un avión con los ojos vendados.

"La visualización de datos sólo hace que nuestros análisis sea mucho más eficiente", dijo Daqing Zhao, director de analítica avanzada en Macys.com. "El cerebro humano sólo puede comprender cierto tanto. La única manera de ver los patrones es usando los ojos."

El equipo de análisis avanzado en Macys.com –el brazo en línea del minorista Macy’s Inc., con sede en San Francisco– es el principal responsable del rendimiento y las características de la página web. Los científicos de datos dirigidos por Zhao construyen motores de recomendación, realizan pruebas A/B de los nuevos diseños de página web y ayudan al plan de equipo de marketing y ejecutan campañas específicas de correo electrónico. Ejecutan una mezcla de aprendizaje automático y aplicaciones de modelos de predicción que requieren una variedad de herramientas y enfoques, así como entradas de visualización de datos en las primeras etapas del proceso.

De hecho, Zhao dijo que su equipo comienza cada tarea mediante la visualización de los datos con los que están trabajando. Por ejemplo, los analistas podrían sacar algunas variables específicas en un gráfico para ver si hay alguna correlación entre ellos. O trazan un resumen de las estadísticas básicas –cosas como la media y la mediana de los promedios, difusión de datos y métricas de desviación estándar– para tener una idea del alcance de los datos. Explorar los datos visualmente les da una mejor idea de dónde enfocar su atención cuando construyen modelos analíticos de lo que podrían obtener al ver una hoja de cálculo gigante, dijo Zhao.

Mezcla heterogénea de software

Algunos de los analistas utilizan el software Tableau para explorar y visualizar conjuntos de datos. Otros utilizan componentes de visualización integrados en software de analítica más sofisticado, como SAS, R y la plataforma de aprendizaje de máquina de código abierto de H2O. Algunos incluso están visualizando los datos directamente en hojas de cálculo de Excel. "Somos agnósticos en cuanto a las herramientas", dijo Zhao, añadiendo que en un entorno de analítica avanzada, lo mejor es soportar cualquier herramienta con que los científicos de datos se sienten más cómodos.

Boris Savkovic

En BuildingIQ (un proveedor de servicios de análisis que ayuda a los propietarios de edificios y a las empresas de gestión de instalaciones a prever y controlar su consumo de energía), la visualización de datos también ayuda a reducir los conjuntos de datos y proporcionar orientación sobre el desarrollo de modelos predictivos y algoritmos para los analistas de la compañía. BuildingIQ, que fue fundada en Australia y ahora tiene su sede en San Mateo, California, recoge datos de la calefacción, ventilación y aire acondicionado (HVAC) en los edificios; identifica las tendencias de consumo de energía; y busca las áreas en las que los edificios podrían ser más eficientes energéticamente. Boris Savkovic, el principal científico de datos de la compañía, describe la visualización de datos como un "primer paso" en ese proceso.

Savkovic y su equipo crean algoritmos avanzados de aprendizaje automático que utilizan el software MATLAB de MathWorks. Los algoritmos toman en consideración variables tales como el uso histórico de energía, previsiones futuras del clima, las lecturas del medidor de potencia, la información de los sensores de presión de climatización y los datos de costes de energía. Es mucho para tomar en de una sola vez, por lo que los analistas empiezan utilizando algunas técnicas de visualización de datos simples. En general, colocan un par de variables en un diagrama de puntos para ver si las métricas se empalman. Si es así, eso podría ser motivo para investigar si hay una verdadera correlación estadística y construir un modelo de análisis en torno a los datos.

"La visualización es el pan de cada día", dijo Savkovic. "Esto ayuda a exponer los patrones a través del tiempo, así como los patrones entre diferentes variables. Trazar una serie de variables ayuda a pintar un cuadro en cuanto a qué cuestiones pueden estar presentes en un edificio determinado."

Tecnologías complementarias

Los programas de análisis predictivo son cada vez más comunes en las organizaciones, impulsados en parte por el aumento de las grandes arquitecturas de datos y la creciente comercialización de las tecnologías de aprendizaje automático. Como resultado, las herramientas de modelado y visualización de datos predictivos parecen estar desarrollando una afinidad aún mayor una por la otra.

En una encuesta realizada por TechTarget Inc., la visualización de datos fue la principal tecnología de inteligencia de negocios y analítica que los encuestados dijeron que sus organizaciones habían invertido durante los últimos seis meses antes de responder la encuesta. A finales de agosto, el 43,5% de los 2.950 encuestados reportó recientes compras de visualización de datos. Mientras tanto, el análisis predictivo se ubicó en el cuarto lugar (20,7%) en la lista de tecnologías sobre las que se preguntó a los encuestados. Las soluciones creadas internamente para reportes empresariales o consultas personalizadas ocuparon el segundo peldaño de la lista, con 33%, mientras que el descubrimiento de datos y la inteligencia de negocios de autoservicio se ubicaron en tercer sitio, con 28%.

Sin embargo, las tecnologías de análisis predictivo y visualización de datos casi empataron por el primer puesto en cuanto a las inversiones previstas en los próximos 12 meses. El análisis predictivo quedó un poco por delante, elegido por el 38,3% de los 3.980 encuestados, mientras que la visualización de datos fue de 37,8%. Esos resultados cuadran con los resultados de otro estudio de TechTarget, el “Estudio del panorama de mercado de la analítica de BI y big data". Basado en una encuesta de 612 profesionales de TI, BI y analítica a finales de 2015 y principios de 2016, el estudio clasificó la visualización de datos como la principal tecnología en cuanto a "intensidad del gasto", pero colocó al análisis predictivo en primer lugar en un "índice de impulso", mostrando mayor interés en la implementación de esta tecnología.

Los lazos entre las dos tecnologías no sólo se aplican a la etapa de planificación de análisis. Las técnicas de visualización de datos y herramientas también pueden ayudar a mantener el desarrollo y la "formación" de los modelos predictivos con los que se cuenta. En esta fase altamente técnica del proceso de análisis, la imagen popular de un científico de datos encorvado sobre un teclado descifrando líneas de código no está lejos de la verdad. Sin embargo, puede ser fácil perder el camino en un laberinto de paréntesis, corchetes y comandos. En este punto, una imagen puede valer más que mil líneas de código.

Brendan Herger

Brendan Herger, un científico de datos de Capital One, compañía bancaria y emisora de tarjetas de crédito, con sede en McLean, Va., dijo que utiliza el software de visualización de datos para supervisar los datos que salen de los modelos predictivos a medida que las escribe y las prueba. Eso le ayuda a ver si un modelo está funcionando como se esperaba y si su producción tiene sentido. Herger utiliza H2O para generar y ejecutar los modelos, como parte de las aplicaciones de aprendizaje automático, y visualiza los datos con H2O Flow, una interfaz interactiva de usuario basada en la web, del proveedor H2O.

Además de la visualización de datos para su propio beneficio, Flow le permite a Herger compartir los resultados de su trabajo con otros miembros del equipo de científicos de datos de Capital One, para que también puedan echar un vistazo y confirmar la eficacia de los modelos de predicción que están construyendo. "Es muy bueno ser capaz de detectar, comprobar y asegurarse de que los datos se ven bien", dijo.

Bucle de análisis con todo incluido

Al informar sobre los resultados generados por los modelos de predicción es donde las técnicas eficaces de visualización de datos realmente rinden frutos –o, a la inversa, donde las iniciativas de analítica avanzada pueden salir mal. Si los científicos de datos no son capaces de mostrar a los ejecutivos corporativos y gerentes de negocios que los modelos predictivos completos están entregando la información que vale la pena con el potencial de mejorar la toma de decisiones internas y procesos operativos, el soporte puede secarse, y los proyectos de análisis podrían recortarse o ser abandonados por completo.

"Es muy importante para visualizar un modelo cuando se les presenta a los ejecutivos de negocios", dijo Brett Spicer, analista líder de la visión empresarial en ArcBest Technologies, la filial de TI de la empresa de logística y mercancías ArcBest Corp. en Fort Smith, Arkansas. "Necesitan ver [los datos] de una manera que sea comprensible."

Actualmente, ArcBest tiene un modelo de predicción de la producción, que se utiliza en su servicio de corretaje de cargas de camión, el cual conecta a los clientes corporativos que buscan enviar mercancías con las compañías de camiones que tienen la capacidad disponible. Spicer dijo que el modelo, desarrollado en R, ayuda a los empleados de ArcBest a lograr la coincidencia de las cargas con los proveedores transportistas de forma más eficiente de lo que se haría manualmente. Los informes con visualizaciones de datos incrustados son creados usando el software de BI y análisis de MicroStrategy para compartir información sobre el proceso de correspondencia, añadió.

Del mismo modo en Macys.com, el equipo de análisis de Zhao utiliza las herramientas de visualización de datos que han desplegado para generar informes para los gerentes de marketing sobre el rendimiento de las campañas de correo electrónico y los productos populares. Él dijo que los datos visualizados muestran a los vendedores si están promoviendo los productos adecuados a los clientes adecuados, ayudando a que las operaciones de marketing sean más impulsadas por los datos –algo que de otro modo sería más difícil de conseguir con los usuarios de negocios que carecen de habilidades avanzadas de análisis cuantitativo.

"La visualización hace que los datos sean accesibles a un público mucho más amplio, y ello ayuda al crecimiento de la cultura de análisis de la organización", dijo Zhao.

Agregando contexto a los datos en bruto

La mayor parte de los datos que están siendo analizados en el modelado predictivo y los proyectos de análisis de grandes volúmenes de datos no es más que una colección de unos y ceros. Por sí solos, los datos no significan mucho. Se necesita contexto, y eso es lo que la visualización de datos puede proporcionar.

Omega Point Research Inc. vende software de analítica que utiliza algoritmos de aprendizaje automático para comprobar las carteras de inversión contra de un conjunto de indicadores económicos para evaluar los posibles riesgos financieros. La plataforma, construida en torno a la distribución Databricks del motor de procesamiento de Spark y la biblioteca de aprendizaje automatizado MLlib de Spark, fue desarrollada por un equipo de profesionales con doctorado (Ph.D.), algunos con experiencia en la realización de trabajos de física de partículas de alta energía en el laboratorio de investigación del CERN en Suiza. Pero para Omer Cedar, co-fundador y CEO de Omega Point, la capacidad técnica de los modelos de aprendizaje automático de la compañía de Nueva York no son más importantes estratégicamente que la capacidad de proporcionar informes visualmente atractivos a los gestores de inversiones.

Para sus clientes, Omega Point ha creado un panel de control que compara visualmente sus carteras en una variedad de métricas financieras contra las 2.000 mejores acciones a nivel global, medidas por la capitalización de mercado. Las visualizaciones se construyen utilizando la librería de visualización de código abierto D3.js y React, una biblioteca JavaScript para el diseño de interfaces de usuario que se creó en Facebook.

"Nuestra atención en la pieza de visualización es tan importante como la atención sobre el aprendizaje automatizado", dijo Cedar, añadiendo que los datos de análisis generados por algoritmos de la compañía "no son útiles para un ser humano a menos que se visualicen de una manera intuitiva."

Investigue más sobre Big data y gestión de la información