Análisis o analítica de datos
El análisis o analítica de datos (DA) es el proceso de examinar conjuntos de datos para encontrar tendencias y sacar conclusiones sobre la información que contienen. La analítica de datos se utiliza cada vez más con la ayuda de sistemas y software especializados. Las tecnologías y técnicas de análisis de datos se utilizan ampliamente en las industrias comerciales para permitir a las organizaciones tomar decisiones empresariales más informadas. También se utiliza por científicos e investigadores para verificar o refutar modelos, teorías e hipótesis científicas.
Como término, la analítica de datos se refiere predominantemente a un surtido de aplicaciones, desde la inteligencia empresarial básica (BI), la elaboración de informes y el procesamiento analítico en línea (OLAP), hasta diversas formas de analítica avanzada. En este sentido, su naturaleza es similar a la de la analítica de negocio, otro término que engloba los enfoques del análisis de datos. La diferencia es que esta última está orientada a los usos empresariales, mientras que la analítica de datos tiene un enfoque más amplio. Sin embargo, la visión expansiva del término no es universal: en algunos casos, la gente utiliza la analítica de datos específicamente para referirse a la analítica avanzada, tratando la BI como una categoría separada.
Las iniciativas de análisis de datos pueden ayudar a las empresas a aumentar los ingresos, mejorar la eficiencia operativa, optimizar las campañas de marketing y los esfuerzos de servicio al cliente. También puede utilizarse para responder rápidamente a las nuevas tendencias del mercado y obtener una ventaja competitiva sobre sus rivales. Sin embargo, el objetivo final de la analítica de datos es impulsar el rendimiento empresarial. Dependiendo de la aplicación concreta, los datos que se analizan pueden consistir en registros históricos o en información nueva que ha sido procesada para su análisis en tiempo real. Además, pueden proceder de una mezcla de sistemas internos y fuentes de datos externas.
Tipos de aplicaciones de analítica de datos
En un nivel alto, las metodologías de análisis de datos incluyen el análisis exploratorio de datos (EDA) y el análisis confirmatorio de datos (CDA). El EDA pretende encontrar patrones y relaciones en los datos, mientras que el CDA aplica técnicas estadísticas para determinar si las hipótesis sobre un conjunto de datos son verdaderas o falsas. El AED suele compararse con el trabajo de los detectives, mientras que el ACD se asemeja al trabajo de un juez o un jurado durante un juicio, una distinción que estableció por primera vez el estadístico John W. Tukey en su libro de 1977, Exploratory Data Analysis.
El análisis de datos también puede dividirse en análisis de datos cuantitativos y análisis de datos cualitativos. El primero implica el análisis de datos numéricos con variables cuantificables. Estas variables pueden compararse o medirse estadísticamente. El enfoque cualitativo es más interpretativo: se centra en comprender el contenido de los datos no numéricos, como texto, imágenes, audio y video, frases comunes, temas y puntos de vista.
A nivel de aplicación, la BI y la elaboración de informes proporcionan a los ejecutivos de las empresas y a los trabajadores corporativos información procesable sobre los indicadores clave de rendimiento, las operaciones comerciales, los clientes y otros aspectos. En el pasado, las consultas de datos y los informes solían ser creados para los usuarios finales por desarrolladores de BI que trabajaban en TI. Ahora, más organizaciones utilizarán herramientas de BI de autoservicio que permiten a los ejecutivos, analistas de negocio y trabajadores operativos ejecutar sus propias consultas ad hoc y crear informes por sí mismos.
Un tipo avanzado de análisis de datos es la minería de datos, que consiste en clasificar grandes conjuntos de datos para identificar tendencias, patrones y relaciones. Otro tipo es el llamado análisis predictivo, que trata de predecir el comportamiento de los clientes, los fallos de los equipos y otros acontecimientos futuros. El aprendizaje automático también puede utilizarse para la analítica de datos, utilizando algoritmos automatizados para analizar conjuntos de datos más rápidamente de lo que los científicos de datos pueden hacer mediante el modelado analítico convencional. La analítica de big data aplica herramientas de minería de datos, análisis predictivo y aprendizaje automático. La minería de textos proporciona un medio para analizar documentos, correos electrónicos y otros contenidos basados en texto.
Las iniciativas de análisis de datos dan soporte a una gran variedad de usos empresariales. Por ejemplo, los bancos y las empresas de tarjetas de crédito analizan los patrones de retirada y gasto para prevenir el fraude y el robo de identidad. Las empresas de comercio electrónico y los proveedores de servicios de marketing utilizan el análisis del flujo de clics para identificar a los visitantes de un sitio web que probablemente comprarán un producto o servicio concreto, basándose en los patrones de navegación y visualización de las páginas. Las organizaciones sanitarias extraen datos de los pacientes para evaluar la eficacia de los tratamientos contra el cáncer y otras enfermedades. Los operadores de redes móviles también examinan los datos de los clientes para prever la pérdida de clientes. Esto permite a las empresas de telefonía móvil tomar medidas para evitar la deserción hacia sus rivales comerciales. Para impulsar los esfuerzos de gestión de las relaciones con los clientes, otras empresas también pueden dedicarse a la analítica de CRM para segmentar a los clientes para las campañas de marketing y equipar a los trabajadores de los centros de llamadas con información actualizada sobre las personas que llaman.
Dentro del proceso de análisis de datos
Las aplicaciones de analítica de datos implican algo más que el análisis de los datos. Sobre todo en los proyectos de analítica avanzada. Gran parte del trabajo necesario se lleva a cabo por adelantado, en la recopilación, integración y preparación de los datos y, a continuación, en el desarrollo, las pruebas y la revisión de los modelos analíticos para garantizar que producen resultados precisos. Además de los científicos de datos y otros analistas de datos, los equipos de análisis suelen incluir ingenieros de datos, cuyo trabajo es ayudar a preparar los conjuntos de datos para el análisis.
El proceso de análisis comienza con la recopilación de datos. Los científicos de datos identifican la información que necesitan para una aplicación analítica concreta y, a continuación, trabajan por su cuenta o con los ingenieros de datos y el personal de TI para reunirla y utilizarla. Los datos procedentes de diferentes sistemas de origen pueden tener que combinarse mediante rutinas de integración de datos, transformarse en un formato común y cargarse en un sistema de análisis, como un clúster Hadoop, una base de datos NoSQL o un almacén de datos.
En otros casos, el proceso de recopilación puede consistir en extraer un subconjunto relevante de un flujo de datos que fluye hacia, por ejemplo, Hadoop. A continuación, estos datos se trasladan a una partición separada en el sistema para que puedan ser analizados sin afectar al conjunto de datos global.
Una vez que los datos necesarios están en su sitio, el siguiente paso es encontrar y solucionar los problemas de calidad de los datos que podrían afectar a la precisión de las aplicaciones de análisis. Esto incluye la ejecución de tareas de perfilado y limpieza de datos para garantizar que la información de un conjunto de datos es coherente y que se eliminan los errores y las entradas duplicadas. A continuación, se realiza un trabajo adicional de preparación de datos para manipular y organizar los datos para el uso analítico previsto. A continuación, se aplican las políticas de gobernanza de datos para garantizar que los datos se ajustan a las normas corporativas y se utilizan correctamente.
A partir de aquí, un científico de datos construye un modelo analítico, utilizando herramientas de modelado predictivo u otro software de análisis, con lenguajes como Python, Scala, R y SQL. El modelo se ejecuta inicialmente con un conjunto parcial de datos para comprobar su precisión. Normalmente, se revisa y se vuelve a probar. Este proceso se conoce como "entrenamiento" del modelo hasta que funciona como es debido. Por último, el modelo se ejecuta en modo de producción con el conjunto de datos completo, algo que puede hacerse una vez para abordar una necesidad de información específica, o de forma continua a medida que se actualizan los datos.
En algunos casos, las aplicaciones analíticas pueden configurarse para desencadenar automáticamente acciones empresariales. Por ejemplo, las operaciones bursátiles de una empresa de servicios financieros. Por otra parte, el último paso en el proceso de análisis de datos es la comunicación de los resultados generados por los modelos analíticos a los ejecutivos de la empresa y otros usuarios finales. Se pueden diseñar gráficos y otras infografías para facilitar la comprensión de los resultados. Las visualizaciones de datos a menudo se incorporan a aplicaciones de tableros de BI que muestran los datos en una sola pantalla y pueden actualizarse en tiempo real a medida que se dispone de nueva información.
Analítica de datos frente a ciencia de datos
A medida que crece la automatización, los científicos de datos se centrarán más en las necesidades del negocio, la supervisión estratégica y el aprendizaje profundo. Los analistas de datos que trabajan en inteligencia empresarial se centrarán más en la creación de modelos y otras tareas rutinarias. En general, los científicos de datos concentran sus esfuerzos en la producción de conocimientos amplios, mientras que los analistas de datos se centran en responder a preguntas específicas. En términos de habilidades técnicas, los futuros científicos de datos tendrán que centrarse más en el proceso de operaciones de aprendizaje automático, también llamado MLOps.