Ciencia de datos
La ciencia de datos es el campo de la aplicación de técnicas analíticas avanzadas y principios científicos para extraer información valiosa de los datos para la toma de decisiones comerciales, la planificación estratégica y otros usos. Es cada vez más crítico para las empresas: la información que genera la ciencia de datos ayuda a las organizaciones a aumentar la eficiencia operativa, identificar nuevas oportunidades comerciales y mejorar los programas de marketing y ventas, entre otros beneficios. En última instancia, pueden generar ventajas competitivas sobre los rivales comerciales.
La ciencia de datos incorpora varias disciplinas —por ejemplo, ingeniería de datos, preparación de datos, minería de datos, análisis predictivo, aprendizaje automático (machine learning, ML) y visualización de datos, así como estadísticas, matemáticas y programación de software. Lo realizan principalmente científicos de datos capacitados, aunque también pueden participar analistas de datos de nivel inferior. Además, muchas organizaciones ahora dependen en parte de los científicos de datos ciudadanos, un grupo que puede incluir profesionales de inteligencia empresarial (BI), analistas empresariales, usuarios empresariales conocedores de datos, ingenieros de datos y otros trabajadores que no tienen una formación formal en ciencia de datos.
Esta guía completa de ciencia de datos explica con más detalle qué es, por qué es importante para las organizaciones, cómo funciona, los beneficios comerciales que brinda y los desafíos que plantea. También encontrará una descripción general de las aplicaciones, herramientas y técnicas de la ciencia de datos, además de información sobre lo que hacen los científicos de datos y las habilidades que necesitan. A lo largo de esta guía, hay hipervínculos a artículos de TechTarget relacionados que profundizan más en los temas que se tratan aquí y ofrecen información y consejos de expertos sobre iniciativas de ciencia de datos.
¿Por qué es importante la ciencia de datos?
La ciencia de datos juega un papel importante en prácticamente todos los aspectos de las operaciones y estrategias comerciales. Por ejemplo, proporciona información sobre los clientes que ayuda a las empresas a crear campañas de marketing más sólidas y publicidad dirigida para aumentar las ventas de productos. Ayuda a gestionar los riesgos financieros, detectar transacciones fraudulentas y prevenir averías de equipos en plantas de fabricación y otros entornos industriales. Ayuda a bloquear los ataques cibernéticos y otras amenazas de seguridad en los sistemas de TI.
Desde un punto de vista operativo, las iniciativas de ciencia de datos pueden optimizar la gestión de las cadenas de suministro, los inventarios de productos, las redes de distribución y el servicio al cliente. En un nivel más fundamental, señalan el camino hacia una mayor eficiencia y reducción de costos. La ciencia de datos también permite a las empresas crear planes y estrategias comerciales que se basan en un análisis informado del comportamiento del cliente, las tendencias del mercado y la competencia. Sin él, las empresas pueden perder oportunidades y tomar decisiones erróneas.
La ciencia de datos también es vital en áreas más allá de las operaciones comerciales habituales. En el sector sanitario, sus usos incluyen el diagnóstico de enfermedades, el análisis de imágenes, la planificación del tratamiento y la investigación médica. Las instituciones académicas utilizan la ciencia de datos para monitorear el desempeño de los estudiantes y mejorar su marketing para los futuros estudiantes. Los equipos deportivos analizan el rendimiento de los jugadores y planifican estrategias de juego a través de la ciencia de datos. Las agencias gubernamentales y las organizaciones de políticas públicas también son grandes usuarios.
Proceso y ciclo de vida de la ciencia de datos
Los proyectos de ciencia de datos implican una serie de pasos de recopilación y análisis de datos. En un artículo que describe el proceso de ciencia de datos, Donald Farmer, director de la consultora analítica TreeHive Strategy, describió estos seis pasos principales:
- Identifique una hipótesis relacionada con el negocio para probar.
- Reúna datos y prepárelos para su análisis.
- Experimente con diferentes modelos analíticos.
- Elija el mejor modelo y ejecútelo con los datos.
- Presente los resultados a los ejecutivos de empresas.
- Implemente el modelo para un uso continuo con datos nuevos.
Farmer dijo que el proceso hace que la ciencia de datos sea un esfuerzo científico. Sin embargo, escribió que, en las empresas corporativas, el trabajo de ciencia de datos "siempre se centrará de manera más útil en realidades comerciales directas" que pueden beneficiar al negocio. Como resultado, agregó, los científicos de datos deben colaborar con las partes interesadas del negocio en proyectos a lo largo del ciclo de vida de la analítica.
Beneficios de la ciencia de datos
En un seminario web de octubre de 2020 organizado por el Instituto de Ciencias Computacionales Aplicadas de la Universidad de Harvard, Jessica Stauth, directora general de ciencia de datos en la unidad de Fidelity Labs en Fidelity Investments, dijo que existe una "relación muy clara" entre el trabajo de ciencia de datos y los resultados comerciales. Citó los beneficios comerciales potenciales que incluyen un mayor retorno de la inversión, crecimiento de las ventas, operaciones más eficientes, un tiempo de comercialización más rápido y una mayor participación y satisfacción del cliente.
En términos generales, uno de los mayores beneficios de la ciencia de datos es potenciar y facilitar una mejor toma de decisiones. Las organizaciones que invierten en él pueden incluir evidencia cuantificable basada en datos en sus decisiones comerciales. Idealmente, estas decisiones basadas en datos conducirán a un desempeño comercial más sólido, ahorros de costos y procesos y flujos de trabajo comerciales más fluidos.
Los beneficios comerciales específicos de la ciencia de datos varían según la empresa y la industria. En las organizaciones orientadas al cliente, por ejemplo, la ciencia de datos ayuda a identificar y refinar las audiencias objetivo. Los departamentos de marketing y ventas pueden extraer datos de los clientes para mejorar las tasas de conversión y crear campañas de marketing personalizadas y ofertas promocionales que produzcan mayores ventas.
En otros casos, los beneficios incluyen una reducción del fraude, una gestión de riesgos más eficaz, un comercio financiero más rentable, un mayor tiempo de actividad de fabricación, un mejor rendimiento de la cadena de suministro, protecciones de ciberseguridad más sólidas y mejores resultados para los pacientes. La ciencia de datos también permite el análisis en tiempo real de los datos a medida que se generan.
Aplicaciones y casos de uso de ciencia de datos
Las aplicaciones comunes en las que participan los científicos de datos incluyen el modelado predictivo, el reconocimiento de patrones, la detección de anomalías, la clasificación, la categorización y el análisis de sentimientos, así como el desarrollo de tecnologías como motores de recomendación, sistemas de personalización y herramientas de inteligencia artificial (IA) como chatbots y vehículos autónomos y máquinas.
Esas aplicaciones impulsan una amplia variedad de casos de uso en organizaciones, incluyendo los siguientes:
- analítica de clientes
- detección de fraude
- gestión de riesgos
- el comercio de acciones (stock trading)
- publicidad dirigida
- personalización del sitio web
- servicio al cliente
- mantenimiento predictivo
- gestión logística y de la cadena de suministro
- reconocimiento de imagen
- reconocimiento de voz
- procesamiento natural del lenguaje (NLP)
- la seguridad cibernética
- diagnostico medico
Desafíos en la ciencia de datos
La ciencia de datos es intrínsecamente desafiante debido a la naturaleza avanzada de la analítica que involucra. La gran cantidad de datos que normalmente se analizan se suma a la complejidad y aumenta el tiempo que lleva completar los proyectos. Además, los científicos de datos trabajan con frecuencia con grupos de big data que pueden contener una variedad de datos estructurados, no estructurados y semiestructurados, lo que complica aún más el proceso de análisis.
Estos obstáculos se encuentran entre los desafíos que enfrentan los equipos de ciencia de datos.
Uno de los mayores desafíos es eliminar el sesgo en los conjuntos de datos y las aplicaciones de análisis. Eso incluye problemas con los datos subyacentes en sí y aquellos que los científicos de datos construyen inconscientemente en algoritmos y modelos predictivos. Dichos sesgos pueden sesgar los resultados de los análisis si no se identifican y abordan, lo que genera hallazgos defectuosos que conducen a decisiones comerciales equivocadas. Peor aún, pueden tener un impacto dañino en grupos de personas —por ejemplo, en el caso de prejuicios raciales en los sistemas de inteligencia artificial.
Encontrar los datos correctos para analizar es otro desafío. En un informe publicado en enero de 2020, el analista de Gartner, Afraz Jaffri, y cuatro de sus colegas de la consultora también mencionaron la elección de las herramientas adecuadas, la gestión de implementaciones de modelos analíticos, la cuantificación del valor comercial y el mantenimiento de modelos como obstáculos importantes.
¿Qué hacen los científicos de datos y qué habilidades necesitan?
La función principal de los científicos de datos es analizar datos, a menudo en grandes cantidades, en un esfuerzo por encontrar información útil que se pueda compartir con ejecutivos corporativos, gerentes comerciales y trabajadores, así como con funcionarios gubernamentales, médicos, investigadores y muchos otros. Los científicos de datos también crean herramientas y tecnologías de IA para su implementación en diversas aplicaciones. En ambos casos, recopilan datos, desarrollan modelos analíticos y luego entrenan, prueban y ejecutan los modelos contra los datos.
Como resultado, los científicos de datos deben poseer una combinación de preparación de datos, minería de datos, modelado predictivo, aprendizaje automático, análisis estadístico y habilidades matemáticas, así como experiencia con algoritmos y codificación —por ejemplo, habilidades de programación en lenguajes como Python, R y SQL. Muchos también tienen la tarea de crear visualizaciones de datos, cuadros de mando e informes para ilustrar los resultados de los análisis.
Además de esas habilidades técnicas, los científicos de datos requieren un conjunto de habilidades más suaves, que incluyen conocimiento comercial, curiosidad y pensamiento crítico. Otra habilidad importante es la capacidad de presentar conocimientos de datos y explicar su importancia de una manera que sea fácil de entender para los usuarios comerciales. Eso incluye capacidades de narración de datos para combinar visualizaciones de datos y texto narrativo en una presentación preparada.
Equipo de ciencia de datos
Muchas organizaciones han creado un equipo separado, o varios equipos, para manejar las actividades de ciencia de datos. Como explica la escritora de tecnología Mary K. Pratt en un artículo sobre cómo configurar un equipo de ciencia de datos, hay más en un equipo efectivo que los propios científicos de datos. También puede incluir los siguientes puestos:
- Ingeniero de datos. Las responsabilidades incluyen la configuración de canalizaciones de datos y la ayuda en la preparación de datos y la implementación del modelo, trabajando en estrecha colaboración con los científicos de datos.
- Analista de datos. Este es un puesto de nivel inferior para los profesionales de análisis que no tienen el nivel de experiencia o las habilidades avanzadas que tienen los científicos de datos.
- Ingeniero de aprendizaje automático. Este trabajo orientado a la programación implica desarrollar los modelos de aprendizaje automático necesarios para las aplicaciones de ciencia de datos.
- Desarrollador de visualización de datos. Esta persona trabaja con científicos de datos para crear visualizaciones y cuadros de mando que se utilizan para presentar los resultados de los análisis a los usuarios comerciales.
- Traductor de datos. También llamado traductor analítico, es un rol emergente que sirve como enlace con las unidades de negocios y ayuda a planificar proyectos y comunicar resultados.
- Arquitecto de datos. Un arquitecto de datos diseña y supervisa la implementación de los sistemas subyacentes utilizados para almacenar y administrar datos para usos analíticos.
Por lo general, el equipo está dirigido por un director de ciencia de datos, un gerente de ciencia de datos o un científico de datos líder, que puede depender del director de datos, el director de análisis o el vicepresidente de análisis; el científico de datos jefe es otro puesto de gestión que ha surgido en algunas organizaciones. Algunos equipos de ciencia de datos están centralizados a nivel empresarial, mientras que otros están descentralizados en unidades de negocio individuales o tienen una estructura híbrida que combina esos dos enfoques.
Inteligencia empresarial frente a ciencia de datos
Al igual que la ciencia de datos, la inteligencia empresarial básica y los informes tienen como objetivo ayudar a guiar la toma de decisiones operativas y la planificación estratégica. Pero BI se centra principalmente en el análisis descriptivo: ¿qué sucedió o está sucediendo ahora que una organización debería responder o abordar? Los analistas de BI y los usuarios de BI de autoservicio trabajan principalmente con datos de transacciones estructurados que se extraen de los sistemas operativos, se limpian y transforman para que sean coherentes y se cargan en un almacén de datos o en un mercado de datos para su análisis. Monitorear el desempeño, los procesos y las tendencias del negocio es un caso de uso común de BI.
La ciencia de datos involucra aplicaciones de análisis que son más avanzadas. Además de la analítica descriptiva, abarca la analítica predictiva que pronostica el comportamiento y los eventos futuros, así como la analítica prescriptiva, que busca determinar el mejor curso de acción para abordar el problema que se analiza.
Los tipos de datos no estructurados o semiestructurados —por ejemplo, archivos de registro, datos de sensores y texto— son comunes en las aplicaciones de ciencia de datos, junto con los datos estructurados. Además, los científicos de datos a menudo quieren acceder a los datos sin procesar antes de que se hayan limpiado y consolidado para poder analizar el conjunto de datos completo o filtrarlos y prepararlos para usos analíticos específicos. Como resultado, los datos sin procesar pueden almacenarse en un lago de datos basado en Hadoop, un servicio de almacenamiento de objetos en la nube, una base de datos NoSQL u otra plataforma de big data.
Tecnologías, técnicas y métodos de ciencia de datos
La ciencia de datos se basa en gran medida en algoritmos de aprendizaje automático. El aprendizaje automático es una forma de análisis avanzado en el que los algoritmos aprenden sobre conjuntos de datos y luego buscan patrones, anomalías o conocimientos en ellos. Utiliza una combinación de métodos de aprendizaje supervisados, no supervisados, semi-supervisados y de refuerzo, con algoritmos que obtienen diferentes niveles de capacitación y supervisión de los científicos de datos.
También existe el aprendizaje profundo, una rama más avanzada del aprendizaje automático que utiliza principalmente redes neuronales artificiales para analizar grandes conjuntos de datos sin etiquetar. En otro artículo, Schmelzer de Cognilytica explica la relación entre la ciencia de datos, el aprendizaje automático y la IA, detallando sus diferentes características y cómo se pueden combinar en aplicaciones analíticas.
Los modelos predictivos son otra tecnología de ciencia de datos central. Los científicos de datos los crean ejecutando aprendizaje automático, minería de datos o algoritmos estadísticos contra conjuntos de datos para predecir escenarios comerciales y resultados o comportamientos probables. En el modelado predictivo y otras aplicaciones de análisis avanzado, el muestreo de datos a menudo se realiza para analizar un subconjunto representativo de datos, una técnica de minería de datos diseñada para hacer que el proceso de análisis sea más manejable y requiera menos tiempo.
Las técnicas estadísticas y analíticas comunes que se utilizan en proyectos de ciencia de datos incluyen las siguientes:
- clasificación, que separa los elementos de un conjunto de datos en diferentes categorías;
- regresión, que traza los valores óptimos de las variables de datos relacionadas en una línea o un plano; y
- agrupación, que agrupa puntos de datos con una afinidad o atributos compartidos.
Los tres tipos de técnicas estadísticas y analíticas más utilizadas por los científicos de datos.
Plataformas y herramientas de ciencia de datos
Hay numerosas herramientas disponibles para que los científicos de datos las utilicen en el proceso de análisis, incluidas opciones comerciales y de código abierto:
- plataformas de datos y motores de análisis, como bases de datos Spark, Hadoop y NoSQL;
- lenguajes de programación, como Python, R, Julia, Scala y SQL;
- herramientas de análisis estadístico como SAS e IBM SPSS;
- bibliotecas y plataformas de aprendizaje automático, incluidas TensorFlow, Weka, Scikit-learn, Keras y PyTorch;
- Jupyter Notebook, una aplicación web para compartir documentos con código, ecuaciones y otra información; y
- bibliotecas y herramientas de visualización de datos, como Tableau, D3.js y Matplotlib.
Además, los proveedores de software ofrecen un conjunto diverso de plataformas de ciencia de datos con diferentes características y funcionalidades. Eso incluye plataformas de análisis para científicos de datos capacitados, plataformas de aprendizaje automático automatizadas que también pueden ser utilizadas por científicos de datos ciudadanos y centros de flujo de trabajo y colaboración para equipos de ciencia de datos. La lista de proveedores incluye Alteryx, AWS, Databricks, Dataiku, DataRobot, Domino Data Lab, Google, H2O.ai, IBM, Knime, MathWorks, Microsoft, RapidMiner, SAS Institute, Tibco Software y otros.
Carreras en ciencia de datos
A medida que aumenta la cantidad de datos generados y recopilados por las empresas, también aumenta su necesidad de científicos de datos. Eso ha provocado una gran demanda de trabajadores con experiencia o capacitación en ciencia de datos, lo que dificulta que algunas empresas cubran los puestos disponibles.
En una encuesta realizada en 2020 por la subsidiaria Kaggle de Google, que administra una comunidad en línea para científicos de datos, el 51% de los 2675 encuestados empleados como científicos de datos dijeron que tenían una maestría de algún tipo, mientras que el 24% tenía una licenciatura y el 17% tenía un doctorado. Muchas universidades ahora ofrecen programas de pregrado y posgrado en ciencia de datos, que pueden ser un camino directo hacia el empleo.
Una trayectoria profesional alternativa es que las personas que trabajan en otros roles se vuelvan a capacitar como científicos de datos —una opción popular para las organizaciones que tienen problemas para encontrar personas con experiencia. Además de los programas académicos, los posibles científicos de datos pueden participar en campamentos de entrenamiento de ciencia de datos y cursos en línea en sitios web educativos como Coursera y Udemy. Varios proveedores y grupos de la industria también ofrecen cursos y certificaciones de ciencia de datos, y los cuestionarios de ciencia de datos en línea pueden evaluar y proporcionar conocimientos básicos.
Cómo las industrias se apoyan en la ciencia de datos
Antes de convertirse ellos mismos en proveedores de tecnología, Google y Amazon fueron los primeros usuarios de la ciencia de datos y el análisis de big data para aplicaciones internas, junto con otras empresas de internet y comercio electrónico como Facebook, Yahoo y eBay. Ahora, la ciencia de datos está muy extendida en organizaciones de todo tipo. A continuación, se muestran algunos ejemplos de cómo se usa en diferentes industrias:
- La ciencia de datos permite a los servicios de transmisión rastrear y analizar lo que ven los usuarios, lo que ayuda a determinar los nuevos programas de televisión y películas que producen. Los algoritmos basados en datos también se utilizan para crear recomendaciones personalizadas basadas en el historial de visualización de un usuario.
- Servicios financieros. Los bancos y las compañías de tarjetas de crédito extraen y analizan datos para detectar transacciones fraudulentas, administrar los riesgos financieros en préstamos y líneas de crédito, y evaluar las carteras de clientes para identificar oportunidades de ventas adicionales.
- Cuidado de la salud. Los hospitales y otros proveedores de atención médica utilizan modelos de aprendizaje automático y componentes de ciencia de datos adicionales para automatizar el análisis de rayos X y ayudar a los médicos a diagnosticar enfermedades y planificar tratamientos en función de los resultados previos de los pacientes.
- Fabricación. Los usos de la ciencia de datos en los fabricantes incluyen la optimización de la gestión y distribución de la cadena de suministro, además del mantenimiento predictivo para detectar posibles fallas de equipos en las plantas antes de que ocurran.
- Venta minorista. Los minoristas analizan el comportamiento de los clientes y los patrones de compra para impulsar recomendaciones de productos personalizadas y publicidad, marketing y promociones dirigidos. La ciencia de datos también les ayuda a administrar los inventarios de productos y sus cadenas de suministro para mantener los artículos en stock.
- Las empresas de entrega, los transportistas de carga y los proveedores de servicios logísticos utilizan la ciencia de datos para optimizar las rutas y los horarios de entrega, así como los mejores modos de transporte para los envíos.
- La ciencia de datos ayuda a las aerolíneas con la planificación de vuelos para optimizar las rutas, la programación de la tripulación y la carga de pasajeros. Los algoritmos también generan precios variables para vuelos y habitaciones de hotel.
Otros usos de la ciencia de datos, en áreas como la ciberseguridad, el servicio al cliente y la gestión de procesos comerciales, son comunes en diferentes industrias. Un ejemplo de lo último es ayudar en la contratación de empleados y la adquisición de talento: la analítica puede identificar características comunes de los mejores, medir la efectividad de las ofertas de trabajo y proporcionar otra información para ayudar en el proceso de contratación.
Historia de la ciencia de datos
En un artículo publicado en 1962, el estadístico estadounidense John W. Tukey escribió que el análisis de datos "es intrínsecamente una ciencia empírica". Cuatro años más tarde, Peter Naur, un pionero de la programación de software danés, propuso la datalogía —"la ciencia de los datos y los procesos de datos"— como una alternativa a la informática. Más tarde utilizó el término ciencia de datos en su libro de 1974, Concise Survey of Computer Methods, y lo describió como "la ciencia de tratar con datos" —aunque nuevamente en el contexto de la informática, no de la analítica.
En 1996, la Federación Internacional de Sociedades de Clasificación incluyó la ciencia de datos en el nombre de la conferencia que celebró ese año. En una presentación en el evento, el estadístico japonés Chikio Hayashi dijo que la ciencia de datos incluye tres fases: "diseño de datos, recopilación de datos y análisis de datos". Un año más tarde, C.F. Jeff Wu, un profesor universitario en los Estados Unidos que nació en Taiwán, propuso que las estadísticas se rebautizaran como ciencia de datos y que los estadísticos se llamaran científicos de datos.
El científico informático estadounidense William S. Cleveland describió la ciencia de datos como una disciplina analítica completa en un artículo titulado "Ciencia de datos: un plan de acción para ampliar las áreas técnicas de la estadística", que se publicó en 2001 en International Statistical Review. En los próximos dos años se lanzaron dos revistas de investigación centradas en la ciencia de datos.
El primer uso de científico de datos como título de trabajo profesional se atribuye a DJ Patil y Jeff Hammerbacher, quienes decidieron conjuntamente adoptarlo en 2008 mientras trabajaban en LinkedIn y Facebook, respectivamente. En 2012, un artículo de Harvard Business Review coescrito por Patil y el académico estadounidense Thomas Davenport calificó al científico de datos como "el trabajo más sexy del siglo XXI". Desde entonces, la ciencia de datos ha seguido creciendo en importancia, impulsada en parte por un mayor uso de la inteligencia artificial y el aprendizaje automático en las organizaciones.
Futuro de la ciencia de datos
A medida que la ciencia de datos se vuelve aún más frecuente en las organizaciones, se espera que los científicos de datos ciudadanos asuman un papel más importante en el proceso de análisis. En su informe del Cuadrante Mágico de 2020 sobre ciencia de datos y plataformas de aprendizaje automático, Gartner dijo que la necesidad de brindar soporte a un amplio conjunto de usuarios de ciencia de datos es "cada vez más la norma". Un resultado probable es un mayor uso del aprendizaje automático automatizado, incluso por parte de científicos de datos capacitados que buscan optimizar y acelerar su trabajo.
Gartner también citó la aparición de operaciones de aprendizaje automático (MLOps), un concepto que adapta las prácticas de DevOps del desarrollo de software en un esfuerzo por gestionar mejor el desarrollo, la implementación y el mantenimiento de modelos de aprendizaje automático. Los métodos y herramientas de MLOps tienen como objetivo crear flujos de trabajo estandarizados para que los modelos se puedan programar, construir y poner en producción de manera más eficiente.
Otras tendencias que afectarán el trabajo de los científicos de datos en el futuro incluyen el impulso cada vez mayor para una IA explicable, que proporciona información para ayudar a las personas a comprender cómo funcionan la IA y los modelos de aprendizaje automático y cuánto pueden confiar en sus hallazgos al tomar decisiones, y un enfoque relacionado en Principios de IA responsable, diseñados para garantizar que las tecnologías de IA sean justas, imparciales y transparentes.