sebra - stock.adobe.com

Los mejores 13 libros de ciencia de datos que debe leer, según los expertos

Quienes están interesados o trabajan con ciencia de los datos pueden encontrar una avalancha de nuevos títulos en el mercado. He aquí un pequeño compendio de algunos de los mejores.

La ciencia de los datos –la amalgama de las matemáticas, la estadística, las disciplinas informáticas, el aprendizaje automático, el análisis de clusters, la minería de datos y la visualización– ya no es solo el ámbito de los científicos de datos. No es de extrañar, por tanto, que se haya convertido en un tema popular entre los líderes empresariales, economistas, antropólogos y otros. Dicho esto, aquellos que están bien afianzados en los entresijos de la ciencia de los datos pueden encontrar una avalancha de nuevos títulos en el mercado. He aquí un pequeño compendio de algunos de los mejores.

Libros de ciencia de datos en general

Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us about Who We Really Are

Por Seth Stephens-Davidowitz

Este libro está dirigido a quienes buscan un mayor conocimiento de cómo nos expresamos en nuestra era digital. Sus descubrimientos muestran cómo nuestras acciones digitales –cómo y dónde buscamos en internet, por ejemplo– desmienten la imagen que tenemos de nosotros mismos. Cada día, señala Stephens-Davidowitz, los seres humanos que buscan en internet acumulan 8 billones de gigabytes de datos. Estos datos revelan nuestros miedos, deseos y comportamientos, así como los prejuicios conscientes e inconscientes. Por ejemplo, ¿qué porcentaje de votantes blancos no votó a Barack Obama por ser negro? También revelan conocimientos sobre una serie de aspectos, desde la economía hasta los deportes o el sexo. Por ejemplo, ¿el lugar al que vas a la escuela influye en tu éxito en la vida? ¿Los padres favorecen secretamente a los niños en detrimento de las niñas?

Stephens-Davidowitz se licenció en filosofía en Stanford, donde se graduó Phi Beta Kappa, y se doctoró en economía en Harvard. El libro está disponible en Amazon, en el sitio web del autor, en Barnes & Noble y en otros lugares.

Naked Statistics: Stripping the Dread from the Data

Por Charles Wheelan

El segundo de los tres libros de la serie Naked de Wheelan, Naked Statistics (Estadísticas al desnudo), acerca el mundo arcano y desgarrador de la estadística a través de observaciones irónicas y aplicaciones inesperadas en el mundo real. Explora, por ejemplo, cómo Netflix recomienda películas para ver y por qué los concursantes de "Let's Make A Deal" hacen las elecciones que hacen. Por el camino, Wheelan aclara conceptos clave como inferencia, correlación y análisis de regresión. Y, quizá lo más importante en esta época de prácticas de sondeo controvertidas, Wheelan explica cómo el sesgo o el descuido pueden manipular o tergiversar los datos.

Wheelan es profesor de la Harris School of Public Policy de la Universidad de Chicago y antiguo corresponsal de The Economist. Naked Statistics puede adquirirse en Amazon, Apple Books, Barnes & Noble y otros lugares.

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

Por Cathy O'Neill

O'Neill, antigua quant de Wall Street (experta en el análisis y la gestión de datos cuantitativos), escribió este libro excepcionalmente importante después de trabajar como científica de datos, donde construyó modelos que predecían las compras y los clics de la gente. Tras su temprana y bien acreditada carrera –se doctoró en matemáticas en Harvard, fue posdoctorada en el departamento de matemáticas del MIT y profesora en el Barnard College, donde publicó varios trabajos de investigación en geometría aritmética algebraica– escribió Doing Data Science en 2013. También puso en marcha el Programa Lede de Periodismo de Datos en Columbia en 2014 y fundó ORCAA, una empresa de auditoría algorítmica. Uno de los principios de ORCAA –que la ética de la IA no puede automatizarse– explica los fundamentos que establece en Weapons of Math Destruction: "[N]o hay excusa para que un algoritmo sea racista, sexista, discriminatorio por la edad o por cualquier otro motivo".

Weapons of Math Destruction puede adquirirse en Amazon y  Barnes & Noble. Se puede encontrar más información sobre el título en el blog del autor; se puede encontrar más información sobre ORCAA en el sitio web de la empresa.

Algorithms of Oppression: How Search Engines Reinforce Racism

Por Dr. Safiya U. Noble

La Dra. Safiya U. Noble, profesora asociada de los departamentos de Estudios de la Información y Estudios Afroamericanos de la UCLA, sostiene que la combinación de intereses privados en la promoción de determinados sitios, junto con la condición de monopolio de un número relativamente pequeño de motores de búsqueda en internet, conduce a un conjunto de algoritmos de búsqueda sesgados que privilegian la blancura y discriminan a las personas de color, específicamente a las mujeres de color. Noble llega a sus conclusiones –que existe una cultura de racismo y sexismo en la forma en que se crea la capacidad de descubrimiento en línea– tras analizar las búsquedas textuales y de medios de comunicación e investigar la publicidad pagada en línea. Algorithms of Oppression fue incluido en los mejores libros para adultos (no ficción) de la Biblioteca Pública de Nueva York de 2018 y reconocido por la revista Bustle como uno de los "10 libros sobre la raza que hay que leer en lugar de pedirle a un POC que te lo explique."

Noble tiene nombramientos en Estudios Afroamericanos, Estudios de Género y es investigadora asociada al Oxford Internet Institute de la Universidad de Oxford. En la actualidad, es codirectora del Centro de Investigación Crítica de Internet de la UCLA. Algorithms of Oppression puede adquirirse en Amazon, Barnes & Noble, Kobo.com y otros sitios.

Libros de ciencia de datos para principiantes

Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python

Por Peter Bruce, Andrew Bruce y Peter Gedeck

Aunque hemos incluido este libro en la categoría de principiantes, recuerde que todo es relativo. A diferencia de los títulos listados en la categoría general de ciencia de datos, Practical Statistics for Data Scientists asume algún conocimiento del lenguaje de programación R y alguna exposición a la estadística. Los autores, Peter y Andrew Bruce, tratan de encontrar un terreno común entre los científicos de datos, muchos de los cuales, según ellos, nunca han recibido una formación formal en estadística, y los estadísticos, que a menudo carecen de una perspectiva de ciencia de datos. Practical Statistics for Data Scientists explica cómo aplicar varios métodos estadísticos a la ciencia de datos y cómo evitar su mal uso. Este título está disponible para su compra en Amazon.

Data Science from Scratch: First Principles with Python, 2nd Edition

Por Joel Grus

Joel Grus, ingeniero principal de Capital Group y antiguo ingeniero de software en el Allen Institute for AI y en Google, afirma que para aprender realmente la ciencia de los datos hay que entender los principios que la sustentan. Su idea es mostrarte cómo funcionan las bibliotecas, los marcos, los módulos y los conjuntos de herramientas de la ciencia de datos, implementándolos desde cero. Grus promete que si tienes una aptitud para las matemáticas y algunos conocimientos de programación, él puede ayudarte a sentirte cómodo con las matemáticas y la estadística en el núcleo de la ciencia de datos, y con las habilidades de hackeo que necesitas para empezar como científico de datos.

Puede encontrar más información sobre el autor en su blog. Data Science from Scratch puede adquirirse en Amazon. El código y los ejemplos del libro (que requiere al menos Python 3.6), se pueden encontrar en GitHub.

Python for Data Science: The Ultimate Beginners' Guide to Learning Python Data Science Step by Step

Por Ethan Williams

Este libro, que forma parte de una voluminosa serie de Ethan Williams, es para aquellos principiantes absolutos que quieren aprender a programar en Python y su aplicación para la ciencia de datos. Se presentan algunas bibliotecas de Python, como NumPy, Pandas, Matplotlib y Seaborn para el análisis y la visualización de datos. Se dan ejemplos prácticos y aplicaciones de cada lección, y se anima igualmente al lector a practicar las técnicas mediante ejercicios. Además, se ofrecen referencias a materiales de lectura y práctica relevantes.

Python for Data Science está disponible para su compra en Amazon, como audiolibro en Apple Books, en The Book Stall y en otros lugares.

An Introduction to Statistical Learning: With Applications in R

Por Gareth James, Daniela Witten, Trevor Hastie y Robert Tibshirani

En su decimoséptima edición, An Introduction to Statistical Learning es la continuación del best seller de 2009 de los autores, The Elements of Statistical Learning (Hastie, Tibshirani y Friedman, 2ª edición, 2009). An Introduction to Statistical Learning, que está dirigido tanto a los estadísticos como a los que no lo son, solo asume un curso previo de regresión lineal y ningún conocimiento de álgebra matricial. Este libro ofrece una visión general accesible del campo del aprendizaje estadístico, utilizado para ordenar los vastos conjuntos de datos que han surgido en la biología, las finanzas, el marketing, la astrofísica y otros campos en los últimos 20 años. Los temas tratados incluyen la regresión lineal, la clasificación, los métodos de remuestreo, los enfoques de contracción, los métodos basados en árboles, las máquinas de vectores de apoyo, la agrupación y otros. Se utilizan gráficos en color y ejemplos reales para ilustrar los métodos presentados. Cada capítulo contiene un tutorial para implementar los análisis y métodos presentados en R.

An Introduction to Statistical Learning está disponible para su compra en AmazonApple Books y otros sitios.

Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems

Por Aurélien Géron

Aurélien Géron, ingeniero de inteligencia artificial y ex director de producto de Google, pretende ayudar a los programadores con pocos conocimientos de aprendizaje automático mediante el uso de herramientas sencillas y eficientes para implementar programas capaces de aprender de los datos. Utilizando ejemplos concretos, un mínimo de teoría y dos marcos de trabajo en Python listos para la producción, Scikit-learn y TensorFlow, Géron ofrece una comprensión intuitiva de los conceptos y herramientas para construir sistemas inteligentes. Los lectores comenzarán con la regresión lineal simple y progresarán hasta las redes neuronales profundas. En cada capítulo se ofrecen ejercicios para ayudar al lector a aplicar lo aprendido. Hands-On Machine Learning explora las redes neuronales y varios modelos de entrenamiento, como las máquinas de vectores de soporte, los árboles de decisión, los bosques aleatorios y los métodos de ensamblado.

Hands-On Machine Learning está disponible para su compra en AmazonApple BooksBarnes & Noble y otros lugares.

Python Crash Course for Data Analysis: A Complete Beginner Guide for Python Coding, NumPy, Pandas and Data Visualization

Por AI Publishing

El libro es para aquellos que son nuevos en Python y la ciencia de datos. Se centra principalmente en el aprendizaje práctico. AI Publishing, que ofrece una amplia biblioteca de títulos sobre IA, ofrece a los lectores la posibilidad de acortar la curva de aprendizaje mediante el uso de herramientas prácticas –que incluyen códigos de Python de ejemplo, referencias y ejercicios– disponibles en el sitio web de la editorial, sin costo adicional. Los temas que se tratan son los siguientes

- Introducción al análisis de datos

- Python para el análisis de datos: básico y avanzado

- Cuadernos de IPython y Jupyter

- NumPy para el procesamiento de datos numéricos

- Pandas para la manipulación de datos

- Visualización de datos

Python Crash Course for Data Analysis está disponible en AmazonBook Depository y otros lugares.

Libros avanzados de ciencia de datos

Pattern Recognition and Machine Learning

Por Christopher M. Bishop

Christopher Michael Bishop –director del laboratorio de Microsoft Research en Cambridge y profesor de informática en la Universidad de Edimburgo y miembro del Darwin College de Cambridge– presenta este primer libro de texto sobre reconocimiento de patrones que expone el punto de vista bayesiano. El libro presenta algoritmos de inferencia aproximada que permiten obtener respuestas rápidas y aproximadas en situaciones en las que las respuestas exactas no son factibles. Utiliza modelos gráficos para describir las distribuciones de probabilidad cuando ningún otro libro aplica modelos gráficos al aprendizaje automático. No se presupone ningún conocimiento previo de los conceptos de reconocimiento de patrones o de aprendizaje automático, aunque se requiere estar familiarizado con el cálculo multivariante y el álgebra lineal básica. Para quienes no tengan experiencia en el uso de probabilidades, el libro incluye una introducción autocontenida a la teoría básica de la probabilidad.

Pattern Recognition and Machine Learning está disponible para su compra en Amazon y Springer.

Data Science with Python and Dask

Por Jesse Daniel

Data Science with Python and Dask le enseña a construir proyectos escalables que pueden manejar conjuntos de datos masivos. Dask proporciona una programación dinámica de tareas y colecciones paralelas que amplían la funcionalidad de NumPy, Pandas y Scikit-learn, permitiendo a los usuarios escalar su código desde una única computadora portátil, hasta un clúster de cientos de máquinas con facilidad. Lo mejor de Data Science with Python and Dask es que utiliza el ejemplo de analizar la base de datos de tickets de aparcamiento de NYC. A continuación, simplifica el proceso utilizando DataFrames. Usando Dask-ML, construirá modelos de aprendizaje automático. Luego, usando AWS y Docker, creará visualizaciones interactivas y clusters.

Data Science with Python and Dask está disponible en Amazon, Manning y otros lugares. Puede encontrar más información sobre Dask en Dask.org.

The Hundred-Page Machine Learning Book

Por Andriy Burkov

Disponible en 11 idiomas, The Hundred-Page Machine Learning Book es el último libro de Andriy Burkov, que tiene un doctorado en IA y es el líder de un equipo de aprendizaje automático en Gartner. Este libro de IA está repleto de buenas prácticas y patrones de diseño para crear soluciones de aprendizaje automático fiables y escalables. Se basa en los 15 años de experiencia de Burlov en la resolución de problemas con IA y en la experiencia publicada de los líderes del sector. En el prólogo del libro, Cassie Kozyrkov, científico jefe de decisiones de Google, describe The Hundred-Page Machine Learning Book como "uno de los pocos libros de verdadero aprendizaje automático aplicado que existen".

The Hundred-Page Machine Learning Book está disponible en AmazonBookshop y desde LearnPub.com.

Investigue más sobre Gestión y metodologías