Big data (grandes volúmenes de datos)
Big data (en español, grandes datos o grandes volúmenes de datos) es un término evolutivo que describe cualquier cantidad voluminosa de datos estructurados, semiestructurados y no estructurados que tienen el potencial de ser extraídos para obtener información.
Los datos grandes se caracterizan a menudo por tres Vs: el Volumen extremo de datos, la gran Variedad de tipos de datos y la Velocidad a la que se deben procesar los datos. Aunque los grandes datos no equivalen a ningún volumen específico de datos, el término se utiliza a menudo para describir terabytes, petabytes e incluso exabytes de datos capturados con el tiempo.
Desglosando las 3 Vs de big data
Volumen: Tales datos voluminosos pueden provenir de innumerables fuentes diferentes, como registros de ventas comerciales, los resultados recogidos de experimentos científicos o sensores en tiempo real utilizados en la internet de las cosas (IoT). Los datos pueden estar en bruto o ser preprocesados utilizando herramientas de software independientes antes de que se apliquen los análisis.
Variedad: Los datos también pueden existir en una amplia variedad de tipos de archivo, incluyendo datos estructurados, como almacenes de bases de datos SQL; datos no estructurados, como archivos de documentos; o transmisión de datos desde sensores. Además, big data puede incluir múltiples fuentes de datos simultáneas, que de otro modo no podrían ser integradas. Por ejemplo, un gran proyecto de análisis de datos puede intentar medir el éxito de un producto y las ventas futuras correlacionando datos de ventas pasadas, datos de devolución y datos de revisión de compradores en línea para ese producto.
Por último, la velocidad se refiere al lapso de tiempo en el que se deben analizar grandes volúmenes de datos. Cada gran proyecto de análisis de datos va a ingerir, correlacionar y analizar las fuentes de datos, y luego proveer una respuesta o resultado basado en una consulta general. Esto significa que los analistas humanos deben tener una comprensión detallada de los datos disponibles y tener cierto sentido de qué respuesta están buscando. La velocidad también es significativa, ya que el análisis de datos se expande en campos como el aprendizaje automático y la inteligencia artificial, donde los procesos analíticos imitan la percepción mediante la búsqueda y el uso de patrones en los datos recopilados.
Big data en las demandas de infraestructura
La necesidad de grandes velocidades de datos impone demandas únicas en la infraestructura de computación subyacente. La potencia de cálculo necesaria para procesar rápidamente grandes volúmenes y variedades de datos puede sobrecargar un solo servidor o un clúster de servidores. Las organizaciones deben aplicar el poder de cálculo adecuado a las tareas de big data para lograr la velocidad deseada. Esto puede potencialmente demandar cientos o miles de servidores que pueden distribuir el trabajo y operar de manera colaborativa.
Alcanzar esa velocidad de una manera rentable es también un dolor de cabeza. Muchos líderes empresariales son reticentes a invertir en un servidor extenso y una infraestructura de almacenamiento que sólo se puede utilizar ocasionalmente para completar tareas de big data. Como resultado, la computación en la nube pública ha surgido como un vehículo primario para alojar grandes proyectos de análisis de datos. Un proveedor de nube pública puede almacenar petabytes de datos y escalar miles de servidores el tiempo suficiente para realizar el proyecto de big data. El negocio sólo paga por el tiempo de almacenamiento y cálculo realmente utilizado, y las instancias de nube se pueden desactivar hasta que se necesiten de nuevo.
Para mejorar aún más los niveles de servicio, algunos proveedores de nube pública ofrecen grandes capacidades de datos, como instancias de computación altamente distribuidas de Hadoop, almacenes de datos, bases de datos y otros servicios relacionados con la nube. Amazon Web Services Elastic MapReduce (Amazon EMR) es un ejemplo de servicios de big data en una nube pública.
El lado humano de la analítica de big data
En última instancia, el valor y la eficacia de los grandes datos depende de los operadores humanos encargados de comprender los datos y formular las consultas adecuadas para dirigir proyectos de big data. Algunas grandes herramientas de datos se encuentran con nichos especializados y permiten a los usuarios menos técnicos hacer varias predicciones a partir de datos de negocios cotidianos. Sin embargo, otras herramientas están apareciendo, como los dispositivos Hadoop, para ayudar a las empresas a implementar una infraestructura de computación adecuada para abordar grandes proyectos de datos, minimizando la necesidad de hardware y conocimientos de software de computación distribuida.
Pero estas herramientas sólo abordan casos de uso limitados. Muchas otras grandes tareas de datos, como la determinación de la efectividad de un nuevo fármaco, pueden requerir una gran experiencia científica y computacional del personal analítico. Actualmente hay una escasez de científicos de datos y otros analistas que tengan experiencia trabajando con grandes datos en un entorno de código abierto distribuido.
Los datos grandes se pueden contrastar con los datos pequeños (small data), otro término que se utiliza a menudo para describir los datos cuyo volumen y formato se puede utilizar fácilmente para el análisis de autoservicio. Un axioma comúnmente citado es que "los grandes datos son para las máquinas, los pequeños datos son para las personas".