¿Se impulsará big data con Hadoop en la nube?
Hadoop es una opción para manejar los conjuntos de datos grandes y diversos que vienen con big data. ¿Pero, cómo se puede usar en una organización?
¿Por qué es Hadoop en la nube importante para el análisis de big data?
Para que sean útiles, los datos deben ser procesados, limpiados, filtrados, transformados y modelados. Cuando los conjuntos de datos son pequeños o de alcance limitado, las organizaciones pueden analizar y modelar los datos en un único servidor. Las empresas también pueden utilizar técnicas de procesamiento de datos convencionales, incluyendo aquellas con plataformas de desarrollo de software, tales como el lenguaje de programación R.
Sin embargo, cuando los conjuntos de datos crecen, las tareas de procesamiento deben ser distribuidas entre varios servidores. Para coordinar el almacenamiento distribuido y las tareas de procesamiento distribuido, también es necesario contar con una capa de software adicional. Herramientas como Hadoop de Apache proporcionan esta capa adicional como un marco de software de código abierto. Hadoop soporta el almacenamiento de datos distribuidos y el procesamiento de conjuntos de datos para big data a través de clústeres de computadoras. Se ha convertido en el marco estándar para proyectos de análisis de big data, y la versión 2.6.0 fue lanzada en noviembre.
Hadoop no es una sola herramienta, sino una serie de módulos relacionados. Estos incluyen Hadoop Common con las bibliotecas básicas y utilidades; el sistema de archivos distribuidos Hadoop (HDFS) para almacenar datos en máquinas distribuidas; Hadoop YARN para la gestión y planificación de los recursos de computación en cluster; y Hadoop MapReduce, el lenguaje de programación para el procesamiento de big data. Las empresas pueden desplegar Hadoop en un centro de datos interno o a través de proveedores de nube como Microsoft Azure, Google App Engine y Amazon S3.
Hadoop, si bien es la más común, no es la única plataforma de almacenamiento y procesamiento de big data. Hay una serie de alternativas, incluyendo Hydra, Zillabyte, Stratosphere y Sparc. Estas alternativas son aún incipientes, por lo que es importante probar cada una de ellas antes de la implementación. Para ello, evalúe los beneficios potenciales de cada plataforma. Por ejemplo, la plataforma Zillabyte abastece a Ruby y Python, por lo que podría ser una opción sólida para los desarrolladores de big data que son competentes en esos lenguajes. Una vez que la empresa seleccione una plataforma, organice una implementación de prueba utilizando un entorno de nube limitado que duplique un entorno Hadoop establecido en la mayor medida posible.