michelangelus - Fotolia
Spark vs. Hadoop: ¿es el motor de big data una parte de reemplazo?
Cómo se desarrollará la relación entre Spark y Hadoop es una pregunta abierta. Le preguntamos a profesionales de TI si ven a Spark más como compañero o competidor de Hadoop.
Conforme ha evolucionado el marco de procesamiento distribuido Hadoop, ha llegado a incluir mucho más que su núcleo original, que consistía en el sistema de archivos distribuido Hadoop (HDFS) y el entorno de programación MapReduce. Entre una serie de nuevos componentes del ecosistema Hadoop, una tecnología ha adquirido una especial atención: el motor de procesamiento de datos en memoria Spark. Spark está reemplazando a MapReduce en un número creciente de trabajos de procesamiento por lotes en los conjuntos de Hadoop; sus defensores afirman que puede ejecutarlos hasta 100 veces más rápido.
Después de que el software de código abierto Apache Spark estuvo disponible el año pasado, los proveedores de la distribución de Hadoop se apresuraron a agregar la tecnología –que pronto será actualizada en un lanzamiento de la versión 1.6– a su cartera de productos. Pero mientras Spark ahora a menudo se encuentra en aplicaciones de big data, junto con HDFS y el administrador de recursos YARN de Hadoop, también puede ser utilizado como un servicio independiente. Eso está provocando un creciente debate en los círculos de gestión de datos en relación con Spark vs. Hadoop.
¿Continuará Hadoop siendo un punto de partida para Spark? Para obtener una visión de usuario sobre esa pregunta, nuestro portal hermano SearchDataManagement preguntó a asistentes a Strata + Hadoop World 2015 en Nueva York si ven el motor de procesamiento Spark como complemento de Hadoop, o una alternativa al mismo y a componentes tales como YARN y MapReduce. Esto es lo que algunos de ellos dijeron sobre el tema de Spark vs. Hadoop.
Sridhar Alla, arquitecto de big data de la compañía de televisión por cable Comcast: "Spark no almacena realmente nada. Procesar en Spark está reemplazando MapReduce y YARN, pero la capa de almacenamiento va a ser Hadoop durante mucho tiempo”.
Hakan Jonsson, científico de datos para el equipo de producto LifeLog en Sony Mobile Communications: "Es un reemplazo. Spark es mucho más rápido que Hadoop. Y desde el punto de vista de la productividad, usted no tiene que hacer el modelado [analítico] en una herramienta separada”.
Brett Shriver, director senior de tecnología de regulación del mercado para la Autoridad Reguladora de la Industria Financiera o FINRA: "Hay cuatro o cinco patrones [de vigilancia] desafiantes en cuanto a desempeño en nuestra cartera, y están dirigidos hacia Spark. A largo plazo, ¿quién sabe? Puede que sea la forma en que vayamos. El jurado aún está deliberando".
Joe Hsy, director de plataformas y herramientas de servicios de nube para la unidad de WebEx de Cisco: "Creo que Spark va a reemplazar una gran parte de lo aquello para lo que usamos hoy MapReduce. Con el tiempo, si Spark continúa ampliando su funcionalidad, podría reemplazar MapReduce por completo".
William Theisinger, vicepresidente de ingeniería en el productor de Páginas Amarillas YP LLC: "Usted necesita llegar a donde el uso de las tecnologías es predecible, y yo no diría eso sobre Spark hoy. Todavía voy a tener que soportar MapReduce, también”.
Charlie Crocker, líder del programa de análisis de negocios en el proveedor de software Autodesk: "Ya sea que esté utilizando Hadoop o Spark, creo que va a convertirse en una cuestión filosófica. Si quieres ser revolucionario, puede decir que Hadoop está muerto. Pero Hadoop no está muerto".
Hadoop tiene algo de ventaja en las implementaciones, y a pesar de la reducida estatura de MapReduce, es probable que muchos trabajos de MapReduce que ya se están ejecutando continúen haciendo precisamente eso: correr. Además, ha habido una curva de aprendizaje al poner las aplicaciones de prueba de concepto de Hadoop en producción, y Spark puede igualmente enfrentar una curva similar.
En cierto modo, el ascenso de Spark muestra la capacidad de Hadoop para expandirse más allá de sus componentes originales. Y es probable que la avalancha de nuevas tecnologías de big data continúe, sin importar cómo se resuelve el tema de Spark vs. Hadoop.
Jack Vaughan es el editor de noticias y editor general del sitio SearchDataManagement. Envíele un correo electrónico a [email protected], y sígalo en Twitter: @sDataManagement.
El editor ejecutivo Craig Stedman contribuyó a esta historia.