Fotolia

¿Está listo para las pruebas de big data?

Los datos están en todas partes, y eso significa que es tiempo de afilar sus habilidades de pruebas para big data. La experta Gerie Owen explica lo que necesita saber para abrazar este nuevo mundo.

Como probadores, a menudo tenemos una relación de amor-odio con los datos. Procesar datos es la principal razón de la existencia de nuestras aplicaciones, y sin los datos no podemos probar. Sin embargo, los datos a menudo son la causa raíz de los problemas de pruebas; no siempre tenemos los datos que necesitamos, lo que causa casos de prueba bloqueados y los defectos son regresados como “problemas de datos”.

Los datos han crecido exponencialmente en los últimos años y continúan creciendo. Empezamos a probar con megabytes y gigabytes, y ahora terabytes y petabytes (PB) se han unido al panorama de datos. Los datos son ahora el elefante en el cuarto, ¿y dónde nos está llevando? Bienvenido al nuevo mundo de las pruebas de big data.

¿Qué es big data? 

Big data tiene muchas definiciones; es un término a menudo usado para definir tanto volumen como procesos. Algunas veces, el término big data es usado para referirse a los enfoques y herramientas usados para procesar grandes cantidades de datos. Wikipedia lo define como “un término que abarca cualquier colección de conjuntos de datos tan grande y compleja que se vuelve difícil de procesar usando herramientas de gestión de datos manuales o aplicaciones tradicionales de procesamiento de datos”. Gartner define big data como “activos de información de alto volumen, alta velocidad y/o alta variedad que demandan formas rentables e innovadoras de procesamiento de información que permitan una visión mejorada, toma de decisiones y automatización de procesos”. Big data usualmente se refiere al menos a 5 PB (5,000,000,000 MB). Algunas veces el término big data es usado para referirse a los enfoques y herramientas utilizadas para procesar grandes cantidades de datos.

Sin embargo, big data es más que solo tamaño. Sus aspectos más significativos son las cuatro “V”. Big data obviamente tiene enorme volumen, la gran cantidad de datos; tiene velocidad, la rapidez con la cual nuevos datos son generados y transportados; variedad, que se refiere a los muchos tipos de datos; y, finalmente, veracidad, que es su precisión y calidad.

Probadores, ¿pueden ver algunos –digamos muchos– escenarios de prueba aquí? Sí, grandes datos significan grandes pruebas. Además de asegurar la calidad de los datos, necesitamos asegurarnos que nuestras aplicaciones puedan efectivamente procesar esta gran cantidad de datos. Sin embargo, antes de que podamos planear nuestras pruebas de big data, necesitamso aprender más sobre el nuevo mundo de big data.

Big data usualmente no es estructurado, lo que significa que no tiene un modelo de datos definido. No cabe perfectamente en columnas y filas organizadas. Aunque muchos de los grandes datos no estructurados vienen de las redes sociales –como los post de Facebooks y los tuits– también pueden tomar formas de audio o visuales. Estas incluyen llamadas telefónicas, mensajes instantáneos, correos de voz, imágenes, videos, PDF, datos geoespaciales e intercambio de diapositivas. Así que parece que nuestro gran SUT (sistema bajo prueba) de prueba es, de hecho, una enorme medusa.

Desafíos de las pruebas de big data

Las pruebas de big data son como examinar una medusa: debido a la gran cantidad de datos y su naturaleza no estructurada, el proceso de prueba es difícil de definir. Se requieren automatización, y aunque hay muchas herramientas, son complejas y requieren habilidades técnicas para la resolución de problemas. Las pruebas de desempeño también son excesivamente complejas, dada la velocidad a la cual son procesados los datos.

Examinando la medusa

En el nivel más alto, el enfoque de pruebas de big data involucra componentes tanto funcionales como no funcionales. Las pruebas funcionales incluyen validar tanto la calidad de los datos en sí mismos, como su procesamiento. Los escenarios de prueba en la calidad de datos incluyen que estén completos, que sean correctos, falta de duplicación y más. El procesamiento de datos puede hacerse de tres formas: interactivo, en tiempo real y por lotes; sin embargo, todos involucran movimiento de datos. Por tanto, todas las estrategias de prueba de big data están basadas en el proceso de extracción, transformación y carga (ETL). Comienza validando la calidad de los datos que vienen de las bases de datos fuente, validando la transformación o proceso a través del cual los datos son estructurados, y validando la carga hacia el data warehouse.

Las pruebas ETL tienen tres fases. La primera fase es la representación de datos (data staging). La representación de los datos es validada al comparar los datos que vienen de los sistemas fuente con los datos en la ubicación establecida. La siguiente fase es la validación MapReduce, o validación de la transformación de los datos. MapReduce es el modelo de programación para datos no estructurados; probablemente la implementación mejor conocida está en Hadoop. Esta prueba asegura que las reglas de negocios usadas para agregar y segregar los datos están funcionando adecuadamente. La fase ETL final es la fase de validación de salida, donde los archivos de salida de MapReduce están listos para ser movidos al data warehouse. En esta etapa, la integridad de los datos y la transformación están completas y correctas. Las pruebas ETL, especialmente de la velocidad requerida por big data, requieren automatización, y con suerte hay herramientas para cada fase del proceso ETL. Las más conocidas son Mongo, Cassandra, Hadoop y Hive.

¿Quiere ser un probador de big data?

Probadores, si tienen antecedentes técnicos, especialmente en Java, las pruebas de big data pueden ser para ustedes. Ya tienen fuertes habilidades analíticas, pero necesitarán volverse eficientes en Hadoop y otras herramientas de big data. Big data es una tecnología de rápido crecimiento, y los probadores con este conjunto de habilidades tienen mucha demanda. ¿Por qué no tomar el reto? Sean valientes y abracen el nuevo mundo de las pruebas de big data.

Próximos pasos

Presente y futuro de big data en Chile

El crecimiento de big data en AL requiere innovación y talento: IDC

Big data y Hadoop en Brasil, ¿qué les depara el 2016?

Investigue más sobre Big data y gestión de la información