alex_aldo - Fotolia

Nuevas plataformas de ciencia de datos apuntan a ser centros de colaboración de flujos de trabajo

La adquisición de DataScience.com por parte de Oracle está enfocando las plataformas estilo banco de trabajo hacia una centralización del trabajo de análisis avanzado realizado por equipos de científicos de datos.

Una clase emergente de plataformas de ciencia de datos que brindan capacidades de colaboración y administración de flujos de trabajo está ganando más atención por parte de los usuarios y proveedores, más recientemente Oracle, que está comprando su camino al mercado.

La adquisición de la startup DataScience.com por parte de Oracle fortalece las plataformas del estilo del banco de trabajo, lo que brinda a los equipos de ciencia de datos un entorno colaborativo para desarrollar, implementar y documentar modelos analíticos. IBM ya cuenta con su plataforma Data Science Experience, conocida informalmente como DSX. Otros proveedores incluyen Domino Data Lab y Cloudera, que la semana pasada detallaron los planes para liberar una nueva versión de su software Cloudera Data Science Workbench (CDSW) este verano.

Estas tecnologías son una subcategoría de las plataformas de ciencia de datos en general. No son herramientas de análisis; son centros que los científicos de datos pueden usar para construir modelos predictivos y de aprendizaje automático en un espacio compartido y administrado, en lugar de hacerlo en sus propias computadoras portátiles, sin una ubicación central para coordinar los flujos de trabajo y mantener los modelos. Por lo general, están destinados a equipos con entre 10 y 20 científicos de datos y superiores.

Los bancos de trabajo comenzaron a aparecer en 2014, pero fue durante el año pasado más o menos que maduraron en productos adecuados para usuarios convencionales. Incluso ahora, el mercado todavía está en desarrollo. Domino y Cloudera no revelaron la cantidad de clientes que tienen para sus tecnologías; en una entrevista reciente, el CEO de DataScience.com, Ian Swanson, solamente dijo que su plataforma homónima tiene "docenas" de usuarios.

Una nueva forma de trabajar con voluntarios de ciencia de datos

Ruben Van Der Dussen

Thorn, un grupo sin fines de lucro que lucha contra el tráfico sexual de niños y la pornografía, implementó el software de Domino a principios de 2017. La organización con sede en San Francisco solo tiene un científico de datos a tiempo completo, pero recurre a voluntarios para realizar análisis que ayudan a las agencias encontrar víctimas de tráfico. Alrededor de 20 científicos de datos externos a menudo están involucrados a la vez, un número que se eleva a 100 o más durante los hackathons que posee Thorn, dijo Ruben van der Dussen, director de Innovation Lab.

Eso hace que este tipo de plataforma de ciencia de datos sea una buena opción para el grupo, dijo. Antes, los ingenieros de su equipo tenían que crear instancias de computación separadas en Amazon Elastic Compute Cloud (EC2) para voluntarios y configurarlas para iniciar sesión desde sus propios sistemas. Con Domino, los ingenieros colocan contenedores Docker en el entorno EC2 de Thorn, con Notebooks Jupyter integradas a los que los científicos de datos acceden a través de la web. Eso les permite comenzar a analizar datos más rápidamente y les da tiempo a los ingenieros para gastar en tareas más productivas, dijo van der Dussen.

Agregó que la seguridad de los datos y los privilegios de acceso también son más fáciles de gestionar ahora, una consideración importante, dada la naturaleza sensible de las imágenes, anuncios y otros datos en línea que Thorn analiza con una variedad de modelos de aprendizaje automático y aprendizaje profundo, incluidos los basados en el procesamiento del lenguaje natural y algoritmos de visión por computadora.

Thorn desarrolla y entrena los modelos analíticos dentro de la plataforma Domino y los usa para mantener diferentes versiones de las Notebooks Jupyter, por lo que el trabajo realizado por los científicos de datos está documentado para que otros voluntarios lo puedan ver. Además, varias personas que trabajan juntas en un proyecto pueden colaborar a través de la plataforma. El grupo usa herramientas como Slack para la comunicación directa, "pero Domino hace que sea muy fácil compartir un equipo portátil y que la gente lo comente", dijo van der Dussen.

Oracle deposita su dinero en la ciencia de datos

Oracle está apostando a que las plataformas de ciencia de datos como DataScience.com se convertirán en una tecnología popular para las organizaciones que desean administrar sus procesos analíticos avanzados de manera más efectiva. Oracle, que anunció la adquisición en mayo, planea combinar la plataforma de DataScience.com con su propia infraestructura de inteligencia artificial y herramientas de capacitación modelo como parte de una oferta PaaS de ciencia de datos en Oracle Cloud.

Al comprar DataScience.com, Oracle espera ayudar a los usuarios a obtener más de sus esfuerzos de análisis y posicionarse mejor como un proveedor de aprendizaje automático frente a rivales como Amazon Web Services, IBM, Google y Microsoft. Oracle dijo que continuará invirtiendo en la tecnología de DataScience.com, con el objetivo de ofrecer "más funcionalidades y capacidades a un ritmo más rápido". No reveló lo que está pagando por la startup de Culver City, California.

Las plataformas de bancos de trabajo centralizan el trabajo en proyectos analíticos y la gestión del flujo de trabajo de ciencia de datos. Los científicos de datos pueden formar equipos en proyectos y ejecutar diversas herramientas analíticas de código abierto y comerciales, a las que se conectan las plataformas, y luego implementar modelos terminados para aplicaciones de producción. Las plataformas también son compatibles con la seguridad y el gobierno de los datos, además del control de versiones en modelos analíticos.

Cloudera dijo que su próxima versión CDSW 1.4 agrega características para rastrear y comparar diferentes versiones de modelos durante el proceso de desarrollo y capacitación, así como la capacidad de implementar modelos como API REST incrustados en contenedores para una integración más fácil en paneles y otras aplicaciones. DataScience.com, Domino e IBM brindan una funcionalidad similar en sus plataformas de ciencia de datos.

Opciones en herramientas y plataformas de ciencia de datos

Deutsche Telekom AG ofrece CDSW y DSX de IBM a los usuarios de Telekom Data Intelligence Hub, un servicio de análisis de big data basado en la nube que la compañía de telecomunicaciones está probando con un pequeño número de clientes en Europa antes de un lanzamiento planificado durante la segunda mitad del año.

Los usuarios también pueden acceder a Jupyter, RStudio y otras tres herramientas analíticas de código abierto, dijo Sven Löffler, ejecutivo de desarrollo de negocios en la empresa de Bonn, Alemania, quien lidera la implementación del servicio de análisis. El equipo del proyecto ve beneficios al permitir a las organizaciones conectarse a esas herramientas a través de las dos plataformas de ciencia de datos y obtener "todo este intercambio y capacidades para trabajar en colaboración con otros", dijo.

Sin embargo, Löffler ha escuchado de algunos clientes que el costo de las plataformas podría ser una barrera en comparación con trabajar directamente con las herramientas de código abierto como parte del servicio, que se ejecuta en la nube de Microsoft Azure. Está alimentado por los canales de datos que Deutsche Telekom está construyendo con una nueva versión Azure del servicio Altus Data Engineering de Cloudera.

Investigue más sobre Computación en la nube