Tendências na gestão de dados para observar em 2021
Uma série de esforços nascentes em todo o cenário de dados corporativos se manifestaram em 2020 e provavelmente se tornarão tendências maiores em 2021, incluindo data lake house, Iceberg e Presto.
O gerenciamento de dados é uma base de importância crítica para viabilizar aplicações, análises, inteligência empresarial e aprendizagem automática.
Durante 2020, surgiu uma série de tendências-chave à medida que os provedores de gerenciamento de dados e usuários se viram afetados pela pandemia global de coronavírus e a necessidade de acelerar a informação de dados de forma rentável.
Entre as tendências claras que têm surgido, você encontrará a necessidade de que as organizações façam melhor uso do armazenamento na nuvem para permitir lagos de dados (data lakes) que são mais do que meros pântanos de dados. Diversos fornecedores e projetos de código aberto assumiram o desafio de otimizar os data lakes em 2020, com diferentes motores de data lakes e consultoria de tecnologia.
2021: Data lake houses e Iceberg no horizonte
Outra tendência chave no gerenciamento de dados em 2020 foi o conceito da data lake house. Uma data lake house (data lake house) é uma técnica arquitetônica que combina os melhores elementos de modelos de lago de dados e armazenamento de dados.
O conceito da data lake house foi lançado pela Databricks em 2019 com o projeto de código aberto Delta Lake do provedor. Em 2020, o conceito de data lake house estava disponível comercialmente com a tecnologia Delta Engine do provedor com sede em São Francisco, apresentada em junho e ampliada sobre a plataforma unificada de análise de dados da Databricks lançada em novembro.
"Databricks é conhecido há muito tempo por suportar cargas de trabalho de ciência de dados, mas em 2020 mudou-se para o lado da inteligência empresarial e de armazenamento de dados com a sua data lake house", diz Doug Henschen, analista da Constellation Research.
Henschen acrescenta que não se trata de simplesmente satisfazer as necessidades de missão crítica de inteligência empresarial e analítica de escala. Embora a Databricks goste de promover as estatísticas de desempenho de velocidade de consulta, na opinião de Henschen isso é apenas metade da história. Para 2021, ele espera ver como os clientes adotam a tecnologia de Databricks com alta concorrência entre usuários e consultas.
Enquanto o conceito de data lake house tem seu conjunto de adeptos, com Databricks e o projeto lago delta de código aberto, surgiu um esforço rival em 2020 que está programado para ter um ótimo ano em 2021. Esse é o projeto Apache Iceberg de código aberto, desenvolvido originalmente no gigante do streaming, Netflix.
"Iceberg é na verdade uma forma de mesa aberta para grandes conjuntos de dados de análise", diz Daniel Weeks, gerente de engenharia de computação de big data na Netflix, na conferência virtual Subsurface em julho. “É um padrão de comunidade aberta com uma especificação para garantir a compatibilidade entre linguagens e implementações”.
Além da Netflix, Apple e Expedia são os primeiros usuários do Iceberg, que está posicionado para conseguir uma adoção mais abrangente em 2021. Até o momento, o Iceberg tem sido um esforço da comunidade de código aberto, mas isso vai mudar em 2021 à medida que surgem ferramentas apoiadas por empresas. É provável que a primeira plataforma com suporte comercial que integrará Iceberg seja da Dremio, uma fornecedora de motores de data lake com sede em Santa Clara, Califórnia.
A Dremio esteve ocupada em 2020 com a construção de sua plataforma que permite aos usuários consultar data lakes em um sistema otimizado para inteligência e análise empresarial.
A Dremio tem sido uma participante ativa e parceira no projeto de código aberto Iceberg e é a anfitriã da conferência Subsurface. Em 2021, a empresa planeja integrar Iceberg em sua plataforma, o que irá proporcionar uma abordagem alternativa para o enfoque da casa do lago da Databricks.
Resta saber se um método baseado em Iceberg para permitir uma gestão de dados mais fácil em um data lakes será mais rápido ou mais eficiente do que um modelo de data lake house, mas será uma tendência chave para acompanhar em 2021.
Spark vs. Presto
Outra tendência emergente para a gestão de dados em 2021 será no setor de consulta de dados.
O motor de consulta Apache Spark de código aberto teve um lançamento importante em 2020 com sua versão 3.0, que esteve disponível de forma geral em 18 de junho passado. O Spark 3.0 introduziu o recurso Adaptive Query Execution (EQA) para acelerar as consultas de dados.
Desafiando a Spark em 2020 esteve o projeto Presto de código aberto que ganhou o apoio de vários fornecedores comerciais que competiam por tomar a carga de trabalho compartilhada da Spark.
Entre os fornecedores que surgiram em 2020 com a Presto se encontra a Starburst, que arrecadou US$42 milhões em recursos no dia 16 de junho passado. A plataforma principal da empresa é a Starburst Enterprise Presto, que foi atualizada em julho de 2020, com capacidade para suportar consultas de dados em cargas de trabalho Hadoop e lagos de dados na nuvem.
Outro fornecedor que surgiu em 2020 para levar o Presto às empresas é a Ahana, que arrecadou US$ 4,8 milhões em fundo de financiamento em 22 de setembro passado. Junto com o financiamento, a empresa apresentou seu sistema Ahana Cloud for Presto, que oferece um serviço administrado às organizações que usam o Presto.
Acrescentando mais ímpeto ao uso crescente do Presto, no dia 8 de dezembro a plataforma de dados Varada ficou disponível a todos. A plataforma de virtualização de dados Varada incorpora Presto como motor que ajuda a habilitar a consulta de dados em diferentes fontes de dados.
É improvável que o Presto tire o Spark de sua posição como motor de consultas SQL dominante em 2021, mas sem dúvida atrairá novos usuários e provedores à medida que as empresas busquem otimizar as consultas de gerenciamento de dados.
Gestão de dados pessoais em 2021
Embora permitir que as organizações utilizem os dados de uma forma mais eficaz seja uma tendência chave para 2021, a necessidade de melhorar a gestão dos dados pessoais também é.
O analista da Enterprise Strategy Group (ESG), Mike Leone, diz que o mercado para a gestão de dados pessoais é formado por uma coleção de fornecedores, incluindo novos participantes como Dataswift e Inrupt, que se concentram em permitir que os usuários finais controlem seus próprios dados pessoais.
"Acho que, ao longo deste ano, vamos ver os usuários finais exigir mais controle sobre seus próprios dados e ver os órgãos gestores intensificarem sua atuação para abordar as preocupações sobre a privacidade dos dados do usuário final", diz Leone.