Definition

Data lake

Um data lake é um depósito que armazena uma grande quantidade de dados em estado bruto, no seu formato nativo, até que sejam necessários. 

Enquanto um data warehouse hierárquico armazena os dados em arquivos ou pastas, um data lake usa uma arquitetura plana para guardá-los. Nesta última configuração, cada elemento armazenado recebe um identificador único e marcado com um conjunto de etiquetas de metadados estendidos. Quando surge uma questão relacionada a negócios, o data lake pode ser consultado em busca de informações relevantes. Ou seja, esse pequeno conjunto de dados pode ser analisado para ajudar a responder à questão. 

O termo data lake está, geralmente, associado ao armazenamento de objetos orientados para Hadoop. Nesse cenário, os dados de uma organização são primeiro carregados na plataforma Hadoop e, em seguida, submetidos às ferramentas de análise de negócios e de data mining (mineração).  

Assim como acontece com o big data, o termo data lake, às ​​vezes, é menosprezado como uma simples ferramenta de marketing de um produto compatível com Hadoop. No entanto, cada vez mais, o termo está sendo aceito como uma forma de descrever qualquer grande grupo de dados no qual os requisitos de estruturação e as informações não estão definidos até que sejam consultados. 

Este conteúdo foi atualizado pela última vez em Julho 2021

Saiba mais sobre Big data e gerenciamento de informações