Data warehouse
Um data warehouse é um depósito de dados gerados e coletados por vários sistemas operacionais corporativos. O armazenamento de dados costuma fazer parte de uma estratégia mais ampla de gerenciamento de dados e enfatiza a captura de dados de diferentes fontes para acesso e análise por analistas de negócios, cientistas de dados e outros usuários finais.
Normalmente, um data warehouse é um banco de dados relacional alojado em um mainframe, outro tipo de servidor corporativo ou, cada vez mais, na nuvem. Dados de vários aplicativos de processamento de transações online (OLTP) e outras fontes são extraídos e consolidados seletivamente para atividades de inteligência de negócios (BI) que incluem suporte a decisões, relatórios corporativos e consultas ad hoc por usuários. Os data warehouses também oferecem suporte a tecnologias de processamento analítico online (OLAP), que organizam as informações em cubos de dados que são categorizados por diferentes dimensões para ajudar a acelerar o processo de análise.
Componentes básicos de um data warehouse
Um data warehouse armazena dados que são extraídos de armazenamentos de dados internos e, em muitos casos, de fontes de dados externas. Os registros de dados dentro do warehouse devem conter detalhes para torná-los buscáveis e úteis para usuários de negócios. Considerando estes elementos, existem três componentes principais de armazenamento de dados:
- Uma camada de integração de dados que extrai dados de sistemas operacionais, como Excel, ERP, CRM ou aplicativos financeiros.
- Uma área de preparação de dados onde os dados são limpos e organizados.
- Uma área de apresentação onde os dados são armazenados e disponibilizados para uso.
Uma arquitetura de data warehouse também pode ser entendida como um conjunto de camadas, em que a camada inferior é o servidor de banco de dados, a camada intermediária é o mecanismo de análise e a camada superior é o software de data warehouse que entrega informações para relatórios e análises.
Ferramentas de análise de dados, como software de BI, permitem que usuários acessem dados dentro do warehouse. Um data warehouse empresarial armazena dados analíticos para todas as operações de negócios de uma organização; como alternativa, unidades de negócios individuais podem ter seus próprios data warehouses, especialmente em grandes empresas. Os data warehouses também podem alimentar os data marts, que são sistemas menores e descentralizados nos quais subconjuntos de dados de um warehouse são organizados e disponibilizados para grupos específicos de usuários corporativos, como equipes de vendas ou de gerenciamento de estoque.
Além disso, o Hadoop se tornou uma extensão importante de data warehouses para muitas empresas. Isso porque a plataforma de processamento de dados distribuída pode melhorar os componentes de uma arquitetura de data warehouse –da ingestão de dados ao processamento analítico e arquivamento de dados. Em alguns casos, clusters do Hadoop servem como área de preparação para data warehouses tradicionais. Em outros, os sistemas que incorporam Hadoop e outras tecnologias de big data são implantados como data warehouses completos.
Benefícios e opções do data warehouse
Os data warehouses podem beneficiar organizações tanto da perspectiva de TI quanto de negócios, conforme ilustrado nos seguintes exemplos:
- Separar os processos analíticos dos operacionais pode aprimorar o desempenho dos sistemas operacionais e permitir que analistas de dados e usuários de negócios acessem e consultem dados relevantes mais rapidamente de várias fontes.
- Data warehouses podem oferecer qualidade e consistência de dados aprimoradas para usos analíticos, melhorando assim a precisão dos aplicativos de BI.
- Empresas podem escolher sistemas locais, implantações convencionais de nuvem ou ofertas de data warehouse como serviço (DWaaS).
- Os data warehouses locais oferecem flexibilidade e segurança para que as equipes de TI possam manter o controle sobre o gerenciamento e a configuração do data warehouse; eles estão disponíveis na IBM, Oracle e Teradata, por
- Data warehouses baseados em nuvem, como Amazon RedShift, Google BigQuery, Microsoft Azure SQL Data Warehouse e Snowflake, permitem às empresas dimensionar rapidamente seus sistemas, eliminando os investimentos iniciais em infraestrutura e os requisitos de manutenção contínua do sistema.
- DWaaS, um desdobramento do banco de dados como serviço, fornece um serviço de nuvem gerenciado que libera as organizações da necessidade de implantar, configurar e administrar seus data warehouses. Esses serviços estão sendo oferecidos por um número crescente de fornecedores de nuvem.
Tipos de data warehouses
Existem três abordagens principais para implementar um data warehouse, que são detalhadas a seguir. Algumas organizações também adotaram data warehouses federados que integram sistemas analíticos separados já implementados independentemente uns dos outros - uma abordagem que os defensores da abordagem descrevem como uma forma prática de aproveitar as vantagens das implantações existentes.
- Abordagem descendente: criado pelo pioneiro do data warehouse William H. Inmon, esse método exige a construção do data warehouse empresarial em primeiro lugar. Os dados são extraídos de sistemas operacionais e possivelmente de fontes externas de terceiros e podem ser validados em uma área de teste antes de serem integrados em um modelo de dados normalizado. Os data marts são então criados a partir dos dados armazenados no data warehouse.
- Método ascendente: o consultor Ralph Kimball desenvolveu uma arquitetura de armazenamento de dados alternativa que exige que data marts dimensionais sejam criados primeiro. Os dados são extraídos dos sistemas operacionais, movidos para uma área de teste e modelados em um projeto de esquema em estrela, com uma ou mais tabelas de fatos conectadas a uma ou mais tabelas dimensionais. Os dados são então processados e carregados em data marts, cada um focando em um processo de negócios específico. Os data marts são integrados usando uma arquitetura de barramento de data warehouse para formar um data warehouse corporativo.
- Método híbrido: as abordagens híbridas para o design do data warehouse incluem aspectos dos métodos top-down e bottom-up. As organizações geralmente procuram combinar a velocidade da abordagem ascendente com os recursos de integração de dados alcançados em um projeto descendente.
Armazéns de dados x bancos de dados x lagos de dados
Bancos de dados e data lakes são freqüentemente confundidos com data warehouses, mas existem diferenças importantes entre eles. Enquanto os data warehouses normalmente armazenam dados de várias fontes e utilizam esquemas predefinidos projetados para análise de dados, um banco de dados operacional é geralmente usado para capturar, processar e armazenar dados de uma única fonte, como um sistema transacional, e seu esquema é normalizado. Esses bancos de dados geralmente não são projetados para rodar em conjuntos de dados muito grandes, como os armazéns de dados.
Por outro lado, um data lake é um repositório central para todos os tipos de dados brutos, estruturados ou não, de várias fontes. Os data lakes são mais comumente construídos no Hadoop ou em outras plataformas de big data. Um esquema não precisa ser definido antecipadamente neles, o que permite mais tipos de análises do que data warehouses, que possuem esquemas definidos. Por exemplo, os data lakes podem ser usados para pesquisas de texto, aprendizado de máquina e análises em tempo real.
Inovações de data warehouse ao longo da história
O conceito de data warehouse pode ser rastreado até o trabalho realizado em meados da década de 1980 pelos pesquisadores da IBM, Barry Devlin e Paul Murphy. A dupla cunhou o termo business data warehouse em seu artigo de 1988, "Uma arquitetura para um sistema de negócios e informações", que afirmava:
"A arquitetura [do sistema de informações de negócios] é baseada na suposição de que tal serviço é executado em um repositório de todas as informações de negócios necessárias, conhecido como Business Data Warehouse (BDW). Um pré-requisito necessário para a implementação física de um serviço de data warehouse de negócios é um processo de negócios e arquitetura de informações que define (1) o fluxo de relatórios entre as funções e (2) os dados necessários."
Bill Inmon, como é mais conhecido, promoveu o desenvolvimento do data warehouse em seu livro de 1992, Building the Data Warehouse, e também escreveu algumas das primeiras colunas sobre o assunto. O método de design de descendente de Inmon para construir um data warehouse descreve a tecnologia como uma coleção de dados orientada ao assunto, integrada, variável no tempo e não-volátil que dá suporte ao processo de tomada de decisão de uma organização.
O crescimento da tecnologia continuou com a fundação do The Data Warehousing Institute, agora conhecido como TDWI, em 1995, e com a publicação de 1996 do livro de Ralph Kimball, The Data Warehouse Toolkit, que introduziu sua abordagem de modelagem dimensional ao projeto de data warehouse.
Em 2008, Inmon introduziu o conceito de data warehouse 2.0, que é focado na inclusão de dados não estruturados e metadados corporativos.