Definition

Big data ou grandes volumes de dados

Big data é um termo que descreve qualquer quantidade volumosa de dados estruturados, semiestruturados e não estruturados que têm o potencial de ser extraídos para obter informação. 

Normalmente, o big data é caracterizado por três “Vs”: Volume extremo de dados, grande Variedade de tipos e a Velocidade com a qual devem ser processados. Embora o big data não seja equivalente a um volume específico, o termo é utilizado com frequência para descrever terabytes, petabytes e, inclusive, exabytes de dados capturados com o tempo. 

Os três “Vs” em detalhes 

Volume: o volume pode vir de fontes diferentes, como registros de vendas comerciais, resultados recolhidos de experiências científicas ou sensores utilizados por meio de Internet das Coisas (IoT) em tempo real. Os dados podem estar em estado bruto ou pré-processados ​com o uso de ferramentas de software independentes, antes que se apliquem as análises. 

Variedade: pode vir dos mais variados tipos de arquivo, incluindo dados estruturados, como armazenamento de banco de dados SQL; não estruturados, como arquivos de documentos; ou transmissão de dados a partir de sensores. Além disso, o big data pode incluir múltiplas fontes simultâneas, que de outra forma não poderiam ser integradas. Um projeto de análise de dados, por exemplo, pode tentar medir o sucesso de um produto e as vendas futuras por meio da interpretação de informações de vendas passadas, de devoluções ou das impressões dos compradores. 

Velocidade: refere-se ao tempo utilizado para que grandes volumes de dados sejam analisados. Cada projeto vai extrair, correlacionar e analisar as fontes de dados e depois dar uma resposta ou resultado baseado em uma consulta geral. Isso significa que os analistas humanos devem ter uma compreensão detalhada dos dados disponíveis e uma ideia de qual resposta estão procurando. A velocidade também é significativa, já que a análise de dados se expande em campos como a aprendizagem automática de máquina e a inteligência artificial, nos quais os processos analíticos imitam a percepção mediante a busca e o uso de padrões nos dados coletados. 

Big data nas demandas de infraestrutura  

A necessidade de grande velocidade impõe demandas únicas na infraestrutura subjacente. A potência de cálculo necessária para processar rapidamente grandes volumes e variedades de dados pode sobrecarregar um único servidor ou um cluster de servidores. As organizações devem aplicar o poder de cálculo adequado às tarefas de big data para conseguir a velocidade desejada. Isso pode demandar centenas ou milhares de servidores que distribuem o trabalho e operam de forma colaborativa. 

Alcançar essa velocidade de uma maneira rentável pode ser uma dor de cabeça. Muitos líderes empresariais são reticentes quanto a investir em um servidor potente e em uma infraestrutura de armazenamento que pode ser utilizada apenas ocasionalmente, para as tarefas de big data. Como resultado, a computação em nuvem pública surgiu como um veículo primário para contemplar grandes projetos de análises de dados. Um provedor de nuvem pública pode armazenar petabytes de dados e escalar milhares de servidores tempo suficiente para realizar um projeto de big data. E só se paga pelo tempo de armazenamento e cálculo realmente utilizados, ao mesmo tempo em que as instâncias de nuvem podem ser desativadas até que sejam necessárias novamente.  

Para melhorar ainda mais os níveis de serviço, alguns provedores de nuvem pública oferecem grandes capacidades de dados, como instâncias de computação altamente distribuídas do Hadoop, armazenamento de dados, bases de dados e outros serviços relacionados à nuvem. O Amazon Web Services Elastic MapReduce (Amazon EMR) é um exemplo de serviços de big data em uma nuvem pública. 

O lado humano da análise de big data 

Em último caso, o valor e a eficácia do big data depende dos operadores humanos encarregados de compreender as informações e elaborar as consultas adequadas para conduzir projetos do tipo. Algumas ferramentas de dados se encontram em nichos especializados e permitem, aos usuários menos técnicos, fazer várias previsões a partir de informações de negócios rotineiros. No entanto, outras ferramentas estão surgindo, como os dispositivos Hadoop, para ajudar as empresas a implantarem uma infraestrutura de computação adequada para abordar grandes projetos de dados, minimizando a necessidade de hardware e conhecimentos de software de computação distribuída. 

Mas essas ferramentas só abordam casos de uso limitados. Muitas outras tarefas relacionadas a dados, como a determinação da efetividade de um novo fármaco, podem requerer uma grande experiência científica e computacional do pessoal analítico. Atualmente, há uma escassez de cientistas de dados e outros analistas que tenham experiência de trabalhar com big data em um ambiente de código aberto distribuído. 

O big data é o oposto do small data, outro termo que se utiliza com frequência para descrever dados cujo volume e formato podem ser facilmente analisados. Uma premissa normalmente usada é que "o big data é para as máquinas, enquanto o small data é para os seres humanos”. 

Este conteúdo foi atualizado pela última vez em Julho 2021

Saiba mais sobre Big data e gerenciamento de informações