Agregação de dados é qualquer processo pelo qual os dados são coletados e expressos de forma resumida. Quando os dados são agregados, as linhas de dados atômicos — normalmente coletados de múltiplas fontes — são substituídos por totais ou estatísticas resumidas. Grupos de agregados observados são substituídos por estatísticas resumidas com base nessas observações. Os dados agregados são tipicamente encontrados em um data warehouse, pois podem fornecer respostas a perguntas analíticas e também reduzir drasticamente o tempo de consulta a grandes conjuntos de dados.
A agregação de dados é freqüentemente usada para fornecer análise estatística para grupos de pessoas e para criar dados resumidos úteis para análise de negócios. A agregação é frequentemente feita em larga escala, através de ferramentas de software conhecidas como agregadores de dados. Os agregadores de dados normalmente incluem recursos para coleta, processamento e apresentação de dados agregados.
Agregação de dados pode permitir aos analistas acessar e examinar grandes quantidades de dados em um período de tempo razoável. Uma linha de dados agregados pode representar centenas, milhares ou até mais registros de dados atômicos. Quando os dados são agregados, eles podem ser consultados rapidamente em vez de requerer todos os ciclos de processamento para acessar cada linha de dados atômicos subjacentes e agregá-los em tempo real quando são consultados ou acessados.
Como a quantidade de dados armazenados pelas organizações continua a se expandir, os dados mais importantes e freqüentemente acessados podem se beneficiar da agregação, tornando viável o acesso eficiente.
O que a agregação de dados faz?
Agregadores de dados resumem dados de múltiplas fontes. Eles fornecem recursos para múltiplas medidas de agregados, tais como soma, média e contagem.
Exemplos de dados agregados incluem o seguinte:
- Votante por estado ou município. Os registros individuais dos eleitores não são apresentados, apenas os totais de votos por candidato para a região específica.
- Idade média do cliente por produto. Cada cliente individual não é identificado, mas para cada produto, a idade média do cliente é salva.
- Número de clientes por país. Em vez de examinar cada cliente, é apresentada uma contagem dos clientes em cada país.
Agregação de dados também pode resultar em um efeito semelhante à anonimização dos dados — uma vez que elementos de dados individuais com detalhes pessoalmente identificáveis são combinados e substituídos por um resumo representando um grupo como um todo. Um exemplo disso é a criação de um resumo que mostra o salário médio agregado dos empregados por departamento, em vez de navegar pelos registros individuais dos empregados com dados salariais.
Dados agregados não precisam ser numéricos. É possível, por exemplo, contar o número de qualquer elemento de dados não numérico.
Antes de agregar, é crucial que os dados atômicos sejam analisados quanto à precisão e que haja dados suficientes para que a agregação seja útil. Por exemplo, a contagem de votos quando apenas 5% dos resultados estão disponíveis não é capaz de produzir um agregado relevante para a previsão.
Como os agregadores de dados funcionam?
Geradores de dados funcionam combinando dados atômicos de múltiplas fontes, processando os dados para novas percepções e apresentando os dados agregados em uma visão sumária. Além disso, os agregadores de dados geralmente fornecem a capacidade de rastrear a linhagem de dados e podem rastrear de volta aos dados atômicos subjacentes que foram agregados.
Collection. Primeiro, as ferramentas de agregação de dados podem extrair dados de múltiplas fontes, armazenando-os em grandes bancos de dados como dados atômicos. Os dados podem ser extraídos de fontes da Internet de coisas (IoT), como as seguintes:
- comunicações de mídia social;
- manchetes de notícias;
- dados pessoais e histórico de navegação de dispositivos IoT; e
- centros de chamadas, podcasts, etc. (através do reconhecimento da fala).
Processamento. Uma vez que os dados são extraídos, eles são processados. O agregador de dados identificará os dados atômicos que devem ser agregados. O agregador de dados pode aplicar análise preditiva, inteligência artificial (IA) ou algoritmos de aprendizagem de máquina aos dados coletados para novos insights. O agregador então aplica as funções estatísticas especificadas para agregar os dados.
Apresentação. Os usuários podem apresentar os dados agregados em um formato resumido que por si só fornece novos dados. Os resultados estatísticos são abrangentes e de alta qualidade.
Agregação de dados pode ser feita manualmente ou por meio do uso de agregadores de dados. No entanto, a agregação de dados é freqüentemente realizada em larga escala, o que torna a agregação manual menos viável. Além disso, a agregação manual arrisca a omissão acidental de fontes e padrões de dados cruciais.
Usos para agregação de dados
Agregação de dados pode ser útil para muitas disciplinas, tais como decisões financeiras e estratégicas de negócios, planejamento de produtos, precificação de produtos e serviços, otimização de operações e criação de estratégias de marketing. Os usuários podem ser analistas de dados, cientistas de dados, administradores de data warehouse e especialistas no assunto.
Dados agregados são comumente usados para análise estatística para obter informações sobre grupos específicos com base em variáveis demográficas ou comportamentais específicas, tais como idade, profissão, nível de educação ou renda.