L’aggregazione dei dati è qualsiasi processo per cui i dati vengono raccolti ed espressi in una forma riassuntiva. Quando i dati vengono aggregati, le righe di dati atomici – tipicamente raccolte da più fonti – sono sostituite da totali o statistiche riassuntive. Gruppi di aggregati osservati vengono sostituiti con statistiche riassuntive basate su quelle osservazioni. I dati aggregati si trovano tipicamente in un data warehouse, in quanto possono fornire risposte a domande analitiche e anche ridurre drasticamente il tempo per interrogare grandi insiemi di dati.
L’aggregazione dei dati è spesso usata per fornire analisi statistiche per gruppi di persone e per creare dati riassuntivi utili per l’analisi aziendale. L’aggregazione è spesso fatta su larga scala, attraverso strumenti software conosciuti come aggregatori di dati. Gli aggregatori di dati includono tipicamente funzioni per la raccolta, l’elaborazione e la presentazione di dati aggregati.
L’aggregazione dei dati può permettere agli analisti di accedere ed esaminare grandi quantità di dati in un periodo di tempo ragionevole. Una riga di dati aggregati può rappresentare centinaia, migliaia o anche più record di dati atomici. Quando i dati sono aggregati, possono essere interrogati rapidamente invece di richiedere tutti i cicli di elaborazione per accedere ad ogni riga di dati atomici sottostante e aggregarli in tempo reale quando vengono interrogati o consultati.
Come la quantità di dati memorizzati dalle organizzazioni continua ad espandersi, i dati più importanti e frequentemente accessibili possono beneficiare dell’aggregazione, rendendone possibile l’accesso in modo efficiente.
Cosa fa l’aggregazione dei dati?
Gli aggregatori di dati riassumono i dati da più fonti. Forniscono capacità per misure aggregate multiple, come somma, media e conteggio.
Esempi di dati aggregati includono i seguenti:
- L’affluenza alle urne per stato o contea. Le registrazioni dei singoli elettori non sono presentate, solo i totali dei voti per candidato per la regione specifica.
- Età media dei clienti per prodotto. Ogni singolo cliente non viene identificato, ma per ogni prodotto viene salvata l’età media del cliente.
- Numero di clienti per paese. Invece di esaminare ogni cliente, viene presentato un conteggio dei clienti in ogni paese.
L’aggregazione dei dati può anche risultare in un effetto simile all’anonimizzazione dei dati — in quanto i singoli elementi di dati con dettagli di identificazione personale vengono combinati e sostituiti con un sommario che rappresenta un gruppo nel suo complesso. Un esempio di questo è la creazione di un riepilogo che mostra lo stipendio medio aggregato dei dipendenti per reparto, piuttosto che sfogliare i record dei singoli dipendenti con i dati sullo stipendio.
I dati aggregati non devono necessariamente essere numerici. Si può, per esempio, contare il numero di qualsiasi elemento di dati non numerico.
Prima di aggregare, è cruciale che i dati atomici siano analizzati per la precisione e che ci siano abbastanza dati perché l’aggregazione sia utile. Per esempio, contare i voti quando è disponibile solo il 5% dei risultati non è probabile che produca un aggregato rilevante per la predizione.
Come funzionano gli aggregatori di dati?
Gli aggregatori di dati funzionano combinando dati atomici da più fonti, elaborando i dati per ottenere nuove intuizioni e presentando i dati aggregati in una vista riassuntiva. Inoltre, gli aggregatori di dati di solito forniscono la possibilità di tracciare la discendenza dei dati e possono risalire ai dati atomici sottostanti che sono stati aggregati.
Raccolta. In primo luogo, gli strumenti di aggregazione dei dati possono estrarre i dati da più fonti, memorizzandoli in grandi database come dati atomici. I dati possono essere estratti da fonti dell’internet delle cose (IoT), come i seguenti:
- comunicazioni dei social media;
- testi di notizie;
- dati personali e cronologia di navigazione dai dispositivi IoT; e
- call center, podcast, ecc. (attraverso il riconoscimento vocale).
L’elaborazione. Una volta che i dati sono stati estratti, vengono elaborati. L’aggregatore di dati identificherà i dati atomici che devono essere aggregati. L’aggregatore di dati può applicare l’analitica predittiva, l’intelligenza artificiale (AI) o gli algoritmi di apprendimento automatico ai dati raccolti per ottenere nuove conoscenze. L’aggregatore applica poi le funzioni statistiche specificate per aggregare i dati.
Presentazione. Gli utenti possono presentare i dati aggregati in un formato riassuntivo che di per sé fornisce nuovi dati. I risultati statistici sono completi e di alta qualità.
L’aggregazione dei dati può essere eseguita manualmente o attraverso l’uso di aggregatori di dati. Tuttavia, l’aggregazione dei dati viene spesso eseguita su larga scala, il che rende l’aggregazione manuale meno fattibile. Inoltre, l’aggregazione manuale rischia di omettere accidentalmente fonti di dati e modelli cruciali.
Usi dell’aggregazione dei dati
L’aggregazione dei dati può essere utile per molte discipline, come la finanza e le decisioni di strategia aziendale, la pianificazione dei prodotti, il pricing dei prodotti e dei servizi, l’ottimizzazione delle operazioni e la creazione di strategie di marketing. Gli utenti possono essere analisti di dati, scienziati di dati, amministratori di data warehouse ed esperti in materia.
I dati aggregati sono comunemente usati per analisi statistiche per ottenere informazioni su gruppi particolari basati su specifiche variabili demografiche o comportamentali, come l’età, la professione, il livello di istruzione o il reddito.