Agregacja danych to proces, w którym dane są zbierane i wyrażane w formie podsumowania. Kiedy dane są agregowane, atomowe wiersze danych — zazwyczaj zebrane z wielu źródeł — są zastępowane sumami lub statystykami podsumowującymi. Grupy zaobserwowanych agregatów są zastępowane statystykami zbiorczymi opartymi na tych obserwacjach. Dane zagregowane znajdują się zazwyczaj w hurtowni danych, ponieważ mogą dostarczyć odpowiedzi na pytania analityczne, a także radykalnie skrócić czas wykonywania zapytań do dużych zbiorów danych.
Gregacja danych jest często wykorzystywana do przeprowadzania analiz statystycznych dla grup ludzi oraz do tworzenia użytecznych danych zbiorczych na potrzeby analiz biznesowych. Agregacja jest często wykonywana na dużą skalę, poprzez narzędzia programowe znane jako agregatory danych. Agregatory danych zazwyczaj zawierają funkcje do zbierania, przetwarzania i prezentowania danych zagregowanych.
Gregacja danych może umożliwić analitykom dostęp i badanie dużych ilości danych w rozsądnych ramach czasowych. Jeden wiersz danych zagregowanych może reprezentować setki, tysiące lub nawet więcej rekordów danych atomowych. Gdy dane są zagregowane, mogą być szybko odpytywane, zamiast wymagać wszystkich cykli przetwarzania, aby uzyskać dostęp do każdego wiersza danych atomowych i agregować je w czasie rzeczywistym, gdy są odpytywane lub dostępne.
Ponieważ ilość danych przechowywanych przez organizacje stale się zwiększa, najważniejsze i często dostępne dane mogą korzystać z agregacji, czyniąc je realnymi do efektywnego dostępu.
Czym zajmuje się agregacja danych?
Agregatory danych podsumowują dane z wielu źródeł. Dostarczają one możliwości dla wielu pomiarów zbiorczych, takich jak suma, średnia i liczenie.
Przykłady danych zbiorczych obejmują następujące dane:
- Wyniki głosowania według stanu lub hrabstwa. Indywidualne rekordy wyborców nie są prezentowane, tylko sumy głosów według kandydatów dla danego regionu.
- Średni wiek klienta według produktu. Każdy indywidualny klient nie jest identyfikowany, ale dla każdego produktu, średni wiek klienta jest zapisywany.
- Liczba klientów według kraju. Zamiast analizować każdego klienta, prezentowana jest liczba klientów w każdym kraju.
Gregacja danych może również przynieść efekt podobny do anonimizacji danych – poszczególne elementy danych zawierające dane umożliwiające identyfikację osób są łączone i zastępowane podsumowaniem reprezentującym grupę jako całość. Przykładem tego jest utworzenie podsumowania, które pokazuje zagregowaną średnią pensję dla pracowników według działów, zamiast przeglądania poszczególnych rekordów pracowników z danymi o pensji.
Dane zagregowane nie muszą być liczbowe. Można na przykład zliczyć liczbę dowolnych nienumerycznych elementów danych.
Przed agregacją ważne jest, aby dane atomowe zostały przeanalizowane pod kątem dokładności i aby istniała wystarczająca ilość danych, aby agregacja była użyteczna. Na przykład, zliczanie głosów, gdy dostępnych jest tylko 5% wyników, prawdopodobnie nie pozwoli na uzyskanie odpowiedniego agregatu do predykcji.
Jak działają agregatory danych?
Agregatory danych działają poprzez łączenie danych atomowych z wielu źródeł, przetwarzanie danych w celu uzyskania nowego wglądu i prezentowanie zagregowanych danych w widoku zbiorczym. Ponadto, agregatory danych zazwyczaj zapewniają możliwość śledzenia pochodzenia danych i mogą śledzić wstecz do podstawowych danych atomowych, które zostały zagregowane.
Zbieranie. Po pierwsze, narzędzia do agregacji danych mogą pobierać dane z wielu źródeł, przechowując je w dużych bazach danych jako dane atomowe. Dane mogą być wydobywane ze źródeł Internetu rzeczy (IoT), takich jak następujące:
- komunikaty w mediach społecznościowych;
- główki gazet;
- dane osobowe i historia przeglądania z urządzeń IoT; i
- centra telefoniczne, podcasty itp. (poprzez rozpoznawanie mowy).
Przetwarzanie. Po wyodrębnieniu danych następuje ich przetwarzanie. Agregator danych zidentyfikuje dane atomowe, które mają być agregowane. Agregator danych może zastosować analitykę predykcyjną, sztuczną inteligencję (AI) lub algorytmy uczenia maszynowego do zebranych danych w celu uzyskania nowych spostrzeżeń. Następnie agregator stosuje określone funkcje statystyczne w celu zagregowania danych.
Prezentacja. Użytkownicy mogą zaprezentować zagregowane dane w podsumowującym formacie, który sam w sobie dostarcza nowych danych. Wyniki statystyczne są kompleksowe i wysokiej jakości.
Gregacja danych może być wykonywana ręcznie lub przy użyciu agregatorów danych. Agregacja danych jest jednak często wykonywana na dużą skalę, co sprawia, że agregacja ręczna jest mniej wykonalna. Ponadto, ręczna agregacja danych wiąże się z ryzykiem przypadkowego pominięcia kluczowych źródeł danych i wzorców.
Usługi agregacji danych
Gregacja danych może być pomocna w wielu dziedzinach, takich jak finanse i decyzje dotyczące strategii biznesowej, planowanie produktu, wycena produktów i usług, optymalizacja operacji i tworzenie strategii marketingowej. Użytkownikami mogą być analitycy danych, naukowcy, administratorzy hurtowni danych oraz eksperci merytoryczni.
Dane zagregowane są powszechnie wykorzystywane do analiz statystycznych w celu uzyskania informacji o poszczególnych grupach na podstawie określonych zmiennych demograficznych lub behawioralnych, takich jak wiek, zawód, poziom wykształcenia czy dochody.