Agregace dat je jakýkoli proces, při kterém jsou data shromažďována a vyjadřována v souhrnné podobě. Při agregaci dat jsou atomické datové řádky — obvykle shromážděné z více zdrojů — nahrazeny součty nebo souhrnnými statistikami. Skupiny pozorovaných agregátů jsou nahrazeny souhrnnými statistikami založenými na těchto pozorováních. Agregovaná data se obvykle nacházejí v datovém skladu, protože mohou poskytnout odpovědi na analytické otázky a také výrazně zkrátit dobu dotazování velkých souborů dat.
Agregace dat se často používá k zajištění statistické analýzy pro skupiny lidí a k vytvoření užitečných souhrnných dat pro obchodní analýzy. Agregace se často provádí ve velkém měřítku prostřednictvím softwarových nástrojů známých jako agregátory dat. Agregátory dat obvykle obsahují funkce pro sběr, zpracování a prezentaci agregovaných dat.
Agregace dat může analytikům umožnit přístup k velkému množství dat a jejich zkoumání v přiměřeném časovém rámci. Řádek agregovaných dat může představovat stovky, tisíce nebo i více atomických datových záznamů. Když jsou data agregována, lze se na ně rychle dotazovat, místo aby bylo nutné všechny cykly zpracování věnovat přístupu ke každému podkladovému řádku atomických dat a agregovat je v reálném čase při dotazování nebo přístupu k nim.
Jelikož se množství dat uložených organizacemi stále zvětšuje, lze agregaci využít u nejdůležitějších a nejčastěji přistupovaných dat, což umožňuje efektivní přístup k nim.
Co dělá agregace dat?
Agregátory dat shrnují data z více zdrojů. Poskytují možnosti pro více agregovaných měření, jako je součet, průměr a počítání.
Příklady agregovaných dat zahrnují následující:
- Volební účast podle státu nebo okresu. Nejsou prezentovány záznamy o jednotlivých voličích, ale pouze součty hlasů podle kandidátů v konkrétním regionu.
- Průměrný věk zákazníka podle produktu. Každý jednotlivý zákazník není identifikován, ale pro každý produkt je uložen průměrný věk zákazníka.
- Počet zákazníků podle zemí. Místo zkoumání každého zákazníka je prezentován počet zákazníků v každé zemi.
Agregace dat může také vést k podobnému efektu jako anonymizace dat — jednotlivé datové prvky s osobně identifikovatelnými údaji jsou totiž spojeny a nahrazeny souhrnem reprezentujícím skupinu jako celek. Příkladem může být vytvoření souhrnu, který zobrazuje souhrnný průměrný plat zaměstnanců podle oddělení, namísto procházení jednotlivých záznamů zaměstnanců s údaji o platu.
Agregované údaje nemusí být číselné. Můžete například spočítat počet jakýchkoli nečíselných datových prvků.
Před agregací je důležité, aby byla atomická data analyzována z hlediska přesnosti a aby byl k dispozici dostatek dat, aby byla agregace užitečná. Například počítání hlasů, když je k dispozici pouze 5 % výsledků, pravděpodobně nevytvoří relevantní agregaci pro predikci.
Jak fungují agregátory dat?
Agregátory dat fungují tak, že kombinují atomická data z více zdrojů, zpracovávají data pro získání nových poznatků a prezentují agregovaná data v souhrnném zobrazení. Agregátory dat navíc obvykle poskytují možnost sledovat linii dat a mohou dohledat základní atomická data, která byla agregována.
Sbírka. Za prvé, nástroje pro agregaci dat mohou získávat data z více zdrojů a ukládat je do rozsáhlých databází jako atomická data. Data mohou být extrahována ze zdrojů internetu věcí (IoT), například z následujících zdrojů:
- komunikace na sociálních sítích;
- zpravodajské titulky;
- osobní údaje a historie prohlížení ze zařízení IoT; a
- kall centra, podcasty atd. (prostřednictvím rozpoznávání řeči).
Zpracování. Jakmile jsou data získána, dochází k jejich zpracování. Agregátor dat určí atomická data, která mají být agregována. Agregátor dat může na shromážděná data aplikovat prediktivní analýzu, umělou inteligenci (AI) nebo algoritmy strojového učení pro získání nových poznatků. Agregátor pak k agregaci dat použije určené statistické funkce.
Prezentace. Uživatelé mohou agregovaná data prezentovat v souhrnném formátu, který sám o sobě poskytuje nová data. Statistické výsledky jsou komplexní a kvalitní.
Agregaci dat lze provádět ručně nebo pomocí agregátorů dat. Agregace dat se však často provádí ve velkém měřítku, což činí ruční agregaci méně proveditelnou. Při manuální agregaci navíc hrozí riziko náhodného opomenutí klíčových zdrojů dat a vzorců.
Použití agregace dat
Agregace dat může být užitečná pro mnoho oborů, například pro rozhodování o financích a obchodní strategii, plánování produktů, tvorbu cen produktů a služeb, optimalizaci provozu a tvorbu marketingové strategie. Uživateli mohou být datoví analytici, datoví vědci, správci datových skladů a odborníci na danou problematiku.
Agregovaná data se běžně používají pro statistickou analýzu k získání informací o určitých skupinách na základě specifických demografických proměnných nebo proměnných chování, jako je věk, profese, úroveň vzdělání nebo příjem.