Az adatok összesítése minden olyan folyamat, amelynek során adatokat gyűjtenek és összefoglaló formában fejeznek ki. Az adatok összesítése során az atomi adatsorokat — jellemzően több forrásból gyűjtött — összegekkel vagy összefoglaló statisztikákkal helyettesítik. A megfigyelt aggregátumok csoportjait az ezeken a megfigyeléseken alapuló összefoglaló statisztikákkal helyettesítik. Az összesített adatok jellemzően egy adattárházban találhatók, mivel válaszokat adhatnak elemzési kérdésekre, és drámaian csökkenthetik a nagy adathalmazok lekérdezésének idejét is.
Az adatok összesítését gyakran használják arra, hogy statisztikai elemzést nyújtsanak embercsoportok számára, és hasznos összefoglaló adatokat hozzanak létre üzleti elemzéshez. Az aggregálás gyakran nagy léptékben, adataggregátorok néven ismert szoftvereszközök segítségével történik. Az adataggregátorok jellemzően tartalmaznak funkciókat az összesített adatok gyűjtésére, feldolgozására és bemutatására.
Az adataggregáció lehetővé teszi az elemzők számára, hogy nagy mennyiségű adathoz férjenek hozzá és vizsgáljanak meg ésszerű időkeretben. Egy sor összesített adat több száz, ezer vagy akár több atomos adatrekordot is jelenthet. Ha az adatok aggregálva vannak, akkor gyorsan lekérdezhetők, ahelyett, hogy minden egyes mögöttes atomi adatsorhoz való hozzáférés és az aggregálás valós időben történő lekérdezés vagy hozzáférés során az összes feldolgozási ciklusra szükség lenne.
Amint a szervezetek által tárolt adatok mennyisége egyre növekszik, a legfontosabb és leggyakrabban használt adatok számára előnyös lehet az aggregálás, ami lehetővé teszi a hatékony hozzáférést.
Mire jó az adataggregálás?
Az adataggregátorok több forrásból származó adatokat foglalnak össze. Lehetőséget biztosítanak többféle aggregált mérésre, például összegzésre, átlagolásra és számolásra.
Az aggregált adatokra a következő példák tartoznak:
- Választói részvétel állam vagy megye szerint. Az egyéni választói rekordok nem kerülnek bemutatásra, csak a szavazatok összesítése jelöltek szerint az adott régióra vonatkozóan.
- A vásárlók átlagos életkora termékenként. Minden egyes vásárlót nem azonosítunk, de minden termékre vonatkozóan elmentjük a vásárlók átlagos életkorát.
- Vásárlók száma országonként. Az egyes ügyfelek vizsgálata helyett az egyes országokban lévő ügyfelek száma kerül bemutatásra.
Az adatok összesítése az adatok anonimizálásához hasonló hatást is eredményezhet — mivel a személyazonosításra alkalmas adatokat tartalmazó egyes adatelemeket egyesítik, és egy csoport egészét reprezentáló összegzéssel helyettesítik. Erre példa egy olyan összefoglaló létrehozása, amely az alkalmazottak részlegenkénti összesített átlagbérét mutatja, ahelyett, hogy a béradatokat tartalmazó egyéni munkavállalói rekordokat böngészné.
Az összesített adatoknak nem kell numerikusnak lenniük. Megszámolhatja például bármely nem numerikus adatelem számát.
Az összesítés előtt alapvető fontosságú, hogy az atomi adatokat elemezzük a pontosság szempontjából, és hogy elegendő adat álljon rendelkezésre ahhoz, hogy az összesítés hasznos legyen. Például a szavazatok számlálása, ha az eredményeknek csak 5%-a áll rendelkezésre, valószínűleg nem fog releváns aggregátumot eredményezni az előrejelzéshez.
Hogyan működnek az adataggregátorok?
Az adataggregátorok úgy működnek, hogy több forrásból származó atomi adatokat kombinálnak, az adatokat új meglátások érdekében feldolgozzák, és az aggregált adatokat összefoglaló nézetben mutatják be. Továbbá az adataggregátorok általában lehetővé teszik az adatok származásának nyomon követését, és vissza tudnak vezetni az aggregált adatok alapjául szolgáló atomi adatokig.
Collection. Először is, az adataggregáló eszközök több forrásból is nyerhetnek adatokat, amelyeket nagy adatbázisokban tárolnak atomi adatként. Az adatok kinyerhetők a dolgok internetének (IoT) forrásaiból, például a következőkből:
- szociális médiakommunikáció;
- hírek címlapjai;
- személyes adatok és böngészési előzmények IoT-eszközökből; és
- hívásközpontok, podcastok stb. (beszédfelismerésen keresztül).
Feldolgozás. Miután az adatok kinyerésre kerültek, feldolgozásra kerülnek. Az adataggregátor azonosítja az aggregálandó atomi adatokat. Az adataggregátor az összegyűjtött adatokra prediktív analitikát, mesterséges intelligenciát (AI) vagy gépi tanulási algoritmusokat alkalmazhat az új meglátások érdekében. Az aggregátor ezután a meghatározott statisztikai függvényeket alkalmazza az adatok aggregálásához.
Prezentáció. A felhasználók az összesített adatokat összefoglaló formában is bemutathatják, amely önmagában is új adatokat szolgáltat. A statisztikai eredmények átfogóak és kiváló minőségűek.
Az adatok összesítése történhet manuálisan vagy adataggregátorok segítségével. Az adataggregációt azonban gyakran nagy léptékben végzik, ami a kézi aggregációt kevésbé kivitelezhetővé teszi. Ráadásul a kézi aggregálás a döntő fontosságú adatforrások és minták véletlen kihagyásának kockázatával jár.
Az adataggregálás felhasználási területei
Az adataggregálás számos szakterület számára hasznos lehet, például a pénzügyi és üzleti stratégiai döntések, a terméktervezés, a termékek és szolgáltatások árazása, a műveletek optimalizálása és a marketingstratégia kialakítása során. A felhasználók lehetnek adatelemzők, adattudósok, adattárház-adminisztrátorok és szakterületi szakértők.
Az összesített adatokat általában statisztikai elemzésekhez használják, hogy bizonyos demográfiai vagy viselkedési változók, például életkor, foglalkozás, iskolai végzettség vagy jövedelem alapján információkat kapjanak bizonyos csoportokról.