Agregarea de date este orice proces prin care datele sunt adunate și exprimate într-o formă rezumativă. Atunci când datele sunt agregate, rândurile de date atomice – de obicei adunate din mai multe surse – sunt înlocuite cu totaluri sau statistici sumare. Grupurile de agregate observate sunt înlocuite cu statistici sumare bazate pe acele observații. Datele agregate se regăsesc de obicei într-un depozit de date, deoarece pot oferi răspunsuri la întrebări analitice și, de asemenea, pot reduce dramatic timpul de interogare a unor seturi mari de date.
Agregarea datelor este adesea utilizată pentru a oferi analize statistice pentru grupuri de persoane și pentru a crea date de sinteză utile pentru analiza afacerilor. Agregarea se face adesea pe scară largă, prin intermediul unor instrumente software cunoscute sub numele de agregatoare de date. Agregatoarele de date includ, de obicei, caracteristici pentru colectarea, prelucrarea și prezentarea datelor agregate.
Agregarea datelor poate permite analiștilor să acceseze și să examineze cantități mari de date într-un interval de timp rezonabil. Un rând de date agregate poate reprezenta sute, mii sau chiar mai multe înregistrări de date atomice. Atunci când datele sunt agregate, acestea pot fi interogate rapid, în loc să fie nevoie de toate ciclurile de procesare pentru a accesa fiecare rând de date atomice subiacente și pentru a le agrega în timp real atunci când sunt interogate sau accesate.
Pe măsură ce cantitatea de date stocate de organizații continuă să se extindă, datele cele mai importante și cele mai frecvent accesate pot beneficia de agregare, făcând posibilă accesarea eficientă a acestora.
Ce face agregarea datelor?
Agregatorii de date rezumă datele din mai multe surse. Ei oferă capacități pentru mai multe măsurători agregate, cum ar fi suma, media și numărarea.
Exemple de date agregate includ următoarele:
- Participarea la vot în funcție de stat sau județ. Nu sunt prezentate înregistrările individuale ale alegătorilor, ci doar totalurile voturilor pe candidat pentru regiunea specifică.
- Vârsta medie a clientului în funcție de produs. Fiecare client individual nu este identificat, dar pentru fiecare produs este salvată vârsta medie a clientului.
- Numărul de clienți în funcție de țară. În loc să se examineze fiecare client, se prezintă o numărătoare a clienților din fiecare țară.
Agregarea datelor poate avea, de asemenea, un efect similar cu anonimizarea datelor – deoarece elementele de date individuale cu detalii care permit identificarea personală sunt combinate și înlocuite cu un rezumat care reprezintă un grup în ansamblu. Un exemplu în acest sens este crearea unui rezumat care arată salariul mediu agregat pentru angajați în funcție de departament, mai degrabă decât parcurgerea înregistrărilor individuale ale angajaților cu date salariale.
Datele agregate nu trebuie să fie neapărat numerice. Puteți, de exemplu, să numărați numărul oricărui element de date care nu este numeric.
Înainte de agregare, este crucial ca datele atomice să fie analizate pentru acuratețe și să existe suficiente date pentru ca agregarea să fie utilă. De exemplu, numărarea voturilor atunci când sunt disponibile doar 5% din rezultate nu este probabil să producă un agregat relevant pentru predicție.
Cum funcționează agregatoarele de date?
Agregatoarele de date funcționează prin combinarea datelor atomice din mai multe surse, procesarea datelor pentru noi perspective și prezentarea datelor agregate într-o vizualizare sumară. În plus, agregatorii de date oferă, de obicei, capacitatea de a urmări traseul datelor și pot urmări datele atomice care stau la baza datelor agregate.
Colecție. În primul rând, instrumentele de agregare a datelor pot extrage date din mai multe surse, stocându-le în baze de date mari ca date atomice. Datele pot fi extrase din surse de pe internetul lucrurilor (IoT), cum ar fi următoarele:
- comunicări pe rețelele sociale;
- titluri de știri;
- date personale și istoric de navigare de la dispozitive IoT; și
- centre de apeluri, podcast-uri etc. (prin recunoaștere vocală).
Procesare. Odată ce datele sunt extrase, acestea sunt procesate. Agregatorul de date va identifica datele atomice care urmează să fie agregate. Agregatorul de date poate aplica algoritmi de analiză predictivă, de inteligență artificială (AI) sau de învățare automată la datele colectate pentru a obține noi perspective. Agregatorul aplică apoi funcțiile statistice specificate pentru a agrega datele.
Prezentare. Utilizatorii pot prezenta datele agregate într-un format rezumativ care oferă el însuși date noi. Rezultatele statistice sunt cuprinzătoare și de înaltă calitate.
Agregarea datelor poate fi realizată manual sau prin utilizarea agregatorilor de date. Cu toate acestea, agregarea datelor este adesea realizată pe scară largă, ceea ce face ca agregarea manuală să fie mai puțin fezabilă. În plus, agregarea manuală riscă să omită accidental surse de date și modele cruciale.
Utilități pentru agregarea datelor
Agregarea datelor poate fi utilă pentru multe discipline, cum ar fi deciziile financiare și de strategie de afaceri, planificarea produselor, stabilirea prețurilor produselor și serviciilor, optimizarea operațiunilor și crearea de strategii de marketing. Utilizatorii pot fi analiști de date, cercetători de date, administratori de depozite de date și experți în domeniu.
Datele agregate sunt utilizate în mod obișnuit pentru analiza statistică pentru a obține informații despre anumite grupuri bazate pe anumite variabile demografice sau comportamentale, cum ar fi vârsta, profesia, nivelul de educație sau venitul.
.