Dataaggregering

Dataaggregering är en process där data samlas in och uttrycks i en sammanfattning. När data aggregeras ersätts atomära datarader – vanligtvis samlade från flera källor – med totaler eller sammanfattande statistik. Grupper av observerade aggregat ersätts med sammanfattande statistik baserad på dessa observationer. Aggregerade data återfinns vanligtvis i ett datalager, eftersom de kan ge svar på analytiska frågor och även dramatiskt minska tiden för att söka efter stora datamängder.

Dataaggregering används ofta för att tillhandahålla statistisk analys för grupper av människor och för att skapa användbara sammanfattande data för affärsanalys. Aggregering sker ofta i stor skala genom programvaruverktyg som kallas dataaggregatorer. Dataaggregatorer innehåller vanligtvis funktioner för att samla in, bearbeta och presentera aggregerade data.

Dataaggregation kan göra det möjligt för analytiker att få tillgång till och undersöka stora mängder data inom en rimlig tidsram. En rad med aggregerade data kan representera hundratals, tusentals eller till och med fler atomära dataposter. När uppgifterna är aggregerade kan de snabbt frågas ut i stället för att kräva alla bearbetningscykler för att få tillgång till varje underliggande atomär datarad och aggregera den i realtid när den frågas ut eller nås.

I takt med att mängden data som lagras av organisationer fortsätter att öka kan de viktigaste och mest frekvent åtkomliga uppgifterna dra nytta av aggregering, vilket gör att de blir möjliga att få tillgång till på ett effektivt sätt.

Vad gör dataaggregering?

Dataaggregeringsverktyg sammanfattar data från flera olika källor. De ger möjligheter till flera aggregerade mätningar, t.ex. summa, genomsnitt och räkning.

Exempel på aggregerade data är följande:

  • Väljare som deltar i valrörelsen per delstat eller län. Enskilda röstlängder presenteras inte, bara röstsummorna per kandidat för den specifika regionen.
  • Kundernas genomsnittsålder per produkt. Varje enskild kund identifieras inte, men för varje produkt sparas kundens medelålder.
  • Antal kunder per land. Istället för att undersöka varje kund presenteras ett antal kunder i varje land.

Dataaggregering kan också resultera i en liknande effekt som dataanonymisering – då enskilda dataelement med personligt identifierbara uppgifter kombineras och ersätts med en sammanfattning som representerar en grupp som helhet. Ett exempel på detta är att skapa en sammanfattning som visar den aggregerade genomsnittslönen för anställda per avdelning, i stället för att bläddra igenom enskilda anställdas poster med lönedata.

Aggregerade data behöver inte vara numeriska. Du kan till exempel räkna antalet av alla icke-numeriska dataelement.

För att aggregera är det avgörande att atomdata analyseras för att säkerställa att de är korrekta och att det finns tillräckligt med data för att aggregeringen ska vara användbar. Att till exempel räkna röster när endast 5 % av resultaten är tillgängliga är inte troligt att ge ett relevant aggregat för förutsägelser.

Hur fungerar dataaggregatorer?

Dataaggregatorer fungerar genom att kombinera atomdata från flera källor, bearbeta data för att få nya insikter och presentera de aggregerade data i en sammanfattande vy. Dessutom ger dataaggregatorer vanligtvis möjlighet att spåra dataledningen och kan spåra tillbaka till de underliggande atomdata som aggregerades.

Samling. För det första kan dataaggregationsverktyg hämta data från flera källor och lagra dem i stora databaser som atomdata. Data kan extraheras från IoT-källor (Internet of Things), t.ex. följande:

  • kommunikation i sociala medier;
  • nyhetsrubriker;
  • personliga data och webbläsarhistorik från IoT-enheter; och
  • samtalscentraler, podcasts osv. (genom taligenkänning).

Bearbetning. När uppgifterna väl har extraherats bearbetas de. Dataaggregatorn identifierar de atomdata som ska aggregeras. Dataaggregatorn kan tillämpa prediktiv analys, artificiell intelligens (AI) eller algoritmer för maskininlärning på de insamlade uppgifterna för att få nya insikter. Aggregatorn tillämpar sedan de angivna statistiska funktionerna för att aggregera data.

Presentation. Användarna kan presentera de aggregerade uppgifterna i ett sammanfattat format som i sig ger nya uppgifter. De statistiska resultaten är omfattande och av hög kvalitet.

Dataaggregation kan utföras manuellt eller med hjälp av dataaggregatorer. Dataaggregation utförs dock ofta i stor skala, vilket gör manuell aggregering mindre genomförbar. Dessutom riskerar manuell aggregering att man oavsiktligt utelämnar viktiga datakällor och mönster.

Användningsområden för dataaggregering

Dataaggregering kan vara till hjälp för många discipliner, t.ex. beslut om ekonomi och affärsstrategi, produktplanering, prissättning av produkter och tjänster, optimering av verksamheten och skapande av marknadsföringsstrategier. Användarna kan vara dataanalytiker, datavetare, datalageradministratörer och ämnesexperter.

Aggregerade data används vanligen för statistisk analys för att få information om särskilda grupper baserat på specifika demografiska eller beteendevariabler, t.ex. ålder, yrke, utbildningsnivå eller inkomst.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *