gegevensaggregatie

Gegevensaggregatie is elk proces waarbij gegevens worden verzameld en uitgedrukt in een samengevatte vorm. Wanneer gegevens worden geaggregeerd, worden atomaire gegevensrijen — typisch verzameld uit meerdere bronnen — vervangen door totalen of samenvattende statistieken. Groepen van waargenomen aggregaten worden vervangen door samenvattende statistieken op basis van die waarnemingen. Geaggregeerde gegevens worden meestal gevonden in een data warehouse, omdat het antwoorden kan geven op analytische vragen en ook de tijd om grote gegevenssets te bevragen drastisch kan verminderen.

Geaggregeerde gegevens worden vaak gebruikt om statistische analyses te maken voor groepen mensen en om nuttige samenvattende gegevens te creëren voor bedrijfsanalyses. Aggregatie wordt vaak op grote schaal gedaan, met behulp van software die bekend staat als data-aggregators. Data-aggregators bevatten meestal functies voor het verzamelen, verwerken en presenteren van geaggregeerde gegevens.

Data-aggregatie kan analisten in staat stellen grote hoeveelheden gegevens binnen een redelijk tijdsbestek te benaderen en te onderzoeken. Een rij geaggregeerde gegevens kan honderden, duizenden of zelfs meer atomaire gegevensrecords vertegenwoordigen. Wanneer de gegevens zijn geaggregeerd, kunnen ze snel worden opgevraagd in plaats van dat alle verwerkingscycli nodig zijn om elke onderliggende rij atomaire gegevens te benaderen en deze realtime te aggregeren wanneer ze worden opgevraagd of benaderd.

Als de hoeveelheid gegevens die organisaties opslaan, blijft toenemen, kunnen de belangrijkste en vaakst opgevraagde gegevens profiteren van aggregatie, waardoor ze op efficiënte wijze toegankelijk worden.

Wat doet data-aggregatie?

Data-aggregators vatten gegevens uit meerdere bronnen samen. Ze bieden mogelijkheden voor meerdere geaggregeerde metingen, zoals som, gemiddelde en telling.

Voorbeelden van geaggregeerde gegevens zijn onder meer de volgende:

  • Kiezersopkomst per staat of provincie. De individuele kiezers worden niet vermeld, alleen het totaal aantal stemmen per kandidaat voor de specifieke regio.
  • Gemiddelde leeftijd van de klant per product. Elke individuele klant wordt niet geïdentificeerd, maar voor elk product wordt de gemiddelde leeftijd van de klant opgeslagen.
  • Aantal klanten per land. In plaats van elke klant te onderzoeken, wordt een telling van de klanten in elk land gepresenteerd.

Gegevensaggregatie kan ook resulteren in een soortgelijk effect als gegevensanonimisering — doordat afzonderlijke gegevenselementen met persoonlijk identificeerbare gegevens worden gecombineerd en vervangen door een samenvatting die een groep als geheel weergeeft. Een voorbeeld hiervan is het maken van een overzicht dat het geaggregeerde gemiddelde salaris van werknemers per afdeling laat zien, in plaats van het doorbladeren van individuele werknemerrecords met salarisgegevens.

Geaggregeerde gegevens hoeven niet numeriek te zijn. U kunt bijvoorbeeld het aantal tellen van elk niet-numeriek gegevenselement.

Voordat u gaat aggregeren, is het van cruciaal belang dat de atomaire gegevens worden geanalyseerd op nauwkeurigheid en dat er voldoende gegevens zijn om de aggregatie nuttig te laten zijn. Bijvoorbeeld, het tellen van stemmen wanneer slechts 5% van de resultaten beschikbaar is, zal waarschijnlijk geen relevant aggregaat opleveren voor voorspellingen.

Hoe werken data-aggregators?

Data-aggregators werken door atomaire data uit meerdere bronnen te combineren, de data te verwerken voor nieuwe inzichten en de geaggregeerde data te presenteren in een overzichtsweergave. Bovendien bieden data-aggregatoren doorgaans de mogelijkheid om de datalijn te volgen en kunnen ze de onderliggende atomaire data die werden geaggregeerd, traceren.

Verzameling. Ten eerste kunnen gegevensaggregatietools gegevens uit meerdere bronnen halen en deze in grote databases opslaan als atomaire gegevens. De gegevens kunnen worden geëxtraheerd uit internet of things (IoT)-bronnen, zoals de volgende:

  • socialemediacommunicatie;
  • nieuwskoppen;
  • persoonlijke gegevens en browsegeschiedenis van IoT-apparaten; en
  • belcentrales, podcasts, enz. (via spraakherkenning).

Verwerking. Zodra de gegevens zijn geëxtraheerd, worden ze verwerkt. De gegevensaggregator identificeert de atomaire gegevens die moeten worden geaggregeerd. De gegevensaggregator kan voorspellende analyses, kunstmatige intelligentie (AI) of algoritmen voor machinaal leren toepassen op de verzamelde gegevens voor nieuwe inzichten. De aggregator past vervolgens de gespecificeerde statistische functies toe om de gegevens te aggregeren.

Presentatie. Gebruikers kunnen de geaggregeerde gegevens presenteren in een samenvattend formaat dat zelf nieuwe gegevens oplevert. De statistische resultaten zijn uitgebreid en van hoge kwaliteit.

Gegevensaggregatie kan handmatig worden uitgevoerd of door het gebruik van gegevensaggregatoren. Gegevensaggregatie wordt echter vaak op grote schaal uitgevoerd, wat handmatige aggregatie minder haalbaar maakt. Bovendien bestaat bij handmatige aggregatie het risico dat cruciale gegevensbronnen en patronen per ongeluk worden weggelaten.

Toepassingen van data-aggregatie

Data-aggregatie kan nuttig zijn voor veel disciplines, zoals beslissingen op het gebied van financiën en bedrijfsstrategie, productplanning, prijsstelling van producten en diensten, operationele optimalisatie en het opstellen van marketingstrategieën. Gebruikers kunnen gegevensanalisten, gegevenswetenschappers, datawarehousebeheerders en materiedeskundigen zijn.

Geaggregeerde gegevens worden vaak gebruikt voor statistische analyses om informatie te verkrijgen over bepaalde groepen op basis van specifieke demografische of gedragsvariabelen, zoals leeftijd, beroep, opleidingsniveau of inkomen.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *