Datenaggregation ist ein Prozess, bei dem Daten gesammelt und in einer zusammenfassenden Form ausgedrückt werden. Bei der Aggregation von Daten werden atomare Datenzeilen, die in der Regel aus mehreren Quellen stammen, durch Summen oder zusammenfassende Statistiken ersetzt. Gruppen von beobachteten Aggregaten werden durch zusammenfassende Statistiken auf der Grundlage dieser Beobachtungen ersetzt. Aggregierte Daten sind typischerweise in einem Data Warehouse zu finden, da sie Antworten auf analytische Fragen liefern und auch die Zeit für die Abfrage großer Datensätze drastisch reduzieren können.
Datenaggregation wird häufig verwendet, um statistische Analysen für Personengruppen zu erstellen und nützliche zusammenfassende Daten für die Unternehmensanalyse zu erzeugen. Die Aggregation erfolgt häufig in großem Maßstab mit Hilfe von Software-Tools, die als Datenaggregatoren bekannt sind. Datenaggregatoren enthalten in der Regel Funktionen für die Sammlung, Verarbeitung und Darstellung aggregierter Daten.
Datenaggregation kann es Analysten ermöglichen, in einem angemessenen Zeitrahmen auf große Datenmengen zuzugreifen und diese zu untersuchen. Eine Zeile mit aggregierten Daten kann Hunderte, Tausende oder sogar mehr atomare Datensätze darstellen. Wenn die Daten aggregiert sind, können sie schnell abgefragt werden, anstatt alle Verarbeitungszyklen zu benötigen, um auf jede zugrunde liegende atomare Datenzeile zuzugreifen und sie in Echtzeit zu aggregieren, wenn sie abgefragt oder abgerufen werden.
Da die von Unternehmen gespeicherte Datenmenge weiter wächst, können die wichtigsten und am häufigsten abgerufenen Daten von der Aggregation profitieren, so dass ein effizienter Zugriff möglich ist.
Was leistet die Datenaggregation?
Datenaggregatoren fassen Daten aus mehreren Quellen zusammen. Sie bieten Möglichkeiten für mehrere aggregierte Messungen, wie Summe, Durchschnitt und Zählung.
Beispiele für aggregierte Daten sind die folgenden:
- Wahlbeteiligung nach Bundesland oder Bezirk. Die einzelnen Wähler werden nicht aufgeführt, sondern nur die Gesamtzahl der Stimmen nach Kandidaten für die jeweilige Region.
- Durchschnittsalter der Kunden nach Produkt. Jeder einzelne Kunde wird nicht identifiziert, aber für jedes Produkt wird das Durchschnittsalter des Kunden gespeichert.
- Anzahl der Kunden nach Land. Anstatt jeden einzelnen Kunden zu untersuchen, wird die Anzahl der Kunden in jedem Land dargestellt.
Datenaggregation kann auch zu einem ähnlichen Effekt wie Datenanonymisierung führen – indem einzelne Datenelemente mit persönlich identifizierbaren Details kombiniert und durch eine Zusammenfassung ersetzt werden, die eine Gruppe als Ganzes repräsentiert. Ein Beispiel hierfür ist die Erstellung einer Zusammenfassung, die das aggregierte Durchschnittsgehalt der Mitarbeiter nach Abteilung anzeigt, anstatt die einzelnen Mitarbeiterdatensätze mit Gehaltsdaten zu durchsuchen.
Aggregatdaten müssen nicht numerisch sein. Sie können z. B. die Anzahl aller nicht numerischen Datenelemente zählen.
Vor der Aggregation ist es wichtig, dass die atomaren Daten auf ihre Genauigkeit hin analysiert werden und dass genügend Daten vorhanden sind, damit die Aggregation sinnvoll ist. Wenn zum Beispiel nur 5 % der Ergebnisse zur Verfügung stehen, ist es unwahrscheinlich, dass ein relevantes Aggregat für die Vorhersage entsteht.
Wie funktionieren Datenaggregatoren?
Datenaggregatoren kombinieren atomare Daten aus verschiedenen Quellen, verarbeiten die Daten, um neue Erkenntnisse zu gewinnen, und präsentieren die aggregierten Daten in einer Übersichtsansicht. Darüber hinaus bieten Datenaggregatoren in der Regel die Möglichkeit, die Datenherkunft zu verfolgen und zu den zugrunde liegenden atomaren Daten zurückzuverfolgen, die aggregiert wurden.
Sammlung. Erstens können Datenaggregationswerkzeuge Daten aus mehreren Quellen extrahieren und in großen Datenbanken als atomare Daten speichern. Die Daten können aus Quellen des Internet der Dinge (IoT) extrahiert werden, wie z. B. aus folgenden Quellen:
- Kommunikation in sozialen Medien;
- Nachrichtenschlagzeilen;
- persönliche Daten und Browserverlauf von IoT-Geräten; und
- Anrufzentralen, Podcasts usw. (durch Spracherkennung).
Verarbeitung. Sobald die Daten extrahiert sind, werden sie verarbeitet. Der Datenaggregator identifiziert die atomaren Daten, die aggregiert werden sollen. Der Datenaggregator kann prädiktive Analysen, künstliche Intelligenz (KI) oder Algorithmen für maschinelles Lernen auf die gesammelten Daten anwenden, um neue Erkenntnisse zu gewinnen. Der Aggregator wendet dann die angegebenen statistischen Funktionen an, um die Daten zu aggregieren.
Darstellung. Nutzer können die aggregierten Daten in einem zusammengefassten Format präsentieren, das selbst neue Daten liefert. Die statistischen Ergebnisse sind umfassend und qualitativ hochwertig.
Die Datenaggregation kann manuell oder durch den Einsatz von Datenaggregatoren durchgeführt werden. Die Datenaggregation wird jedoch häufig in großem Maßstab durchgeführt, was die manuelle Aggregation weniger praktikabel macht. Außerdem besteht bei der manuellen Aggregation die Gefahr, dass wichtige Datenquellen und -muster versehentlich übersehen werden.
Verwendungszwecke für die Datenaggregation
Datenaggregation kann in vielen Bereichen hilfreich sein, z. B. bei finanz- und unternehmensstrategischen Entscheidungen, der Produktplanung, der Preisgestaltung für Produkte und Dienstleistungen, der Betriebsoptimierung und der Entwicklung von Marketingstrategien. Nutzer können Datenanalysten, Datenwissenschaftler, Data-Warehouse-Administratoren und Fachexperten sein.
Aggregierte Daten werden üblicherweise für statistische Analysen verwendet, um Informationen über bestimmte Gruppen auf der Grundlage bestimmter demografischer oder verhaltensbezogener Variablen wie Alter, Beruf, Bildungsniveau oder Einkommen zu erhalten.