L’agrégation de données est tout processus par lequel des données sont rassemblées et exprimées sous une forme synthétique. Lorsque les données sont agrégées, les lignes de données atomiques — généralement rassemblées à partir de plusieurs sources — sont remplacées par des totaux ou des statistiques sommaires. Les groupes d’agrégats observés sont remplacés par des statistiques sommaires basées sur ces observations. Les données agrégées se trouvent généralement dans un entrepôt de données, car elles peuvent fournir des réponses aux questions analytiques et aussi réduire considérablement le temps d’interrogation de grands ensembles de données.
L’agrégation de données est souvent utilisée pour fournir une analyse statistique pour des groupes de personnes et pour créer des données récapitulatives utiles pour l’analyse commerciale. L’agrégation se fait souvent à grande échelle, par le biais d’outils logiciels appelés agrégateurs de données. Les agrégateurs de données comprennent généralement des fonctionnalités de collecte, de traitement et de présentation des données agrégées.
L’agrégation de données peut permettre aux analystes d’accéder à de grandes quantités de données et de les examiner dans un délai raisonnable. Une ligne de données agrégées peut représenter des centaines, des milliers ou même plus d’enregistrements de données atomiques. Lorsque les données sont agrégées, elles peuvent être interrogées rapidement au lieu de nécessiter tous les cycles de traitement pour accéder à chaque rangée de données atomiques sous-jacentes et les agréger en temps réel lorsqu’elles sont interrogées ou consultées.
Alors que la quantité de données stockées par les organisations continue de croître, les données les plus importantes et les plus fréquemment consultées peuvent bénéficier de l’agrégation, ce qui permet d’y accéder efficacement.
Que fait l’agrégation de données ?
Les agrégateurs de données résument les données provenant de plusieurs sources. Ils fournissent des capacités pour de multiples mesures agrégées, telles que la somme, la moyenne et le comptage.
Les exemples de données agrégées comprennent les éléments suivants :
- Taux de participation électorale par état ou comté. Les enregistrements individuels des électeurs ne sont pas présentés, mais seulement les totaux des votes par candidat pour la région spécifique.
- Age moyen du client par produit. Chaque client individuel n’est pas identifié, mais pour chaque produit, l’âge moyen du client est enregistré.
- Nombre de clients par pays. Au lieu d’examiner chaque client, un décompte des clients dans chaque pays est présenté.
L’agrégation de données peut également entraîner un effet similaire à l’anonymisation des données — puisque les éléments de données individuels avec des détails personnellement identifiables sont combinés et remplacés par un résumé représentant un groupe dans son ensemble. Un exemple de ceci est la création d’un résumé qui montre le salaire moyen agrégé des employés par département, plutôt que de parcourir les enregistrements individuels des employés avec les données de salaire.
Les données agrégées ne doivent pas nécessairement être numériques. Vous pouvez, par exemple, compter le nombre de n’importe quel élément de données non numérique.
Avant d’agréger, il est crucial que les données atomiques soient analysées pour vérifier leur exactitude et qu’il y ait suffisamment de données pour que l’agrégation soit utile. Par exemple, compter les votes alors que seulement 5 % des résultats sont disponibles n’est pas susceptible de produire un agrégat pertinent pour la prédiction.
Comment fonctionnent les agrégateurs de données ?
Les agrégateurs de données fonctionnent en combinant des données atomiques provenant de plusieurs sources, en traitant les données pour obtenir de nouvelles perspectives et en présentant les données agrégées dans une vue synthétique. En outre, les agrégateurs de données offrent généralement la possibilité de suivre la lignée des données et peuvent remonter aux données atomiques sous-jacentes qui ont été agrégées.
Collection. Tout d’abord, les outils d’agrégation de données peuvent extraire des données de plusieurs sources, en les stockant dans de grandes bases de données en tant que données atomiques. Les données peuvent être extraites de sources de l’internet des objets (IoT), telles que les suivantes :
- communications sur les médias sociaux ;
- titres de presse ;
- données personnelles et historique de navigation des dispositifs IoT ; et
- centres d’appels, podcasts, etc. (par le biais de la reconnaissance vocale).
Traitement . Une fois les données extraites, elles sont traitées. L’agrégateur de données identifiera les données atomiques qui doivent être agrégées. L’agrégateur de données peut appliquer des algorithmes d’analyse prédictive, d’intelligence artificielle (IA) ou d’apprentissage automatique aux données collectées pour obtenir de nouvelles informations. L’agrégateur applique ensuite les fonctions statistiques spécifiées pour agréger les données.
Présentation. Les utilisateurs peuvent présenter les données agrégées dans un format résumé qui fournit lui-même de nouvelles données. Les résultats statistiques sont complets et de haute qualité.
L’agrégation de données peut être effectuée manuellement ou par l’utilisation d’agrégateurs de données. Cependant, l’agrégation de données est souvent effectuée à grande échelle, ce qui rend l’agrégation manuelle moins réalisable. En outre, l’agrégation manuelle risque d’omettre accidentellement des sources de données et des modèles cruciaux.
Utilisations de l’agrégation de données
L’agrégation de données peut être utile à de nombreuses disciplines, telles que les décisions en matière de finance et de stratégie commerciale, la planification des produits, la tarification des produits et des services, l’optimisation des opérations et la création de stratégies marketing. Les utilisateurs peuvent être des analystes de données, des scientifiques de données, des administrateurs d’entrepôts de données et des experts en la matière.
Les données agrégées sont couramment utilisées pour l’analyse statistique afin d’obtenir des informations sur des groupes particuliers en fonction de variables démographiques ou comportementales spécifiques, telles que l’âge, la profession, le niveau d’éducation ou le revenu.
Les données agrégées sont également utilisées pour l’analyse statistique.