La agregación de datos es cualquier proceso por el que se reúnen los datos y se expresan en forma de resumen. Cuando se agregan los datos, las filas de datos atómicos — normalmente recogidos de múltiples fuentes — se sustituyen por totales o estadísticas de resumen. Los grupos de agregados observados se sustituyen por estadísticas de resumen basadas en esas observaciones. Los datos agregados se encuentran normalmente en un almacén de datos, ya que pueden proporcionar respuestas a preguntas analíticas y también reducir drásticamente el tiempo de consulta de grandes conjuntos de datos.
La agregación de datos se utiliza a menudo para proporcionar un análisis estadístico para grupos de personas y para crear datos resumidos útiles para el análisis empresarial. La agregación suele realizarse a gran escala, a través de herramientas de software conocidas como agregadores de datos. Los agregadores de datos suelen incluir funciones para recopilar, procesar y presentar datos agregados.
La agregación de datos puede permitir a los analistas acceder y examinar grandes cantidades de datos en un tiempo razonable. Una fila de datos agregados puede representar cientos, miles o incluso más registros de datos atómicos. Cuando los datos están agregados, pueden consultarse rápidamente en lugar de requerir todos los ciclos de procesamiento para acceder a cada fila de datos atómicos subyacentes y agregarlos en tiempo real cuando se consultan o se accede a ellos.
A medida que la cantidad de datos almacenados por las organizaciones sigue creciendo, los datos más importantes y a los que se accede con mayor frecuencia pueden beneficiarse de la agregación, lo que hace que sea factible acceder a ellos de forma eficiente.
¿Qué hace la agregación de datos?
Los agregadores de datos resumen los datos de múltiples fuentes. Proporcionan capacidades para múltiples mediciones agregadas, como la suma, el promedio y el recuento.
Los ejemplos de datos agregados incluyen los siguientes:
- La participación de los votantes por estado o condado. No se presentan los registros individuales de los votantes, sólo los totales de votos por candidato para la región específica.
- Edad media del cliente por producto. No se identifica a cada cliente individual, pero para cada producto se guarda la edad media del cliente.
- Número de clientes por país. En lugar de examinar a cada cliente, se presenta un recuento de los clientes de cada país.
- comunicaciones de medios sociales;
- titulares de noticias;
- datos personales e historial de navegación de dispositivos IoT; y
- centros de llamadas, podcasts, etc. (mediante reconocimiento de voz).
La agregación de datos también puede tener un efecto similar al de la anonimización de datos, ya que los elementos de datos individuales con detalles de identificación personal se combinan y se sustituyen por un resumen que representa a un grupo en su conjunto. Un ejemplo de esto es la creación de un resumen que muestre el salario medio agregado de los empleados por departamento, en lugar de navegar por los registros individuales de los empleados con datos salariales.
Los datos agregados no tienen por qué ser numéricos. Puede, por ejemplo, contar el número de cualquier elemento de datos no numérico.
Antes de agregar, es crucial que se analicen los datos atómicos para comprobar su exactitud y que haya suficientes datos para que la agregación sea útil. Por ejemplo, contar los votos cuando sólo se dispone del 5% de los resultados no es probable que produzca un agregado relevante para la predicción.
¿Cómo funcionan los agregadores de datos?
Los agregadores de datos funcionan combinando datos atómicos de múltiples fuentes, procesando los datos para obtener nuevos conocimientos y presentando los datos agregados en una vista resumida. Además, los agregadores de datos suelen proporcionar la capacidad de rastrear el linaje de los datos y pueden rastrear los datos atómicos subyacentes que se agregaron.
Recogida. En primer lugar, las herramientas de agregación de datos pueden extraer datos de múltiples fuentes, almacenándolos en grandes bases de datos como datos atómicos. Los datos pueden extraerse de fuentes del internet de las cosas (IoT), como las siguientes:
Procesamiento. Una vez extraídos los datos, se procesan. El agregador de datos identificará los datos atómicos que van a ser agregados. El agregador de datos puede aplicar análisis predictivos, inteligencia artificial (IA) o algoritmos de aprendizaje automático a los datos recogidos para obtener nuevos conocimientos. A continuación, el agregador aplica las funciones estadísticas especificadas para agregar los datos.
Presentación. Los usuarios pueden presentar los datos agregados en un formato resumido que en sí mismo proporciona nuevos datos. Los resultados estadísticos son completos y de alta calidad.
La agregación de datos puede realizarse manualmente o mediante el uso de agregadores de datos. Sin embargo, la agregación de datos suele realizarse a gran escala, lo que hace que la agregación manual sea menos factible. Además, la agregación manual corre el riesgo de omitir accidentalmente fuentes de datos y patrones cruciales.
Usos de la agregación de datos
La agregación de datos puede ser útil para muchas disciplinas, como las finanzas y las decisiones de estrategia empresarial, la planificación de productos, la fijación de precios de productos y servicios, la optimización de operaciones y la creación de estrategias de marketing. Los usuarios pueden ser analistas de datos, científicos de datos, administradores de almacenes de datos y expertos en la materia.
Los datos agregados se utilizan habitualmente para el análisis estadístico con el fin de obtener información sobre grupos concretos basados en variables demográficas o de comportamiento específicas, como la edad, la profesión, el nivel educativo o los ingresos.