データ集計とは、データを収集し、要約した形で表現するあらゆる処理のことです。 データが集約されると、原子データ行 (通常、複数のソースから収集) は合計または要約統計に置き換えられます。 観察された集計のグループは、それらの観察に基づく要約統計に置き換えられる。 集計データは、分析上の質問に対する答えを提供し、また大規模なデータセットをクエリする時間を劇的に短縮できるため、一般にデータウェアハウスで見られます。
データ集計は、人々のグループに対する統計分析やビジネス分析に役立つ要約データの作成によく使用されます。 集計は、データ アグリゲーターと呼ばれるソフトウェア ツールを使用して、大規模に行われることがよくあります。
データ集計は、アナリストが合理的な時間枠で大量のデータにアクセスし、調査することを可能にします。 集計データの行は、数百、数千、あるいはそれ以上のアトミックなデータ レコードを表すことができます。
組織が保存するデータ量が拡大し続ける中、最も重要で頻繁にアクセスされるデータは、集約の恩恵を受け、効率的にアクセスすることが可能になります。
データ集約は何をするのか
データ集約は複数のソースからデータを要約します。
集計データの例としては、以下のようなものがあります:
- 州または郡ごとの投票率。 個々の有権者の記録は表示されず、特定の地域の候補者ごとの投票総数が表示されるだけです。
- 製品別の顧客の平均年齢。 個々の顧客は特定されませんが、各製品について、顧客の平均年齢が保存されています。
- 国別の顧客数。
データ集計は、データの匿名化と同様の効果をもたらすこともあります–個人を特定できる詳細を持つ個々のデータ要素が結合され、全体としてグループを表す要約に置き換えられるからです。 この例として、給与データを持つ個々の従業員レコードを参照するのではなく、部門別の従業員の平均給与の集計を表示するサマリーを作成することが挙げられます。
集計する前に、原子データの正確さを分析し、集計が有用であるために十分なデータがあることが極めて重要です。
データ アグリゲーターはどのように機能するか
データ アグリゲーターは、複数のソースからの原子データを組み合わせ、データを処理して新しい洞察を得て、集約したデータを要約して表示することによって機能します。 さらに、データ アグリゲーターは通常、データの系統を追跡する機能を提供し、集約された基礎となる原子データまでさかのぼることができます。 まず、データ集計ツールは、複数のソースからデータを抽出し、アトミック データとして大規模なデータベースに格納することがあります。 データは、次のような Internet of Things (IoT) ソースから抽出されてもよい:
- ソーシャル メディア通信;
- ニュース ヘッドライン;
- IoT デバイスからの個人データおよび閲覧履歴;および
- Call Center、ポッドキャストなどです。 (音声認識による)
処理。 データが抽出されたら、加工する。 データアグリゲーターは、集約する原子データを特定する。 データアグリゲーターは、収集したデータに予測分析、人工知能(AI)、または機械学習アルゴリズムを適用して、新たな洞察を得ることができる。 その後、アグリゲーターは、指定された統計関数を適用してデータを集約します。
プレゼンテーション。 ユーザーは、集約されたデータを、それ自体が新しいデータを提供する要約されたフォーマットで提示することができます。
データ集計は、手動またはデータアグリゲーターの使用によって実行される場合があります。 しかし、データ集計は大規模に行われることが多いため、手動での集計はあまり現実的ではありません。 さらに、手動による集計は、重要なデータ ソースやパターンを誤って省略してしまう危険性があります。
データ集計の用途
データ集計は、財務やビジネス戦略の決定、製品計画、製品やサービスの価格設定、運用の最適化、マーケティング戦略の作成など、多くの分野で役に立ちます。
集計されたデータは、年齢、職業、教育レベル、収入など、特定の人口統計学的または行動学的変数に基づいて、特定のグループに関する情報を取得するための統計分析によく使用されます。