データ蓄積とは?欠かせないシステムや活用後のデータの流れを解説

CDP(Customer Data Platform、カスタマーデータプラットフォーム)を導入することでデータ取得やデータ蓄積などが可能になります。しかし、データ蓄積といっても具体的にどのようなことなのかイメージしにくいのではないでしょうか?
本記事ではデータ蓄積とは何かや蓄積したデータをどのように活用されるのかについてお話しします。データ分析やDX推進担当者の方はぜひご覧ください。
CDPとDMPの違いについて知りたい方はこちらの記事をご覧ください。
データ活用で欠かせないデータクレンジングについて知りたい方はこちらの記事をご覧ください。
目次
データ蓄積とは?
データ蓄積とはただ単にデータをデータベースに蓄積するだけではありません。データ基盤としてデータを処理するためにローデータ (元データ)を利用しやすいように加工して処理するというプロセスが含まれています。
データ蓄積のプロセスは以下です。
例えば魚をデータに見立てて説明します。最初は魚(データ)が何の目的・用途で活用するかを考えずに海(データレイク)に保存します。その後は活用できるように目的ごとにデータウェアハウスに分けます。最後に用途ごとにデータマートで保管します。こうすることでローデータが活用されやすいように保管することができます。
AWS(アマゾンウェブサービス)ですとデータレイクはAmazon S3でデータウェアハウスはAmazon Redshiftです。多くのCDPではデータレイク、データウェアハウスそしてデータマートの役割を一括で担っています。
次の章からデータレイクやデータウェアハウス、データレイクの詳細を説明します。
データレイク
データレイクには取得したままの未加工のデータを格納できます。特に顧客情報や会員情報、購買データなどの構造化 データだけではなく画像(jpeg, PNGなど)や音声(mp4など)、PDFなどの非構造データをそのままの形で蓄積できます。
データレイクの特長
データレイクの大きな特長はデータ構造に縛られず、様々な形のデータを格納できる点です。テーブル構造が制限されたRDB(リレーショナルデータベース)では、非構造化データに対応できません。
データレイクではデータを格納する際に決まった形式に整える必要がないため、様々な形のデータを格納することができます。そのため、生データのままストレージに保存しておいて、使いたい時にデータを参照することができます。
データレイクを扱う際の注意点
データレイクは様々なデータを蓄積できる反面、用途や管理方法を設けないとデータを集めただけの沼になってしまいます。そうなってしまうと使い勝手が悪くなり「このデータは信頼できるのか」という疑問や「欲しいデータになかなかアクセスできない」という悩みが発生するということが起こりえます。そのため以下のことを意識しましょう。
①データ定義書の作成
データソースや関連する場所、クライアント情報、所有者、データの粒度、種別、形式などのメタデータを一覧化し、どこにどのようなデータが格納されているかを見える化しましょう。
②データレイクを定期的にクレンジングする
データの信頼性を担保するためにデータレイクを定期的にクレンジングして、ノイズとなる不必要なデータ を削除しましょう。
具体的には以下のようなものが該当します。
・商品名や顧客名、金額に半角と全角の数字が混在している
・漢数字が使われている
・税込みと税抜きが分かれていない
・日付が西暦と和暦になっている
・数量の単位が違う
・集計に使えるカテゴリーがない
③データのアクセス権限の付与
データはビジネスをより良い方向に導く重要な資産ですがその中に個人情報も含まれています。一歩扱い方を間違うと会社の信頼を損ねてしまいます。そのため、このデータのアクセス権限は誰なのか?機密情報や個人情報が含まれているデータの保守は担保されているか?データの漏洩のリスクはないか?といったデータの安全性 を確保できる仕組みの構築を徹底しましょう。
データウェアハウス
データウェアハウスとはデータレイクにある様々なデータから分析や施策で必要なデータを抽出し、時系列でまとめたものです。
データウェアハウスの特長
データウェアハウスの特長はデータ分析の負担が軽減されることです。
データベースのようにデータがシステムごとに様々な形で保存されている場合はシステム間でデータを転送する必要があり時間と労力がかかります。しかしデータウェアハウスは目的ごとにデータが蓄積されているため、円滑にデータ分析を行うことができます。
データレイクとデータウェアハウスの違い
データレイクとデータウェアハウスはどのように異なるのでしょうか?
詳細はこちらの表をご覧ください。格納される対象データやユーザー、使用用途などが異なります。
データマート
データマートとは企業などで情報システムに蓄積されたデータから部門や用途、目的ごとに応じて必要なものだけを抽出、集計し、活用しやすい形に格納したものです。
先ほど紹介したデータウェアハウスは、企業内のデータが構造的にまとめられているため便利ですが容量が大きいため、営業部やマーケティング部などの部門に関するデータを検索したり、抽出したりするのに手間や時間がかかります。
データマートではデータウェアハウスのデータを部門や用途、目的ごとに細分化して格納しているためデータウェアハウスと比較するとアクセスがしやすいです。社内部門が多くなるにつれてデータマートを構築する必要があるため構築する際は注意が必要です。
データマートの特長
データマートを利用する特長はレスポンスの向上です。
データウェアハウスには場合によっては数TB~ペタバイト級の膨大なデータ量を格納することもあります。その場合、データの分析や追記に時間を要してしまいます。
一方で、データマートに格納されているデータ量は数GB~数百GB程度のデータ量なので、データウェアハウスと比較するとデータの分析や追記に時間がかからず、すぐに分析結果をチェックすることができます。
また、データマートに蓄積されているデータは用途や部署に応じたものなので、集計にかかる時間も短縮でき、分析のレスポンスを高めることができます。
蓄積されたデータをどのように活用されるのか?
蓄積されたデータは以下の流れのように活用され、分析や施策立案に用いられます。
ETL機能などでデータを加工
蓄積されたデータはまず加工されます。先程紹介したデータレイク、データウェアハウス、データマートの順番にデータを処理する際にデータを加工する処理が入ります。その処理のことを「ETL機能」と呼びます 。
ETLとは以下3つの単語の頭文字を取っています。
・Extract(抽出)
・Transform(変換)
・Load(書き込み)
加工される前のデータを抽出し、活用しやすいようにデータを変換し、加工先に書き込みを行う役割を担っています。
SQLなどで抽出
次に行うことがデータの抽出です。データマート内で作成したデータから分析や施策立案などの目的に応じて必要なデータを抽出します。基本的にはSQLが書ける人に依頼してデータを抽出しますが、ツールによってはSQLを書く必要なく、操作画面上でデータ抽出ができる場合もあります。
BIツールやMAなどツールと連携して分析・活用
データ分析・活用のフェーズでは抽出したデータを可視化するBIツールでダッシュボードやレポートを作成したり、データをもとに機械学習で顧客の行動を予測したりします。また、SFAやCRM、MAなど各マーケティングツールと連携して新しい考察を導きます。基本的にはCDPでデータを抽出し、ツールに連携して分析・活用することが主ですが、CDPによってはツール内でAIや機械学習を活用した高度な分析ができます。
BIツールについて詳細を知りたい方はこちらをご覧ください。
まとめ
いかがだったでしょうか?
今回はデータ蓄積について紹介しました。
本記事を通してデータ活用を進める上でのデータ蓄積の重要性をご理解いただけたら幸いです。
パーソルP&Tでは、CDPの導入を検討しているお客様に対し、CDP導入の効果や課題を検証する実証実験(PoC)サービスを展開しています。ご興味がある方はこちらからご覧ください。