2015.08.13

データの均質性、あるいはデータの品質
【Panorama Software BI Blog より】

 賃金の平等、男女平等、人種民族の平等、特に最近は婚姻の平等など、平等について耳にする機会は多いことでしょう。私たちはすべての人は平等であると信じています。しかし業務データについては、すべてのデータが「平等」であるとは言えません。データが平等であるかどうかはあまり話題にされていないようですが、ではすべてのデータを均質にするために、多くの企業が多大な時間を費やしているのはなぜでしょう。多くの企業では、すべてのデータをBIでの分析に適する形にするため、構造化し、データの不純物を除き、フィルタをかけ、ブラックボックス化しています。

 しかし業務データとは本来「平等」ではなく、静的でもあり流動的でもあります。また定型データと非定型データ、商取引に基づくデータもあれば任意のボランティアによる参加型収集システムから取得するデータが混在することもあります。データの形式は多様で、信頼できるデータソースもあれば、ほとんど信頼できないデータソースから流入するものなど、様々なデータソースから取得します。しかしデータが同等でないことは必ずしもデータ品質が低いということではありません。

 もちろん分析用に安全に加工した、クリーンで定型的データのみを分析に活用できれば、それに越したことはありません。しかしそれでは業務の現実的な姿を反映できません。ビジネスは、人生と同じように、混沌としたものです。サニタイズされた安心なデータばかり提供された場合、モデルの計算や推定システムで将来像を正確に予測できないことがあります。「自分が持っている物で、自分の場所で、できることをやりなさい」と言われた時、ビジネスやその他の分野において非常に独創的なソリューションが生成されることがあります。まだ人の踏み跡がない深い森を抜けて行く道を自分で切り開く覚悟をせざるをえません。

 ポイントは、どれが重要でどれががらくたのデータかを見極めることです。データセットが膨大になるにつれてデータはますます複雑の度合いを増します。あなたがお使いのアナリティクスソリューションが、多様で同質でないデータを扱うことができない場合は、データをきれいにしてきちんと整理するためにあなたの貴重な時間や資源を無駄にすることになります。その結果、そのような整理されたデータを作動させるためにユーザーが作り上げた「完全な」狭い世界(分析モデル)に基づく予測しか手に入らないことになります。

 すべてのデータを均質なものとして処理すると、ユーザーや経営陣に対して扱いやすくクリーンな分析結果を提示できるでしょう。しかしこの分析資料をあなたの事業や、参加している市場に適用するとなるとどうなるでしょうか。ここでデータソースが単一の場合のシナリオを考えましょう。ある食品スーパーで無料の食品サンプルを配布します。実際このスーパーでは試食販売員のシフトごとに販促結果を提示するシステムがあったとします。100人がチョコレート味のサンプルを受け取り、50人はバニラ味のサンプルを受け取ったという結果が出たとします。非常にわかりやすいインプットとアウトプットです。しかしこれによって本当にわかることはなんでしょうか。

 サンプルを受け取らずに通り過ぎた400人の人はどうでしょう。ここで2次調査を行うと、無料のサンプルを取らなかったのはその人のどのような個人的な特徴によるかを、明らかにできるかもしれません。例えばダイエット中である、健康上の理由、宗教上の理由、ブランドへの忠実度、あるいはただ少し困惑したか、人とかかわることを避けたかったなどの要素が明らかになる可能性があります。さらに情報を得るには、サンプルを勧める様子を記録した画像を一人ずつ見直すこともできるでしょう。

 もっとも大胆なマーケティング担当者しかこのようなデータソースを採用しないことは明らかです。したがってブランドにとって重要な価値のあるデータを本当に完璧にかつ正確に把握する方法はありません。一方、意図的に問いかけなくても判明する情報の一部だけ、例えばサンプルを受け取ったかどうか、性別、買い物中子ども連れであったかなかったか、時間帯、郵便番号などを記録することによって、無料のサンプルでの販促結果を評価する分析モデルに、凡庸なスナップ写真には現れない新たな価値を付加する実情を把握するようになるでしょう。

 アナリティクスの分析結果を明確にし、プレゼンテーションとして見栄えを良くし、データ技能者と経営者が同様に容易に解読できるようにしようとするとき、すべてのデータがクリーンで、均等に定型化するように気を配る必要はありません。BIソリューションがユーザーに代わってデータの準備を効率的に実行するべきです。
 しかし、BIで使用するデータが均質でないとするとどんなことが起きるでしょう。もちろんデータとは本来そういうものです。しかし分析処理をする前に、データを「管理」しやすいようにIT部門がすべてのデータを理解していなければならないようでは、その企業の経営トップはその場で臨機応変に洞察を取得できず、理解する必要があるビジネス環境の状況をリアルに把握することもできないでしょう。

 今、高度なBIソリューションの中でも、価値のある洞察を多く取得できるモデルに対して多様なデータソースを統合できるBIソリューションは限られています。同様なソリューションが私たちの社会にもあれば素晴らしいでしょう。いつか開発される日も近いかもしれません。

 Necto15では新しいデータの統合や既存のデータ環境をフルに活用することが簡単にできます。詳しくはPanorama.comをご覧ください。