統計・世論調査を読む
「今さら聞けないビッグデータ(1)」
1~2年前から、IT、マーケティング関連の記事の見出しに「ビッグデータ」という用語をよく見かけるようになり、最近は一般紙の大見出しにも登場するようになっています。というわけで、今回は、ざっくりとビッグデータについておさらいしておこうと思います。
まずは、ビッグデータの定義から。これについては、3つ、または、4つのVで括ることで、説明されることが多いようです。
容量が大きい(Volume):
これまで人類が生成してきたデータの90%は、この2年以内に生成されたもの、と言われるほど、世界で日々発生するデータ量は、ここ数年で増大している。
データが増大することで、計算量も非常に膨大になっているということ。
多様なデータ形式 (Variety):
ここ数年のデータ量の爆発的な増大は、ICタグや、SuicaなどのICカードなどで発信・生成されるデータもあるが、なんといっても、FacebookやYouTube、TwitterなどのSNSメディアへの投稿・シェア・意見交換などによるものが多いだろう。クレジットカードなどの購買記録は、いつどこで誰が何を幾らでどんなサイズ、どんな色を・・・というように項目分けし、整理・処理しやすいデータだったわけですが、SNSは、文章や画像、動画など、多種多様なデータ形式、データサイズがあるわけです。
頻度・スピード(Velocity):
クレジットカードであれば、せいぜい1日に数回の通信で済むと思いますが、SNSは、もっと情報の頻度・スピードはアップします。また、ビッグデータはSNSに留まらず気象・災害情報、交通情報、人やモノの位置情報なども含まれます。あらゆる情報がリアルタイムかつ高速に行き交っていくわけです。
以上の3つは、多くの本やネット上で多少の表現は異なりますが、似たような説明がされているものです。
そして、4つ目のVは、例えば、日本IBMなどでは「正確さ(Veracity)」としていますが、会社によっては、VではなくA(analytics:分析力)を置き、3V+1Aとしているところもあります。
正確さ(Veracity)(または、分析力 Analytics):
大量、高速のデータを捕捉・収集しても、不正確なデータであっては結果は間違った結果が導かれます。また、正確なデータでも、適切にデータを読み解く力がない場合も同様です。
実際には、膨大はデータを適切かつ手際よく処理し、正しく読み解くには、相当なスキルが必要になるため、現在、ビッグデータで売り込みを仕掛けているIT企業、広告代理店、コンサルティング会社は、膨大なデータの中から、顧客の目的に適うデータを抽出し分析するための「データ解析プログラム」などを提供しているところが多いようです。
どうでしょうか。ビッグデータのアウトラインは少しは掴めたでしょうか。次回は、ビッグデータがどんな局面で、どのように活用され得るのか、おさらいしてみたいと思います。
(by インディーロム 渡邉修也)