ビッグデータに踊らされないために
「ビッグデータ」
ここ2〜3年で、「ビッグデータ」という言葉は認知され、いろんな場面で見たり聞いたりするようになった。
また、それに伴い、企業において「なんとかビッグデータを使いこなさなくては!」というような焦りにも似た感覚が芽生え始めているようである。
その感覚を煽っているのは、ビックデータを使った解析ツールを提供するベンダーやデータの提供会社であるが、ここで一度立ち止まって考えておいた方が良いことがあるように思う。
そもそもビッグデータを分析する必要があるのか?
ITの発達により、大量のデータを短時間で処理できるようになったのは分かるが、そもそも大量のデータを扱わなくてはいけないのか?ということを考えた方が良い。
そもそも、データを集め、分析することは目的ではなく、目的を果たすための過程にすぎない。そして、その過程はできるだけ早く効率的進められたことにこしたことはない。つまり、できるだけスモールデータの収集・分析によって目的を果たす方法を探す必要があるのである。
ビックデータ処理の大規模なIT投資をする前に「標準誤差」を考える
下記に標準誤差の式を示す。
この標準誤差とは、サンプルから得られた割合(例えば失業率とか)に対して標準誤差の2倍を引いた値から標準誤差の2倍を足した値までの範囲に真の割合が含まれている信頼性が約95%という値である。(ちなみに99%の信頼区間は約±3×標準誤差となる)
例えば、10万人の顧客データからその男女比を調べた結果、女性の割合が70%だったとする。その標準誤差は、何人をサンプリングすればどの程度になるか計算してみよう。
サンプル数が100の場合は、標準誤差は4.6%となり、「女性の割合は61%〜79%と考えてほぼ間違いない」という幅広い解釈になってしまうが、
サンプル数が8,000になると、標準誤差は0.5%になり「女性の割合は69%〜71%と考えてほぼ間違いない」ということになる。
そして、サンプル数をこれ以上増やしていっても、標準誤差は大きく変わらず、サンプル数10,000でも標準誤差は0.4%、20,000でも0.3%である。
つまりは、女性のおおよその割合が出せれば、目的を果たせるのであれば、何も全数調査・分析せずとも8000のサンプル調査・分析をすれば十分なのである。
もし、ビックデータ処理・分析のために
膨大のIT投資を考えているならば、もう一度考えてほしい。
そのビックデータを分析すれば、投資コストに見合う投資効果はあるのか?
そもそもビックデータを活用する目的は明確なのか?
ビックデータの一部のサンプリングで事足りるということはないだろうか?
ビックデータに踊らされてはいかない。
自分にも改めて言い聞かせようと思う。