統計(学)で時間を無駄にしないように
コツィル・キャシーの英文記事より(和訳 長谷川和彦) (編集 岩尾 エマはるか)
最近わかったことなんだけど、私の親友が統計学の博士号を取得したのに、統計学は何のためにあるのだろう?ということを考えてもいなかったのです。ああ、そもそも目的がわからなければ、それがいつ自分のために役に立たなくなるのかもわからないのに。教授たちも統計学の意義を明確に伝えないとわかったので、代わりに私がそれを説明してみましょう。
統計学は、不確実な状況下であなたの考えを変化させる科学です。自分の考えはどのような状態か?事前に決めてあったアクションもしくは事前信念?でも、考えが決まっていない場合は?選択肢を一つも用意していない時はどうでしょう?
とりあえず、自分の推定で(これは、「自分が知る限りで一番あり得そうなこと」の気取った言い方)で進めましょう。推定の方法は?データを見てそこに見えるものを報告するだけです。これは分析・アナリティクス(別名データマイニング)と呼ばれ、スプレッドシートを使用したことがある人ならばすでに経験していることです。ここで良いニュースは、あなたの勘は実際にはかなり正しい推定ができるということ。複雑な数式は必要ありません。
「しかし、それは間違っているかもしれない!」って?もちろん、間違っている可能性がああります。それが不確実ということです。不確実から確実を導き出せる魔法の数式はありません。自分の推測は間違いかもしれないが、あなたが導きだした最善の推測で。他のどんな推測でも「最善」よりは悪いし、間違っている可能性が高いのです。
だから、まず勘だけで進めてみましょう。持っているデータの量は問題じゃない!
「待って、データが十分あるかどうかを知る必要があるんじゃない?」って? んー、何に対して十分?
ちょっとここで落ち着いて、青色とオレンジ色の帽子から一つ選ぶと想像してみましょう。もし、あなたはどちらの色でもいいと思っていて、積みあがったデータがオレンジ色が好ましいと示している場合、青色を選んだらおかしいよね?たとえ全部で3つのデータポイントしかなかったとしても。たとえオレンジ色がわずか0.0000000000001%で優位だとしても。どうして青色を選ぶの?数式で考えるまでもなく、オレンジ色を選びますよね。
あなたが青い帽子を選ぶのが理にかなっている唯一の場合は、自分が青い帽子を最初から好ましく思ってる時です。その上で、オレンジ色を支持する証拠が十分かを確かめているのです。つまり、自分の考えを変えるのに十分なデータがあるかどうか。OK、でもどうやって調べましょう? 統計学の世界へようこそ。
統計学はあなたの考えを変える科学です。
もし、不確実なものに対応していて(例: 「この機械学習システムは明日のデータに対応できるか?」)、それに対する選択肢の重要性がそれぞれ異なる場合(例: 「機械学習システムがきちんと動作しない限り、リリースすべきではない」)、それがまさに統計学を使うべき時です。統計学の主要なポイントをこの記事を読んで確認しましょう。そうでなければ、神経をすり減らしながら無駄にたくさんの数字を処理するはめになる前に逃げ出しましょう。その場合、分析・アナリティクスがあなたにとってより良い道具です。
統計的思考 第一章 統計って何?(リンク先は英語のビデオです)