2010年11月2日火曜日

統計の公式って誤差意外とあるのね



例えば、視聴率がどの程度意味あるの?とか何人にアンケートとれば意味のあるアンケートなの?という疑問に答える公式として。標本誤差の公式がある。


例えば、50人中の6人がyesとして応えたアンケートの場合単純には12%だけど、標本誤差を考慮すると√((1-0.12)*12/50)程度の誤差がある。これを正規分布に当てはめるとグラフの赤線になる。


この式の導出、大雑把に言うと。12%の確率でyesの集団がいたとして、その中から50人選んだ場合、毎回綺麗に6人になるわけじゃなくてたまたま7人になったりするよね。というものを近似分布で求めたものを用いているらしい。(それを逆に50人中6人のときにnパーセントを求めるってときの誤差もいっしょでしょ。って理屈なのかな?それもどーよ。。)





で、青の線は上の導出に基づいて近似を使わず、組み合わせの数を数え上げてみたものです。(グラフの高さ方向は分布形状を比較しやすいようかえてあります)





これがちょっとしか違わないととるか、気になるかは場合によると思うんですが、世の中結構雑な近似があって、それを盲信してることもあるので気をつけなきゃですね


ソース


計算につかったソースを以下においておきます


http://shimadzu.dip.jp/~akira/pinomi/




  • sim2.rb: 今回のグラフをつくるためのプログラム

  • pinomi.rb:組み合わせの計算で出てくる大量のかけ算割り算をざっくりと約分するライブラリ

  • 参考sim.rb: 7000人が母集団で50人の標本調査を行ったとき7000人の中何人(n)がいたかの分布 (ベイズ推定でnの事前分布がフラットだと仮定)





参考にした文書


http://www.intage.co.jp/chikara/01_marketing/02_spec_plan/28/


http://www.math.s.chiba-u.ac.jp/~wang/survey.pdf





0 件のコメント:

コメントを投稿