はじめに
大数の法則と中心極限定理は、
確率・統計学を勉強していると、
結構よく出てきます。
自分はこれまで、
これらの2つは同じものかと勘違いしていたのですが、
冒頭の本を読むことにより、
この2つの違いを理解することができました。
同じような勘違いをしている人のために、
メモとして残しておきたいと思います。
大数の法則
大数の法則は、
あるデータから求められた経験的な期待値と
真の期待値の誤差は、
データ数が増えるにつれて小さくなるという法則です。
別の言い方をすると、確率の期待値の分散(ばらつき)は、
データ数が多くなると、0に近づくということもできます。
サイコロを投げて1が出る確率は、
サイコロを投げる数が少ないとバラつきますが、
投げる回数を多くすると、1/6に近づいていきます。
この大数の法則では、
それぞれの試行は独立であることを仮定すると、
下記の式のように、確率の期待値Zの分散V[Z]は
となり、
元の分散σ^2を試行数nで割ったものになります。
つまり、nの数が大きければ大きいほど、分散は0に近づき、
データによる推定期待値は、
真の期待値に近づく(精度が向上する)ということです。
加えて、この数式をみると、
n個のデータで分散が1/nになるということは、
標準偏差は1/sqrt(n)になるので、
期待値の精度を10倍にしたい時には、
データ数は100倍にする必要があり、
二乗分のデータ数が必要になることがわかります.
自分はこの大数の法則の内容のことを
中心極限定理だと思っていました(笑)
中心極限定理
中心極限定理は、
先ほどの推定期待値と標本期待値の誤差の分布は
元のデータがどのような分布であっても、
n数が十分大きければ、
正規分布になるという定理です。
つまり、データ数が多くなると、
大数の法則の法則により、推定誤差は小さくなり、
中心極限定理により、その誤差の形は正規分布に近づく
というようになるのです。
つまり大数の法則と中心極限定理はペアであることがわかります。
また、もう一つ興味深いのが、データの母集団の確率分布を規定していないことです。
つまり、どのような分布の確率変数でも、期待値の誤差は正規分布になるということです。
下記の資料方法のように、一様乱数を複数個足し合わせることにより、
完璧ではありませんが、正規分布の乱数を作成することもできます。
自分的にはかなりすっきりしました。