大数の法則と中心極限定理の違い

はじめての統計学

posted with カエレバ

道家暎幸,伊藤真吾,宮﨑直,酒井祐貴子コロナ社 2017-02-07

Amazonで探す

楽天市場で探す

Yahooショッピングで探す

はじめに

大数の法則と中心極限定理は、

確率・統計学を勉強していると、

結構よく出てきます。

自分はこれまで、

これらの２つは同じものかと勘違いしていたのですが、

冒頭の本を読むことにより、

この２つの違いを理解することができました。

同じような勘違いをしている人のために、

メモとして残しておきたいと思います。

大数の法則

大数の法則は、

あるデータから求められた経験的な期待値と

真の期待値の誤差は、

データ数が増えるにつれて小さくなるという法則です。

大数の法則 - Wikipedia

別の言い方をすると、確率の期待値の分散(ばらつき)は、

データ数が多くなると、０に近づくということもできます。

サイコロを投げて1が出る確率は、

サイコロを投げる数が少ないとバラつきますが、

投げる回数を多くすると、1/6に近づいていきます。

この大数の法則では、

それぞれの試行は独立であることを仮定すると、

下記の式のように、確率の期待値Zの分散V[Z]は

$V[Z]=\frac{\sigma^2}n{}$

となり、

元の分散σ^2を試行数nで割ったものになります。

つまり、nの数が大きければ大きいほど、分散は０に近づき、

データによる推定期待値は、

真の期待値に近づく(精度が向上する)ということです。

加えて、この数式をみると、

n個のデータで分散が1/nになるということは、

標準偏差は1/sqrt(n)になるので、

期待値の精度を10倍にしたい時には、

データ数は100倍にする必要があり、

二乗分のデータ数が必要になることがわかります.

自分はこの大数の法則の内容のことを

中心極限定理だと思っていました（笑）

中心極限定理

中心極限定理は、

先ほどの推定期待値と標本期待値の誤差の分布は

元のデータがどのような分布であっても、

n数が十分大きければ、

正規分布になるという定理です。

つまり、データ数が多くなると、

大数の法則の法則により、推定誤差は小さくなり、

中心極限定理により、その誤差の形は正規分布に近づく

というようになるのです。

つまり大数の法則と中心極限定理はペアであることがわかります。

また、もう一つ興味深いのが、データの母集団の確率分布を規定していないことです。

つまり、どのような分布の確率変数でも、期待値の誤差は正規分布になるということです。

下記の資料方法のように、一様乱数を複数個足し合わせることにより、

完璧ではありませんが、正規分布の乱数を作成することもできます。

一様乱数から正規乱数を作る方法？ | 配電盤

自分的にはかなりすっきりしました。

参考資料

大数の法則 - Wikipedia

中心極限定理 - Wikipedia

Tech Tips: 大数の法則と中心極限定理をサイコロで確認してみる

一様乱数から正規乱数を作る方法？ | 配電盤