読者です 読者をやめる 読者になる 読者になる

MyEnigma

とあるエンジニアのブログです。#Robotics #Programing #C++ #Python #MATLAB #Vim #Mathematics #Book #Movie #Traveling #Mac #iPhone

大数の法則と中心極限定理の違い

Memo

プログラミングのための確率統計

プログラミングのための確率統計

はじめに

大数の法則と中心極限定理は、

確率・統計学を勉強していると、

結構よく出てきます。


自分はこれまで、

これらの2つは同じものかと勘違いしていたのですが、

冒頭の本を読むことにより、

この2つの違いを理解することができました。

同じような勘違いをしている人のために、

メモとして残しておきたいと思います。


大数の法則

大数の法則は、

あるデータから求められた経験的な期待値と

真の期待値の誤差は、

データ数が増えるにつれて小さくなるという法則です。


別の言い方をすると、確率の期待値の分散(ばらつき)は、

データ数が多くなると、0に近づくということもできます。


サイコロを投げて1が出る確率は、

サイコロを投げる数が少ないとバラつきますが、

投げる回数を多くすると、1/6に近づいていきます。


この大数の法則では、

それぞれの試行は独立であることを仮定すると、

下記の式のように、確率の期待値Zの分散V[Z]は

となり、

元の分散σ^2を試行数nで割ったものになります。

つまり、nの数が大きければ大きいほど、分散は0に近づき、

データによる推定期待値は、

真の期待値に近づく(精度が向上する)ということです。


加えて、この数式をみると、

n個のデータで分散が1/nになるということは、

標準偏差は1/sqrt(n)になるので、

期待値の精度を10倍にしたい時には、

データ数は100倍にする必要があり、

二乗分のデータ数が必要になることがわかります.


自分はこの大数の法則の内容のことを

中心極限定理だと思っていました(笑)

中心極限定理

中心極限定理は、

先ほどの推定期待値と標本期待値の誤差の分布は

元のデータがどのような分布であっても、

n数が十分大きければ、

正規分布になるという定理です。


つまり、データ数が多くなると、

大数の法則の法則により、推定誤差は小さくなり、

中心極限定理により、その誤差の形は正規分布に近づく

というようになるのです。

つまり大数の法則と中心極限定理はペアであることがわかります。


また、もう一つ興味深いのが、データの母集団の確率分布を規定していないことです。

つまり、どのような分布の確率変数でも、期待値の誤差は正規分布になるということです。

下記の資料方法のように、一様乱数を複数個足し合わせることにより、

完璧ではありませんが、正規分布の乱数を作成することもできます。

一様乱数から正規乱数を作る方法? | 配電盤


自分的にはかなりすっきりしました。