MyEnigma

とある自律移動システムエンジニアのブログです。#Robotics #Programing #C++ #Python #MATLAB #Vim #Mathematics #Book #Movie #Traveling #Mac #iPhone

尤度とは何者なのか?

 

はじめに


学生の時から,

"それは最尤推定法を用いています"

とか,

"その行は,尤度計算の部分ですね”

とか,まるで尤度というものを知っていて,

使いこなしているかのような発言をしてきました.



しかし,そう言いながらも,

自分的には,尤度というものがかなり漠然としていました.

そもそも,尤度は文字通り「尤もらしさ」を表す度合いなので,

「最尤推定法でモデルのパラメータを決定します.」

っていうのは,

「一番それっぽいものを選びます」

と言っているのとあまり変わりがない気がしていたのです(笑)


最近,この本を読んで最適化を一から体系的に学び直しているのですが,

やっと,尤度というものの数学的意味がある程度わかってきたので,

メモ代わりに説明したいと思います.



尤度のいうものは,確かに「尤もらしさ」の度合いなのですが,

数学的定義は下記の通りです.

N個のデータ

x_1,x_2,....,x_N

を観測した時,それぞれの値が生じる確率をp(x)とすると,

尤度は,

p(x_1)p(x_2)....p(x_N)

で表されます.


最尤推定法の場合,

p(x)を決めるためのモデル(基本はガウス分布)の

パラメータ(ガウス分布の場合は平均と分散)を決めるために,

この尤度が最大になるようなパラメータを選ぶことになるのです.


結局,尤度の式を見ると,

ただの同時確率じゃね?って思ってしまうかもしれません.

(例えば,サイコロの目が3回連続,1が出る同時確率は

 1/6×1/6×1/6 ですよね.)

そうです.式的には尤度と確率はまったく同じ式なのです.

当然,数値を代入すると同じ値になります.

じゃあ,なにが違うのかと,これまでずっと悩んできました.


それを解決してくれたのが,以下の記事です.

統計学の基礎知識

確率も尤度も数式や数値は同じである。

しかし、確率と尤度は意味するところが異なり、それに係わる法則も違う。

確率が「事象の確率」であるのに尤度は

「観察データの下での仮説の尤度(likelihood for a hypothesis given a set of observations)」

である点に注意する。

そうなのです.

尤度と確率は数値・数式的には同じものなのです.

つまり,尤度は観測データはすべて出尽くしていて,

それらのデータに対して,あるパラメータの確率分布を当てはめた時,

どれだけ尤もらしいかを意味しているのです.


では,なぜあの尤度の値が最大だと

確率分布のパラメータが尤もらしいといえるのでしょうか?


モデルのパラメータが間違っていた場合,

実際には観測データが集中している所の確率(密度)が低いという意味なので,

自ずと先ほどの尤度の値は低くなります.


一方,モデルのパラメータがより尤もらしいと,

観測データが少ない所(or 無い所)は,確率(密度)が低くなり,

観測データが多い所は確率(密度)が高くなるので,

自ずと観測データにマッチした

確率分布のパラメータを得ることができるということです.


つまり,尤度が最大の時のパラメータが

最も実際の分布に似た分布になるので、

正しいパラメータになるということです。

これが,最尤推定法です.


三年ちかく最尤推定法を使ってきましたが,

初めて尤度というものが理解できたと思います(笑).

最尤推定法とベイズ推定の違い

上記のように、最尤推定法はなんとなくわかりましたが、

もう一つ疑問だったのは、最尤推定法とベイズ推定の違いです。

両方とも、ある対象を推定することは一緒ですが、

正直、2つの違いがこれまであまりわかっていませんでした。


今回、下記の記事を読むことによって、

この2つの違いを理解することができたので、簡単に説明したいと思います。

Tech Tips: ベイズ推定と最尤推定の違い


上記の記事と下記の記事を見ると分かる通り、

待ち合わせに遅れる彼女、ベイズの定理、そして例題 - MY ENIGMA

最尤推定法はベイズの式における

尤度を最大化するパラメータを計算する方法です。

一方、

ベイズ推定はベイズの式における

事後確率を最大化するパラメータを計算する方法です。


上記の記事を見ると分かる通り、

ベイズの式における事前確率P(Xi)と

正規化項P(Z)の値が

それぞれのデータXiに対して同じ場合、

スケールは違うものの、

最尤推定法でもベイズ推定でも同じパラメータが選ばれます。

また、P(Z)は最尤推定法でもベイズ推定でも

同じデータを使用することを考えると同じ値になるので

無視することができます。


つまり、

最尤推定法は、

"事前確率を使用せずに尤度のみでパラメータを推定"し、

ベイズ推定は、

"事前確率と尤度の両方を使用してパラメータを推定"する

方法であると言えます。

なので事前確率が同じ場合は、

最尤推定法もベイズ推定も同じ結果になるのです。


言い換えると、

最尤推定法は、

"今取得したデータの確率のみ使用してパラメータを推定"し、

ベイズ推定は、

"今取得したデータだけでなく、過去の推定結果や

経験に基づく事前確率も使用してパラメータを推定"

する方法だということです。


個人的にかなりすっきりしました(笑)

 

尤度をグラフィカルに説明する資料

よりグラフィカルで、

分かりやすく尤度を説明している記事として

下記が上げれます。

非常に分かりやすいのでおすすめです。

 

MyEnigma Supporters

もしこの記事が参考になり、

ブログをサポートしたいと思われた方は、

こちらからよろしくお願いします。

myenigma.hatenablog.com