Hazy Ideas

日々の勉強の気づきを書き出しています

R: MCMCとベイズモデル

*個人勉強用のノートです。

 

観測できないデータの不均質さを考慮したGLMMでも対応できない場合

ランダム効果の要因が増えるほど、パラメータ推定が困難になる。

ランダム効果の要因の数だけ多重積分を繰り返すため、計算時間が長くなり、最尤値の探索が困難になる。

そこで多変量の確率分布からの乱数発生方法である、MCMCアルゴリズムを導入する。

 

解析的に最尤推定量q'を求められない場合、確率qを少しずつ変化させて計算し、対数尤度が最大になるq'を求めることができる。

ラフな例)適当に決めたqから、0.01ずつ対数尤度が高まる方向に増減するプロセスを繰り返すと、数十プロセスで安定した値をとり、これがq'と言える。

 

マルコフ連鎖:前の状態qをもとに新しいqを作り出す

モンテカルロ法:乱数を利用した計算アルゴリズム

メトロポリス法:MCMC法の1つ

1、パラメータqの初期値を決める

2、qが増えるか減るかをランダムに決める

3、新しく選んだqが尤度を大きくするなら、それに変更する

4、新しく選んだqが尤度を小さくする場合でも、確率rでqを新しいqへ変更する

を繰り返す。尤度比r = L(新q)/L(q)

 

MCMCの目的は、ステップ数の増加とともに変化するパラメータ値の生成である(サンプリング)。

このサンプルされた値は、確率分布のような形をとる(マルコフ連鎖の定常分布と呼ぶ)。

定常分布がゆっくり変化するため、安定するまでには十分な数のサンプリング数が必要。

定常分布をp(q|Y)とする、Yは観測データ

p(q|Y) ∝ L(q)、定常分布は、qの尤もらしさである尤度L(q)に比例している。

データYに統計モデルを当てはめた時のqがとる確率分布と言える。

 

ベイズ統計:パラメーターを確率変数(分布)として扱う枠組み

事後分布 = 尤度 x 事前分布 / データが得られる確率

二項分布の積である尤度L(q)と、パラメータの事前分布p(q)の積に比例する

定常分布は事後分布であるとみなせる