Hazy Ideas

日々の勉強の気づきを書き出しています

R: GLMM一般化線形混合モデル

*個人勉強用のノートです。

 

確率分布、リンク関数、線形予測因子を組み合わせたのがGLM(個体差のない前提)、さらに個体差も含めたモデルがGLMM。

人が観測できない・測定できなかったデータ、かつ原因不明の差異を組み込む。

 

過分散overdispersion: 期待した二項分布に対してばらつきが大きすぎる

(サンプル側ではなく、統計モデリングしている人間側の誤差を示す)

観測されていない個体差(生物学的・非生物学的な差異)、rとする

logit(q) = β1 + β2X + r

固定効果:β1、β2X

ランダム効果:r

 

確率分布を考える時、rはそもそも観測できなかった量なので何が正しいか(rがどの分布に従うか)分からない

 

 GLMMのrは最尤推定はできない

L = ∫ p(y | β1, β2, r) p(r | s)dr

p(r |s)はたくさんのrの様々な可能性を考慮している(重み付け)

尤度Lは、二項分布と正規分布を掛け合わせている、つまり無数の二項分布を混ぜ合わせている

RではglmmMLを使う

coefはパラメーターの最尤推定

Scale parameterは個体差rのばらつきであるsの最尤推定

残差逸脱度、自由度、AIC

 

データのサンプリングには反復、擬似反復がある

同じ個体からサンプリングするのが反復replication

類似のグループからサンプリングするのが擬似反復pseudo replication

GLMMでは反復と擬似反復のランダム効果を指定することができる(しなければならない)

 

GLMMは二項分布のほか、負の二項分布と仮定することもできる

ガンマ分布や正規分布の場合は、lme4パッケージのglmer関数が使える