Hazy Ideas

日々の勉強の気づきを書き出しています

R: GLM応用

*個人勉強用のノートです。

 

ロジスティック回帰:出来事が発生する確率を予測できる

ポアソン回帰のオフセット項:人口密度などの割算値を扱う

 

GLMは、確率分布・リンク関数・線形予測子を指定することで、複数の用途に使える

分布には連続と離散があり、それぞれの分布によく使われるリンク関数がある

 

二項分布:ありなしのカウントデータ(N=1, 観測数1のときベルヌーイ分布)

 

ロジスティック回帰では確率分布は二項分布、リンク関数はロジットリンク関数を指定

ロジット関数はロジスティック関数の逆関数

 

モデルをデータに当てはめてパラメータを推定する

β1に対する対数尤度関数を作り、このlog Lを最大にする推定値のセットを探す

オッズ比:q1/(1-q1)

q1(1-q1) = exp(線形予測子) exp(β1 + β2Xi + β3Fi) = exp(β1)exp(β2Xi)exp(β3Fi)

 

RのMASSパッケージのstepAIC関数を使うと、自動比較しながら、AICを最小にするモデルを選択できる(モデル選択)

 

GLMで交互作用の入ったモデルを考える

xを測定対象、fを効果として、交互作用xfを線形予測子に組み込むと、

logit(qi) =β1 + β2X + β3F + β4XF

交互作用項は係数だけ見てもよくわからないので、図示して確認する

 

ロジスティック回帰のメリットは割算値(確率など)を用いる必要がないこと

観測値をこねくり回して指標を作る(対数や平均化など変数変換も含める)と、情報が失われ、変換値の分布も不明になる

 

割算値を使わない方法:オフセット項わざ

単位面積、単位時間あたりなどを調べたいときに使える

平均個体数λ、調査地面積Aとすると、人口密度は、

λ/A = 人口密度

λ = A 人口密度 = Aexp(β1 + β2X) = exp(β1 + β2X + logA)

logAをオフセット項といい、線形予測子に「下駄」を吐かせるような数値

オフセット項を使うと、平均個体数は面積に比例すると言う仮説を反映させながら、xを推定できる。個体数を面積で割らなくても良い。

 

正規分布は連続値データを扱うのに用いる

平均µ、標準偏差σをパラメータに持つ

 

ガンマ分布のGLM:確率変数が0以上の時に用いる

パラメーターはr(rate)とs(shape)

 

離散値と確率分布の違いに注意する必要がある