R: GLM応用 - Hazy Ideas

＊個人勉強用のノートです。

ロジスティック回帰：出来事が発生する確率を予測できる

ポアソン回帰のオフセット項：人口密度などの割算値を扱う

GLMは、確率分布・リンク関数・線形予測子を指定することで、複数の用途に使える

分布には連続と離散があり、それぞれの分布によく使われるリンク関数がある

二項分布：ありなしのカウントデータ（N=1, 観測数1のときベルヌーイ分布）

ロジスティック回帰では確率分布は二項分布、リンク関数はロジットリンク関数を指定

ロジット関数はロジスティック関数の逆関数

モデルをデータに当てはめてパラメータを推定する

β1に対する対数尤度関数を作り、このlog Lを最大にする推定値のセットを探す

オッズ比：q1/(1-q1)

q1(1-q1) = exp(線形予測子) exp(β1 + β2Xi + β3Fi) = exp(β1)exp(β2Xi)exp(β3Fi)

RのMASSパッケージのstepAIC関数を使うと、自動比較しながら、AICを最小にするモデルを選択できる（モデル選択）

GLMで交互作用の入ったモデルを考える

xを測定対象、fを効果として、交互作用xfを線形予測子に組み込むと、

logit(qi) =β1 + β2X + β3F + β4XF

交互作用項は係数だけ見てもよくわからないので、図示して確認する

ロジスティック回帰のメリットは割算値（確率など）を用いる必要がないこと

観測値をこねくり回して指標を作る（対数や平均化など変数変換も含める）と、情報が失われ、変換値の分布も不明になる

割算値を使わない方法：オフセット項わざ

単位面積、単位時間あたりなどを調べたいときに使える

平均個体数λ、調査地面積Aとすると、人口密度は、

λ/A = 人口密度

λ = A 人口密度 = Aexp(β1 + β2X) = exp(β1 + β2X + logA)

logAをオフセット項といい、線形予測子に「下駄」を吐かせるような数値

オフセット項を使うと、平均個体数は面積に比例すると言う仮説を反映させながら、xを推定できる。個体数を面積で割らなくても良い。

正規分布は連続値データを扱うのに用いる

平均µ、標準偏差σをパラメータに持つ

ガンマ分布のGLM：確率変数が０以上の時に用いる

パラメーターはr(rate)とs(shape)

離散値と確率分布の違いに注意する必要がある