*個人勉強用のノートです。
ロジスティック回帰:出来事が発生する確率を予測できる
ポアソン回帰のオフセット項:人口密度などの割算値を扱う
GLMは、確率分布・リンク関数・線形予測子を指定することで、複数の用途に使える
分布には連続と離散があり、それぞれの分布によく使われるリンク関数がある
二項分布:ありなしのカウントデータ(N=1, 観測数1のときベルヌーイ分布)
ロジスティック回帰では確率分布は二項分布、リンク関数はロジットリンク関数を指定
ロジット関数はロジスティック関数の逆関数
モデルをデータに当てはめてパラメータを推定する
β1に対する対数尤度関数を作り、このlog Lを最大にする推定値のセットを探す
オッズ比:q1/(1-q1)
q1(1-q1) = exp(線形予測子) exp(β1 + β2Xi + β3Fi) = exp(β1)exp(β2Xi)exp(β3Fi)
RのMASSパッケージのstepAIC関数を使うと、自動比較しながら、AICを最小にするモデルを選択できる(モデル選択)
GLMで交互作用の入ったモデルを考える
xを測定対象、fを効果として、交互作用xfを線形予測子に組み込むと、
logit(qi) =β1 + β2X + β3F + β4XF
交互作用項は係数だけ見てもよくわからないので、図示して確認する
ロジスティック回帰のメリットは割算値(確率など)を用いる必要がないこと
観測値をこねくり回して指標を作る(対数や平均化など変数変換も含める)と、情報が失われ、変換値の分布も不明になる
割算値を使わない方法:オフセット項わざ
単位面積、単位時間あたりなどを調べたいときに使える
平均個体数λ、調査地面積Aとすると、人口密度は、
λ/A = 人口密度
λ = A 人口密度 = Aexp(β1 + β2X) = exp(β1 + β2X + logA)
logAをオフセット項といい、線形予測子に「下駄」を吐かせるような数値
オフセット項を使うと、平均個体数は面積に比例すると言う仮説を反映させながら、xを推定できる。個体数を面積で割らなくても良い。
正規分布は連続値データを扱うのに用いる
平均µ、標準偏差σをパラメータに持つ
ガンマ分布のGLM:確率変数が0以上の時に用いる
パラメーターはr(rate)とs(shape)
離散値と確率分布の違いに注意する必要がある