Hazy Ideas

日々の勉強の気づきを書き出しています

R: GLMのモデル選択

*個人勉強用のノートです。

 

観測データに当てはまりのいいモデルが、いい統計モデルではない。

変数が多いと当てはまりがいいけど、それって使えるの?(複雑で扱いづらい)

 

当てはまりのよさではなく、良い予測をするのがいいモデルと言う考え方→モデル選択基準AIC

 

モデルの当てはまり悪さ逸脱度deviance

D = -2logL  (Lは尤度)

Residual deviance: フルモデル。全データを当てはめたので統計的には価値はない。

Null deviance: ヌルモデル。最も当てはまりの悪い、切片だけのモデル。

最大対数尤度:当てはまりの良さ、logL

 

パラメータ数kの時のAIC赤池統計基準)

AIC = D + 2k

平均対数尤度:統計モデルの予測の良さ、E(logL)

AICは、最大対数尤度のバイアス補正により評価される

モデル選択とは、予測の悪さが小さいモデルを選ぶこと

 

AICは当てはまりの良さ、真のモデルを選ぶものではない。