R: モデル評価 - Hazy Ideas

*個人勉強用、R基礎本はこれで終わる！

残渣評価は、モデルが適合していれば、予測と目的変数の差は正規分布に従うという考え。

GLMのモデルをANOVAに入れて、最も良いモデル選択をすることもできる。

anova(model1, model2, model3) *それぞれのmodelがlm関数で定義されたモデル

AICはモデルの複雑さにペナルティを加える指標で、最も負の値になるモデルが良いと考える。

AIC(model1, model2, model3)

モデルの質を評価するには、クロスバリデーションが良い。

データをk個に分割し、k-1個のデータを使ってk個目の値を予測するのに用いられる。

モデルの予測値の正確さの指標を出力し、質を評価するのに良い方法。

bootパッケージのcv.glmという関数で実行できる。

cv.glm(data, glmモデル, k) *kは5か10が多い

返される値が小さい方が良いモデルである。

ブートストラップ：n行をサンプル抽出し、欠損と重複のない新しいデータセットを作る。統計処理を新しいデータセットに適応する。これを1200回程度繰り返す。

bootパッケージから使用できる。

普遍的で、様々なデータに適応できる。