Hazy Ideas

日々の勉強の気づきを書き出しています

R: モデル評価

*個人勉強用、R基礎本はこれで終わる!

 

残渣評価は、モデルが適合していれば、予測と目的変数の差は正規分布に従うという考え。

GLMのモデルをANOVAに入れて、最も良いモデル選択をすることもできる。

anova(model1, model2, model3)   *それぞれのmodelがlm関数で定義されたモデル

AICはモデルの複雑さにペナルティを加える指標で、最も負の値になるモデルが良いと考える。

AIC(model1, model2, model3)

 

モデルの質を評価するには、クロスバリデーションが良い。

データをk個に分割し、k-1個のデータを使ってk個目の値を予測するのに用いられる。

モデルの予測値の正確さの指標を出力し、質を評価するのに良い方法。

bootパッケージのcv.glmという関数で実行できる。

cv.glm(data, glmモデル, k)   *kは5か10が多い

返される値が小さい方が良いモデルである。

 

ブートストラップ:n行をサンプル抽出し、欠損と重複のない新しいデータセットを作る。統計処理を新しいデータセットに適応する。これを1200回程度繰り返す。

bootパッケージから使用できる。

普遍的で、様々なデータに適応できる。