*個人勉強用、R基礎本はこれで終わる!
残渣評価は、モデルが適合していれば、予測と目的変数の差は正規分布に従うという考え。
GLMのモデルをANOVAに入れて、最も良いモデル選択をすることもできる。
anova(model1, model2, model3) *それぞれのmodelがlm関数で定義されたモデル
AICはモデルの複雑さにペナルティを加える指標で、最も負の値になるモデルが良いと考える。
モデルの質を評価するには、クロスバリデーションが良い。
データをk個に分割し、k-1個のデータを使ってk個目の値を予測するのに用いられる。
モデルの予測値の正確さの指標を出力し、質を評価するのに良い方法。
bootパッケージのcv.glmという関数で実行できる。
cv.glm(data, glmモデル, k) *kは5か10が多い
返される値が小さい方が良いモデルである。
ブートストラップ:n行をサンプル抽出し、欠損と重複のない新しいデータセットを作る。統計処理を新しいデータセットに適応する。これを1200回程度繰り返す。
bootパッケージから使用できる。
普遍的で、様々なデータに適応できる。