*個人用メモ
モデル:教師あり(ラベルあり)、教師なし、オンライン学習(常にモデルを修正)、強化学習
過学習:学習に使ったデータに適合しすぎて、新データには汎用性が低い
未学習:うまくモデルがデータに適合しない
モデルのパラメータを増やせば当てはまりは良くなるが過学習気味になる
複雑化を避けるには、データの2/3を学習に使い、1/3を使ってモデルのテストをするのが一般的
データを学習用(モデル構築)、検証用(モデル選択)、テスト用(良し悪しの判断)
過学習の問題は、バイアス(モデルの適合の低さ)とバリアンス(データの分散)のトレードオフ
k近傍法:近いものは類似しているという、簡単な予測モデルの考え方
ナイーブベイズ:単純なベイズ定理に基づくデータの当てはめの考え方
決定木:判断経路とその結果を木構造で表現したもの
情報量の多さをエントロピー(平均情報量)で表す
不確かさが少ない(データが1つに分類される)ならエントロピーは低い
ニューラルネットワーク:他への出力に閾値のある予測モデル
ディープラーニング:多様なニューラル構造物
テンソル:n次元配列
クラスタリング:教師なし学習に用いられる、簡単なのはk平均法