Hazy Ideas

日々の勉強の気づきを書き出しています

Python: 機械学習

*個人用メモ

 

モデル:教師あり(ラベルあり)、教師なし、オンライン学習(常にモデルを修正)、強化学習

過学習:学習に使ったデータに適合しすぎて、新データには汎用性が低い

未学習:うまくモデルがデータに適合しない

モデルのパラメータを増やせば当てはまりは良くなるが過学習気味になる

複雑化を避けるには、データの2/3を学習に使い、1/3を使ってモデルのテストをするのが一般的

データを学習用(モデル構築)、検証用(モデル選択)、テスト用(良し悪しの判断)

過学習の問題は、バイアス(モデルの適合の低さ)とバリアンス(データの分散)のトレードオフ

 

k近傍法:近いものは類似しているという、簡単な予測モデルの考え方

 

ナイーブベイズ:単純なベイズ定理に基づくデータの当てはめの考え方

 

 

決定木:判断経路とその結果を木構造で表現したもの

情報量の多さをエントロピー(平均情報量)で表す

不確かさが少ない(データが1つに分類される)ならエントロピーは低い

 

ニューラルネットワーク:他への出力に閾値のある予測モデル

パーセプトロン:1つのニューロンをn個の2値で近似する

ディープラーニング:多様なニューラル構造物

テンソル:n次元配列

クラスタリング教師なし学習に用いられる、簡単なのはk平均法