Hazy Ideas

日々の勉強の気づきを書き出しています

Python: 機械学習

Python 勉強

*個人用メモ

モデル：教師あり（ラベルあり）、教師なし、オンライン学習（常にモデルを修正）、強化学習

過学習：学習に使ったデータに適合しすぎて、新データには汎用性が低い

未学習：うまくモデルがデータに適合しない

モデルのパラメータを増やせば当てはまりは良くなるが過学習気味になる

複雑化を避けるには、データの2/3を学習に使い、1/3を使ってモデルのテストをするのが一般的

データを学習用（モデル構築）、検証用（モデル選択）、テスト用（良し悪しの判断）

過学習の問題は、バイアス（モデルの適合の低さ）とバリアンス（データの分散）のトレードオフ

k近傍法：近いものは類似しているという、簡単な予測モデルの考え方

ナイーブベイズ：単純なベイズ定理に基づくデータの当てはめの考え方

決定木：判断経路とその結果を木構造で表現したもの

情報量の多さをエントロピー（平均情報量）で表す

不確かさが少ない（データが１つに分類される）ならエントロピーは低い

ニューラルネットワーク：他への出力に閾値のある予測モデル

パーセプトロン：１つのニューロンをn個の2値で近似する

ディープラーニング：多様なニューラル構造物

テンソル：n次元配列

クラスタリング：教師なし学習に用いられる、簡単なのはk平均法