Hazy Ideas

日々の勉強の気づきを書き出しています

勉強

Minicondaインストール手順と最初のライブラリインストール

Acaconda環境から、Minicondaに移行したので、その過程をメモする。 はじめに Anacondaはデータサイエンスに必要なパッケージが揃っていて、パッケージの依存関係も調整されている。しかし商用利用は有料とのことで、この先どのような利用方法になるかわから…

Python: 機械学習

*個人用メモ モデル:教師あり(ラベルあり)、教師なし、オンライン学習(常にモデルを修正)、強化学習 過学習:学習に使ったデータに適合しすぎて、新データには汎用性が低い 未学習:うまくモデルがデータに適合しない モデルのパラメータを増やせば当て…

Python: 基本ライブラリのまとめ

*個人用メモです Pythonのデータ可視化モジュールmatplotlib python -m pip install matplotlib ベクトルはオブジェクトである(線形代数を学んだ方が良い) NumPyライブラリを使うと高度な配列クラスと算術演算が可能 SciPyライブラリは多様な統計機能を使…

Python:基礎

*個人メモ フォーマットは{}(波括弧)ではなく、インデント(空白) リスト:要素を変更可能なデータ構造、角カッコbrancket x = [1, 2, 3] タプル:要素変更ができないデータ構造、丸カッコparentheses y = (1, 2, 3) パッケージのことをモジュールと呼ぶ …

R: モデル評価

*個人勉強用、R基礎本はこれで終わる! 残渣評価は、モデルが適合していれば、予測と目的変数の差は正規分布に従うという考え。 GLMのモデルをANOVAに入れて、最も良いモデル選択をすることもできる。 anova(model1, model2, model3) *それぞれのmodelがlm関…

R: 確率分布と統計

*個人用メモ 正規分布:rnorm(n=数字, mean=平均, sd=標準偏差) 確率数値を返す:dnorm(確率分布) 二項分布:rbinom(n=試行回数, size=試行のサイズ, prob=成功確率) ポアソン分布:rpois(n=出力するデータ個数, lamda=平均と分散) 統計 最小最大、平均、中…

R: データ整形

*個人用メモ 複数のデータセットを統合する。 行・列数が同じならcbind、rbindで結合できる。 2つのdata.frameを結合するにはmerge関数、だが遅いのが欠点。 plyrパッケージのjoin関数が早い。 dplyrにおいて、同様の関数はbind_rowsとbind_cols(読みやすい…

R: applyとdplyrとpurrr

*個人勉強用メモ applyファミリーの関数は、データ操作に使われる。 データの分割、適用、結合にはplyrパッケージが使われる。 dplyrとpurrrに代替される。 dplyrによるグルーピング操作 上記パッケージよりも高速で使いやすい。 列select、行filter/slice、…

Python: 関数、リスト

*個人勉強用メモです。今日は疲れたので軽めの勉強で。 関数を定義できる def spam(): グローバルスコープ:関数の外で代入された変数の存在する場所 ローカルスコープ:関数の中で代入された変数の存在する場所 例: def spam(): aaa = 11 bbb() print(aaa)…

R: 基本グラフィクス

*個人勉強用メモです。 データdiamondsとする。 ヒストグラム hist(diamonds$carat) 散布図 plot(price ~ carat, data = diamonds) 箱ひげ図 boxplot(diamonds$carat) ggplot2での作図:文章が多くなるが、見やすく、細かな編集をしやすい ヒストグラム ggpl…

Python: 雑多な基礎編

*個人用、基礎本の最初の方の使うとこだけメモ ブール型:TrueとFalseの2種類だけの値をとる RはTRUEだったが、PythonはTrue ブール演算子:and, or, not if文:最もよく使うフロー制御文 # if:条件式にTrueかFalseを評価する if name == 'Alice': print('…

R: 基本編

*個人用勉強メモです。 変数に数値などを代入、削除する。 assign("j", 4) rm(j) #remove(j)でも良い Rには主に4つのデータ型がある。 numeric、character、Data/POSIXct、logical 数値numericは他言語におけるfloatやdouble。 整数のみにするときはinteger…

R: GLM尤度比検定、非対称性

*個人勉強用のノートです。 モデル検定とモデル選択の違い モデル検定:対立仮説と帰無仮説、検定、帰無仮説の棄却可否を判断 モデル選択:パラメーターの多い/少ないモデル、AICモデル選択による評価 尤度比検定では逸脱度の差を取り、検定統計量として使…

年内の勉強週間つける

決めた。 今日から毎日、 メインの研究とは別に、 R、Python、QGIS、ベイズの勉強、 もしくは、 Nature、Scienceの論文を読んで、 ブログを更新する。 ゼミとか、ジャーナルクラブがない環境なので、無理やりにでもやる理由を作らないといけない。 毎日投稿…