Hazy Ideas

日々の勉強の気づきを書き出しています

DeepL個人的Tips(画像から読み込み、大量文字のコピー)

あまり知られていないであろう個人的なDeepLアプリの活用テクニックを紹介します。 1)画像のテキスト読み込み PDFや写真の文字を翻訳したいときに使います(今ではスマホの標準カメラでも同じことができますが、仕事ではPCメインですから)。 ・DeepLのア…

2024年

新年の抱負を普段考えることはないが、せっかくなので勉強と本ブログについて考えてみる。 ●勉強 ・環境分野でひとつ、自身の強みをつくる ・実務で使えるように深層学習、強化学習について知見を深める ・ネイティブと話せるくらい英会話の訓練をする ・も…

【業界説明】環境コンサルとは

環境コンサルティング業界で勤めていますが、この業界は外からは分かりづらいと感じます。一口に環境コンサルと言っても、やっていることがばらばらで、企業研究の際に苦労した覚えがあります。今後、就職や転職でこの業界を考える方のために、私なりの考え…

Pythonでスペースを含んだフォルダパスを読み込む(Google Colaboratory)

Google Colabでフォルダのパスが通らない事態と解決方法。大した話ではないけども、検索しても引っかからなかったので書きます。 問題のあったフォルダ名 フォルダdrive/MyDrive下に作成された標準名称が「Colab Notebooks」で、スペースが入っています。 事…

Minicondaインストール手順

Acaconda環境から、Minicondaに移行したので、その過程をメモする。 はじめに Anacondaはデータサイエンスに必要なパッケージが揃っていて、パッケージの依存関係も調整されている。しかし商用利用は有料とのことで、この先どのような利用方法になるかわから…

Rのcaretパッケージを用いた機械学習テスト

今回は勉強用として、様々な機械学習の手法を用いてみます。 Rのcaretパッケージとは、機械学習の分類・回帰に用いられる様々なパッケージを統合して使いやすくしたパッケージです。今回はデータセットirisを用いて、まずは様々な手法を動かしてみることを目…

ハングリーさを取り戻す

今日は久しぶりの、ただの日記。散歩しながら思ったこと。 生活環境が変わって、一定期間が過ぎた。仕事においては、理性的で聡明で、容易には追いつけないであろう高い専門性を持つ方々に囲まれている。任されている業務も、高い専門性が必要となりながら、…

複数文献のリスク比と平均濃度をプロットした図の意味を考える

正解のない問題を考えてみます(これは所属組織の見解等ではなく、個人の考えを整理するためのもので、責任は持てません)。 環境基準を策定する場面を考えます。ある物質への曝露により、ある健康影響が出るとしたとき、閾値がある(LOAEL、NOAELが検討でき…

コホート研究における相対リスクとハザード比の使い分け

相対リスク(リスク比)とハザード比は、どちらをどういうときに選ぶのでしょうか。今回は使い分けをまとめてみました。 相対リスク(リスク比)とハザード比のおさらい 相対リスク(リスク比)は、危険因子に曝露した集団と曝露していない集団の、疾病の発…

症例対照研究でなぜ相対リスクが使えないのか

疫学研究の評価指標として、症例対照研究はオッズ比、コホート研究は相対リスクとざっくり覚えている人も多いかと思います。今回は、なぜ症例対照研究に相対リスクが使えないかを考えます。 症例対照研究とは 評価したい疫学指標における、症例集団と対照集…

相対リスクという概念に含まれる複数の推定値

「相対リスク(相対危険、relative risk)」という表現の中に、複数の指標が包括されていることはご存じでしょうか。今回は、相対リスクの種類についてまとめました。ここでの用語の意味や区分は、書籍や研究者によっても異なる可能性があるので、参考として…

【R備忘録】形態素解析RMeCabがRStudio上で日本語認識してくれない

形態素解析を行うためのパッケージ、RMeCabを使いたい。 チュートリアル通りにMeCabアプリのインストール、RMeCabパッケージのインストールを行った。 MeCab: Yet Another Part-of-Speech and Morphological Analyzer GitHub - IshidaMotohiro/RMeCab: Inter…

リスク比とリスク差の違い(罹患率と累積罹患率)

疫学文献を読んでいると、両方の尺度が掲載されていることがあり、どっちがどういう意味だっけ?となることがあるので、まとめました。 リスク比(相対リスク)とは リスク比は英語でrisk ratio, relative riskと言い、RRと略されます。 分割表で、調査期間…

相関係数と回帰係数の違い

2つの変数の関係を直線で表す相関と回帰係数、違うものではあるのですが、たまに区別が曖昧になる方もいるのではないでしょうか。疫学においては、アウトカムと曝露物質の関係を表しことが多いかと思います。解説していきます。 相関係数とは 相関は英語で…

異質性と均質性とは

メタ解析論文を読んでいるときに見かける、異質性と均質性という言葉について解説したいと思います。 異質性とは 異質性は英語ではHeterogeneityと言います。メタ解析では複数の文献の、複数の結果をまとめて図表として表記します。オッズ比などの比の形で表…

【R】モデルを用いたオッズ比の求め方

今回はRで、既存のデータセットを使用して、オッズ比計算をデモンストレーションしてみます。使用するのはEpiパッケージのdietデータセットです。 このデータは、冠状動脈性心疾患イベントと食事の関係性を評価するためのデータセットです。 参考:Rの学習に…

偏りと交絡の違い

疫学のデータを扱うとき、もしくは文献を読むときに、データが偏りや交絡の影響を受けていないか注意して解釈する必要があります。 偏りとは 偏りとは、観察された結果が真実の姿からある方向にずれている状態を表します。偏りには2種類あります。 1つ目は、…

交絡因子と調整因子の違い

疫学において、 飲酒者と肺がん発症に関連がみられる(実際には、飲酒習慣がある人に喫煙者が多いことが要因) コーヒー引用習慣がある人に心筋梗塞発症に関連がみられる(実際には、コーヒー引用習慣がある人に喫煙者が多いことが要因) のような事象が見ら…

【R】既存データを用いて分布ラグモデルを動かしてみる

ひとつ前の記事でdlnmパッケージのデータセットを使用しました。今回は、dlnmパッケージのチュートリアルに概ね従いながら、分布ラグモデルの動きを確認していきます。以下リンクは参考にした情報です。 http://www.ag-myresearch.com/uploads/1/3/8/6/13864…

【R】既存データを使って相対リスク計算の試算をしてみる

公開されている疫学文献データを用いて、相対リスクの計算を行ってみます。主な目的は2つです。 ・データに対する分布を検討する ・調整モデル、複数汚染物質モデルなどを検討する 使用するパッケージはdlnmです。このパッケージを作成した研究者が解説情報…

【Rで疫学】記述統計表とグラフ

今回は、適当に作成したデータを用いて、記述統計に用いる要約統計量をまとめた表と、可視化の方法として箱ひげ図を作成してみます。 方針としては、子供の肺機能と身長・体重、既往歴などを含めたデータを作成して、学年と性別ごとに並べて見比べることにし…

京都の縁切り神社に行ってきた話

ただの日記。 私は昨年、大学院の指導教員との軋轢により大きな進路変更をした。あれはとても執着心が強く、嫉妬深い人間のため、どこかで嫌がらせされないか心配である。私個人だけならともかく、将来的に家族や関係者にも嫌がらせをされる可能性があると懸…

R学習に使えるデータセットまとめ

本記事は随時更新していきたいと思います。 公開:2023/5/1 更新:2023/5/4 本サイトでも統計解析Rを使って、環境疫学を学習するための情報を発信していきたいと思います。Rの参考書を読むと、irisやcarsなど、学習用に用意されたデータセットをよく見かけ…

コンサルの職場

これはただの感想。コンサルで働き始めた。 コンサル言えども、いろんな職場があるので一概に言えないが、今いるところは居心地がいい。 各人のバックグラウンドが多様で、違いすぎるので、みな深入りしないのだろうと推察する。話す限りでは、彼ら彼女らの…

【R備忘録】Jupyter NotebookでRを使うための設定方法

R

Jupyter Notebookは対話型で、コードと結果が画面上に残り続けるのが使いやすい。一方で、Python専用につくられているため、そのままではRは使えない。 3つのパターンの設定方法を記録しておく。 1.R単体と、Jupyter Notebookをインストールして使う Rを…

【R備忘録】パッケージrlangのアップデートがうまくいかないときの対処法

【環境】 R version 4.1.2 → 4.2.2へアップデート RStudio version 2022.? → 2022.12へアップデート RStudioを立ち上げて、library(dplyr)と入力したとき、 「名前空間 'rlang' 1.0.5 はすでにロードされましたが、>=1.0.6が要求されています」とエラーメ…

混合モデルとは

固定効果と変量効果を学んだ後に出てくる、混合モデル、もしくは混合効果モデルとは何か解説します。 混合モデルの定義は 固定効果と変量効果(ランダム効果)をどちらも含む統計学的モデルを指します。 どういうときに用いるか 研究内容によっては(むしろ…

固定効果モデルとは

固定効果とは 疫学や社会学分野の統計分析などで出てくる言葉です。データ分析のために回帰モデルなどを組む際に、目的変数と説明変数というものがあります。観測されたデータのうち個人に起因する変数が、説明変数と相関している場合、固定効果と呼ばれます…

超過死亡と過剰死亡リスクの違いは

超過死亡とは 国立感染症研究所によると以下のように定義されています。 「超過および過少死亡数は、「過去のデータをもとに統計モデルから予測された死亡数」と「実際に観測された死亡数」の差」 https://exdeaths-japan.org/ ある期間の例年の死亡数をもと…

友人と話した、仕事への姿勢

数年来の知人と飲んで話した。 彼は仕事が好きで熱中し続けているという。結婚前は、狭い1Kに住んで朝から夜まで働いて、そのあと深夜まで本を読んで勉強していたという。生活は仕事に全振りで、衣食住は最低限だったらしい。その一方で、ライフプランなど…