Hazy Ideas

日々の勉強の気づきを書き出しています

2023-06-01から1ヶ月間の記事一覧

【R備忘録】形態素解析RMeCabがRStudio上で日本語認識してくれない

形態素解析を行うためのパッケージ、RMeCabを使いたい。 チュートリアル通りにMeCabアプリのインストール、RMeCabパッケージのインストールを行った。 MeCab: Yet Another Part-of-Speech and Morphological Analyzer GitHub - IshidaMotohiro/RMeCab: Inter…

リスク比とリスク差の違い(罹患率と累積罹患率)

疫学文献を読んでいると、両方の尺度が掲載されていることがあり、どっちがどういう意味だっけ?となることがあるので、まとめました。 リスク比(相対リスク)とは リスク比は英語でrisk ratio, relative riskと言い、RRと略されます。 分割表で、調査期間…

相関係数と回帰係数の違い

2つの変数の関係を直線で表す相関と回帰係数、違うものではあるのですが、たまに区別が曖昧になる方もいるのではないでしょうか。疫学においては、アウトカムと曝露物質の関係を表しことが多いかと思います。解説していきます。 相関係数とは 相関は英語で…

異質性と均質性とは

メタ解析論文を読んでいるときに見かける、異質性と均質性という言葉について解説したいと思います。 異質性とは 異質性は英語ではHeterogeneityと言います。メタ解析では複数の文献の、複数の結果をまとめて図表として表記します。オッズ比などの比の形で表…

【R】モデルを用いたオッズ比の求め方

今回はRで、既存のデータセットを使用して、オッズ比計算をデモンストレーションしてみます。使用するのはEpiパッケージのdietデータセットです。 このデータは、冠状動脈性心疾患イベントと食事の関係性を評価するためのデータセットです。 参考:Rの学習に…

偏りと交絡の違い

疫学のデータを扱うとき、もしくは文献を読むときに、データが偏りや交絡の影響を受けていないか注意して解釈する必要があります。 偏りとは 偏りとは、観察された結果が真実の姿からある方向にずれている状態を表します。偏りには2種類あります。 1つ目は、…

交絡因子と調整因子の違い

疫学において、 飲酒者と肺がん発症に関連がみられる(実際には、飲酒習慣がある人に喫煙者が多いことが要因) コーヒー引用習慣がある人に心筋梗塞発症に関連がみられる(実際には、コーヒー引用習慣がある人に喫煙者が多いことが要因) のような事象が見ら…

【R】既存データを用いて分布ラグモデルを動かしてみる

ひとつ前の記事でdlnmパッケージのデータセットを使用しました。今回は、dlnmパッケージのチュートリアルに概ね従いながら、分布ラグモデルの動きを確認していきます。以下リンクは参考にした情報です。 http://www.ag-myresearch.com/uploads/1/3/8/6/13864…

【R】既存データを使って相対リスク計算の試算をしてみる

公開されている疫学文献データを用いて、相対リスクの計算を行ってみます。主な目的は2つです。 ・データに対する分布を検討する ・調整モデル、複数汚染物質モデルなどを検討する 使用するパッケージはdlnmです。このパッケージを作成した研究者が解説情報…