Hazy Ideas

日々の勉強の気づきを書き出しています

R学習に使えるデータセットまとめ

本記事は随時更新していきたいと思います。

公開:2023/5/1

更新:2023/5/4

本サイトでも統計解析Rを使って、環境疫学を学習するための情報を発信していきたいと思います。Rの参考書を読むと、irisやcarsなど、学習用に用意されたデータセットをよく見かけます。しかし、疫学系で使えるデータセットは意外と少ないのではないでしょうか。今回は疫学学習用に絞って、利用可能なデータセットを調べてみました。

疫学用のRパッケージ

epiR

https://search.r-project.org/CRAN/refmans/epiR/html/epi.about.html

癌に関する以下のデータセットが含まれています。

epi.epidural 介護者支援に関する試験における硬膜外麻酔の使用率

epi.incin ランカシャーにおける喉頭癌および肺癌の症例数 (1974 ~1983年)

epi.SClip スコットランドにおける唇癌の症例(1975~1980年)

Epi

https://cran.r-project.org/web/packages/Epi/

糖尿病関連を含むデータセットが含まれています(一部のみ、他にもありますが上記参照)。

BrCa 2982人の乳がん女性における臨床状態、再発、転移、死亡

DMconv 糖尿病への転換

DMepi デンマークにおける糖尿病の疫学的割合 (1996~2015年)

DMlate デンマーク全国糖尿病登録簿

nickel 南ウェールズにおけるニッケル製錬所のコホート(肺がん、鼻腔がん、全死因による死亡率)

steno2 臨床試験Steno2 ベースラインとフォローアップ

EpiEstim

https://cran.r-project.org/web/packages/EpiEstim/index.html

過去の感染症に関する以下のデータセットが含まれています(一部のみ、他にもありますが上記参照)。

Flu1918 ボルチモアで1918年に流行したH1N1型インフルエンザに関するデータ

Measles1861 1861年にドイツ・ハーゲロッホで流行した麻疹に関するデータ

mers_2014_15 サウジアラビアにおける中東呼吸器症候群(MERS)に関するデー

SARS2003 2003年に香港で流行したSARSに関するデータ

Smallpox1972 1972年にコソボで流行した天然痘に関するデータ

survival

https://cran.r-project.org/web/packages/survival/

生存解析(カプランマイヤー曲線やコックスモデルなど)のために用いられるパッケージで、以下のデータセットが含まれています(一部のみ、他にもありますが上記参照)。

bladder 膀胱がん再発に関する追跡データ

colon ステージB/Cの結腸がんに対する化学療法

gbsg Royston and Altman (2013)で使用された乳がんデータセット

myeloma 1947年から1996年にかけてメイヨークリニックで受診した多発性骨髄腫 lung North Central Cancer Treatment Groupによる進行肺がん患者の生存率

また以下のデータは環境疫学(健康データと大気汚染データを含む)の解析練習として用いることができます。

dlnm

https://www.rdocumentation.org/packages/dlnm/versions/2.4.7/topics/chicagoNMMAPS

chicagoNMMAPS 本データセットは、全米疾病率・死亡率・大気汚染調査(NMMAPS)という調査のデータです。1987年から2000年のシカゴの毎日の死亡率(全死因、循環器、呼吸器)、天候(気温、露点温度、相対湿度)、大気汚染(PM10、オゾン)のデータが5,114個(14年分)含まれています。

研究論文のデータ

次にgithub等で公開されている学術論文のデータセットを紹介します(大気情報は実際のデータ、健康情報は解析コード検証用に作成された模擬データですが実際の結果に近づけてあると考えられます)。

*新しいものにデータが偏っていますが、追々更新していきたいと思います。

Github等からcsvファイルをインストールする際のtipsです。Github上でdownloadボタンを押してもデータがブラウザで表示されるだけです。その場合の方法の一つですが、

  • ブラウザに表示されたデータをctrl + A→ctrl + cでコピー
  • Rを使うフォルダにて、右クリック→「新規作成」→「テキストドキュメント」
  • ファイルを開きctrl + vでペースト
  • 「ファイル」→「名前を付けて保存」→ファイル名をsimdata.csvにして保存(ファイル名で拡張子csvを記載します)

Bhaskaran et al. (2013)のコード解析用のデータ

“Time series regression studies in environmental Epidemiology” というタイトルの論文のR解析コードが公開されています。この研究は、2002年から2006年のロンドンのデータを用いた、時系列解析用のチュートリアルで、大気汚染と気温による死亡率の関連性を例にしています(疫学のデータは倫理的に公表できないため、実際のデータへのアクセスは通常できません)。

論文:https://academic.oup.com/ije/article/42/4/1187/657875

コード公開先:https://github.com/gasparrini/2013_bhaskaran_IJE_Codedata

上記の2つ目のリンクからlondondataset2002_2006.dtaをダウンロードします。データには日付、オゾン濃度、気温、相対湿度、死亡者数が1,826個含まれています。dtaデータはSTATA用のデータですので、Rで開くためにhavenパッケージをインストールします。RStudioなどR環境を開き、以下のコードを入力します。

install.packages("haven")
library(haven)
londondataset2002_2006 <- read_dta("londondataset2002_2006.dta")
head(londondataset2002_2006)

Vicedo-Cabrera et al. (2019)のコード解析用のデータ

“Hands-on Tutorial on a Modeling Framework for Projections of Climate Change Impacts on Health”というタイトルの論文のR解析コードが公開されています。この研究では、1990年から2012年までのロンドンにおける日平均気温と総死亡者数の関連性を評価しています。これらはMulti-City Collaborative Research Networkで得られたデータの一部です。

論文:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6533172/

コード公開先:https://github.com/gasparrini/2019_vicedo-cabrera_Epidem_Rcodedata

上記の2つ目のリンクから、本研究データがダウンロードできます。データには日付・曜日に関する情報、年代別死亡者数、平均気温が8,279個含まれています。csvファイルをダウンロードして、以下のコードでインポートしてください。

library(readr)
lndn_obs <- read_csv("lndn_obs.csv")
head(lndn_obs)

Wu et al. (2020)のコード解析用のデータ

Air pollution and COVID-19 mortality in the United States: Strengths and limitations of an ecological regression analysis”というタイトルの論文のR解析コードが公開されています。この研究では、アメリカにおける大気汚染とCOVID-19と死亡の影響を評価しています。

論文:https://www.science.org/doi/10.1126/sciadv.abd4049コード公開先:https://github.com/wxwx1993/PM_COVID#air-pollution-and-covid-19-mortality-in-the-united-states

上記の2つ目のリンクから、本研究のcsvデータ、txtデータ(タブ区切りデータとしてインポートできそうです)がダウンロードできます。データが複雑なため、説明は省略します(筆者が理解してから追記するかもしれません)。

Masselot et al. (2021)のコード解析用のデータ

“Machine learning approaches to identify thresholds in a heat-health warning system context”というタイトルの論文のR解析コードが公開されています。この研究では、1990年から2014年までのカナダ モントリオールにおける暑熱と死亡者数の関連性を評価しています。

論文:https://academic.oup.com/jrsssa/article/184/4/1326/7068843?login=false

コード公開先:https://github.com/PierreMasselot/Paper--2021--JRSS_SA--Machine_Learning_Thresholds

上記の2つ目のリンクから、本研究データがダウンロードできます。データには年、月、日、死亡者数、最高気温、最低気温が9,132個含まれています。csvファイルをダウンロードして、以下のコードでインポートしてください。

library(readr)
Data <- read_csv("Data.csv")
head(Data)

Masselot et al. (2022)のコード解析用のデータ

この研究では、1981年から2018年までのカナダ モントリオールケベックにおける暑熱と死亡者数の関連性を評価しています。

論文:不明

コード公開先:https://github.com/PierreMasselot/Paper--2022--EE--Heat_climate

上記の2つ目のリンクから、本研究データがダウンロードできます。データには日付、死亡者数、最高気温、最低気温が13,880個ずつ含まれています。csvファイルをダウンロードして、以下のコードでインポートしてください。(CMMモントリオール、CMQはケベックのデータです)

library(readr)
CMMdata <- read_csv("CMMdata.csv")
head(CMMdata)

Masselot et al. (2022)のコード解析用のデータ

“Machine learning approaches to identify thresholds in a heat-health warning system context”というタイトルの論文のR解析コードが公開されています。この研究では、1990年から2014年までのカナダ モントリオールにおける暑熱と死亡者数の関連性を評価しています。

論文:https://academic.oup.com/biostatistics/advance-article/doi/10.1093/biostatistics/kxac023/6632302?login=false

コード公開先:https://github.com/PierreMasselot/Paper--2022--Biostatistics--CGAIM

上記の2つ目のリンクから、本研究データがダウンロードできます。データには年、月、日、死亡者数、最高気温、最低気温が9,132個ずつ含まれています。もう一つのデータPollutionData.csvには1998年から2015年までの日付、MCV、NO2、O3、PM2.5、平均気温のデータが6,575個含まれています。csvファイルをダウンロードして、以下のコードでインポートしてください。

library(readr)
HeatData <- read_csv("HeatData.csv")
head(HeatData)

O’Brien et al. (2023)のコード解析用のデータ

“Short-Term Association between Sulfur Dioxide and Mortality: A Multicountry Analysis in 399 Cities”というタイトルの論文のR解析コードが公開されています。この研究では、1980年から2018年までの23カ国399都市のデータを用いて、二酸化硫黄(SO2)の短期曝露による死亡率への影響を知らべたプール解析研究です。

論文:https://ehp.niehs.nih.gov/doi/10.1289/EHP11112

コード公開先:https://github.com/gasparrini/MCC-SO2

上記の2つ目のリンクでは、本研究の結果に似せて作成された8カ国40都市のデータを利用できます(疫学のデータは倫理的に公表できないため、実際のデータにアクセスできることはできません)。データには国、都市、日付、死亡者数、平均気温、SO2濃度が276,216個含まれています。csvファイルをダウンロードして、以下のコードでインポートしてください。

library(readr)
simdata <- read_csv("simdata.csv")
head(simdata)

Masselot et al. (2023)のコード解析用のデータ

“Excess mortality attributed to heat and cold: a health impact assessment study in 854 cities in Europe”というタイトルの論文のR解析コードが公開されています。この研究では、ヨーロッパ854都市における暑熱・寒冷による超過死亡への影響を評価しています。

論文:https://www.thelancet.com/journals/lanplh/article/PIIS2542-5196(23)00023-2/fulltext

コード公開先:https://github.com/PierreMasselot/Paper--2023--LancetPH--EUcityTRM

データ公開先:https://zenodo.org/record/7672108#.ZE9DmHbP2w4

上記の3つ目のリンクから、本研究データがダウンロードできます。データが複雑なため、説明は省略します(筆者が理解してから追記するかもしれません)。

学習サイト集

最後に、以下のR学習用サイトが、疫学プログラミング勉強に役立つかと思います。取り扱われているパッケージには様々なデータセットが含まれるため、深堀りしていくと面白いでしょう。

Population Health Data Science with R

https://bookdown.org/medepi/phds/getting-started-with-r.html

疫学や公衆衛生に関わる業務のための R(日本語版)

https://epirhandbook.com/jp/index.html