Hazy Ideas

日々の勉強の気づきを書き出しています

複数文献のリスク比と平均濃度をプロットした図の意味を考える

正解のない問題を考えてみます(これは所属組織の見解等ではなく、個人の考えを整理するためのもので、責任は持てません)。

環境基準を策定する場面を考えます。ある物質への曝露により、ある健康影響が出るとしたとき、閾値がある(LOAEL、NOAELが検討できる)物質もあれば、影響の大きさが段階的な物質もあるでしょう。

ある物質の曝露による影響が段階的なもので、プロットから線形関係が見られるとします。縦軸をリスク、横軸を曝露濃度として、直線を引いて回帰係数を算出できます。その回帰係数の指数を取ることでリスク比を計算することができます。

では本題。システマティックレビューのように複数の文献の結果を並べて、「超えてはならない基準となる濃度を決めよう」とするとき、各文献のリスクの値をどう用いるのがよいでしょうか。

方法の一つとして、縦軸に各文献で得られたリスク比、横軸にその研究期間の平均濃度を取るという見方があります。以下の図の一つ一つの点は、個々の研究の代表値と考えてください。ここでは6点、つまり6文献の値をまとめたものとします(本当は縦方向に95%信頼区間などのエラーバーがあるとよいのですが、本記事では割愛)。

私はこれを見て、「濃度とリスクに線形関係があるのなら、単位曝露量あたりのリスク増加量はどこも一緒なのでは?」と思いました。多くの文献は単位曝露量(10ppb、中央値、IQRなどを取ることが多い)あたりのリスク増加量(図1で言うと死亡者数)を計算しています。曝露濃度が低ければリスクは低く、曝露濃度が高ければリスクは高いという正の線形関係があります。

ところが図2では、リスク比と平均濃度がプロットされていて、プロット間の線形性は考えられません。平均濃度が高かろうが低かろうが、リスクは個々人の曝露濃度によるのではと思ったわけです。

しかし、よく考えるとこのグラフの前提として、地域や研究対象によってリスクの傾き(回帰係数)は異なり、環境やリスクへの感受性が異なることが考えられているのではないでしょうか。そう考えると、曝露濃度が低い地域ではリスクが小さく、曝露濃度が高い地域ではリスクが大きいことが考えられます(疫学の数値だけ見てもその原理は分かりませんが)。

そう考えると図2の意味も理解できるような気がしてきました。この図2だけで考えると、ある物質の環境中の年平均濃度は15ppb以下であることが望ましいように見えます。

こうしたリスク比と年平均値だけでなく、様々な情報を集約して基準値を決める必要があると思われます。

本日は、私の頭の整理のための駄文でした。

コホート研究における相対リスクとハザード比の使い分け

相対リスク(リスク比)とハザード比は、どちらをどういうときに選ぶのでしょうか。今回は使い分けをまとめてみました。

相対リスク(リスク比)とハザード比のおさらい

相対リスク(リスク比)は、危険因子に曝露した集団と曝露していない集団の、疾病の発症など疫学指標(リスク)の発生割合の比を取ったものです。

ハザード比は、危険因子に曝露した集団と曝露していない集団の、ハザード率の比です。ハザード率とは、単位時間当たりの疫学指標の発生率のことです。例えば、死亡をエンドポイントとした場合、観察期間中の対象者の死亡率(≒生存率)のことをハザード率と呼びます。曝露群と非曝露群における、ハザード率の平均的な群間の比*を取ったものがハザード比です。

*生存曲線の関数のうち曝露した危険因子の係数βの指数を取るとハザード比が計算されます

どういうときにハザード比を用いるか

相対リスクは対象の疫学指標の有無にフォーカスを当てていますが、ハザード比はその発生までの期間も考慮しています。例えば、死亡や慢性疾患のように発生までに時間がかかるイベントを評価する場合や、介入による発症を抑える効果が見たい場合にはハザード比が好ましいと言えるでしょう。

用いるデータとしては、観察開始からいつイベントが発生したか、期間情報が必要になります。

まとめ

相対リスクとハザード比は、見たいエンドポイントの性質によって使い分けるということが分かりました。

相対リスクでは結果に差が出なくても、ハザード比では違いが出るということがあるのかもしれません。テストデータを用いて追々、検証してみたいと思います。

症例対照研究でなぜ相対リスクが使えないのか

疫学研究の評価指標として、症例対照研究はオッズ比、コホート研究は相対リスクとざっくり覚えている人も多いかと思います。今回は、なぜ症例対照研究に相対リスクが使えないかを考えます。

症例対照研究とは

評価したい疫学指標における、症例集団と対照集団の疫学データを収集し、疫学データ取得時より過去の曝露評価指標に対して解析する研究です。

相対リスクとは何を求めたいものか

相対リスクについてはこれまでの記事でも触れましたが、危険因子への曝露に対するリスクを示します。研究対象とする集団(コホート)は、研究開始前に解析したい事象を前提に、疫学指標(病気の発症など)の発生前に選ばれた、研究対象の中では「一般的な」集団です。その集団を追跡調査することで、曝露によるリスクの度合いを推定します。

相対リスクの計算は、(曝露群のうちの発生数/曝露群の人数)/(非曝露群のうちの発生数/非曝露群の人数)です。曝露・非曝露群の人数で割ることによって、対象集団全体のうちの疫学指標の発生割合を計算します。

コホート研究と比べて症例対照研究とは

症例対照研究は、研究の最初に症例集団と対照集団を選び、危険因子への曝露の有無を解析します。対象集団が、「一般的な」集団とは言えないため、相対リスクの計算式に当てはめたとしてもそこで算出される値は、対象集団全体のうちの疫学指標の発生割合とは言えません。より具体的には、症例集団と対照集団の選び方を変えることで相対リスクの値を変えることができてしまいます。

そこで、症例集団のうちの発生/非発生の比を、対照集団のうちの発生/非発生の比で割ったオッズ比が用いられます。

オッズ比を相対リスクとみなしてもよい場合

症例対照研究において、選出した症例集団・対象集団が母集団を表している場合や、発症リスクが小さい場合には、オッズ比と相対リスクが近似するため同様の指標としてみることができます。例えば、コホート研究の対象者から症例集団・対象集団を選別するコホート内症例対照研究が一例です。

まとめ

症例対照研究においては、疫学研究の構造上オッズ比しか求められないことが分かりました。なおコホート研究においては相対リスクもオッズ比も算出可能です(あえてオッズ比を使うことはないと思います)。

相対リスクという概念に含まれる複数の推定値

「相対リスク(相対危険、relative risk)」という表現の中に、複数の指標が包括されていることはご存じでしょうか。今回は、相対リスクの種類についてまとめました。ここでの用語の意味や区分は、書籍や研究者によっても異なる可能性があるので、参考としてご理解ください。

相対リスクとは

相対リスクは曝露群のリスクと、非曝露群のリスクの比を表した指標です。つまりリスクに関する比を表していれば、すべて「相対リスク」と呼べることになります。相対リスクとオッズ比を区別しているものもあれば、相対リスクの中にオッズ比が含まれるものとして説明しているものもあるようです。広義の「相対リスク」には以下のものが含まれます。

率比

英語ではrate ratioと言い、発生率や死亡率など「~~率」の比を取ったものです。「率」は「単位時間当たり」の発生頻度を表すもの、つまり時間の概念が含まれています。1年間あたり、10年間あたりの疾病数などです。

割合の比

割合は英語でproportionと言い、1時点の発生数を全体数で割った値です。有病割合prevalenceが有名です。有病割合の比である、prevalence ratio(PR)はよく論文でも見かけます。

リスク比

英語ではrisk ratioと言います。リスクとは疾病等の発生頻度を表しますが、狭義には「ある期間中に新たに発生する割合」のことを指します。ここでいうリスクは割合で、リスク比は割合の比、つまり時間の概念が含まれない比であると言えます。

その他

教科書に出てくる狭義の「相対リスク」はリスク比のことを指します。一方で、広義にはオッズ比やハザード比も「相対リスク」に含まれます。

まとめ

相対リスクやリスクの言葉の定義は、参考書や文献によっても異なります。大事なことは、「ここでの相対リスクはどの概念のことを示しているのか」を正しく理解することです。

【R備忘録】形態素解析RMeCabがRStudio上で日本語認識してくれない

形態素解析を行うためのパッケージ、RMeCabを使いたい。

チュートリアル通りにMeCabアプリのインストール、RMeCabパッケージのインストールを行った。

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

GitHub - IshidaMotohiro/RMeCab: Interface to MeCab

 

最初のテストである、

library(RMeCab)
RMeCab::RMeCabC("すもももももももものうち")

を動かしたところ、以下の結果が出た。

1
記号 
"\x82\xb7\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82\xe0\x82̂\xa4\x82\xbf" 

 

困ったことに解決策がネットで探しても出てこない。エンコードがうまくいってないのか、

  • MeCabを再インストールしてUTF-8とShift-JISを変更して試す
  • RStusioのTools→Global options→Code→Savingでエンコードを変更し、RStudioを再起動

などしたが効果はなかった。試した環境は以下の通り。

  • Windows 10
  • R4.2.2
  • RStudio 21.09.1

 

検証としてRStudioではなく、Rアプリを開いて試したところ、成功した。

> RMeCab::RMeCabC("すもももももももものうち")
1
    名詞 
"すもも" 

2
助詞 
"も" 

3
  名詞 
"もも" 

4
助詞 
"も" 

5
  名詞 
"もも" 

6
助詞 
"の" 

7
  名詞 
"うち" 

 

RStudioに問題があるらしい。そこでRstudioをアンインストールし、現時点の最新版であるRStudio 23.06.0を再インストールした。

結果、日本語を正しく認識できるようになった。解決。

リスク比とリスク差の違い(罹患率と累積罹患率)

疫学文献を読んでいると、両方の尺度が掲載されていることがあり、どっちがどういう意味だっけ?となることがあるので、まとめました。

リスク比(相対リスク)とは

リスク比は英語でrisk ratio, relative riskと言い、RRと略されます。

分割表で、調査期間中に発生したある症例の発症について考えます。

 暴露非暴露合計
症例ABA + B
対象CDC + D

曝露群の中で症例を発症するリスクは、母数分の症例数であるA/(A+C)で定義されます。一方、非曝露群で症例を発症するリスクは、B/(B+D)となります。

リスク比はこれらの比をとった、

(曝露群で症例を発症するリスク)/(非曝露群で症例を発症するリスク)

= [A/(A+C)]/[B(B+D)] 

のことを指します。

リスク比は曝露と非曝露による影響の違いを直感的に理解できる一方で、比を取っているためにリスクの絶対値の情報がなくなっていることに注意が必要です。

たとえば、曝露群A+C=100、非曝露群B+D=100のとき、(A,B)の組み合わせが(2,1)、(10,5)、(80,40)のときを考えます。A=2とA=80を比較すると、曝露の影響に40倍も違いがありますが、リスク比を計算するとどの組み合わせもRR = 2.0となり、違いの情報が消えてしまいます。

リスク差(寄与リスク)とは

リスク差は英語でrisk differenceと呼び、RDと略されます。上記の表では、曝露群の中で症例を発症するリスクA/(A+C)と、非曝露群で症例を発症するリスクB/(B+D)を考えました。

これらを引き算したもの、すなわち、

(曝露群で症例を発症するリスク)-(非曝露群で症例を発症するリスク)

= [A/(A+C)]-[B(B+D)] 

のことをリスク差と呼びます。

リスク差は、リスクの値をそのまま使って引き算しているので、リスクの大きさの情報が残っています。上記と同様に、曝露群A+C=100、非曝露群B+D=100のとき、(A,B)の組み合わせが(2,1)、(10,5)、(80,40)のときを考えます。このときのリスク差はそれぞれ、

RD = 2/100 – 1/100 = 0.01

RD = 10/100 – 5/100 = 0.05

RD = 80/100 – 40/100 = 0.4

となり、リスクの大きさによってRDの値も変化することが分かります。

罹患率比、罹患率差でも同じ

上記のリスク比、リスク差は、累積罹患率を前提に説明しました。累積罹患率は、ある期間中に発生した症例数を、観察開始時の観察人数で割って算出します。

一方で罹患率は、ある期間中に発生した症例数を、観察人時(観察期間の合計)で割って算出します。稀な疾病に対して用いられることが多いです。

罹患率は英語でincident rate、略してIRと呼ばれますが、同様に比と差の表現があります。罹患率比はincident rate ratio, IRRと言い、罹患率差はincident rate differenceと言いますので、併せて覚えておきましょう。

まとめ

リスク比とリスク差の違いは、リスク比は曝露と発症の関連性を表す指標であり、リスク差はその関連の大きさを表しています。リスク比とリスク差、どちらの情報も必要だということが分かりました。

相関係数と回帰係数の違い

2つの変数の関係を直線で表す相関と回帰係数、違うものではあるのですが、たまに区別が曖昧になる方もいるのではないでしょうか。疫学においては、アウトカムと曝露物質の関係を表しことが多いかと思います。解説していきます。

相関係数とは

相関は英語ではcorrelationと言い、2つの変数に規則的な関係がある状態のことを指します。その状態を表す係数を相関係数rとして表します。相関係数rは-1から1までの範囲の値を取ります。変数をxとyとしたとき、相関係数を計算する式は、共分散cov[x, y]と標準偏差σx, σyを使って以下のようにあらわされます。

r = cov[x, y] / (σx × σy)

なお共分散covarianceは2つの変数の、平均-偏差の積の平均によって計算される値です。

相関係数rは、変数の単位に関係なく求められます。線形関係の正負の向きとばらつきを表す尺度といえます。

回帰係数とは

回帰係数は英語でregression coefficient、または単にcoefficientと言います。2つの変数に線形の関係があると仮定し、y = ax + bの式(これを回帰式と呼びます)に当てはめたときの係数aを指します。以下の式で表されます。

a = cov[x, y] / σx2

  = r × σy / σx 

上の式は、x,yの共分散をxの分散で割っています。下の式は、相関係数の数値を使って変換したものです。

パラメータであるa, bを決める方法として、代表的な手法が最小二乗法です。xとyをプロットした図を考えたときに、適当な直線を引き、各データの点から直線へのy方向距離が最も短くなるように線を引いたものが回帰式です。距離には正負があるので、二乗値として正の値にして総和を計算したときに、最小になる直線が回帰式です。

回帰係数aは、変数x, yの単位によってaの単位が決まります。線形関係の正負の向きと大きさを表す尺度です。

まとめ

相関係数は線形関係のばらつきを表す尺度で、回帰係数は線形関係の大きさを表す尺度でした。相関係数は2変数の関係性を示し、のちの解析の方針を決める情報として用います(相関係数のみが最終結果になることは少ないように思います)。回帰係数は2変数の因果関係を表現することを意図し、その大きさを表現するときに使用します。