Hazy Ideas

日々の勉強の気づきを書き出しています

相関係数と回帰係数の違い

2つの変数の関係を直線で表す相関と回帰係数、違うものではあるのですが、たまに区別が曖昧になる方もいるのではないでしょうか。疫学においては、アウトカムと曝露物質の関係を表しことが多いかと思います。解説していきます。

相関係数とは

相関は英語ではcorrelationと言い、2つの変数に規則的な関係がある状態のことを指します。その状態を表す係数を相関係数rとして表します。相関係数rは-1から1までの範囲の値を取ります。変数をxとyとしたとき、相関係数を計算する式は、共分散cov[x, y]と標準偏差σx, σyを使って以下のようにあらわされます。

r = cov[x, y] / (σx × σy)

なお共分散covarianceは2つの変数の、平均-偏差の積の平均によって計算される値です。

相関係数rは、変数の単位に関係なく求められます。線形関係の正負の向きとばらつきを表す尺度といえます。

回帰係数とは

回帰係数は英語でregression coefficient、または単にcoefficientと言います。2つの変数に線形の関係があると仮定し、y = ax + bの式(これを回帰式と呼びます)に当てはめたときの係数aを指します。以下の式で表されます。

a = cov[x, y] / σx2

  = r × σy / σx 

上の式は、x,yの共分散をxの分散で割っています。下の式は、相関係数の数値を使って変換したものです。

パラメータであるa, bを決める方法として、代表的な手法が最小二乗法です。xとyをプロットした図を考えたときに、適当な直線を引き、各データの点から直線へのy方向距離が最も短くなるように線を引いたものが回帰式です。距離には正負があるので、二乗値として正の値にして総和を計算したときに、最小になる直線が回帰式です。

回帰係数aは、変数x, yの単位によってaの単位が決まります。線形関係の正負の向きと大きさを表す尺度です。

まとめ

相関係数は線形関係のばらつきを表す尺度で、回帰係数は線形関係の大きさを表す尺度でした。相関係数は2変数の関係性を示し、のちの解析の方針を決める情報として用います(相関係数のみが最終結果になることは少ないように思います)。回帰係数は2変数の因果関係を表現することを意図し、その大きさを表現するときに使用します。