統計解析によって出てくる値の一つに、t値があります。今回は、このt値の算出方法や、他の値との関係性について解説します。
〇t値とは?
t値とは、t検定によって算出される値で、p値の計算に用いられる値でもあります。
対応のある2群間の検定として用いられますが、1群の検定や、回帰分析の際の回帰係数に対しても用いられます。
t検定は、母平均に対する検定、と呼ばれています。
データの母集団が正規分布に従うと仮定される場合、そこから抽出されたサンプルデータも正規分布に従うと考えられます(実務的には別途、検定が必要です)。
正規分布の密度関数 = 1 / √(2πσ2) exp{ -(x - μ)2 / 2σ2}
μはデータの平均、σ2は分散を示しています。正規分布の式を覚える必要はありませんが、こんなもんだと思っておけば大丈夫です。
サンプルデータを用いて求められる標準偏差は、正規分布よりも少しすそ野が広い、t分布に従うとされます。
T = Z / √(Y/n)
Zは標準正規分布に従う確率変数、Yは自由度nのχ二乗分布に従う確率変数です。t分布の形は自由度nによって変化します。サンプル数が増えると、自由度nが上がり、t分布が正規分布に近づきます。
さてここでt値とは、以下のように計算され、t分布におさまるかどうか判断されます。
t値 = (サンプル平均値―期待値)÷(サンプル標準誤差)
= (X – μ) / √(s2/n)
ちなみに、回帰分析の回帰係数に対してt検定を行う場合には、仮説平均値が0になります。つまり、係数が0であるかどうかと検定しているということになります。
ただし、t値はいくらより大きければ(小さければ)、統計的に数値が異なるといえるのか、判断しづらいです。かなりざっくりいうと、t値が2を超えると有意差ありとなりますが、自由度(サンプル数n-1)によって変わります。そこで後に出てくるp値が良く用いられます。
〇t値とSEとの変換は?
t値と、同じく統計解析で頻出のSE、SD、p値には密接な関係があります。
まず標準誤差(Standard Error, SE)との関係は以下式で表されます。
t値 = a / SE つまり SE = a / t値
ここでaは期待値、回帰分析においては回帰係数が該当します。
〇t値とSDの変換は?
次に標準偏差(Standard Deviation, SD)との関係は以下式で表されます。
t値 = a / SE = a / (SD/√n) つまり SD = a √n / t値
SEは、SDをサンプル数nの平方根で割った数値ですので、SDをt値を使って記載すると上記式によって算出されます。
〇t値とp値との変換は?
最後に、t値とp値についてです。正規分布のグラフをイメージしたときに、標本平均値と期待値の差をSEで割ったものがt値、そのt値が取りうる確率を表すのがp値です。
p値との関係は以下式で表されます、と言いたかったのですが、筆者の知識と調査能力では辿り着けませんでした…。ただt検定におけるp値においては、決まった自由度におけるt分布に当てはめて、対象のt値の確率が計算されます。計算式の代わりに、エクセルの関数を置いておきます。
p値の計算関数:=TDIST(t値, 自由度, 2)
関数において、t値は計算で出てきた値を、自由度は、サンプル数-1の数字です。その次の3番目の数字は、両側検定なら2を、片側検定なら1を入力します。
エクセルにおけるt値の計算関数も載せておきますので、両者を操作しながら数値の変化を眺めてみてください。
t値の計算関数:=TINV(有意水準, 自由度)
有意水準には0~1を入力します。両側検定で信頼区間を95%とするなら、0.05と入力します。自由度は、サンプル数-1の数字です。
ただし上記の関数は、t検定におけるp値に対する換算式・関数であり、サンプルが正規分布に従うことが前提な点に注意が必要です。
〇まとめ
今回はt値の算出方法と、他の統計算出値の関係についてまとめてみました。筆者の勉強不足な点もありましたが、わかり次第、追記したいと思います。