第 8 章 2項分布 63
18.5 数学的補足
18.5.2 リスク比の信頼区間の数学的導出
病気が伝染病でない場合は,X1, X2は「独立」で,しかもそれぞれ2項分布B(n1, p1), B(n2, p2) に従う,と考えてよい.だから,n1, n2 が十分大きければ,「2項分布は正規分布で近似」
して,
Z1 = X1−n1p1
√n1p1q1 , Z2 = X2−n2p2
√n2p2q2 はともに標準正規分布に従うと考えてよい.これを書き直すと
X1 n1
=p1+
√p1q1 n1
Z1, X2 n2
=p2+
√p2q2 n2
Z2 となるから,
RR=
p1+√
p1q1
n1 Z1 p2+√
p2q2
n2 Z2
= p1
p2 · 1 +√
q1
p1n1 Z1 1 +√
q2
p2n2 Z2
=rr· 1 +√
q1
p1n1 Z1 1 +√
q2
p2n2 Z2 これより
logRR = logrr+ log (
1 +
√ q1
p1n1 Z1 )
−log (
1 +
√ q2
p2n2 Z2 )
≈ rr+
√ q1
p1n1 Z1−
√ q2 p2n2 Z2 ここで
Y =
√ q1
p1n1 Z1−
√ q2 p2n2 Z2 と置くと,確率変数 Y は平均0,分散
q1
p1n1 + q2 p2n2 =
( 1
n1p1 − 1 n1
) +
( 1
n2p2 − 1 n2
)
18.5. 数学的補足 165 の正規分布に従う.さらに n1p1 ≈X1, n2p2 ≈X2 と推定すると,上の分散は
1 X1 − 1
n1 + 1 X2 − 1
n2 (18.1)
により推定できる.こうして次のことを示すことができた.
定理
標本リスク比の対数 logRR は,平均が母集団リスク比の対数 logrr に等しく,
分散が (18.1) に等しい正規分布で近似できる.
したがって,logrr の 95% 信頼区間の下限と上限は logRR±1.96×
√ 1 X1 − 1
n1
+ 1 X2 − 1
n2
に等しい.
166 第18章 リスクとオッズ オッズ比は母集団におけるリスク比のよい近似になることが知られている.このよう に稀な疾患の場合は,患者対照研究でオッズ比を求める方が効率が良い.
一方,オッズ比はどんなデザインの研究でも計算できる.たんに,曝露群の病気の人 数の病気でない人数に対する比が,対照群のそれに比べてどれくらい大きいかを示す値 だからである
調査時点で,患者を何人サンプリングすると決め,それと同じ人数の対照(その病気 でないことだけが患者と違って,それ以外の条件はすべて患者と同じことが望ましい)
を選んで,それぞれが過去に受けた曝露要因や,現在の生活習慣,態度などを調べるこ とによって,その病気の原因を探る方法論.
調べてみないと患者かどうかさえわからないような場合や,因果の向きがはっきりし ない変数間の関係を見たいときは,全体で何人サンプリングすると決めて一時点で調査 する.こういう方法論を断面研究という.
この場合のオッズ比は,「曝露なし群での疾病ありのオッズ」に対する「曝露あり群で の疾病ありのオッズ」の比なので,疾病オッズ比という.逆に,疾病あり群で曝露した 人数の曝露していない人数に対する比が,疾病なし群のそれに比べてどれくらい大きい かを示す値として曝露オッズ比というものも考えられるが,数学的には同じ値になる.
ただし,統計パッケージでは,単純なこの値でなく,最尤推定をして得られる条件付 きオッズ比が表示されることが多い.
上 述 の よ う に 最 尤 推 定さ れ た 条 件 付 き オ ッ ズ 比 は ,R の プ ロ グ ラ ム を 使 っ てfisher.test(matrix(c(4,2,9996,9998), nc=2)) として計算すると,2.000322 である.
また,問題があるかどうかが事前に明らかでない場合は,断面研究をせざるを得ない.
聞き取りや質問紙などで調べる,心理学的,あるいは社会学的な調査項目間の関係を見 る場合は,断面研究をする場合が多い.なお,断面研究の場合は,リスク比やオッズ比 の他に,リスク差,相対差,曝露寄与率,母集団寄与率,Yule のQ,ピアソンの相関係 数,ファイ係数といったものがある(後述) .なお,同じ質問を2回した場合に同じ変 数がどれくらい一致するかについては,普通にクロス集計表を作って独立性の検定がで きそうな気がするかもしれないが,してはいけない.この場合は test-retest-reliability を測ることになるので,クロンバックのα係数やκ係数などの一致度の指標を計算する べきである(後述).前述の白血病の例で計算してみると,95次にオッズ比の信頼区間 を考える.前述の表のa, b, c, d という記号を使うと,
オッズ比の点推定値OR は,OR = (ad)/(bc) である.オッズ比の分布も右裾を引い ているので,対数変換または Corneld (1956) の方法によって正規分布に近づけ,正規 近似を使って95951/a + 1/b + 1/c + 1/d),上限はOR exp(qnorm(0.975) 1/a + 1/b
+ 1/c + 1/d)となる.前述の白血病の例で計算してみると,オッズ比の 95やや複雑で
あり,高次方程式の解をNewton 法などで数値的に求める必要があるので,本書では扱 わない.
167
第 19 章 t 検定
19.1 t 検定
例 19.1.1 10人の患者に,2種類の睡眠薬を与えて,睡眠時間が何時間増加したかを調 べた.睡眠薬の効き目は異なっているだろうか?1
ID 1 2 3 4 5 6 7 8 9 10
睡眠薬 1 0.7 −1.6 −0.2 −1.2 −0.1 3.4 3.7 0.8 0.0 2.0 睡眠薬 2 1.9 0.8 1.1 0.1 −0.1 4.4 5.5 1.6 4.6 3.4
この実験での母集団は人間の全体であり,標本数は 10である.さて,母集団の全員 に睡眠薬1 を与えたという架空の状況を考え,その場合の睡眠時間の増加量の平均(母 集団平均)をµ1 で表す.同様に,母集団の全員に睡眠薬 1を与えたという架空の状況 を考え,その場合の睡眠時間の増加量の平均(母集団平均)を µ2 で表す.
検討したい問題は「睡眠薬の別は睡眠時間増加量に影響するか?」である.そこで帰 無仮説は「睡眠薬の別は睡眠時間増加量に影響しない」とする.正確に表現するならば,
帰無仮説を
母集団平均は等しい: µ1 =µ2
とすることになる.