1) 復習:先週の1次元パターン
ある項⽬の観測値が、何らかの基準となる⽐率から計算される値(期待値あるいは理論 値)と整合しているかを判定する=「適合度の判定」ともいう
項⽬1 項⽬2 ・・・ ・・・ 項⽬n 計
観測値(Obs) O1 O2 On N
期待値(Exp) E1 E2 En N
(O-E)^2/E χ 2
n n n
E E O E
E O E
E
O 2
2 2 2 2 1
2 1
2( 1 ) ( ) ( )
⾃由度
N-1
、以下のχ 2によって、カイ⼆乗分布の検定を⾏う2013/1/12 Nara University of Education 214
カイ⼆乗検定 (2 次元パターン )
2) 今回は2次元パターン(クロス集計表)
例えば、年代という要因と、映画館によく⾏くという現象には相関があるか?
「表側(ひょうそく)」を「説明変数」、「表頭(ひょうとう)」を「⽬的変数」というこ ともあるまた、縦を「Factor(要因)」、横を「Outcome(結果)」と呼べる場合もある
縦の項⽬と、横の項⽬に何らかの関連があ るのか否かを検定することを
「独⽴性の検定」という
(
「独⽴」とは、関係がない、という意味)
帰無仮説としては縦と横の項⽬は独⽴
つまり、関連がないと仮定して 現実のデータの実現確率を統計学的に検定 する、ということ
年齢 毎週 ⽉1,2回 年数回 ⾏かない 計
10代 1 2 3 1 7⼈
20代 2 2 5 0
30代 3
映画をどのくらい⾒に⾏きますか?
表頭
表側
カイ⼆乗検定 (2 次元パターン ) 例 -1
例として
O(観測データ)
肺癌発症 ⾮発症 計
喫煙 16 11 27
⾮喫煙 16 7 23
計 32 18 50
64% 36%
E(期待値)
肺癌発症 ⾮発症 計
喫煙 17.28 9.72 27
⾮喫煙 14.72 8.28 23
計 32 18 50
(O-E)^2/E
肺癌発症 ⾮発症 計 喫煙 0.095 0.169 0.263
⾮喫煙 0.111 0.198 0.309
計 0.573
帰無仮説 (喫煙と発症は無関係)
全体としての発症率は32/50=0.64 これが、喫煙
/
⾮喫煙と無関係なら(
これが帰無仮説)
喫煙者の発症数は
27*0.64=17.28
⾮喫煙者の発症数も
23*0.64=14.72
となることが期待される(64%と36%に⽐例配分する、ということ)
観測データ(O)と、期待値(E)の対応するマス⽬に ついて、
(O-E)^2/E
を計算し、すべての和を取ったものがχ 2である
(0.573)
→検定は、次のスライドへ
カイ⼆乗検定 (2 次元パターン ) 例 -1 続
前スライドから このデータについて χ
2=0.573
⾃由度 (dF)=( 2-1 )*(2-1)=1
項⽬A 項⽬B 計
項⽬1 a b a+b
項⽬2 c d
計 a+c N
変数
(a,b,c,d)=2
×2
個、3
つの合計(a+b,a+c,N)
が決まれ ば、他(c+d,b+d)は決まるから⾃由度dF=4-3=1
⼀般に
n
⾏m
列の項⽬の⾃由度は dF=(n-1)×(m-1) となるSlide-136 ⾃由度 dFとは、変数の個数 -(必要最⼩限の)条件式の数 2次元パターンの⾃由度とは
自由度 0.05 0.01 1 3.84 6.63 2 5.99 9.21 3 7.81 11.34 4 9.49 13.28 5 11.07 15.09 6 12.59 16.81 p(有意水準)
カイ⼆乗分布表から、
dF=1
、有意⽔準5%
では χ2α=3.84 > 0.573
故に、棄却できない
結論:「喫煙と肺癌の発症には関連がない」
は5%の有意⽔準で棄却できない
(*
このデータからは、こういう結論になるということです)
5%
棄却域0.573 3.84
カイ⼆乗分布 カイ⼆乗分布表Slide-209
2013/1/12 Nara University of Education 217
カイ⼆乗検定 課題 -1
Slide-205 のデータを書き換えて以下のように⾒る
測定データ 不整脈自覚あり 不整脈自覚なし 計
コーヒー常飲者 ? ■% ? ▲% 147
コーヒー非常飲者 ? ■% ? ▲% 646
計 235 ■% 558 ▲% 793
帰無仮説:「コーヒーの常飲と不整脈の⾃覚有無とは無関係」とする
このとき、サンプル全体として「⾃覚あり」の割合は ■%、「⾃覚なし」は▲%
これを⽤いて、コーヒー常飲者と⾮常飲者の「⾃覚あり/なし」についての「期待される」値 を決めてください。
(
コーヒーの常飲の有無と、不整脈⾃覚の有無に関係がないとすれば(=
帰無仮説)
、単に793
⼈ 中235
⼈が不整脈⾃覚あり、558
⼈に⾃覚なしということである。そうであれば、コーヒーの常飲とは無関係に、不整脈の⾃覚あり/なしの⼈数が決まるはずで ある。これを「帰無仮説の元での期待値」という)
測定データ 不整脈自覚あり 不整脈自覚なし 計
コーヒー常飲者 17 130 147
コーヒー非常飲者 218 428 646
計 235 ■% 558 ▲% 793
2013/1/12 Nara University of Education 218
カイ⼆乗検定 課題 -1 続
では、対応するデータについて χ
2を計算してください
O(実験データ) 自覚あり 自覚なし 計
Coffee常飲 17 130
Coffee非常飲 218 428 (O-E)^2/E 自覚あり 自覚なし 計
計 Coffee常飲
Coffee非常飲
E(期待値) 自覚あり 自覚なし 計 計 χ2
Coffee常飲 Coffee非常飲 計
χ
2は=■
⾃由度は
=
■有意⽔準5%でカイ⼆乗分布表を⾒るとχ2α
=■
有意⽔準1%では、χ2α
=■
結論:■
2013/1/12 Nara University of Education 219
カイ⼆乗検定 課題 -2
3
つの地域から無作為にサンプル調査をした年齢別⼈⼝構成が以下のようであった。これらの地域の年齢別⼈⼝構成に有意な差があると⾔えるであろうか?検定しな さい。
帰無仮説:「
3
つ地域の年齢別⼈⼝構成に有意な差はない」検定の過程と結論
χ
2=
■dF=
■χ2(5%)=
■χ2(1%)=
■結論
:
⼈⼝構成に有意な 差がある?ない?■(O)観測度数 0-24 25-49 50- 計
A市 21 143 220 384
B市 43 132 187 362
C市 56 121 189 366
計 120 396 596 1112
(E)期待値 0-24 25-49 50- 計
A市 384
B市 362
C市 366
計 120 396 596 1112
(O-E)^2/E 0-24 25-49 50- 計 A市
B市 C市 計
2013/1/12 Nara University of Education 220
カイ⼆乗の計算 (2 × 2 の公式 )
項⽬A 項⽬B 計
項⽬1 a b a+b
項⽬2 c d c+d
計 a+c b+d N(a+b+c+d)
n
×m
の表からカイ⼆乗の値χ
2を求める⼿順は理解できたと思います。この⼿順を理解した上で、
2
×2
の場合の以下の公式も有⽤です。(導出はがんばればできます)) ( ) ( ) ( ) (
) (
)
(
22
d b c a d c b a
d c b a c b d a
この式を⾒れば、対称性から、表の縦横(表頭、表側)を⼊れ替えてもカイ⼆乗の値は同じであることが分かり
ます。(c←→bとしても、値は変わりません)
計算例として(Slide-215のデータで) O(観測データ)
肺癌発症 ⾮発症 計
喫煙 16 11 27
⾮喫煙 16 7 23
計 32 18 50
573 . 23 0 27 18 32
50 ) 11 16 7 16
(
22
Slide-215 の値と⼀致します
2013/1/12 Nara University of Education 221
カイ⼆乗検定 課題 -3
運動の量の多少と冠動脈疾患の有無に関して、下のデータについてカイ⼆乗検定を⾏い なさい
実測データ 冠動脈疾患あり 冠動脈疾患なし 計
運動量少ない 36 249 285
運動量多い 23 275 298
計 59 524 583
χ 2 ?
帰無仮説:運動の量の多少と冠動脈疾患の有無には関連がない 前スライドの公式によって、
χ
2の値は=
■⾃由度
dF=
■有意⽔準
5%
と1%
でのカイ⼆乗分布表からχ2(5%)=
■χ2(1%)=
■結論は:運動量の多少と冠動脈疾患の有無に関して、帰無仮説は 棄却される?されない? ■
自由度 0.05 0.01 1 3.84 6.63 2 5.99 9.21 3 7.81 11.34 4 9.49 13.28 5 11.07 15.09 6 12.59 16.81 p(有意水準) カイ⼆乗分布表
Slide-209
2013/1/12 Nara University of Education 222
カイ⼆乗検定 Excel 関数 (CHITEST)
カイ⼆乗検定の⼿順を要約すれば
1)
観測値(O)→
期待値(E)→Σ(O-E)
2/E=χ
2 を計算し2)
カイ⼆乗分布表の⾃由度(dF)
とα=5%、1%
欄をLookUp
しχ2αを調べる3)
χ2 がχ2αより⼤きければ有意⽔準5%/1%で帰無仮説は棄却される 上の2)
と3)
をExcel
の関数CHITEST(
カイ・テスト)
で実⾏できるカイ⼆乗分布(dF=1) O(観測データ) 肺癌発症 ⾮発症 計
喫煙 16 11 27
⾮喫煙 16 7 23
計 32 18 50
E(期待値) 肺癌発症 ⾮発症 計
喫煙 17.28 9.72 27
⾮喫煙 14.72 8.28 23
計 32 18 50
CHITEST 0.449
答え
(
上側確率) Slide-217の結果では
この問題でのχ2
=0.574であった
0.449とは、この値より右側の確率(⾯積)を表している
これが
5%(0.05)
より「遥かに」⼤きいので、棄却域には⼊っていないということになる5%棄却域
0.574 3.84
課題と問題点
コホート
(Cohort)
研究cohort(英)
もともとは、古代ローマにおける歩兵隊の単位。
疫学では、共通の因⼦を持った個⼈の集合という意味で⽤いる。(マウスでもそういう)
ある薬を服⽤した集団と服⽤していない集団とに分類し、⽐較すること・・等・・で因果関係を調べること
○ 実験データの意味がはっきりしている、実験として望ましいが
× 時間がかかる、費⽤がかかる、
× ⻑期間の追跡が困難、
× 希にしか起こらない症例の場合、結果が得られないこともある
腫瘍あり 腫瘍なし 計
暴露(A群) 52(1.8%) 2820 2872
⾮暴露(B群) 6(0.1%) 5043 5049
実験群と対照群を⽤意する ⼀⽅には、ある要因(暴露)を与え
他⽅には与えない ⼀定期間後
症例の発⽣を⽐較する
課題と問題点 - 続
腫瘍あり 腫瘍なし
暴露 66 14
⾮暴露 27 15
計 93 29
ケースコントロール
(Case Control)
研究(
症例対応研究)
「たまたま」、腫瘍のある⼈が93⼈、ない⼈が29⼈いました
各々のグループで要因(暴露)の有無を(事後的に)調べたら上の表のようになりました
結果(腫瘍のあるなし)をみて、要因を事後的に調べる、という意味で「後ろ向きの研究」ともいわれる
○ データは得やすい
× コホート研究に⽐べて、⺟集団との対応が不明確 ここで、使われる検定⼿法が
1) カイ⼆乗検定であり
2) 次回以降、「オッズ⽐」、「相対リスク」などの話題を取り上げる
2013/1/12 Nara University of Education 225
医療統計 -12 2013/1/10 A HAPPY NEW YEAR
2013/1/12 Nara University of Education 226
リスク⽐とオッズ⽐
項⽬B 項⽬⾮B 項⽬A
項⽬⾮A
カイ⼆乗検定とは、
縦項⽬
A
と横項⽬B
が 関連があるか否か?を検定すること 得られる結論は
・関連がある
・関連がない
(
独⽴)
→
故に「独⽴性の検定」というもっと積極的に、要因と結果の因果関係を知りたい 特に医学
(
疫学)
分野で関⼼のあること発症(+) 発症(-) 危険因⼦(+)
危険因⼦(-)
項⽬A(ex年代)と 項⽬B(ex映画へ⾏く)は なんでもよい
危険因⼦が 発症の原因といえる かどうかを知りたい
2013/1/12 Nara University of Education 227
カイ⼆乗検定で分かること、分からないこと
どっちが好き? 邦楽 洋楽 計
若い 1 0 20 30
若くない 2 0 40 60
計 30 60 90 χ2= 0
どっちが好き? 邦楽 洋楽 計
若い 0 30 30
若くない 6 0 0 60
計 60 30 90 χ2= 90
どっちが好き? 邦楽 洋楽 計
若い 3 0 0 30
若くない 0 60 60
計 30 60 90 χ2= 90
若さと好みは無関係なら
→χ2 の値は⼩さくなる
(
完全に同じ割合ならχ2=0)若い⼈は「必ず」洋楽が好きなら
→χ2 の値は⼤きくなる
(
最⼤ではデータ総数)
全く逆の傾向でも、
χ
2 の値は同じ
χ2
の値は、縦項⽬と横項⽬の関連の強さ、のみを表す 関連の「⽅向性/
傾向」は⽰されていない2013/1/12 Nara University of Education 228
疫学では⽅向性が⼤事 ( リスクとオッズ )
発症(+) 発症(-) 危険因⼦(+) a b 危険因⼦(-) c d
危険因⼦
(Risk-Factor)
・・・病原菌、放射線、遺伝要因など・・結果
(Outcome)
・・発症、発病など・・発症
(+)
に着⽬して、発症数(+)/
全体をRISK(
リスク)
発症数
(+)/
発症数(-)
をODDS(
オッズ)
という(
定義)
危険因⼦の(+)
と(-)
について、この値の⽐をリスク⽐(Risk Ratio
:RR)
、オッズ⽐(Odds Ratio:OR)
という(
定義)
慣習上危険因⼦
(Risk-Factor)=
薬品 結果(Outcome)=
治癒 でも、こう⾔う発症(+) 発症のリスク 発症のオッヅ 発症(-) 危険因⼦(+) a R+=a/(a+b) O+=a/b b
危険因⼦(-) c R-=c/(c+d) O-=c/d d
リスク⽐=R+/R- オッヅ⽐
=O+/O-リスク⽐
/
オッヅ⽐、どちらも危険因⼦のあるなしでの発症の起こりやす さの⽬安になっているRatio (⽐、⽐率) レイシオレイショウ
/réɪʃoʊ, ‐ʃiòʊ|‐ʃi`əʊ/
2013/1/12 Nara University of Education 229
リスク⽐ (RR) とオッズ⽐ (OR) 、 例を⾒る
リスク⽐
(RR)=0.825/0.643=1.28
オッズ⽐(OR)=4.71/1.80=2.61
どちらも
1
以上であるということは、放射線暴露が腫瘍発⽣を増加させる ことを⽰している例 腫瘍発症(+) 発症リスク 発症オッズ 腫瘍⾮発症(-) 放射線暴露(+) 66 0.825 4.71 14 放射線⾮暴露(-) 27 0.643 1.80 15
例 ⼼⾎管疾患(+) リスク オッズ ⼼⾎管疾患(-) アスピリン投与 40 0.080 0.087 460 プラセボ(偽薬)投与 60 0.120 0.136 440
リスク⽐
(RR)=0.080/0.120=0.667
オッズ⽐(OR)=0.087/0.136=0.638
どちらも
1
以下であるということは、アスピリン投与が⼼⾎管疾患発症を 抑制していることを⽰しているでは、どちらの⽐を⽤いるのが適切であろうか?
暴露(ばくろ) さらすこと
2013/1/12 Nara University of Education 230
前向きと後ろ向き研究
前向き研究〜コホート研究〜統制群による研究
実験群と対照群を⽤意する ⼀⽅には、ある要因(暴露)を与え 他⽅には与えない
後ろ向き研究〜ケース・コントロール研究
→未来
各群での発症の有 無を調べる
現在発症している群
現在発症していない群
過去にさかのぼっ て原因(要因)の有 無を調べる
→過去
前向きではリスク⽐ (RR) 、後ろ向きではオッズ⽐ (OR) WHY? -1
標語:前向き研究ではリスク⽐
(RR)
、後ろ向き研究ではオッズ⽐(OR)
を使う前向きではどちらでも⼤差はでないが、
後ろ向きでリスク⽐を使うと不都合(誤った検定)の可能性がある
例
1
:前向き研究の例アスピリン投与群と偽薬投与群を⽤意して、以下のデータになった。リスク⽐と オッズ⽐は⽰したとおりである。
介⼊実験 ⼼⾎管疾患(+) RISK ODDS ⼼⾎管疾患(-) 計 アスピリン 40 0.080 0.087 460 500
プラセボ(偽薬) 60 0.120 0.136 440 500
RATIO(RR/OR) 0.667 0.638
課題:プラセボ投与群を
10
倍にしたとき、リスク⽐とオッズ⽐はどうなるか?介⼊実験 ⼼⾎管疾患(+) RISK ODDS ⼼⾎管疾患(-) 計
アスピリン 40 460 500
プラセボ(偽薬) 600 4400 5000
RATIO(RR/OR)
群の規模を⼤きく変化させても
RR/ORのどちらも変化がないことが分かるはず
例
2
:後ろ向き研究の例胃ガンの発症群と⾮発症群について、過去の飲酒の有無を調べた。リスク⽐
(RR)
と オッズ⽐(OR)
は⽰したとおりである。後ろ向き研究では、現在の発症の有無でグループを作るので、
課題:⾮発症者を
10
倍にしたとき、RISK
⽐とODD
⽐はどうなるか?後ろ向き研究 胃ガン発症(+) RISK ODDS 胃ガン発症(-) 計 毎⽇飲酒(+) 150 0.60 1.50 100 250 毎⽇飲酒(-) 350 0.47 0.88 400 750
計 500 500
RATIO(RR/OR) 1.29 1.71
後ろ向き研究 胃ガン発症(+) RISK ODDS 胃ガン発症(-) 計
毎⽇飲酒(+) 150 1000 1150
毎⽇飲酒(-) 350 4000 4350
計 500 5000
RATIO(RR/OR)
ORはほとんど変わらないが RRは⼤きく異なることが分かるはず
前向きではリスク⽐ (RR) 、後ろ向きではオッズ⽐ (OR) WHY? -2
2013/1/12 Nara University of Education 233
•
前向き研究では、要因の有無でグループを作り、グループ毎のサイズを決める(
変 化させる)
•
後ろ向き研究では、現在のOutcome(
結果〜発症)
毎にグループを作り、そのサイ ズを決める(
変化させる)
• RISK
⽐とODDS
⽐は、値が⼩さい場合はよく似た値となり、何かの要因がある場 合とない場合の結果への影響度を⽰す指標である。•
どちらかといえば、RISK
⽐の⽅が(
発症者/
全体で)
意味が明瞭なのでなるべくこち らを使いたいのだが、・・•
後ろ向き研究では、サイズを実験の都合で決める(
変化させる)
場合、RISK
⽐は安定 した指標にならないので、ODDS
⽐を⽤いる•
前向き研究では、RISK
⽐を使うことになっている前向きではリスク⽐ (RR) 、後ろ向きではオッズ⽐ (OR) 結論
2013/1/12 Nara University of Education 234
前向きではグループ計、後ろ向きでは症例計
•
前向き研究では、グループの計のみ記録する介⼊実験 ⼼⾎管疾患(+) ⼼⾎管疾患(-) 計
アスピリン 40 460 500
プラセボ(偽薬) 60 440 500
後ろ向き研究 胃ガン発症(+) 胃ガン発症(-) 毎⽇飲酒(+) 150 100 毎⽇飲酒(-) 350 400
計 500 500
•
後ろ向き研究では、結果のグループの計のみ書く•
「研究に当たって、最初に決める数」という意味を強調するためにこういう⾵に する習慣である2013/1/12 Nara University of Education 235
最初に「後ろ向き」から 〜 Odds とは
ある現象(A)が起きた回数 起きなかった回数 計
a b a+b
Probable
:ありそうなProbability
:確率Odd
:奇妙な、希な、珍しいOdds
:珍しさ、賭の倍率・・ある現象
(A)
に着⽬して、確率(P)
は、(A)
の回数/
全体このことを、別の⾔い⽅で、オッズ
(O)
は、(A)
の回数/(A)
でない回数 と表す。(
起こりやすさ/
起こりにくさの表現のしかたの違い)
もちろん、である
b O a
b a P a
) 1 , ( ) 1
( O
P O P O P
A NOT(A) 計回数 10 30 40 確率 0.25 0.75 1
オッズ 0.333 3 (積が1)
2013/1/12 Nara University of Education 236
オッズ⽐ (Odds Ratio : OR)
発症(+) ⾮発症(-) 危険要因(+) a b 危険要因(-) c d
危険要因がある場合
(+)
、発症(+)
のオッズはa/b
危険要因がない場合
(-)
の発症(+)
のオッズはc/d
と定義する例 腫瘍発症(+) 腫瘍⾮発症(-) 放射線暴露(+) 66 (O=66/14=4.71) 14 放射線⾮暴露(-) 27 (O=27/15=1.8) 15
⼆つのオッズ
(a/b=4.71
とc/d=1.8)
の⽐=ad/bc=2.6
を オッズ⽐(OR
:Odds Ratio)
という。オッズ⽐が
1
以上だと、危険要因(
放射線)
がある場合の発症のリスクが(
危険要因のな い場合より)
⾼い、といえる、定量的には、
危険要因
(
放射線)
がある場合の発症のリスクは(
危険要因がない場合の)2.6
倍である、というイメージである。