0.573 3.84カイ⼆乗分布 - Microsoft PowerPoint

1) 復習：先週の1次元パターン

ある項⽬の観測値が、何らかの基準となる⽐率から計算される値(期待値あるいは理論値)と整合しているかを判定する=「適合度の判定」ともいう

項⽬1 項⽬2 ・・・ ・・・ 項⽬n 計

観測値(Obs) O₁ O₂ O_n N

期待値(Exp) E₁ E₂ E_n N

（O-E)^2/E χ ²

n n n

E E O E

E O E

O ²

2 2 2 2 1

2 1

2( 1 ) (  ) (  )



⾃由度

N-1

、以下のχ ²によって、カイ⼆乗分布の検定を⾏う

2013/1/12 Nara University of Education 214

カイ⼆乗検定 (2 次元パターン )

2) 今回は2次元パターン(クロス集計表)

例えば、年代という要因と、映画館によく⾏くという現象には相関があるか？

「表側(ひょうそく)」を「説明変数」、「表頭(ひょうとう)」を「⽬的変数」ということもあるまた、縦を「Factor(要因)」、横を「Outcome(結果)」と呼べる場合もある

縦の項⽬と、横の項⽬に何らかの関連があるのか否かを検定することを

「独⽴性の検定」という

(

「独⽴」とは、関係がない、という意味

)

帰無仮説としては

縦と横の項⽬は独⽴

つまり、関連がないと仮定して現実のデータの実現確率を統計学的に検定する、ということ

年齢毎週⽉1,2回年数回⾏かない計

10代 1 2 3 1 7⼈

20代 2 2 5 0

30代 3

映画をどのくらい⾒に⾏きますか？

表頭

表側

カイ⼆乗検定 (2 次元パターン ) 例 -1

例として

O(観測データ)

肺癌発症⾮発症計

喫煙 16 11 27

⾮喫煙 16 7 23

計 32 18 50

64% 36%

E(期待値)

肺癌発症⾮発症計

喫煙 17.28 9.72 27

⾮喫煙 14.72 8.28 23

計 32 18 50

(O-E)^2/E

肺癌発症⾮発症計喫煙 0.095 0.169 0.263

⾮喫煙 0.111 0.198 0.309

計 0.573

帰無仮説 (喫煙と発症は無関係)

全体としての発症率は32/50=0.64 これが、喫煙

/

⾮喫煙と無関係なら

(

これが帰無仮説

)

喫煙者の発症数は

27*0.64=17.28

⾮喫煙者の発症数も

23*0.64=14.72

となることが期待される

(64%と36%に⽐例配分する、ということ)

観測データ(O)と、期待値(E)の対応するマス⽬について、

(O-E)^2/E

を計算し、

すべての和を取ったものがχ ²である

(0.573)

→検定は、次のスライドへ

カイ⼆乗検定 (2 次元パターン ) 例 -1 続

前スライドからこのデータについて χ

=0.573

⾃由度 (dF)=( 2-1 )*(2-1)=1

項⽬A 項⽬B 計

項⽬1 a b a+b

項⽬2 c d

計 a+c N

変数

(a,b,c,d)=2

2

個、

3

つの合計

(a+b,a+c,N)

が決まれば、他(c+d,b+d)は決まるから

⾃由度dF=4-3=1

⼀般に

n

⾏

m

列の項⽬の⾃由度は dF=(n-1)×(m-1) となる

Slide-136 ⾃由度 dFとは、変数の個数－(必要最⼩限の)条件式の数 2次元パターンの⾃由度とは

自由度 0.05 0.01 1 3.84 6.63 2 5.99 9.21 3 7.81 11.34 4 9.49 13.28 5 11.07 15.09 6 12.59 16.81 p(有意水準)

カイ⼆乗分布表から、

dF=1

、有意⽔準

5%

では χ²_α

=3.84 > 0.573

故に、棄却できない

結論：「喫煙と肺癌の発症には関連がない」

は5%の有意⽔準で棄却できない

(*

このデータからは、こういう結論になるということです

)

5%

棄却域

0.573 3.84

カイ⼆乗分布カイ⼆乗分布表

Slide-209

2013/1/12 Nara University of Education 217

カイ⼆乗検定課題 -1

Slide-205 のデータを書き換えて以下のように⾒る

測定データ不整脈自覚あり不整脈自覚なし計

コーヒー常飲者？ ■% ？ ▲% 147

コーヒー非常飲者？ ■% ？ ▲% 646

計 235 ■% 558 ▲% 793

帰無仮説：「コーヒーの常飲と不整脈の⾃覚有無とは無関係」とする

このとき、サンプル全体として「⾃覚あり」の割合は ■%、「⾃覚なし」は▲%

これを⽤いて、コーヒー常飲者と⾮常飲者の「⾃覚あり/なし」についての「期待される」値を決めてください。

(

コーヒーの常飲の有無と、不整脈⾃覚の有無に関係がないとすれば

(=

帰無仮説

)

、単に

793

⼈中

235

⼈が不整脈⾃覚あり、

558

⼈に⾃覚なしということである。

そうであれば、コーヒーの常飲とは無関係に、不整脈の⾃覚あり/なしの⼈数が決まるはずである。これを「帰無仮説の元での期待値」という)

測定データ不整脈自覚あり不整脈自覚なし計

コーヒー常飲者 17 130 147

コーヒー非常飲者 218 428 646

計 235 ■% 558 ▲% 793

2013/1/12 Nara University of Education 218

カイ⼆乗検定課題 -1 続

では、対応するデータについて χ

を計算してください

O(実験データ) 自覚あり自覚なし計

Coffee常飲 17 130

Coffee非常飲 218 428 (O-E)^2/E 自覚あり自覚なし計

計 Coffee常飲

Coffee非常飲

E(期待値) 自覚あり自覚なし計計 χ²

Coffee常飲 Coffee非常飲計

χ

は=■

⾃由度は

=

■

有意⽔準5%でカイ⼆乗分布表を⾒るとχ²_α

=■

有意⽔準1%では、χ²_α

=■

結論：■

2013/1/12 Nara University of Education 219

カイ⼆乗検定課題 -2

3

つの地域から無作為にサンプル調査をした年齢別⼈⼝構成が以下のようであった。

これらの地域の年齢別⼈⼝構成に有意な差があると⾔えるであろうか？検定しなさい。

帰無仮説：「

3

つ地域の年齢別⼈⼝構成に有意な差はない」

検定の過程と結論

χ

=

■

dF=

■

χ2(5%)=

■

χ2(1%)=

■

結論

:

⼈⼝構成に有意な差がある？ない？■

(O)観測度数 0-24 25-49 50- 計

A市 21 143 220 384

B市 43 132 187 362

C市 56 121 189 366

計 120 396 596 1112

(E)期待値 0-24 25-49 50- 計

A市 384

B市 362

C市 366

計 120 396 596 1112

(O-E)^2/E 0-24 25-49 50- 計 A市

B市 C市計

2013/1/12 Nara University of Education 220

カイ⼆乗の計算 (2 × 2 の公式 )

項⽬A 項⽬B 計

項⽬1 a b a+b

項⽬2 c d c+d

計 a+c b+d N(a+b+c+d)

n

m

の表からカイ⼆乗の値

χ

²を求める⼿順は理解できたと思います。

この⼿順を理解した上で、

2

の場合の以下の公式も有⽤です。⁽導出はがんばればできます)

) ( ) ( ) ( ) (

) (

)

(

d b c a d c b a

d c b a c b d a



















 



この式を⾒れば、対称性から、表の縦横(表頭、表側)を⼊れ替えてもカイ⼆乗の値は同じであることが分かり

ます。(c←→bとしても、値は変わりません)

計算例として(Slide-215のデータで) O(観測データ)

肺癌発症⾮発症計

喫煙 16 11 27

⾮喫煙 16 7 23

計 32 18 50

573 . 23 0 27 18 32

50 ) 11 16 7 16

(







 



Slide-215 の値と⼀致します

2013/1/12 Nara University of Education 221

カイ⼆乗検定課題 -3

運動の量の多少と冠動脈疾患の有無に関して、下のデータについてカイ⼆乗検定を⾏いなさい

実測データ冠動脈疾患あり冠動脈疾患なし計

運動量少ない 36 249 285

運動量多い 23 275 298

計 59 524 583

χ ² ？

帰無仮説：運動の量の多少と冠動脈疾患の有無には関連がない前スライドの公式によって、

χ

²の値は

=

■

⾃由度

dF=

■

有意⽔準

5%

と

1%

でのカイ⼆乗分布表から

χ2(5%)=

■

χ2(1%)=

■

結論は：運動量の多少と冠動脈疾患の有無に関して、帰無仮説は棄却される？されない？ ■

自由度 0.05 0.01 1 3.84 6.63 2 5.99 9.21 3 7.81 11.34 4 9.49 13.28 5 11.07 15.09 6 12.59 16.81 p(有意水準) カイ⼆乗分布表

Slide-209

2013/1/12 Nara University of Education 222

カイ⼆乗検定 Excel 関数 (CHITEST)

カイ⼆乗検定の⼿順を要約すれば

1)

観測値

(O)→

期待値

(E)→Σ(O-E)

/E=χ

² を計算し

2)

カイ⼆乗分布表の⾃由度

(dF)

とα=5%、

1%

欄を

LookUp

しχ²_αを調べる

3)

χ²がχ²_αより⼤きければ有意⽔準5%/1%で帰無仮説は棄却される上の

2)

と

3)

を

Excel

の関数

CHITEST(

カイ・テスト

)

で実⾏できる

カイ⼆乗分布(dF=1) O(観測データ) 肺癌発症⾮発症計

喫煙 16 11 27

⾮喫煙 16 7 23

計 32 18 50

E(期待値) 肺癌発症⾮発症計

喫煙 17.28 9.72 27

⾮喫煙 14.72 8.28 23

計 32 18 50

CHITEST 0.449

答え

(

上側確率

) Slide-217の結果では

この問題でのχ²

=0.574であった

0.449とは、この値より右側の確率(⾯積)を表している

これが

5%(0.05)

より「遥かに」⼤きいので、棄却域には⼊っていないということになる

5%棄却域

0.574 3.84

課題と問題点

コホート

(Cohort)

研究

cohort(英)

もともとは、古代ローマにおける歩兵隊の単位。

疫学では、共通の因⼦を持った個⼈の集合という意味で⽤いる。(マウスでもそういう)

ある薬を服⽤した集団と服⽤していない集団とに分類し、⽐較すること・・等・・で因果関係を調べること

○ 実験データの意味がはっきりしている、実験として望ましいが

× 時間がかかる、費⽤がかかる、

× ⻑期間の追跡が困難、

× 希にしか起こらない症例の場合、結果が得られないこともある

腫瘍あり腫瘍なし計

暴露(A群) 52(1.8%) 2820 2872

⾮暴露(B群) 6(0.1%) 5043 5049

実験群と対照群を⽤意する⼀⽅には、ある要因(暴露)を与え

他⽅には与えない⼀定期間後

症例の発⽣を⽐較する

課題と問題点 - 続

腫瘍あり腫瘍なし

暴露 66 14

⾮暴露 27 15

計 93 29

ケースコントロール

(Case Control)

研究

(

症例対応研究

)

「たまたま」、腫瘍のある⼈が93⼈、ない⼈が29⼈いました

各々のグループで要因(暴露)の有無を(事後的に)調べたら上の表のようになりました

結果(腫瘍のあるなし)をみて、要因を事後的に調べる、という意味で「後ろ向きの研究」ともいわれる

○ データは得やすい

× コホート研究に⽐べて、⺟集団との対応が不明確ここで、使われる検定⼿法が

1) カイ⼆乗検定であり

2) 次回以降、「オッズ⽐」、「相対リスク」などの話題を取り上げる

2013/1/12 Nara University of Education 225

医療統計 -12 2013/1/10 A HAPPY NEW YEAR

2013/1/12 Nara University of Education 226

リスク⽐とオッズ⽐

項⽬B 項⽬⾮B 項⽬A

項⽬⾮A

カイ⼆乗検定とは、

縦項⽬

A

と横項⽬

B

が関連があるか否か？

を検定すること得られる結論は

・関連がある

・関連がない

(

独⽴

)

→

故に「独⽴性の検定」という

もっと積極的に、要因と結果の因果関係を知りたい特に医学

(

疫学

)

分野で関⼼のあること

発症(+) 発症(-) 危険因⼦(+)

危険因⼦(-)

項⽬A(ex年代)と項⽬B(ex映画へ⾏く)はなんでもよい

危険因⼦が発症の原因といえるかどうかを知りたい

2013/1/12 Nara University of Education 227

カイ⼆乗検定で分かること、分からないこと

どっちが好き？邦楽洋楽計

若い 1 0 20 30

若くない 2 0 40 60

計 30 60 90 χ2= 0

どっちが好き？邦楽洋楽計

若い 0 30 30

若くない 6 0 0 60

計 60 30 90 χ2= 90

どっちが好き？邦楽洋楽計

若い 3 0 0 30

若くない 0 60 60

計 30 60 90 χ2= 90

若さと好みは無関係なら

→χ2 の値は⼩さくなる

(

完全に同じ割合ならχ2=0)

若い⼈は「必ず」洋楽が好きなら

→χ2 の値は⼤きくなる

(

最⼤ではデータ総数

)

全く逆の傾向でも、

2 の値は同じ

χ2

の値は、縦項⽬と横項⽬の関連の強さ、のみを表す関連の「⽅向性

/

傾向」は⽰されていない

2013/1/12 Nara University of Education 228

疫学では⽅向性が⼤事 ( リスクとオッズ )

発症(+) 発症(-) 危険因⼦(+) a b 危険因⼦(-) c d

危険因⼦

(Risk-Factor)

・・・病原菌、放射線、遺伝要因など・・

結果

(Outcome)

・・発症、発病など・・

発症

(+)

に着⽬して、発症数

(+)/

全体を

RISK(

リスク

)

発症数

(+)/

発症数

(-)

を

ODDS(

オッズ

)

という

(

定義

)

危険因⼦の

(+)

と

(-)

について、この値の⽐をリスク⽐

(Risk Ratio

：

RR)

、オッズ⽐

(Odds Ratio:OR)

という

(

定義

)

慣習上危険因⼦

(Risk-Factor)=

薬品結果

(Outcome)=

治癒でも、こう⾔う

発症(+) 発症のリスク発症のオッヅ発症(-) 危険因⼦(+) a R+=a/(a+b) O+=a/b b

危険因⼦(-) c R-=c/(c+d) O-=c/d d

リスク⽐=R+/R- オッヅ⽐

=O+/O-リスク⽐

/

オッヅ⽐、どちらも危険因⼦のあるなしでの発症の起こりやすさの⽬安になっている

Ratio (⽐、⽐率) レイシオレイショウ

/réɪʃoʊ, ‐ʃiòʊ｜‐ʃi`əʊ/

2013/1/12 Nara University of Education 229

リスク⽐ (RR) とオッズ⽐ (OR) 、例を⾒る

リスク⽐

(RR)=0.825/0.643=1.28

オッズ⽐

(OR)=4.71/1.80=2.61

どちらも

1

以上であるということは、放射線暴露が腫瘍発⽣を増加させる ことを⽰している

例腫瘍発症(+) 発症リスク発症オッズ腫瘍⾮発症(-) 放射線暴露(+) 66 0.825 4.71 14 放射線⾮暴露(-) 27 0.643 1.80 15

例⼼⾎管疾患(+) リスクオッズ⼼⾎管疾患(-) アスピリン投与 40 0.080 0.087 460 プラセボ(偽薬)投与 60 0.120 0.136 440

リスク⽐

(RR)=0.080/0.120=0.667

オッズ⽐

(OR)=0.087/0.136=0.638

どちらも

1

以下であるということは、アスピリン投与が⼼⾎管疾患発症を 抑制していることを⽰している

では、どちらの⽐を⽤いるのが適切であろうか？

暴露(ばくろ) さらすこと

2013/1/12 Nara University of Education 230

前向きと後ろ向き研究

前向き研究〜コホート研究〜統制群による研究

実験群と対照群を⽤意する⼀⽅には、ある要因(暴露)を与え他⽅には与えない

後ろ向き研究〜ケース・コントロール研究

→未来

各群での発症の有無を調べる

現在発症している群

現在発症していない群

過去にさかのぼって原因(要因)の有無を調べる

→過去

前向きではリスク⽐ (RR) 、後ろ向きではオッズ⽐ (OR) WHY? -1

標語：前向き研究ではリスク⽐

(RR)

、後ろ向き研究ではオッズ⽐

(OR)

を使う

前向きではどちらでも⼤差はでないが、

後ろ向きでリスク⽐を使うと不都合(誤った検定)の可能性がある

例

1

：前向き研究の例

アスピリン投与群と偽薬投与群を⽤意して、以下のデータになった。リスク⽐とオッズ⽐は⽰したとおりである。

介⼊実験⼼⾎管疾患(+) RISK ODDS ⼼⾎管疾患(-) 計アスピリン 40 0.080 0.087 460 500

プラセボ(偽薬) 60 0.120 0.136 440 500

RATIO(RR/OR) 0.667 0.638

課題：プラセボ投与群を

10

倍にしたとき、リスク⽐とオッズ⽐はどうなるか？

介⼊実験⼼⾎管疾患(+) RISK ODDS ⼼⾎管疾患(-) 計

アスピリン 40 460 500

プラセボ(偽薬) 600 4400 5000

RATIO(RR/OR)

群の規模を⼤きく変化させても

RR/ORのどちらも変化がないことが分かるはず

例

2

：後ろ向き研究の例

胃ガンの発症群と⾮発症群について、過去の飲酒の有無を調べた。リスク⽐

(RR)

とオッズ⽐

(OR)

は⽰したとおりである。

後ろ向き研究では、現在の発症の有無でグループを作るので、

課題：⾮発症者を

10

倍にしたとき、

RISK

⽐と

ODD

⽐はどうなるか？

後ろ向き研究胃ガン発症(+) RISK ODDS 胃ガン発症(-) 計毎⽇飲酒(+) 150 0.60 1.50 100 250 毎⽇飲酒(-) 350 0.47 0.88 400 750

計 500 500

RATIO(RR/OR) 1.29 1.71

後ろ向き研究胃ガン発症(+) RISK ODDS 胃ガン発症(-) 計

毎⽇飲酒(+) 150 1000 1150

毎⽇飲酒(-) 350 4000 4350

計 500 5000

RATIO(RR/OR)

ORはほとんど変わらないが RRは⼤きく異なることが分かるはず

前向きではリスク⽐ (RR) 、後ろ向きではオッズ⽐ (OR) WHY? -2

2013/1/12 Nara University of Education 233

•

前向き研究では、要因の有無でグループを作り、グループ毎のサイズを決める

(

変化させる

)

•

後ろ向き研究では、現在の

Outcome(

結果〜発症

)

毎にグループを作り、そのサイズを決める

(

変化させる

)

• RISK

⽐と

ODDS

⽐は、値が⼩さい場合はよく似た値となり、何かの要因がある場合とない場合の結果への影響度を⽰す指標である。

•

どちらかといえば、

RISK

⽐の⽅が

(

発症者

/

全体で

)

意味が明瞭なのでなるべくこちらを使いたいのだが、・・

•

後ろ向き研究では、サイズを実験の都合で決める

(

変化させる

)

場合、

RISK

⽐は安定した指標にならないので、

ODDS

⽐を⽤いる

•

前向き研究では、

RISK

⽐を使うことになっている

前向きではリスク⽐ (RR) 、後ろ向きではオッズ⽐ (OR) 結論

2013/1/12 Nara University of Education 234

前向きではグループ計、後ろ向きでは症例計

•

前向き研究では、グループの計のみ記録する

介⼊実験⼼⾎管疾患(+) ⼼⾎管疾患(-) 計

アスピリン 40 460 500

プラセボ(偽薬) 60 440 500

後ろ向き研究胃ガン発症(+) 胃ガン発症(-) 毎⽇飲酒(+) 150 100 毎⽇飲酒(-) 350 400

計 500 500

•

後ろ向き研究では、結果のグループの計のみ書く

•

「研究に当たって、最初に決める数」という意味を強調するためにこういう⾵にする習慣である

2013/1/12 Nara University of Education 235

最初に「後ろ向き」から〜 Odds とは

ある現象(A)が起きた回数起きなかった回数計

a b a+b

Probable

：ありそうな

Probability

：確率

Odd

：奇妙な、希な、珍しい

Odds

：珍しさ、賭の倍率・・

ある現象

(A)

に着⽬して、確率

(P)

は、

(A)

の回数

/

全体

このことを、別の⾔い⽅で、オッズ

(O)

は、

(A)

の回数

/(A)

でない回数と表す。

(

起こりやすさ

/

起こりにくさの表現のしかたの違い

)

もちろん、

である

b O  a

b a P a

 

) 1 , ( ) 1

( O

P O P O P

 

 

_A _NOT(A) _計

回数 10 30 40 確率 0.25 0.75 1

オッズ 0.333 3 (積が1)

2013/1/12 Nara University of Education 236

オッズ⽐ (Odds Ratio ： OR)

発症(+) ⾮発症(-) 危険要因(+) a b 危険要因(-) c d

危険要因がある場合

(+)

、発症

(+)

のオッズは

a/b

危険要因がない場合

(-)

の発症

(+)

のオッズは

c/d

と定義する

例腫瘍発症(+) 腫瘍⾮発症(-) 放射線暴露(+) 66 (O=66/14=4.71) 14 放射線⾮暴露(-) 27 (O=27/15=1.8) 15

⼆つのオッズ

(a/b=4.71

と

c/d=1.8)

の⽐

=ad/bc=2.6

をオッズ⽐

(OR

：

Odds Ratio)

という。

オッズ⽐が

1

以上だと、危険要因

(

放射線

)

がある場合の発症のリスクが

(

危険要因のない場合より

)

⾼い、といえる、

定量的には、

危険要因

(

放射線

)

がある場合の発症のリスクは

(

危険要因がない場合の

)2.6

倍である、

というイメージである。

ドキュメント内 Microsoft PowerPoint - statistics-12B.pptx (ページ 54-68)

0.573 3.84カイ⼆乗分布

1) 復習：先週の1次元パターン

N-1

カイ⼆乗検定 (2 次元パターン )

2) 今回は2次元パターン(クロス集計表)

(

)

カイ⼆乗検定 (2 次元パターン ) 例 -1

例として

/

(

)

27*0.64=17.28

23*0.64=14.72

(O-E)^2/E

(0.573)

カイ⼆乗検定 (2 次元パターン ) 例 -1 続

前スライドから このデータについて χ

=0.573

⾃由度 (dF)=( 2-1 )*(2-1)=1

(a,b,c,d)=2

2

3

(a+b,a+c,N)

n

m

Slide-136 ⾃由度 dFとは、変数の個数 －(必要最⼩限の)条件式の数 2次元パターンの⾃由度とは

dF=1

5%

=3.84 > 0.573

(*

)

5%

0.573 3.84

Slide-209

カイ⼆乗検定 課題 -1

Slide-205 のデータを書き換えて以下のように⾒る

帰無仮説：「コーヒーの常飲と不整脈の⾃覚有無とは無関係」とする

(

(=

)

793

235

558

カイ⼆乗検定 課題 -1 続

では、対応するデータについて χ

を計算してください

χ

は=■

=

=■

=■

カイ⼆乗検定 課題 -2

3

3

χ

=

dF=

χ2(5%)=

χ2(1%)=

:

カイ⼆乗の計算 (2 × 2 の公式 )

n

m

χ

2

2

) ( ) ( ) ( ) (

) (

)

(

d b c a d c b a

d c b a c b d a















前スライドからこのデータについて χ

Slide-136 ⾃由度 dFとは、変数の個数－(必要最⼩限の)条件式の数 2次元パターンの⾃由度とは

カイ⼆乗検定課題 -1

カイ⼆乗検定課題 -1 続

カイ⼆乗検定課題 -2

カイ⼆乗検定課題 -3