• 検索結果がありません。

0.573 3.84カイ⼆乗分布

ドキュメント内 Microsoft PowerPoint - statistics-12B.pptx (ページ 54-68)

1) 復習:先週の1次元パターン

ある項⽬の観測値が、何らかの基準となる⽐率から計算される値(期待値あるいは理論 値)と整合しているかを判定する=「適合度の判定」ともいう

項⽬1 項⽬2 ・・・ ・・・ 項⽬n

観測値(Obs) O1 O2 On N

期待値(Exp) E1 E2 En N

O-E)^2/E χ 2

n n n

E E O E

E O E

E

O 2

2 2 2 2 1

2 1

2( 1 ) (  ) (  )

⾃由度

N-1

、以下のχ 2によって、カイ⼆乗分布の検定を⾏う

2013/1/12 Nara University of Education 214

カイ⼆乗検定 (2 次元パターン )

2) 今回は2次元パターン(クロス集計表)

例えば、年代という要因と、映画館によく⾏くという現象には相関があるか?

「表側(ひょうそく)」を「説明変数」、「表頭(ひょうとう)」を「⽬的変数」というこ ともあるまた、縦を「Factor(要因)」、横を「Outcome(結果)」と呼べる場合もある

縦の項⽬と、横の項⽬に何らかの関連があ るのか否かを検定することを

独⽴性の検定」という

(

「独⽴」とは、関係がない、という意味

)

帰無仮説としては

縦と横の項⽬は独⽴

つまり、関連がないと仮定して 現実のデータの実現確率を統計学的に検定 する、ということ

年齢 毎週 1,2 年数回 ⾏かない

10代 1 2 3 1 7⼈

20代 2 2 5 0

30 3

映画をどのくらい⾒に⾏きますか?

表頭

表側

カイ⼆乗検定 (2 次元パターン ) 例 -1

例として

O(観測データ)

肺癌発症 ⾮発症

喫煙 16 11 27

⾮喫煙 16 7 23

32 18 50

64% 36%

E(期待値)

肺癌発症 ⾮発症

喫煙 17.28 9.72 27

⾮喫煙 14.72 8.28 23

32 18 50

(O-E)^2/E

肺癌発症 ⾮発症 喫煙 0.095 0.169 0.263

⾮喫煙 0.111 0.198 0.309

0.573

帰無仮説 (喫煙と発症は無関係)

全体としての発症率は32/50=0.64 これが、喫煙

/

⾮喫煙と無関係なら

(

これが帰無仮説

)

喫煙者の発症数は

27*0.64=17.28

⾮喫煙者の発症数も

23*0.64=14.72

となることが期待される

(64%36%に⽐例配分する、ということ)

観測データ(O)と、期待値(E)の対応するマス⽬に ついて、

(O-E)^2/E

を計算し、

すべての和を取ったものがχ 2である

(0.573)

→検定は、次のスライドへ

カイ⼆乗検定 (2 次元パターン ) 例 -1 続

前スライドから このデータについて χ

2

=0.573

⾃由度 (dF)=( 2-1 )*(2-1)=1

項⽬A 項⽬B

項⽬1 a b a+b

項⽬2 c d

a+c N

変数

(a,b,c,d)=2

×

2

個、

3

つの合計

(a+b,a+c,N)

が決まれ ば、他(c+d,b+d)は決まるから

⾃由度dF=4-3=1

⼀般に

n

m

列の項⽬の⾃由度は dF=(n-1)×(m-1) となる

Slide-136 ⾃由度 dFとは、変数の個数 -(必要最⼩限の)条件式の数 2次元パターンの⾃由度とは

自由度 0.05 0.01 1 3.84 6.63 2 5.99 9.21 3 7.81 11.34 4 9.49 13.28 5 11.07 15.09 6 12.59 16.81 p(有意水準)

カイ⼆乗分布表から、

dF=1

、有意⽔準

5%

では χ2α

=3.84 > 0.573

故に、棄却できない

結論:「喫煙と肺癌の発症には関連がない」

は5%の有意⽔準で棄却できない

(*

このデータからは、こういう結論になるということです

)

5%

棄却域

0.573 3.84

カイ⼆乗分布 カイ⼆乗分布表

Slide-209

2013/1/12 Nara University of Education 217

カイ⼆乗検定 課題 -1

Slide-205 のデータを書き換えて以下のように⾒る

測定データ 不整脈自覚あり 不整脈自覚なし

コーヒー常飲者■%▲% 147

コーヒー非常飲者■%▲% 646

235 ■% 558 ▲% 793

帰無仮説:「コーヒーの常飲と不整脈の⾃覚有無とは無関係」とする

このとき、サンプル全体として「⾃覚あり」の割合は ■%、「⾃覚なし」は▲%

これを⽤いて、コーヒー常飲者と⾮常飲者の「⾃覚あり/なし」についての「期待される」値 を決めてください。

(

コーヒーの常飲の有無と、不整脈⾃覚の有無に関係がないとすれば

(=

帰無仮説

)

、単に

793

⼈ 中

235

⼈が不整脈⾃覚あり、

558

⼈に⾃覚なしということである。

そうであれば、コーヒーの常飲とは無関係に、不整脈の⾃覚あり/なしの⼈数が決まるはずで ある。これを「帰無仮説の元での期待値」という)

測定データ 不整脈自覚あり 不整脈自覚なし

コーヒー常飲者 17 130 147

コーヒー非常飲者 218 428 646

235 ■% 558 ▲% 793

2013/1/12 Nara University of Education 218

カイ⼆乗検定 課題 -1 続

では、対応するデータについて χ

2

を計算してください

O(実験データ) 自覚あり 自覚なし 計

Coffee常飲 17 130

Coffee非常飲 218 428 (O-E)^2/E 自覚あり 自覚なし 計

Coffee常飲

Coffee非常飲

E(期待値) 自覚あり 自覚なし 計 χ2

Coffee常飲 Coffee非常飲

χ

2

は=■

⾃由度は

=

有意⽔準5%でカイ⼆乗分布表を⾒るとχ2α

=■

有意⽔準1%では、χ2α

=■

結論:■

2013/1/12 Nara University of Education 219

カイ⼆乗検定 課題 -2

3

つの地域から無作為にサンプル調査をした年齢別⼈⼝構成が以下のようであった。

これらの地域の年齢別⼈⼝構成に有意な差があると⾔えるであろうか?検定しな さい。

帰無仮説:「

3

つ地域の年齢別⼈⼝構成に有意な差はない」

検定の過程と結論

χ

2

=

dF=

χ2(5%)=

χ2(1%)=

結論

:

⼈⼝構成に有意な 差がある?ない?■

(O)観測度数 0-24 25-49 50-

A市 21 143 220 384

B市 43 132 187 362

C市 56 121 189 366

120 396 596 1112

(E)期待値 0-24 25-49 50-

A市 384

B市 362

C市 366

120 396 596 1112

(O-E)^2/E 0-24 25-49 50- A市

B市 C市

2013/1/12 Nara University of Education 220

カイ⼆乗の計算 (2 × 2 の公式 )

項⽬A 項⽬B

項⽬1 a b a+b

項⽬2 c d c+d

a+c b+d N(a+b+c+d)

n

×

m

の表からカイ⼆乗の値

χ

2を求める⼿順は理解できたと思います。

この⼿順を理解した上で、

2

×

2

の場合の以下の公式も有⽤です。(導出はがんばればできます)

) ( ) ( ) ( ) (

) (

)

(

2

2

d b c a d c b a

d c b a c b d a

 

この式を⾒れば、対称性から、表の縦横(表頭、表側)を⼊れ替えてもカイ⼆乗の値は同じであることが分かり

ます。(c←→bとしても、値は変わりません)

計算例として(Slide-215のデータで) O(観測データ)

肺癌発症 ⾮発症

喫煙 16 11 27

⾮喫煙 16 7 23

32 18 50

573 . 23 0 27 18 32

50 ) 11 16 7 16

(

2

2

 

Slide-215 の値と⼀致します

2013/1/12 Nara University of Education 221

カイ⼆乗検定 課題 -3

運動の量の多少と冠動脈疾患の有無に関して、下のデータについてカイ⼆乗検定を⾏い なさい

実測データ 冠動脈疾患あり 冠動脈疾患なし 計

運動量少ない 36 249 285

運動量多い 23 275 298

59 524 583

χ 2

帰無仮説:運動の量の多少と冠動脈疾患の有無には関連がない 前スライドの公式によって、

χ

2の値は

=

⾃由度

dF=

有意⽔準

5%

1%

でのカイ⼆乗分布表から

χ2(5%)=

χ2(1%)=

結論は:運動量の多少と冠動脈疾患の有無に関して、帰無仮説は 棄却される?されない? ■

自由度 0.05 0.01 1 3.84 6.63 2 5.99 9.21 3 7.81 11.34 4 9.49 13.28 5 11.07 15.09 6 12.59 16.81 p(有意水準) カイ⼆乗分布表

Slide-209

2013/1/12 Nara University of Education 222

カイ⼆乗検定 Excel 関数 (CHITEST)

カイ⼆乗検定の⼿順を要約すれば

1)

観測値

(O)→

期待値

(E)→Σ(O-E)

2

/E=χ

2 を計算し

2)

カイ⼆乗分布表の⾃由度

(dF)

とα=5%、

1%

欄を

LookUp

しχ2αを調べる

3)

χ2 がχ2αより⼤きければ有意⽔準5%/1%で帰無仮説は棄却される 上の

2)

3)

Excel

の関数

CHITEST(

カイ・テスト

)

で実⾏できる

カイ⼆乗分布(dF=1) O(観測データ) 肺癌発症 ⾮発症

喫煙 16 11 27

⾮喫煙 16 7 23

32 18 50

E(期待値) 肺癌発症 ⾮発症

喫煙 17.28 9.72 27

⾮喫煙 14.72 8.28 23

32 18 50

CHITEST 0.449

答え

(

上側確率

) Slide-217の結果では

この問題でのχ2

=0.574であった

0.449とは、この値より右側の確率(⾯積)を表している

これが

5%(0.05)

より「遥かに」⼤きいので、棄却域には⼊っていないということになる

5%棄却域

0.574 3.84

課題と問題点

コホート

(Cohort)

研究

cohort(英)

もともとは、古代ローマにおける歩兵隊の単位。

疫学では、共通の因⼦を持った個⼈の集合という意味で⽤いる。(マウスでもそういう)

ある薬を服⽤した集団と服⽤していない集団とに分類し、⽐較すること・・等・・で因果関係を調べること

○ 実験データの意味がはっきりしている、実験として望ましいが

× 時間がかかる、費⽤がかかる、

× ⻑期間の追跡が困難、

× 希にしか起こらない症例の場合、結果が得られないこともある

腫瘍あり 腫瘍なし

暴露(A) 52(1.8%) 2820 2872

⾮暴露(B) 6(0.1%) 5043 5049

実験群と対照群を⽤意する ⼀⽅には、ある要因(暴露)を与え

他⽅には与えない ⼀定期間後

症例の発⽣を⽐較する

課題と問題点 - 続

腫瘍あり 腫瘍なし

暴露 66 14

⾮暴露 27 15

93 29

ケースコントロール

(Case Control)

研究

(

症例対応研究

)

「たまたま」、腫瘍のある⼈が93⼈、ない⼈が29⼈いました

各々のグループで要因(暴露)の有無を(事後的に)調べたら上の表のようになりました

結果(腫瘍のあるなし)をみて、要因を事後的に調べる、という意味で「後ろ向きの研究」ともいわれる

○ データは得やすい

× コホート研究に⽐べて、⺟集団との対応が不明確 ここで、使われる検定⼿法が

1) カイ⼆乗検定であり

2) 次回以降、「オッズ⽐」、「相対リスク」などの話題を取り上げる

2013/1/12 Nara University of Education 225

医療統計 -12 2013/1/10 A HAPPY NEW YEAR

2013/1/12 Nara University of Education 226

リスク⽐とオッズ⽐

項⽬B 項⽬⾮B 項⽬A

項⽬⾮A

カイ⼆乗検定とは、

縦項⽬

A

と横項⽬

B

が 関連があるか否か?

を検定すること 得られる結論は

・関連がある

・関連がない

(

独⽴

)

故に「独⽴性の検定」という

もっと積極的に、要因と結果の因果関係を知りたい 特に医学

(

疫学

)

分野で関⼼のあること

発症(+) 発症(-) 危険因⼦(+)

危険因⼦(-)

項⽬A(ex年代)と 項⽬B(ex映画へ⾏く) なんでもよい

危険因⼦が 発症の原因といえる かどうかを知りたい

2013/1/12 Nara University of Education 227

カイ⼆乗検定で分かること、分からないこと

どっちが好き? 邦楽 洋楽

若い 1 0 20 30

若くない 2 0 40 60

30 60 90 χ2= 0

どっちが好き? 邦楽 洋楽

若い 0 30 30

若くない 6 0 0 60

60 30 90 χ2= 90

どっちが好き? 邦楽 洋楽

若い 3 0 0 30

若くない 0 60 60

30 60 90 χ2= 90

若さと好みは無関係なら

→χ2 の値は⼩さくなる

(

完全に同じ割合ならχ2=0)

若い⼈は「必ず」洋楽が好きなら

→χ2 の値は⼤きくなる

(

最⼤ではデータ総数

)

全く逆の傾向でも、

χ

2 の値は同じ

χ2

の値は、縦項⽬と横項⽬の関連の強さ、のみを表す 関連の「⽅向性

/

傾向」は⽰されていない

2013/1/12 Nara University of Education 228

疫学では⽅向性が⼤事 ( リスクとオッズ )

発症(+) 発症(-) 危険因⼦(+) a b 危険因⼦(-) c d

危険因⼦

(Risk-Factor)

・・・病原菌、放射線、遺伝要因など・・

結果

(Outcome)

・・発症、発病など・・

発症

(+)

に着⽬して、発症数

(+)/

全体を

RISK(

リスク

)

発症数

(+)/

発症数

(-)

ODDS(

オッズ

)

という

(

定義

)

危険因⼦の

(+)

(-)

について、この値の⽐をリスク⽐

(Risk Ratio

RR)

、オッズ⽐

(Odds Ratio:OR)

という

(

定義

)

慣習上危険因⼦

(Risk-Factor)=

薬品 結果

(Outcome)=

治癒 でも、こう⾔う

発症(+) 発症のリスク 発症のオッヅ 発症(-) 危険因⼦(+) a R+=a/(a+b) O+=a/b b

危険因⼦(-) c R-=c/(c+d) O-=c/d d

リスク⽐=R+/R- オッヅ⽐

=O+/O-リスク⽐

/

オッヅ⽐、どちらも危険因⼦のあるなしでの発症の起こりやす さの⽬安になっている

Ratio (⽐、⽐率) レイシオレイショウ

/réɪʃoʊ, ‐ʃiòʊ|‐ʃi`əʊ/

2013/1/12 Nara University of Education 229

リスク⽐ (RR) とオッズ⽐ (OR) 、 例を⾒る

リスク⽐

(RR)=0.825/0.643=1.28

オッズ⽐

(OR)=4.71/1.80=2.61

どちらも

1

以上であるということは、放射線暴露が腫瘍発⽣を増加させる ことを⽰している

腫瘍発症(+) 発症リスク 発症オッズ 腫瘍⾮発症(-) 放射線暴露(+) 66 0.825 4.71 14 放射線⾮暴露(-) 27 0.643 1.80 15

⼼⾎管疾患(+) リスク オッズ ⼼⾎管疾患(-) アスピリン投与 40 0.080 0.087 460 プラセボ(偽薬)投与 60 0.120 0.136 440

リスク⽐

(RR)=0.080/0.120=0.667

オッズ⽐

(OR)=0.087/0.136=0.638

どちらも

1

以下であるということは、アスピリン投与が⼼⾎管疾患発症を 抑制していることを⽰している

では、どちらの⽐を⽤いるのが適切であろうか?

暴露(ばくろ) さらすこと

2013/1/12 Nara University of Education 230

前向きと後ろ向き研究

前向き研究〜コホート研究〜統制群による研究

実験群と対照群を⽤意する ⼀⽅には、ある要因(暴露)を与え 他⽅には与えない

後ろ向き研究〜ケース・コントロール研究

未来

各群での発症の有 無を調べる

現在発症している群

現在発症していない群

過去にさかのぼっ て原因(要因)の有 無を調べる

過去

前向きではリスク⽐ (RR) 、後ろ向きではオッズ⽐ (OR) WHY? -1

標語:前向き研究ではリスク⽐

(RR)

、後ろ向き研究ではオッズ⽐

(OR)

を使う

前向きではどちらでも⼤差はでないが、

後ろ向きでリスク⽐を使うと不都合(誤った検定)の可能性がある

1

:前向き研究の例

アスピリン投与群と偽薬投与群を⽤意して、以下のデータになった。リスク⽐と オッズ⽐は⽰したとおりである。

介⼊実験 ⼼⾎管疾患(+) RISK ODDS ⼼⾎管疾患(-) アスピリン 40 0.080 0.087 460 500

プラセボ(偽薬) 60 0.120 0.136 440 500

RATIO(RR/OR) 0.667 0.638

課題:プラセボ投与群を

10

倍にしたとき、リスク⽐とオッズ⽐はどうなるか?

介⼊実験 ⼼⾎管疾患(+) RISK ODDS ⼼⾎管疾患(-)

アスピリン 40 460 500

プラセボ(偽薬) 600 4400 5000

RATIO(RR/OR)

群の規模を⼤きく変化させても

RR/ORのどちらも変化がないことが分かるはず

2

:後ろ向き研究の例

胃ガンの発症群と⾮発症群について、過去の飲酒の有無を調べた。リスク⽐

(RR)

と オッズ⽐

(OR)

は⽰したとおりである。

後ろ向き研究では、現在の発症の有無でグループを作るので、

課題:⾮発症者を

10

倍にしたとき、

RISK

⽐と

ODD

⽐はどうなるか?

後ろ向き研究 胃ガン発症(+) RISK ODDS 胃ガン発症(-) 毎⽇飲酒(+) 150 0.60 1.50 100 250 毎⽇飲酒(-) 350 0.47 0.88 400 750

500 500

RATIO(RR/OR) 1.29 1.71

後ろ向き研究 胃ガン発症(+) RISK ODDS 胃ガン発症(-)

毎⽇飲酒(+) 150 1000 1150

毎⽇飲酒(-) 350 4000 4350

500 5000

RATIO(RR/OR)

ORはほとんど変わらないが RRは⼤きく異なることが分かるはず

前向きではリスク⽐ (RR) 、後ろ向きではオッズ⽐ (OR) WHY? -2

2013/1/12 Nara University of Education 233

前向き研究では、要因の有無でグループを作り、グループ毎のサイズを決める

(

変 化させる

)

後ろ向き研究では、現在の

Outcome(

結果〜発症

)

毎にグループを作り、そのサイ ズを決める

(

変化させる

)

• RISK

⽐と

ODDS

⽐は、値が⼩さい場合はよく似た値となり、何かの要因がある場 合とない場合の結果への影響度を⽰す指標である。

どちらかといえば、

RISK

⽐の⽅が

(

発症者

/

全体で

)

意味が明瞭なのでなるべくこち らを使いたいのだが、・・

後ろ向き研究では、サイズを実験の都合で決める

(

変化させる

)

場合、

RISK

⽐は安定 した指標にならないので、

ODDS

⽐を⽤いる

前向き研究では、

RISK

⽐を使うことになっている

前向きではリスク⽐ (RR) 、後ろ向きではオッズ⽐ (OR) 結論

2013/1/12 Nara University of Education 234

前向きではグループ計、後ろ向きでは症例計

前向き研究では、グループの計のみ記録する

介⼊実験 ⼼⾎管疾患(+) ⼼⾎管疾患(-)

アスピリン 40 460 500

プラセボ(偽薬) 60 440 500

後ろ向き研究 胃ガン発症(+) 胃ガン発症(-) 毎⽇飲酒(+) 150 100 毎⽇飲酒(-) 350 400

500 500

後ろ向き研究では、結果のグループの計のみ書く

「研究に当たって、最初に決める数」という意味を強調するためにこういう⾵に する習慣である

2013/1/12 Nara University of Education 235

最初に「後ろ向き」から 〜 Odds とは

ある現象(A)が起きた回数 起きなかった回数

a b a+b

Probable

:ありそうな

Probability

:確率

Odd

:奇妙な、希な、珍しい

Odds

:珍しさ、賭の倍率・・

ある現象

(A)

に着⽬して、確率

(P)

は、

(A)

の回数

/

全体

このことを、別の⾔い⽅で、オッズ

(O)

は、

(A)

の回数

/(A)

でない回数 と表す。

(

起こりやすさ

/

起こりにくさの表現のしかたの違い

)

もちろん、

である

b Oa

b a P a

 

) 1 , ( ) 1

( O

P O P O P

 

 

A NOT(A)

回数 10 30 40 確率 0.25 0.75 1

オッズ 0.333 3 (積が1)

2013/1/12 Nara University of Education 236

オッズ⽐ (Odds Ratio : OR)

発症(+) ⾮発症(-) 危険要因(+) a b 危険要因(-) c d

危険要因がある場合

(+)

、発症

(+)

のオッズは

a/b

危険要因がない場合

(-)

の発症

(+)

のオッズは

c/d

と定義する

腫瘍発症(+) 腫瘍⾮発症(-) 放射線暴露(+) 66 (O=66/14=4.71) 14 放射線⾮暴露(-) 27 (O=27/15=1.8) 15

⼆つのオッズ

(a/b=4.71

c/d=1.8)

の⽐

=ad/bc=2.6

を オッズ⽐

(OR

Odds Ratio)

という。

オッズ⽐が

1

以上だと、危険要因

(

放射線

)

がある場合の発症のリスクが

(

危険要因のな い場合より

)

⾼い、といえる、

定量的には、

危険要因

(

放射線

)

がある場合の発症のリスクは

(

危険要因がない場合の

)2.6

倍である、

というイメージである。

ドキュメント内 Microsoft PowerPoint - statistics-12B.pptx (ページ 54-68)

関連したドキュメント