• 検索結果がありません。

Fisher の精密検定

ドキュメント内 i (ページ 110-115)

第 8 章 2項分布 63

14.5 Fisher の精密検定

事象 E と事象F が独立であるかどうかを調べた結果,観測度数がつぎのようになっ たとする.

事象 E が起きた 事象E が起きなかった 計

事象 F が起きた a b a+b

事象F が起きなかった c d c+d

a+c b+d N

ただしN =a+b+c+d と置いた.

このデータに基づいて,帰無仮説「事象 E と事象F が独立である」の真偽を判断し たい.事象 E が起きる確率を p1 (事象E が起きない確率を q1 = 1−p1),事象F が 起きる確率を p2 (事象 F が起きない確率を q2 = 1−p2)と置く.もし帰無仮説が真 であるならば,事象EF がともに起きる確率は p1p2,事象E は起きるが事象F は 起きない確率はp1q2 等であるから,観測度数 a, b, c, dが得られる確率 f(a, b, c, d) は

f(a, b, c, d) = N!

a!b!c!d!(p1p2)a(q1p2)b(p1q2)c(q1q2)d

= n!

a!b!c!d!pa+c1 q1b+dpa+b2 qc+d2 となる.

この確率は,p1, p2 が未知であるので,具体的には計算できない.しかし,

周辺度数a+c, b+d, a+b, c+d が同一である a, b, c, dだけを考える ならば,

f(a, b, c, d) = K a!b!c!d!

と表すことができる.ここで比例定数K =n!pa+c1 qb+d1 pa+b2 q2c+d は未知の数である.と ころが,式の形をよく見ると,K は周辺度数だけに依存していて,観測度数そのもの

a, b, c, dには依存していない.この性質を利用して,次の事を示すことができる.

定理1

帰無仮説「事象 E と事象 F が独立である」が真であるとする.

周辺度数 a+c, b+d, a+b, c+d が与えられたとき,

観測度数 a, b, c, d が得られる条件付き確率は

f(a, b, c, d) = a+bCa·c+dCc

NCa+c

14.5. Fisherの精密検定 105 (証明) 確率の総和は 1に等しいから,

1

K = ∑

a+c,b+d,a+b,c+d が一定 1 a!b!c!d!

である.この右辺の和を具体的に求めよう.a+b=k, a+c=l と置く.2 項定理より

05a5k

kCaxa= (x+ 1)k および ∑

05c5nk

nkCcxc = (x+ 1)nk

である.この両辺どうしを掛け合わせて,xl の係数を比較してみる.右辺の積は(x+ 1)n であるから,xl の係数は

nCl = n!

(a+c)! (b+d)!

に等しい.一方,左辺の積は

a+c=l

kCa·nkCc = ∑

a+c,b+d,a+b,c+d が一定

(a+b)! (c+d)!

a!b!c!d!

に等しい.したがって 1

K = ∑

a+c,b+d,a+b,c+d が一定 1

a!b!c!d! = N!

(a+b)! (c+d)! (a+c)! (b+d)!

となる.これを用いれば,求めたいf(a, b, c, d)の表現を得ることができる.(証明終わり)

注意 定理1の確率分布は,壷の問題の解として現れるものと同じである.その事に気 がつくと,定理1の別証明(しかもはるかに簡単な証明)が得られる.a+b =R, c+d= W, a+c=n と置く.計 N 回の試行のうち,事象FR 回起き,W 回起きなかった わけであるが,この事を,壷の中に計N 個の球があり,そのうちR 個は赤球で,W 個 は白球であることに『翻訳』する.考えやすくするために,事象 F は時間的に早く起

きる(または起きない)とし,事象 E は時間的に遅く起きる(または起きない)とする.

帰無仮説が真であるとすると,事象F が起きた(または起きなかった)ことは,事象 F

が起きる(または起きない)ことに全く影響しない.この事は,壷から球を取り出す際,

どの一つの赤球を取り出す確率も,どの一つの白球を取り出す確率も,すべて同一であ ることを意味する.したがって,壷からn 個の球を取り出すとき(非復元抽出),赤球を a 個,白球を c個取り出す確率は

RCa·WCc NCn

に等しい.これが定理1の確率分布である.この確率分布は超幾何分布と呼ばれている.

106 第14章 独立性の検定

観測度数 a, b, c, d が得られた場合に,カイ二乗統計量

χ2 = ∑

すべてのセル

(観測度数期待度数)2 期待度数

を具体的に計算する式は,つぎのような単純な式となる.

定理2

帰無仮説が真であるとする.

χ2 = N

(a+b)(c+d)(a+c)(b+d)·(ad−bc)2

(証明) 各セルの期待度数は N p1p2, N q1p2, N p1q2, N q1q2 となるが,確率p1, p2 等は未 知であるから,このままではカイ二乗統計量を具体的に計算することはできない.そこ で確率p1, p2 等を推定することにする.最も自然な推定値は

ˆ

p1 = a+b

N , qˆ1 = c+d

N , pˆ2 = a+c

N , qˆ2 = b+d N である.したがって,カイ二乗統計量(の推定値)は

χˆ2 = [

a− (a+b)(a+c) N

]2

(a+b)(a+c) N

+ [

b−(a+b)(b+d) N

]2

(a+b)(b+d) N

+ [

c− (c+d)(a+c) N

]2

(c+d)(a+c) N

+ [

d− (c+d)(b+d) N

]2

(c+d)(b+d) N

となる.この式を整理すると,求めたい表現が得られる.(証明終わり)

帰無仮説が真であるとき,カイ二乗統計量は小さい値(ゼロに近い値)に傾向が強い.

だから,実際の観測度数から計算したカイ二乗値が大きい値となるならば,帰無仮説は 偽であると判断し,棄却するとよい.

a = 4, b = 3, c = 1, d = 7 であるとする.このとき周辺度数は a+b = 7, c+d = 8, a+c= 5, b+d = 10 となる.そこで同一の周辺度数をもつ,すべての可能な観測度 数の組を考えてみると,つぎのようになる.

14.5. Fisherの精密検定 107 表 T0

0 7 7

5 3 8

5 10 15

T1

1 6 7

4 4 8

5 10 15

T2

2 5 7

3 5 8

5 10 15 表 T3

3 4 7

2 6 8

5 10 15

T4

4 3 7

1 7 8

5 10 15

T5

5 2 7

0 8 8

5 10 15

さらに,定理1と定理2を用いて,それぞれの表の観測度数が起きる確率およびカイ二

乗値(よりはむしろ単純に ad−bc)を計算すると,つぎのようになる.

T0 T1 T2 T3 T4 T5 確率 8

429 70 429

168 429

140 429

40 429

3 429 ad−bc 35 20 5 10 25 40 ここでad−bc の値を見ると,

T2, T3, T1, T4, T0, T5

の順に大きくなっている,すなわち帰無仮説が真であることに反する.今,実際にはT4 が起きたとする.このとき

p 値=P{T5}+P{T0}+P{T4}= 51

429 = 0.119

これは0.05より大きいので,仮説は棄却しない.(なお,この例でカイ二乗検定を無理 矢理行うと,p 値 = 0.200 となり,これは精密な値の約 2倍の大きさである.)

問題1 Fisher’s Tea Drinker あるイギリス人女性が「私はミルクとお茶のどちら が先にカップに入れられたかを見分けることができる」と主張した.この主張をテスト するために,彼女にミルクティーの入った8 個のカップが与えられた.実験では,8 個 のカップのうち4 個にはミルクを先に入れた.この実験の結果,女性は,ミルクを先に 入れた4 カップのうち 3個を正しく推測し,お茶を先に入れた 4 カップのうち 3個を 正しく推測した(逆に言うと,ミルクを先に入れた 4 カップのうち 1 個を誤って推測 し,お茶を先に入れた4カップのうち1 個を誤って推測した).女性の主張は正しいと 考えてよいか?

108 第14章 独立性の検定 例題 モルトウイスキーとブレンドウイスキーを区別できるか,を調べる実験が行われ た.3. 実験では,「普段ウイスキーを飲んでいる群」と「あまり飲んでいない群」に分 けて,それぞれの群にモルトウイスキーとブレンドウイスキーをランダムにブラインド テイスト方式で提示して,その属性を当てさせる.4 実験の結果は以下の通りであった.

「普段ウイスキーを飲んでいる群」 「あまり飲んでいない群」

実際 実際

推測

モルト ブレンド モルト 36 24 ブレンド 36 48

推測

モルト ブレンド モルト 32 33 ブレンド 39 40

「普段ウイスキーを飲んでいる群」は,モルトウイスキーとブレンドウイスキーを区 別することができるか?帰無仮説は「モルトウイスキーとブレンドウイスキーを区別す ることができない」である.

1. 周辺度数を固定し,また分割表の左上隅の度数を a と置くと,すべての可能な場 合はつぎの表で 05a560となる,計 61 通りがある.

a 60−a 60

72−a a+ 12 84

72 72 144

2. セル A1:A61 に 0,1,· · ·,60 を入力する.

3. セル B1:B61 に,それぞれの表が起きる確率を計算する.そのためには,セル B1

に式 =COMBIN(60,A1)*COMBIN(84,72-A1)/COMBIN(144,72)を入力し,それをコ ピーすればよい.ここで関数 COMBIN(n, k)は nCk を計算する.

4. セルC1:C61に|ad−bc|を計算する.そのためには,セルC1に式=ABS(A1*(A1+12)-(60-A1)*(72-A1)) を入力し,それをコピーすればよい.ここで関数ABS(x)はxの絶対値を計算する.

5. 実際のデータはa= 36であり,そのとき|ad−bc|= 864である.そこで|ad−bc|=

864であるすべての場合の確率を合計する.そのためには,式=SUM(B1:B25)+SUM(B37:B61) を入力すればよい.

6. こうして p 値 = 0.0626 となることがわかったので,帰無仮説は棄却できない.

問題2 「あまり飲んでいない群」は,モルトウイスキーとブレンドウイスキーを区別 することができるか?

3Chadwick and Dudley ”Can malt whisky be discriminated from blended whisky? The proof. A modification of Sir Ronald Fisher’s hypothetical tea tasting experiment.”, Br. Med. J. (Clin Res Ed) 1983, 287, 1912-1915

4モルトウイスキーにはGlendiddch, Springbank, Glenmorangicという有名なものを使用し,ブレン ドウイスキーにはWhite Horse, Bells, Haig を使用する.ちなみに,Glendiddch30年ものなら7 円前後,White Horse 18年では2千円程度の市価である.

ドキュメント内 i (ページ 110-115)