資料置き場 hustat2017 20180119slide

(1)

統計学

第

13

回

:

分割表の検定

（カイ二乗検定）

担当者：

高木

真吾

質問等は，

[email protected]

までお願いします．

資料

URL:

http://sites.google.com/site/hustat2017/

(2)

復習

(3)

復習カイ二乗検定本日の宿題

http://sites.google.com/site/hustat2017/ 統計学第 13 回 – 3 / 62

■ 二つの事象 A, B が独立：

Pr[_{A ∩ B}] = Pr[_A] _× Pr[_B]

■ 二つの確率変数 X ∈ {x1, x2, . . . , xn}, Y ∈ {y1, y2, . . . , ym} が独立：

(4)

X_\Y y1 · · · yj · · · ym Pr[X = x]

x1 · · · p1,•

..

. _{· · ·} _{· · ·}

xi · · · Pr[X = xi, Y = yj] · · · pi,•

..

. _{· · ·} _{· · ·}

xn · · · pn,•

Pr[Y = y] p_•,1 · · · p•,j · · · p•,m

X と Y が独立であるとき，

(5)

X_\Y y1 · · · yj · · · ym Pr[X = x]

x1 · · · p1,•

..

. _{· · ·} _{· · ·}

xi · · · pi,• × p•,j · · · pi,•

..

. _{· · ·} _{· · ·}

xn · · · pn,•

Pr[Y = y] p_•,1 · · · p•,j · · · p•,m

X と Y が独立であるとき，周辺確率からすべての同時確率を計算することができ

(6)

カイ二乗検定

(7)

１次元分類表に関する分析：適合度の検定

■ ひとつの観測対象が，ある属性（要因）A によって分類される．

◆ 属性 A は I カテゴリーに分割され，（１次元）1 × I 表に集計される．

■ それぞれのカテゴリーにどの程度分類されるかに関しての理論的な予測がある

とする

◆ _I 個のカテゴリーに分類される確率をそれぞれ，{p1, p2, p3, . . . , pI} である

とする．

◆ 観測値の総数が n であるとき，理論的期待度数（観測度数の期待値）

{ np1, np2, np3, . . . , npI }

と，実際の観測度数

{ X1, X2, X3, . . . , XI }

(8)

図解：１次元分類表

Table 1:

カテゴリー別の観測度数とその期待値

分類カテゴリー

A1 A2 . . . AI 計

(9)

１次元分類表に関する分析：適合度の検定

■ 仮説：

H0 : 理論的な予測が正しい

つまり各カテゴリーに分類される確率が {p1, p2, p3, . . . , pI} である

■ 対立仮説：

H1 : 理論的な予測は正しくない

■ 検定統計量：

X2 ≡ X2(p1, p2, . . . , pI) = I

X

i=1

(Xi − n · pi)2

npi

=

I

X

i=1

(観測値 − 理論値)2

理論値

(1)

(10)

適合度の検定

命題 0.1 (適合度の検定) 大きさ n の標本が何らかの属性に応じて I 個のカテ

ゴリーに分類される．各観測点がそれぞれのカテゴリーに分類される確率が

{p1, p2, . . . , pI} であるとき，各カテゴリーごとの観測度数 Xi と，理論的な期待値 n · pi に関して次のような結果が成り立つ．

X2(p1, p2, . . . , pI) = I

X

i=1

(Xi − n · pi)2

npi −→

χ2(I ₋ 1)

つまり理論的予測が正しいとき，X2(p1, p2, . . . , pI) は，十分大きな標本数 n を

用いたときには，近似的に自由度 I −1 のカイ二乗分布に従うことを示すことが

(11)

適合度の検定

■ 帰無仮説 H0 ＝理論的な予測が正しい（各カテゴリーの確率が

{p1, p2, p3, . . . , pI} である）とき，この統計量の標本分布は，十分大きな n に対

して，近似的に自由度 I − 1 のカイ二乗分布に従う．

X2(p₁, p₂, . . . , pI) = I

X

i=1

(Xi − n · pi)2

npi −→

χ2(I ₋ 1)

（図 1の実線部分を参照）．

■ 対立仮説 H1 が正しい（＝理論的な予測が正しくない）とき，統計量

X2(p₁, p₂, . . . , pI) は，自由度 I − 1 のカイ二乗分布よりも

大きな値が実現する確率が高い確率分布に近似的に従う（図 1の破線部分を

参照）．

■ 以上より，棄却域は数直線状の右端の方に C = (c,∞) という形で取ればよい．

◆ 有意水準を α としたとき，帰無仮説の下で自由度 I − 1 のカイ二乗分布に

(12)

(13)

適合度の検定

■ 例）メンデルの法則：ある種の花を栽培する実験をおこなったところ，以下の

結果を得た．

◆ ₍１) 柱頭が緑色・花が深紅：120 本

◆ ₍２) 柱頭が赤色・花が深紅：48 本

◆ ₍３) 柱頭が緑色・花が赤色：36 本

◆ ₍４) 柱頭が赤色・花が赤色：13 本

■ メンデルの法則から，４種類の色の付き方は，９：３：３：１の割合になるはず

である．この法則が成り立っているとすればそれぞれのカテゴリーに分類される確率は

H0 : p1 =

9

16, p2 = 3

16, p3 = 3

(14)

適合度の検定

Table 2:

メンデルの法則

(1. 緑・深紅) (2. 赤・深紅) (3. 緑・赤) (4. 赤・赤) 計

観測度数 120 48 36 13 217

(15)

適合度の検定

■ メンデルの法則が観測値と適合しているのかを検証する

■ （1）式の検定統計量を用いると，上の帰無仮説 H0 が正しいとき，この検定統

計量は自由度 3 (= 4 − 1) のカイ二乗分布に従う．

■ 有意水準を５％としたとき，カイ二乗分布表（自由度３=4-1）より，棄却域は

C = (7.8,_∞) となる．

■ 検定統計量の値は，

x2 = {120 − 217 · (9/16)}

2

217 _· (9/16) + · · · +

{13 ₋ 217 _· (1/16)_}2

217 _· (1/16) ≈ 1.912

■ この値は棄却域に含まれないので帰無仮説は棄却されない（メンデルの法則の

成立）．

(16)

２次元分類表に関する分析：独立性の検定

■ ひとつの観測対象が，二つの属性（要因）A，B によって２重に分類される．

■ 属性 A は I カテゴリー，属性 B は J カテゴリーに分割される．

(17)

２次元分類表

Table 3:

（２次元）

I

×

J

分割表：各セルごとの観測頻度

属性 B

属性 A B1 B2 · · · BJ 計

A1 X1,1 X1,2 · · · X1,J X1,• A2 X2,1 X2,2 · · · X2,J X2,•

..

. ... ... . .. ... ...

AI XI,1 XI,2 · · · XI,J XI,_•

計 X

•,1 X•,2 · · · X•,J n (=

PI

i=1

PJ

j=1 Xi,j)

ただし，X

•,j =

PI

i=1 Xi,j，Xi,

• =

PJ

j=1 Xi,j であり，標本の大きさは

n = PI

i=1

PJ

(18)

２次元分類表

Table 4:

（２次元）

I

×

J

分割表：同時・周辺確率の推定値

属性 B

属性 A B1 B2 · · · BJ 計

A1 pˆ1,1 pˆ1,2 · · · pˆ1,J pˆ1,• A2 pˆ2,1 pˆ2,2 · · · pˆ2,J pˆ2,•

..

. ... ... . .. ... ...

AI pÎ,1 pÎ,2 · · · pÎ,J pÎ,_•

計 pˆ

•,1 pˆ•,2 · · · pˆ•,J 1

ただし，周辺確率の推定値（周辺相対頻度）はそれぞれ pˆ

•,j =

PI

i=1 Xi,j/n，

ˆ

pi,• =

PJ

j=1 Xi,j/n であり，同時確率の推定値（同時相対頻度）は pˆi,j = Xi,j/n と

(19)

２次元分類表に関する分析：独立性の検定

例１ある疾病の予防接種の摂取状況と罹患の有無に関して集計したものが以下の表

7のようになる．

Table 5:

予防接種の効果

予防接種／罹患ありなし計

接種済 1625 5 1630

未接種 1022 11 1033

(20)

２次元分類表に関する分析：独立性の検定

例２地域ごとの購読新聞の分布状況をまとめたのが表 11のようになる．

Table 6:

購読新聞の地域性

場所 YS 新聞 MA 新聞 NK 新聞計

北海道 40 23 9 72

関東 705 544 149 1398

近畿 215 272 96 583

(21)

２次元分類表に関する分析：独立性の検定

■ 要因 A に関してカテゴリー i に分類されるという事象を Ai とする

■ 要因 B に関してカテゴリー j に分類されるという事象を Bj とする

■ 分割表の (i, j) というブロックに分類されるという事象は Ai ∩ Bj

■ この二つの属性が互いに独立：要因 A の各カテゴリーへの分類と，要因 B の各

カテゴリーの分類が無関係．

■ 独立であるとき，任意の i, j（i 6= j）に対して，以下の関係が成り立つ

pi,j = pi,_• × p_•,j

ただし，

◆ _p_i,j _≡ _Pr[_A_i _{∩ B}_j_]，

◆ _p_i,_• _≡ _Pr[_A_i_{] =} PJ

j=1 Pr[Ai ∩ Bj]，

◆ _p_•_,j _≡ _Pr[_B_j_{] =} PI

(22)

２次元分類表に関する分析：独立性の検定

■ 表 7において，予防接種の効果がないとき，「予防接種受ける（ない）」という事

象と「病気に罹る（ない）」という事象は独立になると考えられよう．

■ 表 11において，購読新聞が地域性を持たないとき，「どの新聞を読むか」という

(23)

２次元分類表に関する分析：独立性の検定

■ 独立であるとき，任意の i, j について，

pi,j = pi,_• × p_•,j (2)

が成り立つ．

■ 各周辺確率の推定量

ˆ

pi,• =

Xi,_•

n = 1 n J X j=1

Xi,j, pˆ•,j =

X_•,j

n = 1 n I X i=1 Xi,j

■ 標本総数が n であるとき，独立性の下で，カテゴリー (i, j) の理論的な度数

(24)

２次元分類表に関する分析：独立性の検定

■ 実際の観測頻度 Xi,j が（3）式を満たしているかの検証

■ カテゴリー (i, j) に関して，実際に観測される度数 Xi.j と理論的な度数を比較．

理論値

= {Xi,j − n · pˆi,• · pˆ•,j}

2

n _· pˆi,• · pˆ•,j

= {Xi,j − Xi,• · X•,j/n}

2

Xi,• · X•,j/n

■ これを全てのカテゴリーについて総和をとると

X2 =

I X i=1 J X j=1

{Xi,j − n · pˆi,_• · pˆ_•,j}2

n _· pˆi,_• · pˆ_•,j

= I X i=1 J X j=1

理論値

(4) = I X i=1 J X j=1

{Xi,j − Xi,_• · X_•,j/n}2

Xi,_• · X_•,j/n

(5)

(25)

２次元分類表に関する分析：独立性の検定

命題 0.2 (独立性の検定) I × J 分割表において，十分大きな n に対して，

■ （3）式の制約を満たしているとき（行要因と列要因に関する独立性の条件

が満たされているとき），X2 は近似的に自由度 (I − 1)(J − 1) のカイ二乗分布に従う．

■ （3）式の制約が満たされないとき，統計量 X2 は，近似的に自由度 (I −

1)(J ₋ 1) のカイ二乗分布の確率変数よりも大きな値が出やすい確率分布に

なる（自由度 (I − 1)(J − 1) のカイ二乗分布の密度関数よりも右側にピーク

(26)

２次元分類表に関する分析：独立性の検定

■ この命題の結果を用いて次のような仮説検定を行うことができる．

◆ 帰無仮説 H0：（3）式の条件が満たされている．

◆ 対立仮説 H1：（3）式のうち，少なくとも一部の条件が満たされていない．

■ 検定統計量を X2 とすると

◆ _H₀ が正しいとき，検定統計量 X2 は近似的に自由度 (I − 1)(J − 1) のカイ

二乗分布に従う．

◆ _H₁ が正しいとき，検定統計量 X2 は，H0 の下の場合よりも大きな値が出

やすい．

■ 棄却域としては，数直線上の右側にとるのが合理的

■ 有意水準が α であるとき，帰無仮説 H0 が正しいとき検定統計量 X2 が自由度

(I ₋ 1)(J ₋ 1) のカイ二乗分布に従うことを利用して，カイ二乗分布表から次式

を満たすように臨界点 χ2

α を定める．

(27)

練習問題：予防接種の効果

例１ある疾病の予防接種の摂取状況と罹患の有無に関して集計したものが以下の表

7のようになる．

Table 7:

予防接種の効果

接種済 1625 5 1630

未接種 1022 11 1033

(28)

練習問題：予防接種の効果

Table 8:

予防接種の効果：比率

接種済 0.612

未接種 0.388

計 0.994 0.006 1.000

0.612 = 1630

2663, 0.388 =

1033

2663, 0.994 =

2647

2663, 0.006 =

(29)

練習問題：予防接種の効果

Table 9:

予防接種の効果：比率

接種済 0.608 0.004 0.612

未接種 0.386 0.002 0.388

計 0.994 0.006 1.000

0.608 = 0.612 _· 0.994, 0.004 = 0.612 _· 0.006,

(30)

練習問題：予防接種

Table 10:

予防接種の効果：理論値

接種済 1620.2 9.8

未接種 1026.8 6.2

計

各セルの理論値 = 標本の大きさ × 各セルの確率値

1620.2 = 2663 _× 0.608, 9.8 = 2663 _× 0.004

(31)

練習問題：予防接種

1. 仮説：表 7において，予防接種は効果がない

◆ これを調べるために表を上のような比率の形式に直す

◆ ここから仮説が正しい＝予防接種を受けることと罹患が独立であるときの

確率を求める

0.612 _· 0.994 _≈ 0.608, . . . , 0.388 _· 0.006 _≈ 0.002

◆ （独立の仮定の下での）各セルの期待値を求める

2663 _· 0.608 _≈ 1620.2, . . . , 2663 _· 0.00233 _≈ 6.2

◆ 検定統計量の値：

x2 = (1625 − 1620.2)

2

1620.2 + · · · +

(11 ₋ 6.2)2

6.2 ≈ 6.72

(32)

練習問題：予防接種

1. 仮説：表 7において，予防接種は効果がない

x2 = (1625 − 1620.2)

2

1620.2 + · · · +

(11 ₋ 6.2)2

6.2 ≈ 6.72

◆ 自由度１（= (2 − 1) · (2 − 1)）のカイ二乗分布の９５％点は 3.84 なので，

有意水準５％のときの棄却域は (3.84,∞)．したがって検定統計量の値は棄却域に含まれるので帰無仮説は棄却される（予防接種は罹患と独立でな

(33)

練習問題：購読新聞の地域差

例２地域ごとの購読新聞の分布状況をまとめたのが表 11のようになる．

Table 11:

購読新聞の地域性

北海道 40 23 9 72

関東 705 544 149 1398

近畿 215 272 96 583

(34)

練習問題：購読新聞の地域差

Table 12:

購読新聞の地域性：比率

北海道 0.035

関東 0.681

近畿 0.284

合計 0.467 0.409 0.124 1.000

0.035 = 72

2053, 0.681 =

1358

2053, 0.284 =

583 2053

0.467 = 960

2053, 0.409 =

840

2053, 0.124 =

(35)

練習問題：購読新聞の地域差

Table 13:

購読新聞の地域性：比率

北海道 0.016 0.014 0.004 0.035

関東 0.318 0.278 0.084 0.681

近畿 0.133 0.116 0.035 0.284

合計 0.467 0.409 0.124 1.000

(36)

練習問題：購読新聞の地域差

Table 14:

購読新聞の地域性：理論値

北海道 33.6 29.4 8.9

関東 653.2 571.5 172.9

近畿 272.7 238.6 72.2

合計

各セルの理論値 = 標本の大きさ × 各セルの確率値

(37)

練習問題：購読新聞の地域差

2. 仮説：表 11において，購読新聞に地域差はない

◆ これを調べるために表を上のような比率の形式に直す

◆ ここから仮説が正しい＝どの新聞を読むかと居住地域が独立であるときの

確率を求める

◆ （独立の仮定の下での）各セルの期待値を求める

x2 = (40 − 33.6)

2

33.6 +

(23 ₋ 29.4)2

29.4 + · · · +

(96 ₋ 72.2)2

72.2 ≈ 37.41

◆ 自由度４（= (3 − 1) · (3 − 1)）のカイ二乗分布の９５％点は 9.49 なので，

有意水準５％のときの棄却域は (9.49,∞)．したがって検定統計量の値は棄却域に含まれるので帰無仮説は棄却される（地域ごとにどの新聞を購読し

ているかという点において差がある）．

(38)

母集団比率間の比較検定との適用

■ ここでの検定は，二つの母集団比率の差の検定に用いることもできる．

■ 母集団１（例えば関東圏）において，ある番組を見た人の母集団比率が p1

■ 母集団２（例えば関西圏）において，ある番組を見た人の母集団比率が p2

(39)

母集団比率間の比較検定との適用

■ 標本は

{X1, X2, . . . , Xn}, {Y1, Y2, . . . , Ym}

と表現できる．ただし Xi は１を p1，０を 1 − p1 でとるベルヌーイ分布に従い，

Yi は１を p2，０を 1 − p2 でとるベルヌーイ分布に従う．

■ このとき，それぞれの標本比率を

ˆ

p1 =

1

n

X

i=1

Xi, pˆ2 =

1 m m X i=1 Yi

とすると，帰無仮説 H0 : p1 = p2 を検定するための検定統計量は

Z = _p pˆ1 − pˆ2 ¯

p(1 ₋ p¯)/n + ¯p(1 ₋ p¯)/m, p¯=

n _· pˆ₁ + m _· pˆ₂

n + m

となり，これは帰無仮説が正しいとき，近似的に標準正規分布に従う1．

1

(40)

母集団比率間の比較検定との適用

■ ここでの問題は次のような分割表を用いて表現可能．

Table 15:

テレビ視聴

地域／視聴見た見てない計

関東圏 f1 n − f1 n

関西圏 f2 m − f2 m

計 f1 + f2 n + m − f1 − f2 n + m

■ この分割表において独立性の検定を行うとその検定統計量は上の Z を二乗した

ものになる

(41)

母集団比率間の比較検定との適用

■ 確認：ある番組について，関西で視聴率 29.0 ％，関東で 22.5 ％であったと公表

された．地域差があると言えるか？ただし関東では 600 世帯，関西では 400 世

帯で調査されている．

Table 16:

テレビ視聴

関東圏 135 465 600

関西圏 116 284 400

(42)

母集団比率間の比較検定との適用

Table 17:

テレビ視聴

:

枠外は比率，枠内は理論値

関東圏 150.6 449.4 0.6

関西圏 100.4 299.6 0.4

計 0.251 0.749 1.000

■ 検定統計量の値は

x2 = (135 − 150.6)

2

150.6 +

(465 ₋ 449.4)2 449.4 +

(116 ₋ 100.4)2 100.4 +

(284 ₋ 299.6)2

299.6 ≈ 5.39

(43)

セルサイズが小さいときの補正

■ 補正が必要とされるケース（小さいセルサイズの影響で検定が歪む）: Cochran

rule

◆ セルに入る個体数の期待値が５以下となるケースが頻発する

◆ 同期待値が１未満となるケースが存在している

■ セル（カテゴリー）を併合する

(44)

セルサイズが小さいときの補正

■ イェーツの補正 (一次元分割表，２ｘ２分割表)

◆ セルに入る個体数の期待値が５以下の時に利用を推奨される

◆ 補正方法：観測値と期待値の差から 0.5 を引く

一次元分割表の場合：

I

X

i=1

{|Xi − npi| − 0.5}2

npi

２ｘ２分割表の場合：

n _· max_{0,_|X11X22 − X21X12| − n/2}2

X_1,_•X_2,_•X_•_,1X_•_,2

ただし，ここでは以下の結果を用いている

2 X i=1 2 X j=1

(Xij − Xi,_•X_•,j/n)2

Xi,_•X_•,j

= n · (X11X22 − X21X12)

2

X1,•X2,•X•,1X•,2

(45)

セルサイズが小さいときの補正

■ フィッシャーの正確確率検定（Exact Test）：予防接種の例

◆ 表のような結果が得られる確率は次のように考えられる

1. 予防接種を受けた 1630 人の中から，罹患した 1625 人を選ぶ選び方は，

1630C1625 通り

2. 予防接種を受けていない 1033 人の中から，罹患した 1022 人を選ぶ選

び方は，1033C1022 通り

3. 予防接種の有無と，罹患の有無が独立であるならば，任意の 2663

(= 1630 + 1033) 人から罹患した人数 2647 (= 1625 + 1022) 人を選ぶ選

び方は，2663C2647 通りなので，表のような結果が得らえる確率は

1630C1625 × 1033C1022

2663C2647

= 0.01106942

4. 上の実現値よりも低い確率で起きる事柄を，分割表の数字を動かしなが

ら探す（とてつもない時間がかかることがある）．上の確率 0.01106942

とそれより低い確率の合計を考えると，「今実現した分割表とそれより

(46)

セルサイズが小さいときの補正

■ この確率が小さいなら，実現した分割表やそれより極端なケースは，帰無仮説

が正しいとき，起きにくいと考えらえる（帰無仮説を捨てる）

■ この確率が大きいなら，実現した分割表やそれより極端なケースは，帰無仮説

が正しいとき，十分生じる可能性がある（帰無仮説は捨てられない）

◆ 今の例の場合，他に 16 個の分割表が確率 0.011 よりも小さい確率で発生す

る．今の分割表も含め，それらの発生確率の合計は，0.01884755 となり，

通常の有意水準５％よりは低いが，１％よりは大きい．

■ カイ二乗統計量の値は 6.084865 であり，これより極端な値が出る確率は

(47)

本日の宿題

(48)

水銀汚染の検証

本節の方法によって次のような公害の検証方法について考える2．

■ 阿賀野川流域で水俣病と同症状を訴える患者

■ 阿賀野川上流に位置するＳ社の排水の影響が疑われたが，次のような反論を

行った．

◆ 阿賀野川下流で主に患者が見られる

◆ 下流域は，信濃川で流出した農薬が流れ込み被害が出ている

◆ 実際，表 18 と表 19から，(1) 上流と下流では水銀被害が異なっており，

(2) 上流域は汚染のない他地域と比較しても汚染状況に変化がない．

■ 最後の２点を（4）式を検定統計量として用いた独立性（同質性）の検定3によっ

て示す．

2

この例は吉村功 (1971)「統計手法の誤用 II」『科学』Vol.41, No.10 より引用している．

(49)

水銀汚染の検証

Table 18: S

社の区切りによる上流・下流別頭髪水銀量（

ppm

）

場所 10 以下 20 以下 50 以下 100 以下 200 以下 200∼ 計

下流 457 480 310 94 39 23 1403

上流 38 11 4 1 1 0 55

計 495 491 314 95 40 23 1458

Table 19: S

社の区切りによる上流と他地域の頭髪水銀量（

ppm

）

場所 10 以下 20 以下 50 以下 100 以下 200 以下 200∼ 計

上流 38 11 4 1 1 0 55

他地域 32 7 3 1 1 0 44

(50)

水銀汚染の検証

■ 上流・下流の独立性に関する検定統計量の値は，表 18から

x2 =

2

X

i=1 6

X

j=1

{xi,j − 1458 · pi,_• · p_•,j}2

1458 _· pi,_• · p_•,j

= 32.378

帰無仮説である上流・下流の水銀汚染状況が独立であるという条件の下では，（4）

(51)

水銀汚染の検証

■ 上流・他地域の独立性に関する検定統計量の値は（200ppm 以上の欄は両方とも

０なので無視して），表 19から

x2 =

2

X

i=1 5

X

j=1

{xi,j − 99 · pi,_• · p_•,j}2

99 _· pi,• · p•,j

= 0.328

(52)

水銀汚染の検証（

cont.

）

しかしながら上の分析には次のような反論がなされた．

■ 上流・下流の分け方が恣意的である4．

■ 汚染のない他地域のなかに，イタイイタイ病の被害が出ている地域も含まれて

おり，汚染されていない地域との比較にはなっていない．

以上の点を考慮して，適切に上流下流を分類し，調整した結果が以下の表 20，表

21である．

(53)

水銀汚染の検証（

cont.

）

Table 20:

調整後の上流・下流別頭髪水銀量（

ppm

）

場所 10 以下 20 以下 50 以下 100 以下 200 以下 200∼ 計

下流 451 475 308 91 38 23 1386

上流 44 16 6 4 2 0 72

計 495 491 314 95 40 23 1458

Table 21:

調整後の上流と他地域の頭髪水銀量（

ppm

）

場所 10 以下 20 以下 50 以下 100 以下 200 以下 200∼ 計

上流 44 16 6 4 2 0 72

他地域 23 3 2 1 0 0 29

(54)

水銀汚染の検証（

cont.

）

調整された表 20，21を用いて独立性（同質性）の検証を行った．

■ 上流・下流の同質性に関する検定統計量の値は，表 20から

x2 =

2

X

i=1 6

X

j=1

{xi,j − 1458 · pi,_• · p_•,j}2

1458 _· pi,• · p•,j

= 26.841

帰無仮説である上流・下流の水銀汚染状況が同質的であるという条件の下では，（4）式は自由度 5 (= (2 − 1)· (6− 1) ) のカイ二乗分布に従うので，有意水準を

(55)

水銀汚染の検証（

cont.

）

■ 上流・他地域の同質性に関する検定統計量の値は（200ppm 以上の欄は両方とも

０なので無視して），表 21から

x2 =

2

X

i=1 5

X

j=1

{xi,j − 101 · pi,_• · p_•,j}2

101 _· pi,• · p•,j

= 3.627

(56)

本日の宿題

■ 表 20を用いて，上流・下流に関わりなく頭髪水銀量が分布していることを，以

下の空欄を埋めながら，カイ二乗検定によって確かめてください（下の表 22を

用いると統計量の値が計算可能）．

◆ 上流・下流の同質性に関する検定統計量の値は，表 20から

x2 =

2

X

i=1 6

X

j=1

{xi,j − 1458 · pi,• · p•,j}2

1458 _· pi,• · p•,j

=

帰無仮説である上流・下流の水銀汚染状況が同質的であるという条件の下

では，（4）式は自由度のカイ二乗分布に従うので，有意水準

を５％とすると棄却域は (11.0705, ∞) となり，上の結果から帰無仮説は

(57)

■ 表 21を用いて，上流か他地域かに関わりなく頭髪水銀量が分布していることを，

以下の空欄を埋めながら，カイ二乗検定によって確かめてください（下の表

22を用いると統計量の値が計算可能）．

◆ 上流・他地域の同質性に関する検定統計量の値は（200ppm 以上の欄は両方

とも０なので無視して），表 21から

x2 =

2

X

i=1 5

X

j=1

{xi,j − 101 · pi,• · p•,j}2

101 _· pi,_• · p_•,j

=

帰無仮説である上流と他地域のの水銀汚染状況が同質的であるという条件

の下では，（4）式は自由度のカイ二乗分布に従うので，有意

水準を５％とすると棄却域は (9.48773,∞) となり，上の結果から帰無仮説

は．しかしながら先ほど結果よりは汚染状況が乖離し

(58)

Table 22:

上流・下流：独立性の下での理論値（

1458

· p

i,

•

· p

•,j

）

場所 10 以下 20 以下 50 以下 100 以下 200 以下 200∼ 周辺確率

下流 470.556 466.753 298.494 90.309 38.025 21.864 0.951

上流 24.444 24.247 15.506 4.691 1.975 1.136 0.049

周辺確率 0.340 0.337 0.215 0.065 0.027 0.016

Table 23:

上流と他地域：独立性の下での理論値（

101

· p

i,

•

· p

•,j

）

場所 10 以下 20 以下 50 以下 100 以下 200 以下 200∼ 周辺確率

上流 47.762 13.545 5.703 3.564 1.426 0.713

他地域 19.238 5.455 2.297 1.436 0.574 0.287

(59)

計算上の補足

Table 24:

２ｘ２分割表

B1 B2 total

A1 X11 X12 n1 = X1,• A2 X21 X22 n2 = X2,•

total X_•,1 X•,2 n

■ _X_i,_• ₌ _X_i1 ₊ _X_i2_, _X_•_,j ₌ _X_1j ₊ _X_2j _,

n = P2

i=1 Xi,• =

P2

j=1 X•,j =

P2

i=1

P2

(60)

計算上の補足

■ 分割表の検定によるカイ二乗統計量は

(Xij−Xi,•X•,j/n)

2 ₌ 1

n2 Xij · n X s=1 2 X t=1

Xst − Xi,•X•,j !2

= 1

n2(X11X22−X12X21) 2

また

(X_i1 ₋ Xi,_•X_•,1/n)2

Xi,•X•,1/n

+(Xi2 − Xi,•X•,2/n)

2

Xi,•X•,2/n

= 1

n

(X₁₁X₂₂ ₋ X₁₂X₂₁)2

Xi,•

1

X_•,1

+ 1

X_•,2

したがって

X = (X11 − X1,•X•,1/n)

2

X1,•X•,1

+ (X12 − X1,•X•,2/n)

2

X1,•X•,2

+ (X21 − X2,•X•,1/n)

2

X2,•X•,1

+ (X22 −

= n · (X11X22 − X12X21)

(61)

計算上の補足

■ 比率の差に関する検定：B1 における A1 の割合と B2 における A2 の割合の等

しさ

◆ 予防接種を受けた人の罹患率と予防接種を受けなかった人の罹患率の等し

さに関する検定

◆ _p_ˆ₁ ₌ _X₁₁_/₍_X₁₁ ₊ _X₁₂_{) =} _X₁₁_/X_1,_•_, _p_ˆ₂ ₌ _X₂₁_/₍_X₂₁ ₊ _X₂₂_{) =} _X₂₁_/X_2,_•

◆ 検定統計量 (pˆ = (X11 + X21)/n)

ˆ

p1 − pˆ2

p

ˆ

p(1 ₋ pˆ)/n1 + ˆp(1 − pˆ)/n2

分母について，

ˆ

p = X11 + X21

n , 1 − pˆ =

X12 + X22

n

ˆ

p(1 ₋ pˆ)

n1

= X11 + X21

n

X12 + X22

n

1

n1

= 1

n2

X_•,1X•,2 X1,•

, pˆ(1 − pˆ) n2

= 1

n2

X_•,1X

(62)

計算上の補足

整理すると，

ˆ

p(1 ₋ pˆ)

n1

+ pˆ(1 − pˆ)

n2

= 1

n2

X_•_,1X_•_,2 X1,•

+ 1

n2

X_•_,1X_•_,2 X2,•

= 1

n

X_•_,1X_•_,2 X1,•X2,•

ˆ

p₁ ₋ pˆ₂ = X11

X1,•

− X21 X2,•

= X11X22 − X12X21

X1,•X2,•

これらの結果を検定統計量にさかのぼって整理すると，

ˆ

p1 − pˆ2

q

p(1−p) n₁ +

p(1−p) n₂

=

X₁₁X₂₂₋X₁₂X₂₁ X₁,•X2,•

q

1 n

X_•,1X•,2 X₁,•X2,•

=

√

n(X11X22 − X12X21)

p

X1,•X2,•X•,1X•,2