統計学
第
13
回
:
分割表の検定
(カイ二乗検定)
担当者:
高木
真吾
質問等は,
[email protected]
までお願いします.
資料
URL:
http://sites.google.com/site/hustat2017/
復習
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 3 / 62
■ 二つの事象 A, B が独立:
Pr[A ∩ B] = Pr[A] × Pr[B]
■ 二つの確率変数 X ∈ {x1, x2, . . . , xn}, Y ∈ {y1, y2, . . . , ym} が独立:
復習 カイ二乗検定 本日の宿題
X\Y y1 · · · yj · · · ym Pr[X = x]
x1 · · · p1,•
..
. · · · · · ·
xi · · · Pr[X = xi, Y = yj] · · · pi,•
..
. · · · · · ·
xn · · · pn,•
Pr[Y = y] p•,1 · · · p•,j · · · p•,m
X と Y が独立であるとき,
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 5 / 62
X\Y y1 · · · yj · · · ym Pr[X = x]
x1 · · · p1,•
..
. · · · · · ·
xi · · · pi,• × p•,j · · · pi,•
..
. · · · · · ·
xn · · · pn,•
Pr[Y = y] p•,1 · · · p•,j · · · p•,m
X と Y が独立であるとき,周辺確率からすべての同時確率を計算することができ
カイ二乗検定
1次元分類表に関する分析:適合度の検定
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 7 / 62
■ ひとつの観測対象が,ある属性(要因)A によって分類される.
◆ 属性 A は I カテゴリーに分割され,(1次元)1 × I 表に集計される.
■ それぞれのカテゴリーにどの程度分類されるかに関しての理論的な予測がある
とする
◆ I 個のカテゴリーに分類される確率をそれぞれ,{p1, p2, p3, . . . , pI} である
とする.
◆ 観測値の総数が n であるとき,理論的期待度数(観測度数の期待値)
{ np1, np2, np3, . . . , npI }
と,実際の観測度数
{ X1, X2, X3, . . . , XI }
図解:1次元分類表
復習 カイ二乗検定 本日の宿題
Table 1:
カテゴリー別の観測度数とその期待値
分類カテゴリー
A1 A2 . . . AI 計
1次元分類表に関する分析:適合度の検定
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 9 / 62
■ 仮説:
H0 : 理論的な予測が正しい
つまり各カテゴリーに分類される確率が {p1, p2, p3, . . . , pI} である
■ 対立仮説:
H1 : 理論的な予測は正しくない
■ 検定統計量:
X2 ≡ X2(p1, p2, . . . , pI) = I
X
i=1
(Xi − n · pi)2
npi
=
I
X
i=1
(観測値 − 理論値)2
理論値
(1)
適合度の検定
復習 カイ二乗検定 本日の宿題
命題 0.1 (適合度の検定) 大きさ n の標本が何らかの属性に応じて I 個のカテ
ゴ リ ー に 分 類 さ れ る .各 観 測 点 が そ れ ぞ れ の カ テ ゴ リ ー に 分 類 さ れ る 確 率 が
{p1, p2, . . . , pI} であるとき,各カテゴリーごとの観測度数 Xi と,理論的な期待 値 n · pi に関して次のような結果が成り立つ.
X2(p1, p2, . . . , pI) = I
X
i=1
(Xi − n · pi)2
npi −→
χ2(I − 1)
つまり理論的予測が正しいとき,X2(p1, p2, . . . , pI) は,十分大きな標本数 n を
用いたときには,近似的に自由度 I −1 のカイ二乗分布に従うことを示すことが
適合度の検定
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 11 / 62
■ 帰無仮説 H0 =理論的な予測が正しい(各カテゴリーの確率が
{p1, p2, p3, . . . , pI} である)とき,この統計量の標本分布は,十分大きな n に対
して,近似的に自由度 I − 1 のカイ二乗分布に従う.
X2(p1, p2, . . . , pI) = I
X
i=1
(Xi − n · pi)2
npi −→
χ2(I − 1)
(図 1の実線部分を参照).
■ 対立仮説 H1 が正しい(=理論的な予測が正しくない)とき,統計量
X2(p1, p2, . . . , pI) は,自由度 I − 1 のカイ二乗分布よりも
大きな値が実現する確率が高い 確率分布に近似的に従う(図 1の破線部分を
参照).
■ 以上より,棄却域は数直線状の右端の方に C = (c,∞) という形で取ればよい.
◆ 有意水準を α としたとき,帰無仮説の下で自由度 I − 1 のカイ二乗分布に
復習 カイ二乗検定 本日の宿題
適合度の検定
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 13 / 62
■ 例)メンデルの法則:ある種の花を栽培する実験をおこなったところ,以下の
結果を得た.
◆ (1) 柱頭が緑色・花が深紅:120 本
◆ (2) 柱頭が赤色・花が深紅:48 本
◆ (3) 柱頭が緑色・花が赤色:36 本
◆ (4) 柱頭が赤色・花が赤色:13 本
■ メンデルの法則から,4種類の色の付き方は,9:3:3:1の割合になるはず
である.この法則が成り立っているとすればそれぞれのカテゴリーに分類され る確率は
H0 : p1 =
9
16, p2 = 3
16, p3 = 3
適合度の検定
復習 カイ二乗検定 本日の宿題
Table 2:
メンデルの法則
(1. 緑・深紅) (2. 赤・深紅) (3. 緑・赤) (4. 赤・赤) 計
観測度数 120 48 36 13 217
適合度の検定
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 15 / 62
■ メンデルの法則が観測値と適合しているのかを検証する
■ (1)式の検定統計量を用いると,上の帰無仮説 H0 が正しいとき,この検定統
計量は自由度 3 (= 4 − 1) のカイ二乗分布に従う.
■ 有意水準を5%としたとき,カイ二乗分布表(自由度3=4-1)より,棄却域は
C = (7.8,∞) となる.
■ 検定統計量の値は,
x2 = {120 − 217 · (9/16)}
2
217 · (9/16) + · · · +
{13 − 217 · (1/16)}2
217 · (1/16) ≈ 1.912
■ この値は棄却域に含まれないので帰無仮説は棄却されない(メンデルの法則の
成立).
2次元分類表に関する分析:独立性の検定
復習 カイ二乗検定 本日の宿題
■ ひとつの観測対象が,二つの属性(要因)A,B によって2重に分類される.
■ 属性 A は I カテゴリー,属性 B は J カテゴリーに分割される.
2次元分類表
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 17 / 62
Table 3:
(2次元)
I
×
J
分割表:各セルごとの観測頻度
属性 B
属性 A B1 B2 · · · BJ 計
A1 X1,1 X1,2 · · · X1,J X1,• A2 X2,1 X2,2 · · · X2,J X2,•
..
. ... ... . .. ... ...
AI XI,1 XI,2 · · · XI,J XI,•
計 X
•,1 X•,2 · · · X•,J n (=
PI
i=1
PJ
j=1 Xi,j)
ただし,X
•,j =
PI
i=1 Xi,j,Xi,
• =
PJ
j=1 Xi,j であり,標本の大きさは
n = PI
i=1
PJ
2次元分類表
復習 カイ二乗検定 本日の宿題
Table 4:
(2次元)
I
×
J
分割表:同時・周辺確率の推定値
属性 B
属性 A B1 B2 · · · BJ 計
A1 pˆ1,1 pˆ1,2 · · · pˆ1,J pˆ1,• A2 pˆ2,1 pˆ2,2 · · · pˆ2,J pˆ2,•
..
. ... ... . .. ... ...
AI pˆI,1 pˆI,2 · · · pˆI,J pˆI,•
計 pˆ
•,1 pˆ•,2 · · · pˆ•,J 1
ただし,周辺確率の推定値(周辺相対頻度)はそれぞれ pˆ
•,j =
PI
i=1 Xi,j/n,
ˆ
pi,• =
PJ
j=1 Xi,j/n であり,同時確率の推定値(同時相対頻度)は pˆi,j = Xi,j/n と
2次元分類表に関する分析:独立性の検定
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 19 / 62
例1 ある疾病の予防接種の摂取状況と罹患の有無に関して集計したものが以下の表
7のようになる.
Table 5:
予防接種の効果
予防接種/罹患 あり なし 計
接種済 1625 5 1630
未接種 1022 11 1033
2次元分類表に関する分析:独立性の検定
復習 カイ二乗検定 本日の宿題
例2 地域ごとの購読新聞の分布状況をまとめたのが表 11のようになる.
Table 6:
購読新聞の地域性
場所 YS 新聞 MA 新聞 NK 新聞 計
北海道 40 23 9 72
関東 705 544 149 1398
近畿 215 272 96 583
2次元分類表に関する分析:独立性の検定
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 21 / 62
■ 要因 A に関してカテゴリー i に分類されるという事象を Ai とする
■ 要因 B に関してカテゴリー j に分類されるという事象を Bj とする
■ 分割表の (i, j) というブロックに分類されるという事象は Ai ∩ Bj
■ この二つの属性が互いに独立:要因 A の各カテゴリーへの分類と,要因 B の各
カテゴリーの分類が無関係.
■ 独立であるとき,任意の i, j(i 6= j)に対して,以下の関係が成り立つ
pi,j = pi,• × p•,j
ただし,
◆ pi,j ≡ Pr[Ai ∩ Bj],
◆ pi,• ≡ Pr[Ai] = PJ
j=1 Pr[Ai ∩ Bj],
◆ p•,j ≡ Pr[Bj] = PI
2次元分類表に関する分析:独立性の検定
復習 カイ二乗検定 本日の宿題
■ 表 7において,予防接種の効果がないとき,「予防接種受ける(ない)」という事
象と「病気に罹る(ない)」という事象は独立になると考えられよう.
■ 表 11において,購読新聞が地域性を持たないとき,「どの新聞を読むか」という
2次元分類表に関する分析:独立性の検定
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 23 / 62
■ 独立であるとき,任意の i, j について,
pi,j = pi,• × p•,j (2)
が成り立つ.
■ 各周辺確率の推定量
ˆ
pi,• =
Xi,•
n = 1 n J X j=1
Xi,j, pˆ•,j =
X•,j
n = 1 n I X i=1 Xi,j
■ 標本総数が n であるとき,独立性の下で,カテゴリー (i, j) の理論的な度数
2次元分類表に関する分析:独立性の検定
復習 カイ二乗検定 本日の宿題
■ 実際の観測頻度 Xi,j が(3)式を満たしているかの検証
■ カテゴリー (i, j) に関して,実際に観測される度数 Xi.j と理論的な度数を比較.
(観測値 − 理論値)2
理論値
= {Xi,j − n · pˆi,• · pˆ•,j}
2
n · pˆi,• · pˆ•,j
= {Xi,j − Xi,• · X•,j/n}
2
Xi,• · X•,j/n
■ これを全てのカテゴリーについて総和をとると
X2 =
I X i=1 J X j=1
{Xi,j − n · pˆi,• · pˆ•,j}2
n · pˆi,• · pˆ•,j
= I X i=1 J X j=1
(観測値 − 理論値)2
理論値
(4) = I X i=1 J X j=1
{Xi,j − Xi,• · X•,j/n}2
Xi,• · X•,j/n
(5)
2次元分類表に関する分析:独立性の検定
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 25 / 62
命題 0.2 (独立性の検定) I × J 分割表において,十分大きな n に対して,
■ (3)式の制約を満たしているとき(行要因と列要因に関する独立性の条件
が満たされているとき),X2 は近似的に自由度 (I − 1)(J − 1) のカイ二乗 分布に従う.
■ (3)式の制約が満たされないとき,統計量 X2 は,近似的に自由度 (I −
1)(J − 1) のカイ二乗分布の確率変数よりも大きな値が出やすい確率分布に
なる(自由度 (I − 1)(J − 1) のカイ二乗分布の密度関数よりも右側にピーク
2次元分類表に関する分析:独立性の検定
復習 カイ二乗検定 本日の宿題
■ この命題の結果を用いて次のような仮説検定を行うことができる.
◆ 帰無仮説 H0:(3)式の条件が満たされている.
◆ 対立仮説 H1:(3)式のうち,少なくとも一部の条件が満たされていない.
■ 検定統計量を X2 とすると
◆ H0 が正しいとき,検定統計量 X2 は近似的に自由度 (I − 1)(J − 1) のカイ
二乗分布に従う.
◆ H1 が正しいとき,検定統計量 X2 は,H0 の下の場合よりも大きな値が出
やすい.
■ 棄却域としては,数直線上の右側にとるのが合理的
■ 有意水準が α であるとき,帰無仮説 H0 が正しいとき検定統計量 X2 が自由度
(I − 1)(J − 1) のカイ二乗分布に従うことを利用して,カイ二乗分布表から次式
を満たすように臨界点 χ2
α を定める.
練習問題:予防接種の効果
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 27 / 62
例1 ある疾病の予防接種の摂取状況と罹患の有無に関して集計したものが以下の表
7のようになる.
Table 7:
予防接種の効果
予防接種/罹患 あり なし 計
接種済 1625 5 1630
未接種 1022 11 1033
練習問題:予防接種の効果
復習 カイ二乗検定 本日の宿題
Table 8:
予防接種の効果:比率
予防接種/罹患 あり なし 計
接種済 0.612
未接種 0.388
計 0.994 0.006 1.000
0.612 = 1630
2663, 0.388 =
1033
2663, 0.994 =
2647
2663, 0.006 =
練習問題:予防接種の効果
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 29 / 62
Table 9:
予防接種の効果:比率
予防接種/罹患 あり なし 計
接種済 0.608 0.004 0.612
未接種 0.386 0.002 0.388
計 0.994 0.006 1.000
0.608 = 0.612 · 0.994, 0.004 = 0.612 · 0.006,
練習問題:予防接種
復習 カイ二乗検定 本日の宿題
Table 10:
予防接種の効果:理論値
予防接種/罹患 あり なし 計
接種済 1620.2 9.8
未接種 1026.8 6.2
計
各セルの理論値 = 標本の大きさ × 各セルの確率値
1620.2 = 2663 × 0.608, 9.8 = 2663 × 0.004
練習問題:予防接種
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 31 / 62
1. 仮説:表 7において,予防接種は効果がない
◆ これを調べるために表を上のような比率の形式に直す
◆ ここから仮説が正しい=予防接種を受けることと罹患が独立であるときの
確率を求める
0.612 · 0.994 ≈ 0.608, . . . , 0.388 · 0.006 ≈ 0.002
◆ (独立の仮定の下での)各セルの期待値を求める
2663 · 0.608 ≈ 1620.2, . . . , 2663 · 0.00233 ≈ 6.2
◆ 検定統計量の値:
x2 = (1625 − 1620.2)
2
1620.2 + · · · +
(11 − 6.2)2
6.2 ≈ 6.72
練習問題:予防接種
復習 カイ二乗検定 本日の宿題
1. 仮説:表 7において,予防接種は効果がない
◆ 検定統計量の値:
x2 = (1625 − 1620.2)
2
1620.2 + · · · +
(11 − 6.2)2
6.2 ≈ 6.72
◆ 自由度1(= (2 − 1) · (2 − 1))のカイ二乗分布の95%点は 3.84 なので,
有意水準5%のときの棄却域は (3.84,∞).したがって検定統計量の値は棄 却域に含まれるので帰無仮説は棄却される(予防接種は罹患と独立でな
練習問題:購読新聞の地域差
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 33 / 62
例2 地域ごとの購読新聞の分布状況をまとめたのが表 11のようになる.
Table 11:
購読新聞の地域性
場所 YS 新聞 MA 新聞 NK 新聞 計
北海道 40 23 9 72
関東 705 544 149 1398
近畿 215 272 96 583
練習問題:購読新聞の地域差
復習 カイ二乗検定 本日の宿題
Table 12:
購読新聞の地域性:比率
場所 YS 新聞 MA 新聞 NK 新聞 計
北海道 0.035
関東 0.681
近畿 0.284
合計 0.467 0.409 0.124 1.000
0.035 = 72
2053, 0.681 =
1358
2053, 0.284 =
583 2053
0.467 = 960
2053, 0.409 =
840
2053, 0.124 =
練習問題:購読新聞の地域差
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 35 / 62
Table 13:
購読新聞の地域性:比率
場所 YS 新聞 MA 新聞 NK 新聞 計
北海道 0.016 0.014 0.004 0.035
関東 0.318 0.278 0.084 0.681
近畿 0.133 0.116 0.035 0.284
合計 0.467 0.409 0.124 1.000
練習問題:購読新聞の地域差
復習 カイ二乗検定 本日の宿題
Table 14:
購読新聞の地域性:理論値
場所 YS 新聞 MA 新聞 NK 新聞 計
北海道 33.6 29.4 8.9
関東 653.2 571.5 172.9
近畿 272.7 238.6 72.2
合計
各セルの理論値 = 標本の大きさ × 各セルの確率値
練習問題:購読新聞の地域差
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 37 / 62
2. 仮説:表 11において,購読新聞に地域差はない
◆ これを調べるために表を上のような比率の形式に直す
◆ ここから仮説が正しい=どの新聞を読むかと居住地域が独立であるときの
確率を求める
◆ (独立の仮定の下での)各セルの期待値を求める
◆ 検定統計量の値:
x2 = (40 − 33.6)
2
33.6 +
(23 − 29.4)2
29.4 + · · · +
(96 − 72.2)2
72.2 ≈ 37.41
◆ 自由度4(= (3 − 1) · (3 − 1))のカイ二乗分布の95%点は 9.49 なので,
有意水準5%のときの棄却域は (9.49,∞).したがって検定統計量の値は棄 却域に含まれるので帰無仮説は棄却される(地域ごとにどの新聞を購読し
ているかという点において差がある).
母集団比率間の比較検定との適用
復習 カイ二乗検定 本日の宿題
■ ここでの検定は,二つの母集団比率の差の検定に用いることもできる.
■ 母集団1(例えば関東圏)において,ある番組を見た人の母集団比率が p1
■ 母集団2(例えば関西圏)において,ある番組を見た人の母集団比率が p2
母集団比率間の比較検定との適用
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 39 / 62
■ 標本は
{X1, X2, . . . , Xn}, {Y1, Y2, . . . , Ym}
と表現できる.ただし Xi は1を p1,0を 1 − p1 でとるベルヌーイ分布に従い,
Yi は1を p2,0を 1 − p2 でとるベルヌーイ分布に従う.
■ このとき,それぞれの標本比率を
ˆ
p1 =
1
n
n
X
i=1
Xi, pˆ2 =
1 m m X i=1 Yi
とすると,帰無仮説 H0 : p1 = p2 を検定するための検定統計量は
Z = p pˆ1 − pˆ2 ¯
p(1 − p¯)/n + ¯p(1 − p¯)/m, p¯=
n · pˆ1 + m · pˆ2
n + m
となり,これは帰無仮説が正しいとき,近似的に標準正規分布に従う1.
1
母集団比率間の比較検定との適用
復習 カイ二乗検定 本日の宿題
■ ここでの問題は次のような分割表を用いて表現可能.
Table 15:
テレビ視聴
地域/視聴 見た 見てない 計
関東圏 f1 n − f1 n
関西圏 f2 m − f2 m
計 f1 + f2 n + m − f1 − f2 n + m
■ この分割表において独立性の検定を行うとその検定統計量は上の Z を二乗した
ものになる
母集団比率間の比較検定との適用
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 41 / 62
■ 確認:ある番組について,関西で視聴率 29.0 %,関東で 22.5 %であったと公表
された.地域差があると言えるか?ただし関東では 600 世帯,関西では 400 世
帯で調査されている.
Table 16:
テレビ視聴
地域/視聴 見た 見てない 計
関東圏 135 465 600
関西圏 116 284 400
母集団比率間の比較検定との適用
復習 カイ二乗検定 本日の宿題
Table 17:
テレビ視聴
:
枠外は比率,枠内は理論値
地域/視聴 見た 見てない 計
関東圏 150.6 449.4 0.6
関西圏 100.4 299.6 0.4
計 0.251 0.749 1.000
■ 検定統計量の値は
x2 = (135 − 150.6)
2
150.6 +
(465 − 449.4)2 449.4 +
(116 − 100.4)2 100.4 +
(284 − 299.6)2
299.6 ≈ 5.39
セルサイズが小さいときの補正
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 43 / 62
■ 補正が必要とされるケース(小さいセルサイズの影響で検定が歪む): Cochran
rule
◆ セルに入る個体数の期待値が5以下となるケースが頻発する
◆ 同期待値が1未満となるケースが存在している
■ セル(カテゴリー)を併合する
セルサイズが小さいときの補正
復習 カイ二乗検定 本日の宿題
■ イェーツの補正 (一次元分割表,2x2分割表)
◆ セルに入る個体数の期待値が5以下の時に利用を推奨される
◆ 補正方法:観測値と期待値の差から 0.5 を引く
一次元分割表の場合:
I
X
i=1
{|Xi − npi| − 0.5}2
npi
2x2分割表の場合:
n · max{0,|X11X22 − X21X12| − n/2}2
X1,•X2,•X•,1X•,2
ただし,ここでは以下の結果を用いている
2 X i=1 2 X j=1
(Xij − Xi,•X•,j/n)2
Xi,•X•,j
= n · (X11X22 − X21X12)
2
X1,•X2,•X•,1X•,2
セルサイズが小さいときの補正
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 45 / 62
■ フィッシャーの正確確率検定(Exact Test):予防接種の例
◆ 表のような結果が得られる確率は次のように考えられる
1. 予防接種を受けた 1630 人の中から,罹患した 1625 人を選ぶ選び方は,
1630C1625 通り
2. 予防接種を受けていない 1033 人の中から,罹患した 1022 人を選ぶ選
び方は,1033C1022 通り
3. 予防接種の有無と,罹患の有無が独立であるならば,任意の 2663
(= 1630 + 1033) 人から罹患した人数 2647 (= 1625 + 1022) 人を選ぶ選
び方は,2663C2647 通りなので,表のような結果が得らえる確率は
1630C1625 × 1033C1022
2663C2647
= 0.01106942
4. 上の実現値よりも低い確率で起きる事柄を,分割表の数字を動かしなが
ら探す(とてつもない時間がかかることがある).上の確率 0.01106942
とそれより低い確率の合計を考えると,「今実現した分割表とそれより
セルサイズが小さいときの補正
復習 カイ二乗検定 本日の宿題
■ この確率が小さいなら,実現した分割表やそれより極端なケースは,帰無仮説
が正しいとき,起きにくいと考えらえる(帰無仮説を捨てる)
■ この確率が大きいなら,実現した分割表やそれより極端なケースは,帰無仮説
が正しいとき,十分生じる可能性がある(帰無仮説は捨てられない)
◆ 今の例の場合,他に 16 個の分割表が確率 0.011 よりも小さい確率で発生す
る.今の分割表も含め,それらの発生確率の合計は,0.01884755 となり,
通常の有意水準5%よりは低いが,1%よりは大きい.
■ カイ二乗統計量の値は 6.084865 であり,これより極端な値が出る確率は
本日の宿題
水銀汚染の検証
復習 カイ二乗検定 本日の宿題
本節の方法によって次のような公害の検証方法について考える2.
■ 阿賀野川流域で水俣病と同症状を訴える患者
■ 阿賀野川 上流に位置するS社 の排水の影響が疑われたが,次のような反論を
行った.
◆ 阿賀野川 下流 で主に患者が見られる
◆ 下流域は,信濃川で流出した農薬が流れ込み被害が出ている
◆ 実際,表 18 と表 19から,(1) 上流と下流では水銀被害が異なっており,
(2) 上流域は汚染のない他地域と比較しても汚染状況に変化がない .
■ 最後の2点を(4)式を検定統計量として用いた独立性(同質性)の検定3によっ
て示す.
2
この例は吉村功 (1971)「統計手法の誤用 II」『科学』Vol.41, No.10 より引用している.
水銀汚染の検証
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 49 / 62
Table 18: S
社の区切りによる上流・下流別頭髪水銀量(
ppm
)
場所 10 以下 20 以下 50 以下 100 以下 200 以下 200∼ 計
下流 457 480 310 94 39 23 1403
上流 38 11 4 1 1 0 55
計 495 491 314 95 40 23 1458
Table 19: S
社の区切りによる上流と他地域の頭髪水銀量(
ppm
)
場所 10 以下 20 以下 50 以下 100 以下 200 以下 200∼ 計
上流 38 11 4 1 1 0 55
他地域 32 7 3 1 1 0 44
水銀汚染の検証
復習 カイ二乗検定 本日の宿題
■ 上流・下流の独立性に関する検定統計量の値は,表 18から
x2 =
2
X
i=1 6
X
j=1
{xi,j − 1458 · pi,• · p•,j}2
1458 · pi,• · p•,j
= 32.378
帰無仮説である上流・下流の水銀汚染状況が独立であるという条件の下では,(4)
水銀汚染の検証
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 51 / 62
■ 上流・他地域の独立性に関する検定統計量の値は(200ppm 以上の欄は両方とも
0なので無視して),表 19から
x2 =
2
X
i=1 5
X
j=1
{xi,j − 99 · pi,• · p•,j}2
99 · pi,• · p•,j
= 0.328
水銀汚染の検証(
cont.
)
復習 カイ二乗検定 本日の宿題
しかしながら上の分析には次のような反論がなされた.
■ 上流・下流の分け方が恣意的である4.
■ 汚染のない他地域のなかに,イタイイタイ病の被害が出ている地域も含まれて
おり,汚染されていない地域との比較にはなっていない.
以上の点を考慮して,適切に上流下流を分類し,調整した結果が以下の表 20,表
21である.
水銀汚染の検証(
cont.
)
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 53 / 62
Table 20:
調整後の上流・下流別頭髪水銀量(
ppm
)
場所 10 以下 20 以下 50 以下 100 以下 200 以下 200∼ 計
下流 451 475 308 91 38 23 1386
上流 44 16 6 4 2 0 72
計 495 491 314 95 40 23 1458
Table 21:
調整後の上流と他地域の頭髪水銀量(
ppm
)
場所 10 以下 20 以下 50 以下 100 以下 200 以下 200∼ 計
上流 44 16 6 4 2 0 72
他地域 23 3 2 1 0 0 29
水銀汚染の検証(
cont.
)
復習 カイ二乗検定 本日の宿題
調整された表 20,21を用いて独立性(同質性)の検証を行った.
■ 上流・下流の同質性に関する検定統計量の値は,表 20から
x2 =
2
X
i=1 6
X
j=1
{xi,j − 1458 · pi,• · p•,j}2
1458 · pi,• · p•,j
= 26.841
帰無仮説である上流・下流の水銀汚染状況が同質的であるという条件の下では, (4)式は自由度 5 (= (2 − 1)· (6− 1) ) のカイ二乗分布に従うので,有意水準を
水銀汚染の検証(
cont.
)
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 55 / 62
■ 上流・他地域の同質性に関する検定統計量の値は(200ppm 以上の欄は両方とも
0なので無視して),表 21から
x2 =
2
X
i=1 5
X
j=1
{xi,j − 101 · pi,• · p•,j}2
101 · pi,• · p•,j
= 3.627
本日の宿題
復習 カイ二乗検定 本日の宿題
■ 表 20を用いて,上流・下流に関わりなく頭髪水銀量が分布していることを,以
下の空欄を埋めながら,カイ二乗検定によって確かめてください(下の表 22を
用いると統計量の値が計算可能).
◆ 上流・下流の同質性に関する検定統計量の値は,表 20から
x2 =
2
X
i=1 6
X
j=1
{xi,j − 1458 · pi,• · p•,j}2
1458 · pi,• · p•,j
=
帰無仮説である上流・下流の水銀汚染状況が同質的であるという条件の下
では,(4)式は自由度 のカイ二乗分布に従うので,有意水準
を5%とすると棄却域は (11.0705, ∞) となり,上の結果から帰無仮説は
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 57 / 62
■ 表 21を用いて,上流か他地域かに関わりなく頭髪水銀量が分布していることを,
以下の空欄を埋めながら,カイ二乗検定によって確かめてください(下の表
22を用いると統計量の値が計算可能).
◆ 上流・他地域の同質性に関する検定統計量の値は(200ppm 以上の欄は両方
とも0なので無視して),表 21から
x2 =
2
X
i=1 5
X
j=1
{xi,j − 101 · pi,• · p•,j}2
101 · pi,• · p•,j
=
帰無仮説である上流と他地域のの水銀汚染状況が同質的であるという条件
の下では,(4)式は自由度 のカイ二乗分布に従うので,有意
水準を5%とすると棄却域は (9.48773,∞) となり,上の結果から帰無仮説
は .しかしながら先ほど結果よりは汚染状況が乖離し
復習 カイ二乗検定 本日の宿題
Table 22:
上流・下流:独立性の下での理論値(
1458
·
p
i,•
·
p
•,j)
場所 10 以下 20 以下 50 以下 100 以下 200 以下 200∼ 周辺確率
下流 470.556 466.753 298.494 90.309 38.025 21.864 0.951
上流 24.444 24.247 15.506 4.691 1.975 1.136 0.049
周辺確率 0.340 0.337 0.215 0.065 0.027 0.016
Table 23:
上流と他地域:独立性の下での理論値(
101
·
p
i,•
·
p
•,j)
場所 10 以下 20 以下 50 以下 100 以下 200 以下 200∼ 周辺確率
上流 47.762 13.545 5.703 3.564 1.426 0.713
他地域 19.238 5.455 2.297 1.436 0.574 0.287
計算上の補足
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 59 / 62
Table 24:
2x2分割表
B1 B2 total
A1 X11 X12 n1 = X1,• A2 X21 X22 n2 = X2,•
total X•,1 X•,2 n
■ Xi,• = Xi1 + Xi2, X•,j = X1j + X2j ,
n = P2
i=1 Xi,• =
P2
j=1 X•,j =
P2
i=1
P2
計算上の補足
復習 カイ二乗検定 本日の宿題
■ 分割表の検定によるカイ二乗統計量は
(Xij−Xi,•X•,j/n)
2 = 1
n2 Xij · n X s=1 2 X t=1
Xst − Xi,•X•,j !2
= 1
n2(X11X22−X12X21) 2
また
(Xi1 − Xi,•X•,1/n)2
Xi,•X•,1/n
+(Xi2 − Xi,•X•,2/n)
2
Xi,•X•,2/n
= 1
n
(X11X22 − X12X21)2
Xi,•
1
X•,1
+ 1
X•,2
したがって
X = (X11 − X1,•X•,1/n)
2
X1,•X•,1
+ (X12 − X1,•X•,2/n)
2
X1,•X•,2
+ (X21 − X2,•X•,1/n)
2
X2,•X•,1
+ (X22 −
= n · (X11X22 − X12X21)
計算上の補足
復習 カイ二乗検定 本日の宿題
http://sites.google.com/site/hustat2017/ 統計学 第 13 回 – 61 / 62
■ 比率の差に関する検定:B1 における A1 の割合と B2 における A2 の割合の等
しさ
◆ 予防接種を受けた人の罹患率と予防接種を受けなかった人の罹患率の等し
さに関する検定
◆ pˆ1 = X11/(X11 + X12) = X11/X1,•, pˆ2 = X21/(X21 + X22) = X21/X2,•
◆ 検定統計量 (pˆ = (X11 + X21)/n)
ˆ
p1 − pˆ2
p
ˆ
p(1 − pˆ)/n1 + ˆp(1 − pˆ)/n2
分母について,
ˆ
p = X11 + X21
n , 1 − pˆ =
X12 + X22
n
ˆ
p(1 − pˆ)
n1
= X11 + X21
n
X12 + X22
n
1
n1
= 1
n2
X•,1X•,2 X1,•
, pˆ(1 − pˆ) n2
= 1
n2
X•,1X
計算上の補足
復習 カイ二乗検定 本日の宿題
整理すると,
ˆ
p(1 − pˆ)
n1
+ pˆ(1 − pˆ)
n2
= 1
n2
X•,1X•,2 X1,•
+ 1
n2
X•,1X•,2 X2,•
= 1
n
X•,1X•,2 X1,•X2,•
ˆ
p1 − pˆ2 = X11
X1,•
− X21 X2,•
= X11X22 − X12X21
X1,•X2,•
これらの結果を検定統計量にさかのぼって整理すると,
ˆ
p1 − pˆ2
q
p(1−p) n1 +
p(1−p) n2
=
X11X22−X12X21 X1,•X2,•
q
1 n
X•,1X•,2 X1,•X2,•
=
√
n(X11X22 − X12X21)
p
X1,•X2,•X•,1X•,2