ビジネス統計学 (2018 年度夏学期 )
谷口説男
九州大学 基幹教育院
2018
年6
月7
日版はじめに
http://www.stat.go.jp/teacher/c2epi1.htm
から•
データの収集“
国勢調査”=
国の実情を知る…徴兵,徴税,福祉statistics (
英) ⇐ status (
ラテン=
国家・状態)
歴史は古い…古代エジプト,ローマ帝国•
データから規則性を見出すアマゾン,顧客管理,…
ICT
による展開〔ハレー
(17C)
〕死亡年齢の解析〔ナイチンゲール(19C)
〕戦死者・傷病者のデータ解析•
確率的事象をとらえる自然科学,工学,耐久検査,品質管理…数理統計学
(
データ) = (
真の値) + (
誤差)
〔ド・モアブル
(17C)
〕年金論,〔ベルヌーイ(18C)
〕 天然痘死亡率,〔オイラー,ラプラス(18C)
〕人口推計PC
必携http://www.artsci.kyushu-u.ac.jp/ ∼ se2otngc/
2 / 401
相関係数2
単回帰分析3
回帰分析の応用4
確率論速習5
差はある?—
平均の差の検定I 6
差はある?—
平均の差の検定II 7
差はある?—
独立性の検定8
教場試験1. 相関係数
データの例
(
アイスクリームの売り上げ)
最高気温 平均気温 最低気温 売上
1
月9.9 6.6 3.5 780
2
月11.1 7.4 4.1 950
3
月14.4 10.4 6.7 1280
4
月19.5 15.1 11.2 1255
5
月23.7 19.4 15.6 1290
6
月26.9 23 19.9 1650
7
月30.9 27.2 24.3 2000
8
月32.1 28.1 25 2430
9
月28.3 24.4 21.3 1200
10
月23.4 19.2 15.4 1150
11
月17.8 13.8 10.2 1210
12
月12.6 8.9 5.6 1045
4 / 40
データの一般形
(x 1 , y 1 ), . . . , (x n , y n )
(1
月最高気温, 1
月売上), . . . , (12
月最高気温, 12
月売上) (1
月平均気温, 1
月売上), . . . , (12
月平均気温, 12
月売上) (1
月最低気温, 1
月売上), . . . , (12
月最低気温, 12
月売上)
相関係数
r xy = S xy
√ S xx √
S yy x
x
1x
nただし,
x = x 1 + · · · + x n
n
,y = y 1 + · · · + y n
n (
標本平均)
S xy =
∑ n i=1
(x i − x )(y i − y )
,
S xx =
∑ n i=1
(x i − x) 2
,S yy =
∑ n i=1
(y i − y ) 2
図形的には
n = 3
とする.⃗ a = (x 1 − x 3 , x 2 − x 3 , x 3 − x 3 ), ⃗ b = (y 1 − y 3 , y 2 − y 3 , y 3 − y 3 )
とおけば,S xy = ⃗ a · ⃗ b(
内積), S xx = ∥ ⃗ a ∥ 2 , S yy = ∥ ⃗ b ∥ 2 .
したがって,『θ = ⃗ a
と⃗ b
のなす角』とするとr xy = ⃗ a · ⃗ b
∥ ⃗ a ∥ ∥ ⃗ b ∥ = cos θ.
⃗ a
⃗ b θ
◎
r xy
はデータの散らばり方が「どれだけ同じ向きを向いているか
?
」 を表している.6 / 40
1 y 1 = x 1 , . . . , y n = x n
ならば,r xy = 1.
2 y 1 = − x 1 , . . . , y n = − x n
ならば,r xy = − 1
3 y i = ax i + b
ならば,r xy = {
1 (a > 0)
− 1 (a < 0) .
注意
x
とy
に強い関係があってもr xy = 1
とはならない.例
x 1 , . . . , x 10 , y 1 , . . . , y 10 , y i = x i 4
のときX 9 8 7 10 13
Y 6561 4096 2401 10000 28561
11 9 8 12 9
14641 6561 4096 20736 6561
r xy = 0.972
エクセルの関数での計算:
• S xx = VAR.P([x
の範囲]) ∗ (
データの個数) ( ∗ =
×)
• S yy = VAR.P([Y
の範囲]) ∗ (
データの個数)
• S xy = COVARIANCE.P([x
の範囲],[y
の範囲]) ∗ (
デー タの個数)
• r xy = [S xy ]/(SQRT([S xx ]) ∗ SQRT([S yy ]))
ただし,[S xy ]
はS xy
の値を求めたセルを表わす•
より簡単にr xy =CORREL([x
の範囲],[y
の範囲])
注意1
:VAR
←variance
,CORREL
←correlation
注意2
:.P
は「population
」に由来している.エクセルに は,もう一つ,.S
がつくものもある.こちらは「sample
」に 由来しており,「不偏」という名の付くものと対応している.気温とアイスクリーム売上の相関係数
最高気温
0.980
,平均気温0.974
,最低気温0.958
8 / 40
2 .単回帰分析
気温とアイスクリームの売り上げのデータ:
気温
6.6 7.4 10.4 15.1 19.4 23
売上780 950 1280 1255 1290 1650
気温27.2 28.1 24.4 19.2 13.8 8.9
売上2000 2430 1200 1150 1210 1045 Q:
気温20
度ならどの程度アイスクリームは売れるのか?
A:
散布図に直線y = ax + b
を引いてx = 20
を代入!
Q: a, b
はどう求める?
◎散布図:「挿入」→「グラフ」→「散布図」
◎
(x 1 , y 1 ), . . . , (x n , y n ) (
データ)
⇒x = x 1 + · · · + x n
n , y = y 1 + · · · + y n
n ,
S xy =
∑ n i=1
(x i − x )(y i − y ), S xx =
∑ n i=1
(x i − x ) 2 , b a = S xy
S xx
, b b = y − b a x a = b a
,b = b b
が求めるa, b
回帰直線:直線y = b ax + b b
最小二乗法
: Q(a, b) =
∑ n i=1
{ y i − (ax i + b) } 2 (
残差)
を最小化y = ax + b (x i , y i )
y i − (ax i + b)
10 / 40
計算のための準備
つぎの事実を使って変形していく:
(
通常の統計の教科書に書 いてある「偏微分」を使う説明は“
実は数学的には難しい”)
S xx = ∑
i
{ x i 2 − 2x x i + x 2 } = ∑
i
x i 2 − 2nx 2 + nx 2
= ∑
i
x i 2 − nx 2 , (∑
i
x i = nx , ∑
i
y i = ny )
S xy = ∑
i
{ x i y i − x y i − y x i + x y } = ∑
i
x i y i − nx y − nx y + nx y
= ∑
i
x i y i − nx y , S yy = ∑
i
y i 2 − ny 2 .
変形は,つぎの通り:
∑
i
{ y i − (ax i + b) } 2 = ∑
i
{ y i − ax i − b } 2
= ∑
i
{ y i 2 + x i 2 a 2 + b 2 − 2x i y i a + 2x i ab − 2y i b }
= nb 2 + 2n(x a − y)b + (∑
i
x i 2 )
a 2 − 2 (∑
i
x i y i
)
a + ∑
i
y i 2
= n { b + (x a − y) } 2 − n(x a − y) 2 + (∑
i
x i 2 )
a 2 − · · · + ∑
i
y i 2
= n { b + (x a − y) } 2 + (∑
i
x i 2 − nx 2 )
a 2
− 2 (∑
i
x i y i − nx y )
a + ∑
i
y i 2 − ny 2
= n{b + (x a − y)} 2 + S xx a 2 − 2S xy a + S yy
= n{b + (x a − y)} 2 + S xx
( a − S xy
S xx
) 2
− S xy 2 S xx
+ S yy .
12 / 40
エクセルで
a, b
を求める1) S xx , S xy , x, y
を計算する(
手間がかかる)
• S xx =VAR.P([x
の範囲]) ∗ (
データの個数)
• S xy =COVARIANCE.P([x
の範囲],[y
の範囲])*(
データ の個数)
• x=AVARAGE([x
の範囲])
,y =AVARAGE([y
の範囲])
• a = [S xy ]/[S xx ]
,b = [y ] − [a] ∗ [x ] 2)
エクセルのもっと便利な関数を使う.• a=SLOPE([y
の範囲],[x
の範囲])
• b=INTERCEPT([y
の範囲],[x
の範囲]) 3)
散布図を利用する:
「散布図」
-
「近似曲線」-
「その他のオプション」「グラフに数 式を表示する」3. 回帰分析の応用
3.1 トレンド分析
損保会社の累積支払保険金の増加状況
(
トレンド)
を線形回帰1 2 3 4 5 6 7 8 9 10
117 208 335 433 538 701 803 857 966 1176
○ 回帰直線
y = 113.4545x − 10.6
○
11
年目の累積支払保険金:1237.4
○
11
年目に支払うであろう金額:1237.4 − 1176 = 61.4
14 / 40
3.2 ロジスティック回帰 ( もどき )
市場での占有率:技術進展ともに上昇,
≦ 100%
y = 1
1 + e ax+b
という形(
ロジスティック)
⇒a, b?
e = 2.71828182845905 · · · = lim
n →∞
( 1 + 1
n ) n
1
y = 1 + e ax+b
⇒ln (
1 − 1 y
)
=: z = ax + b
ln x : e ln x = x (
対比:( √
x ) 2 = x )
○ このデータは次の通り:
1 2 3 4 5
0.006425725 0.011929039 0.013588838 0.031338532 0.040913811
6 7 8 9 10
0.05212115 0.080896291 0.135832283 0.15159588 0.237454253
11 12 13 14 15
0.297813165 0.341376055 0.520958623 0.545791293 0.627789932
16 17 18 19 20
0.719939233 0.802076416 0.859232933 0.908140584 0.942957833
21 22 23 24 25
0.950664594 0.965184638 0.979148139 0.986842793 0.992209042
26 27 28 29 30
0.992894015 0.996895595 0.997354583 0.998558411 0.998587263
◎
z = ln ( 1
y − 1 )
と変形
;
回帰曲線z = ax + b
を求めるa = − 0.399, b = 5.281
となる.ロジスティック回帰曲線は,
y = 1
1 + e − 0.399 x+5.281
.16 / 40
3.3 その他
1 y = bx a
→ln y = ln b + a ln x
2 y = be ax
→ln y = ln b + ax
3 y = b + a ln x
4 y = x
bx + a
→1
y = b + a 1 x
5 y = 1
ax + b
→1
y = ax + b
6 y = a + b x
7 y = e a+bx
1 + e a+bx = 1 1 + e − a − bx
→ ロジスティック
(
もどき)
4 .確率論速習
確率変数
•
予測できない,ランダムな揺らぎのあるモデル(
データ)=(
真の値)
+“
誤差”
•
「誤差」をモデル化する:「大きい誤差はまれで小さい誤差が頻発する」などを
「確からしさ」で数量化する
•
「誤差」を文字X
で表わす:確率変数「
X
はa
以下である」,「X
はa
以上b
以下」などの「確からしさ」が分ると考える.
[
記号]
P(X ≦ a)
,P(a ≦ X ≦ b)
【例】鉛筆を回し
y
軸となす角度X
:P(X ≦ a) = a
2π (0 ≦ a ≦ 2π)
18 / 40
確率の求め方
•
確率は面積(
ただし総面積は1)
•
面積 ≒ 積分:グラフ
y = f(x)
とx
軸で囲まれたx ≦ a
の部分の面積P(X ≦ a) =
∫ a
−∞
f(x)dx
b a
−∞ ← b . . .
もう少し数学的に
• [b, a]
をn
等分( ≒
方眼紙を当てて何個長方形が入るか?)
分点は:a, a + a − b
n , a + 2(a − b)
n , . . . , a + (n − 1)(a − b) n
•
長方形の面積は:f (a) × a − b n , f
(
a+ a − b n
) × a − b n , f
(
a+ 2(a − b) n
) × a − b n , . . .
•
長方形の面積の合計は:n − 1
∑
k=0
f (
a + k(a − b) n
) × a − b n
n −→ →∞
∫ a
b
f (x)dx
記号の気持ち:
f (
a + k(a − b) n
) ≒ f (x), a − b
n ≒ dx, Sum ≒
∫ a
b
20 / 40
正規分布
• g(x ; µ, σ 2 ) = 1
√ 2πσ 2 e −
(x2σ−µ)22 とおく.• P(X ≦ a) =
∫ a
−∞
g (x ; µ, σ 2 )dx
となるとき,確率変数
X
は平均µ
,分散σ 2
の正規分布にしたがう という
(
記号X ∼ N (µ, σ 2 ))
.正規分布のグラフ
e (
ネイピア数)
:再訪 既出:lim
n →∞
( 1 + 1
n ) n
= e
積分:ln(a) =
∫ a
1
1
x dx (
自然対数)
→ln(e x ) = x (
逆関数)
22 / 40
正規分布:中心極限定理
(
離散版)
確率変数X 1 , X 2 , . . .
は•
互いに無関係•
限られた値v 1 , . . . , v n
を同じ確率でとる:
P(X k = a i ) = p i (i = 1, . . . , n, k = 1, 2, . . . ) µ =
∑ n i=1
a i p i
,σ 2 =
∑ n i =1
a 2 i p i − µ 2
とするとP
( S n − nµ
√ nσ 2 ≦ a )
n −→ →∞
∫ a
−∞
√ 1 2π e −
x2
2
dx = Φ(a)
(
S n = X 1 + · · · + X n
)
無関係なものの和は正規分布に従う中心極限定理の応用
—
比率• k
番目の人:「NO
」⇒X k = 1
,「YES
」⇒X k = 0
• S n
=「NO
」とn
人中答えた人の数.• µ
は「NO
」と答える比率の『真の値』,σ 2 = µ(1 − µ)
.• S n − nµ
√ nσ 2 ≦ a ⇔ S n
n − a √
µ(1 − µ)
√ n ≦ µ µ(1 − µ) ≦ 1
4 P
( S n n − a
2 √ n ≧ µ
) ≒ Φ(a)
• Φ(a) = 0.99
⇒a = 2.326 n = 100
:a
2 √
n = 0.163 = 16.3%
100
人中60
人が「NO
」といったとしても,99%
の正し さでいえるのは『真の値は60 − 16.3 = 47.7%
以上』と いうこと…最悪,過半数以下かもしれない24 / 40
正規分布に関連する計算 標準化
◎
X ∼ N (µ, σ 2 )
⇒X − µ
σ ∼ N (0, 1) ( ∵ )
簡単な変数変換です…P
( X − µ σ ≦ a
)
= P(X ≦ µ + σa) =
∫ µ+σa
−∞
√ 1
2πσ 2 e −
(x−µ)22σ2dx
=
∫ a
−∞
√ 1 2π e −
y2 2
dy
(
y = x − µ σ
) .
エクセルで計算する
◎
X ∼ N (0, 1)
のとき:1 P(X ≦ a) = NORM.S.DIST(a,TRUE)
2 P(X ≦ a) = α
となるa
:a = NORM.S.INV(α)
◎
Y ∼ N(µ, σ 2 )
のとき:『
Y ≦ a
⇔X = Y − µ
σ ≦ a − µ
σ
』⊕ X ∼ N (0, 1)
5. 差はある ?— 平均の差の検定 I
問題 店舗
X
に加え新システムの店舗Y
を開店した•
店舗X
で100
日間,店舗Y
で80
日間の売上を調査• X
では1
万個,Y
では8
千4
百個売れたY
の新システムの方が「より良い」といえるか?
アプローチ1 “
差はない=平均の差は0”
という仮定をおく.2
確からしさ95%
で議論する(100
回中95
回は正しい)
3 P( | “
平均の差”
から作られる量| ≦ a) = 0.95
となるa
を 見つける.4 |
平均の差120 − 100 = 20
から作られる量| > a
⇒
5%
しか起きないことが起きている⇒ 仮定が間違っている ⇒ 「差はある」
《確からしさ付きの背理法》
間違ったことを仮定する ⇒ 矛盾 ⇒ 仮定が間違っている
√ 2
は有理数である ⇒ 矛盾 ⇒√
2
は有理数でない26 / 40
統計学の言葉では
1
帰無仮説H 0
2
有意水準α
;確からしさ1 − α
で考える3 P(“
統計量” ≦ a) = 1 − α
となるa = a(α)
を求める.4
データから“
統計量”
を計算し,a = a(α)
と比較し,帰 無仮説を棄却する・しない※ 確率
α
で間違う可能性はある ※◎ モデル:店舗
X
の1
日毎の売上X 1 , . . . , X 100
, 店舗Y
の1
日毎の売上Y 1 , . . . , Y 80
:X i = (
真の売上) + (
誤差) i = µ X + e i
Y j = (
真の売上) + (
誤差) j = µ Y + E j
【仮定】
e 1 , . . . , e 100 , E 1 , . . . , E 80
は独立で∼ N (0, σ 2 )
◎ 正規分布にかかわる事実:
• Z 1 , . . . , Z n (
独立,∼ N(µ, σ 2 ))
⇒
Z n = Z 1 + · · · + Z n
n ∼ N
( µ, σ 2
n )
• U ∼ N(µ U , σ U 2 )
,V ∼ N(µ V , σ V 2 )
独立⇒
U − V ∼ N(µ U − µ V , σ 2 U + σ 2 V )
◎ 店舗
X
,店舗Y
の場合:X 100 ∼ N (
µ X , σ 2 100
)
, Y 80 ∼ N (
µ Y , σ 2 80
) X 100 − Y 80 ∼ N
(
µ X − µ Y , σ 2 ( 1
100 + 1 80
)) .
28 / 40
⃝ 1
帰無仮説『H 0
;µ X = µ Y
』X 100 − Y 80 ∼ N (
0, σ 2 ( 1
100 + 1 80
))
∴ X 100 − Y 80
√ σ 2
( 1 100 + 1
80
) ∼ N(0, 1)
⃝ 2
有意水準α
⃝ 3 a(α)
を求める ◎Z ∼ N (0, 1)
⇒
P( | Z | ≦ a) = Φ(a) − Φ( − a) = 2Φ(a) − 1 (
Φ(a) =
∫ a
−∞
√ 1 2π e −
x2 2
dx
)
◎1 − α = P( | Z | ≦ a) = 2Φ(a) − 1
より,Φ(a) = 1 − α
2
a = a(α) = NORM.S.INV
( 1 − α
2
)
∴ P
X 100 − Y 80
√ σ 2
( 1 100 + 1
80 )
≦ a(α)
= 1 − α.
⃝ 4
棄却?
◎
X 100 − Y 80 = 100 − 105 = − 5
なので5
√ σ 2
( 1 100 + 1
80
)
とa(α)
の比較!
◎
σ
が既知であれば:
σ 10 20 30 40
統計量3.33 1.67 1.11 0.83
α 0.01 0.05 0.1 0.2
a(α) 2.58 1.96 1.64 1.28
30 / 40
一般の場合
I(σ 2
が既知)
• X
群の標本数はn X
,標本平均はX
• Y
群の標本数はn Y
,標本平均はY
•
帰無仮説H 0
:X
群とY
群の『真の平均値』は同じ•
有意水準をα
を決める• N XY := X − Y
√ σ 2
( 1 n X + 1
n Y
)
とおく.| N XY | > NORM.S.INV (
1 − α 2
)
⇒ 帰無仮説を棄却(=
X
群とY
群の平均値は同じでない)有意水準
=
危険率● 『有意水準
0.05(5%)
で棄却する』:『5%
の誤り』を内包!
例 データ:
X
:34, 32, 33, 33, 34, 33, 33, 34, 32, 33, 34
Y
:34, 36, 37, 35, 36, 34, 35, 34, 35, 35, 33, 34, 34, 33,
36, 35, 33
6. 差はある ?— 平均の差の検定 II
一般の場合
II(σ 2
が未知)
• X
群の標本数はn X
,標本平均はX
• Y
群の標本数はn Y
,標本平均はY
•
帰無仮説H 0
;X
群とY
群の『真の平均値』は同じ•
有意水準をα
を決める• t XY = X − Y
√
S XX + S YY n X + n Y − 2
( 1 n X + 1
n Y
)
とおく.( S XX =
n
X∑
i=1
(X i − X ) 2
,S YY =
n
Y∑
j=1
(Y j − Y ) 2 )
• | t XY | > T.INV.2T(α, n X + n Y − 2)
⇒帰無仮説を棄却(=
X
群とY
群の平均値は同じでない).32 / 40
What’s behind! — t-
分布◎ 帰無仮説の下で
t XY
は自由度n X + n Y − 2
のt-
分布に従う◎
W
が自由度n
のt-
分布に従う:P(W ≦ a) =
∫ a
−∞
√ 1
n B ( n 2 , 1 2 ) 1
(1 + x n
2)
n+12dx = T n (a) (
B(a, b) = ∫ 1
0 x a − 1 (1 − x) b − 1 dx )
(
自由度15)
◎
1 − α = P( | t X ,Y | ≦ a)
= T n
X+n
Y− 2 (a) − T n
X+n
Y− 2 ( − a)
= 2T n
X+n
Y− 2 (a) − 1
◎
a(α) = T.INV.2T(α, n X +n Y − 2)
= T.INV
( 1 − α
2 , n X + n Y − 2
)
例X : 581, 700, 579, 534, 596, 582, 538, 588, 581, 539
Y : 543, 510, 580, 520, 506, 550
片側検定
[
先の例] •
店舗Y
の方が売上がよいはず• | X − Y | ≦ a
でなくY − X ≦ a
を考える 片側検定の実行1
帰無仮説『H 0
;µ X = µ Y
』2
有意水準α
3 “
統計量”
は− N XY (σ 2
既知)
,− t XY (σ 2
未知)
:
P( − N XY ≦ a) = Φ(a)
,P( − t XY ≦ a) = T n
X+n
Y− 2 (a) P( · · · ) = 1 − α
を解くと
a(α) = {
NORM.S.INV(1 − α) T.INV(1 − α, n X + n Y − 2)
4
データから得られる− N XY
,− t XY
:
− N XY > a(α)
,− t XY > a(α)
ならば棄却する.
(Y
の方がX
より「よい」と結論する)
34 / 40
先の例
◎
σ
が既知であれば:
σ 10 20 30 40
− N XY 3.33 1.67 1.11 0.83
α 0.01 0.05 0.1 0.2
a(α) 2.33 1.64 1.28 0.84 α 0.01 0.05 0.1 0.2 a(α) 2.58 1.96 1.64 1.28
◎
σ = 10
のとき,すべての有意水準で棄却される.
σ = 20
のとき,有意水準5%
,10%
,20%
で棄却される.⇒ これらのとき「
Y
の売上の方がよい!
」といえる7. 差はある ?— 独立性の検定
サンドイッチの嗜好
◎ 問題: 男性,女性に好きなサンドイッチを選んでもらっ た結果が次のようになった.性別による嗜好の差があるか
?
卵サンド カツサンド 野菜サンド ハムサンド
男性
20 32 24 28
女性
28 18 30 20
※このような表をクロス集計表という.
◎ 安直に: 棒グラフを書いて比べてみる.
36 / 40
もう少し数学的に説得を
•
男女比;104 200 : 96
200
•
「卵,カツ,野菜,ハム」比:48
200 : 50 200 : 54
200 : 48 200
•
『男女に嗜好の差がない』 ⇒ 男性&卵サンドが好き:200 × 104 200 × 48
200 = 24.96 (
下図)
•
差24.96 − 20 = 4.96
=『嗜好に差がない』という仮定とのズレ.
•
差の二乗の総和が“
小さい”
⇒『嗜好に差がない』ピアソンの
χ 2 (
カイ二乗)
独立性検定• M
種類のグループA 1 , . . . , A M N
種類の性質B 1 , . . . , B N
}
グループによる 相関の違いあるか
?
• n
個のサンプルデータをクロス集計表に整理する.B 1 B 2
· · ·
B N
A 1 S 11 S 12 S 1N
.. .
A M S M1 S M2 S MN
• p i = S i1 + · · · + S iN
n
,q j = S 1j + · · · + S Mj
n
,χ 2 =
∑ M
i=1
∑ N
j=1
(S ij − np i q j ) 2 np i q j
•
有意水準をα
とし,
χ 2 > CHISQ.INV(1 − α, (M − 1)(N − 1))
ならば,帰無仮説『グループ間に差がない』を棄却する(
グループ間に性質B
の差はある)
.38 / 40
What’s behind!—
カイ二乗分布1
帰無仮説A 1 , . . . , A M
とB 1 , . . . , B N
は独立である.(
グループ間に性質B
の差はない)
.2
有意水準α
3 “
統計量”χ 2
は(n
が大きければ)
自由度
k = (M − 1)(N − 1)
のカイ二乗分布に従う:P(χ 2 ≦ a) =
∫ a 0
√ 1
2 k Γ( k 2 )
x
k−22e −
x2 2
dx (
Γ(y ) = ∫ ∞
0 x y−1 e −x dx )
自由度:
5
,10
,20
P(χ 2 ≦ a) = 1 − α ⇔ a = a(α) = CHISQ.INV(1 − α, k)
4 χ 2 > a(α)
ならば,帰無仮説を棄却する.サンドイッチの場合
•
クロス集計表に小計セルとp i , q j
セルを作るとよい.B 1 B 2
· · ·
B N
計p i
A 1 S 11 S 12 S 1N S 1 A p 1
.. .
A M S M1 S M2 S MN S M A p M
計
S 1 B S 2 B S N B
q j q 1 q 2 q N
•
サンドイッチでは:M = 2
,N = 4
である.クロス集計表を作って計算すると
χ 2 = 6.94
となる.
CHISQ.INV(0.9, 3) = 6.25
,CHISQ.INV(0.95, 3) = 7.81
,CHISQ.INV(0.99, 3) = 11.3487
.有意水準
0.1
ならば棄却されるが,有意水準0.05
,0.01
では棄却されない.40 / 40