ビジネス統計学 (2018 年度夏学期 )

(1)

ビジネス統計学 (2018 ^{年度夏学期} )

谷口説男

九州大学基幹教育院

2018

年

6

月

7

日版

(2)

はじめに

http://www.stat.go.jp/teacher/c2epi1.htm

^から

•

データの収集

“

国勢調査

”=

国の実情を知る…徴兵，徴税，福祉

statistics (

^英

) ⇐ status (

^ラテン

=

^{国家・状態}

)

歴史は古い…古代エジプト，ローマ帝国

•

データから規則性を見出す

アマゾン，顧客管理，…

ICT

による展開

〔ハレー

(17C)

〕死亡年齢の解析〔ナイチンゲール

(19C)

〕戦死者・傷病者のデータ解析

•

確率的事象をとらえる

自然科学，工学，耐久検査，品質管理…数理統計学

(

データ

) = (

真の値

) + (

誤差

)

〔ド・モアブル

(17C)

^{〕年金論，}^{〔ベルヌーイ}

(18C)

^〕天然痘死亡率，〔オイラー，ラプラス

(18C)

〕人口推計

PC

必携

http://www.artsci.kyushu-u.ac.jp/ ^∼ se2otngc/

^{2 / 40}

(3)

1

相関係数

2

単回帰分析

3

回帰分析の応用

4

確率論速習

5

差はある

?—

^{平均の差の検定}

I 6

差はある

?—

平均の差の検定

II 7

差はある

?—

独立性の検定

8

教場試験

(4)

1. ^相関係数

データの例

(

アイスクリームの売り上げ

)

最高気温平均気温最低気温売上

1

^月

9.9 6.6 3.5 780

2

月

11.1 7.4 4.1 950

3

月

14.4 10.4 6.7 1280

4

^月

19.5 15.1 11.2 1255

5

月

23.7 19.4 15.6 1290

6

月

26.9 23 19.9 1650

7

^月

30.9 27.2 24.3 2000

8

月

32.1 28.1 25 2430

9

月

28.3 24.4 21.3 1200

10

^月

23.4 19.2 15.4 1150

11

月

17.8 13.8 10.2 1210

12

月

12.6 8.9 5.6 1045

4 / 40

(5)

データの一般形

(x ₁ , y ₁ ), . . . , (x _n , y _n )

(1

月最高気温

, 1

月売上

), . . . , (12

月最高気温

, 12

月売上

) (1

月平均気温

, 1

月売上

), . . . , (12

月平均気温

, 12

月売上

) (1

月最低気温

, 1

月売上

), . . . , (12

月最低気温

, 12

月売上

)

相関係数

r _xy = S _xy

√ S _xx √

S _yy ^x

x

1

x

n

ただし，

x = x 1 + · · · + x n

n

^，

y = y 1 + · · · + y n

n (

標本平均

)

S _xy =

∑ n i=1

(x _i − x )(y _i − y )

，

S _xx =

∑ n i=1

(x _i − x) ²

，

S _yy =

∑ n i=1

(y _i − y ) ²

(6)

図形的には

n = 3

とする．

⃗ a = (x ₁ − x ₃ , x ₂ − x ₃ , x ₃ − x ₃ ), ⃗ b = (y ₁ − y ₃ , y ₂ − y ₃ , y ₃ − y ₃ )

とおけば，

S _xy = ⃗ a · ⃗ b(

内積

), S _xx = ∥ ⃗ a ∥ ² , S _yy = ∥ ⃗ b ∥ ² .

したがって，『

θ = ⃗ a

と

⃗ b

のなす角』とすると

r _xy = ⃗ a · ⃗ b

∥ ⃗ a ∥ ∥ ⃗ b ∥ = cos θ.

⃗ a

⃗ b θ

◎

r _xy

はデータの散らばり方が

「どれだけ同じ向きを向いているか

?

」を表している．

6 / 40

(7)

1 y ₁ = x ₁ , . . . , y _n = x _n

ならば，

r _xy = 1.

2 y ₁ = − x ₁ , . . . , y _n = − x _n

ならば，

r _xy = − 1

3 y i = ax i + b

^ならば，

r xy = {

1 (a > 0)

− 1 (a < 0) .

注意

x

と

y

に強い関係があっても

r _xy = 1

とはならない．

例

x ₁ , . . . , x ₁₀ , y ₁ , . . . , y ₁₀ , y _i = x _i ⁴

のとき

X 9 8 7 10 13

Y 6561 4096 2401 10000 28561

11 9 8 12 9

14641 6561 4096 20736 6561

r xy = 0.972

(8)

エクセルの関数での計算：

• S _xx = VAR.P([x

の範囲

]) ∗ (

データの個数

) ( ∗ =

×

)

• S _yy = VAR.P([Y

の範囲

]) ∗ (

データの個数

)

• S _xy = COVARIANCE.P([x

の範囲

],[y

の範囲

]) ∗ (

データの個数

)

• r _xy = [S _xy ]/(SQRT([S _xx ]) ∗ SQRT([S _yy ]))

ただし，

[S _xy ]

は

S _xy

の値を求めたセルを表わす

•

より簡単に

r xy =CORREL([x

^の範囲

],[y

^の範囲

])

注意

1

：

VAR

←

variance

，

CORREL

←

correlation

注意

2

：

.P

は「

population

」に由来している．エクセルには，もう一つ，

.S

がつくものもある．こちらは「

sample

^」に由来しており，「不偏」という名の付くものと対応している．

気温とアイスクリーム売上の相関係数

最高気温

0.980

，平均気温

0.974

，最低気温

0.958

8 / 40

(9)

2 ^{．単回帰分析}

気温とアイスクリームの売り上げのデータ：

気温

6.6 7.4 10.4 15.1 19.4 23

売上

780 950 1280 1255 1290 1650

気温

27.2 28.1 24.4 19.2 13.8 8.9

売上

2000 2430 1200 1150 1210 1045 Q:

気温

20

度ならどの程度アイスクリームは売れるのか

?

A:

散布図に直線

y = ax + b

を引いて

x = 20

を代入

!

Q: a, b

はどう求める

?

◎散布図：「挿入」→「グラフ」→「散布図」

(10)

◎

(x ₁ , y ₁ ), . . . , (x _n , y _n ) (

データ

)

⇒

x = x ₁ + · · · + x _n

n , y = y ₁ + · · · + y _n

n ,

S _xy =

∑ n i=1

(x _i − x )(y _i − y ), S _xx =

∑ n i=1

(x _i − x ) ² , b a = S _xy

S xx

, b b = y − b a x a = b a

，

b = b b

が求める

a, b

回帰直線：直線

y = b ax + b b

最小二乗法

: Q(a, b) =

∑ n i=1

{ y _i − (ax _i + b) } ² (

残差

)

を最小化

y = ax + b (x _i , y _i )

y _i − (ax _i + b)

10 / 40

(11)

計算のための準備

つぎの事実を使って変形していく：

(

通常の統計の教科書に書いてある「偏微分」を使う説明は

“

実は数学的には難しい

”)

S _xx = ∑

i

{ x _i ² − 2x x _i + x ² } = ∑

i

x _i ² − 2nx ² + nx ²

= ∑

i

x _i ² − nx ² , (∑

i

x i = nx , ∑

i

y i = ny )

S _xy = ∑

i

{ x _i y _i − x y _i − y x _i + x y } = ∑

i

x _i y _i − nx y − nx y + nx y

= ∑

i

x _i y _i − nx y , S _yy = ∑

i

y _i ² − ny ² .

変形は，つぎの通り：

(12)

∑

i

{ y i − (ax i + b) } ² = ∑

i

{ y i − ax i − b } ²

= ∑

i

{ y _i ² + x _i ² a ² + b ² − 2x _i y _i a + 2x _i ab − 2y _i b }

= nb ² + 2n(x a − y)b + (∑

i

x _i ² )

a ² − 2 (∑

i

x i y i

)

a + ∑

i

y _i ²

= n { b + (x a − y) } ² − n(x a − y) ² + (∑

i

x _i ² )

a ² − · · · + ∑

i

y _i ²

= n { b + (x a − y) } ² + (∑

i

x _i ² − nx ² )

a ²

− 2 (∑

i

x i y i − nx y )

a + ∑

i

y _i ² − ny ²

= n{b + (x a − y)} ² + S xx a ² − 2S xy a + S yy

= n{b + (x a − y)} ² + S xx

( a − S _xy

S xx

) ₂

− S _xy ² S xx

+ S yy .

12 / 40

(13)

エクセルで

a, b

を求める

1) S _xx , S _xy , x, y

を計算する

(

手間がかかる

)

• S _xx =VAR.P([x

の範囲

]) ∗ (

データの個数

)

• S _xy =COVARIANCE.P([x

の範囲

],[y

の範囲

**])*(**

データの個数

)

• x=AVARAGE([x

の範囲

])

，

y =AVARAGE([y

の範囲

])

• a = [S _xy ]/[S _xx ]

，

b = [y ] − [a] ∗ [x ] 2)

エクセルのもっと便利な関数を使う．

• a=SLOPE([y

の範囲

],[x

の範囲

])

• b=INTERCEPT([y

の範囲

],[x

の範囲

]) 3)

散布図を利用する

:

「散布図」

-

「近似曲線」

-

「その他のオプション」「グラフに数式を表示する」

(14)

3. ^{回帰分析の応用}

3.1 ^{トレンド分析}

損保会社の累積支払保険金の増加状況

(

トレンド

)

を線形回帰

1 2 3 4 5 6 7 8 9 10

117 208 335 433 538 701 803 857 966 1176

○ 回帰直線

y = 113.4545x − 10.6

○

11

年目の累積支払保険金：

1237.4

○

11

年目に支払うであろう金額：

1237.4 − 1176 = 61.4

14 / 40

(15)

3.2 ^{ロジスティック回帰} ( ^もどき )

市場での占有率：技術進展ともに上昇，

≦ 100%

y = 1

1 + e ^ax+b

^という形

(

ロジスティック

)

⇒

a, b?

e = 2.71828182845905 · · · = lim

n →∞

( 1 + 1

n ) n

1 y = 1 + e ^ax+b

⇒

ln (

1 − 1 y

)

=: z = ax + b

ln x : e ^ln ^x = x (

^対比：

( √

x ) ² = x )

(16)

○ このデータは次の通り：

1 2 3 4 5

0.006425725 0.011929039 0.013588838 0.031338532 0.040913811

6 7 8 9 10

0.05212115 0.080896291 0.135832283 0.15159588 0.237454253

11 12 13 14 15

0.297813165 0.341376055 0.520958623 0.545791293 0.627789932

16 17 18 19 20

0.719939233 0.802076416 0.859232933 0.908140584 0.942957833

21 22 23 24 25

0.950664594 0.965184638 0.979148139 0.986842793 0.992209042

26 27 28 29 30

0.992894015 0.996895595 0.997354583 0.998558411 0.998587263

◎

z = ln ( 1

y − 1 )

と変形

;

回帰曲線

z = ax + b

を求める

a = − 0.399, b = 5.281

となる．

ロジスティック回帰曲線は，

y = 1

1 + e ⁻ ^0.399 ^x+5.281

^．

16 / 40

(17)

3.3 ^その他

1 y = bx ^a

→

ln y = ln b + a ln x

2 y = be ^ax

→

ln y = ln b + ax

3 y = b + a ln x

4 y = x

bx + a

^→

1 y = b + a 1 x

5 y = 1

ax + b

^→

1 y = ax + b

6 y = a + b x

7 y = e ^a+bx

1 + e ^a+bx = 1 1 + e ⁻ ^a ⁻ ^bx

→ ロジスティック

(

^もどき

)

(18)

4 ^{．確率論速習}

確率変数

•

予測できない，ランダムな揺らぎのあるモデル

(

データ

)=(

真の値

)

＋

“

誤差

”

•

「誤差」をモデル化する：

「大きい誤差はまれで小さい誤差が頻発する」などを

「確からしさ」で数量化する

•

「誤差」を文字

X

で表わす：確率変数

「

X

は

a

以下である」，「

X

は

a

以上

b

以下」などの

「確からしさ」が分ると考える．

[

記号

]

P(X ≦ a)

，

P(a ≦ X ≦ b)

【例】鉛筆を回し

y

^{軸となす角度}

X

^：

P(X ≦ a) = a

2π (0 ≦ a ≦ 2π)

18 / 40

(19)

確率の求め方

•

確率は面積

(

ただし総面積は

1)

•

面積 ≒ 積分：

グラフ

y = f(x)

^と

x

^{軸で囲まれた}

x ≦ a

^{の部分の面積}

P(X ≦ a) =

∫ _a

−∞

f(x)dx

b a

−∞ ← b . . .

(20)

もう少し数学的に

• [b, a]

を

n

等分

( ≒

方眼紙を当てて何個長方形が入るか

?)

分点は：

a, a + a − b

n , a + 2(a − b)

n , . . . , a + (n − 1)(a − b) n

•

長方形の面積は：

f (a) × a − b n , f

(

a+ a − b n

) × a − b n , f

(

a+ 2(a − b) n

) × a − b n , . . .

•

長方形の面積の合計は：

n − 1

∑

k=0

f (

a + k(a − b) n

) × a − b n

n −→ →∞

∫ _a

b

f (x)dx

記号の気持ち：

f (

a + k(a − b) n

) ≒ f (x), a − b

n ≒ dx, Sum ≒

∫ _a

b

20 / 40

(21)

正規分布

• g(x ; µ, σ ² ) = 1

√ 2πσ ² e ⁻

^(x^2σ^−µ)2² とおく．

• P(X ≦ a) =

∫ _a

−∞

g (x ; µ, σ ² )dx

となるとき，

確率変数

X

は平均

µ

，分散

σ ²

の正規分布にしたがうという

(

^記号

X ∼ N (µ, σ ² ))

^．

(22)

正規分布のグラフ

e (

ネイピア数

)

：再訪既出：

lim

n →∞

( 1 + 1

n ) n

= e

積分：

ln(a) =

∫ _a

1

1 x dx (

自然対数

)

→

ln(e ^x ) = x (

逆関数

)

22 / 40

(23)

正規分布：中心極限定理

(

^離散版

)

確率変数

X ₁ , X ₂ , . . .

は

•

互いに無関係

•

限られた値

v ₁ , . . . , v _n

を同じ確率でとる：

P(X _k = a _i ) = p _i (i = 1, . . . , n, k = 1, 2, . . . ) µ =

∑ n i=1

a _i p _i

，

σ ² =

∑ n i =1

a ² _i p _i − µ ²

とすると

P

( S _n − nµ

√ nσ ² ≦ a )

n −→ →∞

∫ _a

−∞

√ 1 2π e ⁻

^x

2

dx = Φ(a)

(

S _n = X ₁ + · · · + X _n

)

無関係なものの和は正規分布に従う

(24)

中心極限定理の応用

—

比率

• k

番目の人：「

NO

」⇒

X _k = 1

，「

YES

」⇒

X _k = 0

• S _n

＝「

NO

」と

n

人中答えた人の数．

• µ

は「

NO

」と答える比率の『真の値』，

σ ² = µ(1 − µ)

．

• S _n − nµ

√ nσ ² ≦ a ⇔ S _n

n − a √

µ(1 − µ)

√ n ≦ µ µ(1 − µ) ≦ 1

4 P

( S _n n − a

2 √ n ≧ µ

) ≒ Φ(a)

• Φ(a) = 0.99

⇒

a = 2.326 n = 100

：

a

2 √

n = 0.163 = 16.3%

100

人中

60

人が「

NO

」といったとしても，

99%

の正しさでいえるのは『真の値は

60 − 16.3 = 47.7%

以上』ということ…最悪，過半数以下かもしれない

24 / 40

(25)

正規分布に関連する計算標準化

◎

X ∼ N (µ, σ ² )

⇒

X − µ

σ ∼ N (0, 1) ( ∵ )

^{簡単な変数変換です…}

P

( X − µ σ ≦ a

)

= P(X ≦ µ + σa) =

∫ _µ+σa

−∞

√ 1

2πσ ² e ⁻

^(x−µ)2^2σ²

dx

=

∫ _a

−∞

√ 1 2π e ⁻

^y

2 2

dy

(

y = x − µ σ

) .

エクセルで計算する

◎

X ∼ N (0, 1)

のとき：

1 P(X ≦ a) = NORM.S.DIST(a,TRUE)

2 P(X ≦ a) = α

となる

a

：

a = NORM.S.INV(α)

◎

Y ∼ N(µ, σ ² )

のとき：

『

Y ≦ a

^⇔

X = Y − µ

σ ≦ a − µ

σ

^』

⊕ X ∼ N (0, 1)

(26)

5. ^差はある ?— ^{平均の差の検定} I

問題店舗

X

に加え新システムの店舗

Y

を開店した

•

店舗

X

^で

100

^{日間，店舗}

Y

^で

80

^{日間の売上を調査}

• X

^では

1

^万個，

Y

^では

8

^千

4

^{百個売れた}

Y

の新システムの方が「より良い」といえるか

?

アプローチ

1 “

差はない＝平均の差は

0”

という仮定をおく．

2

確からしさ

95%

で議論する

(100

回中

95

回は正しい

)

3 P( | “

平均の差

”

から作られる量

| ≦ a) = 0.95

となる

a

を見つける．

4 |

^平均の差

120 − 100 = 20

から作られる量

| > a

⇒

5%

しか起きないことが起きている

⇒ 仮定が間違っている ⇒ 「差はある」

《確からしさ付きの背理法》

間違ったことを仮定する ⇒ 矛盾 ⇒ 仮定が間違っている

√ 2

は有理数である ⇒ 矛盾 ⇒

√

2

^{は有理数でない}

26 / 40

(27)

統計学の言葉では

1

帰無仮説

H ₀

2

有意水準

α

^{；確からしさ}

1 − α

^で考える

3 P(“

統計量

” ≦ a) = 1 − α

となる

a = a(α)

を求める．

4

データから

“

統計量

”

を計算し，

a = a(α)

と比較し，帰無仮説を棄却する・しない

※ 確率

α

で間違う可能性はある ※

(28)

◎ モデル：店舗

X

の

1

日毎の売上

X ₁ , . . . , X ₁₀₀

，店舗

Y

の

1

日毎の売上

Y ₁ , . . . , Y ₈₀

：

X i = (

^真の売上

) + (

^誤差

) i = µ X + e i

Y j = (

真の売上

) + (

誤差

) j = µ Y + E j

【仮定】

e ₁ , . . . , e ₁₀₀ , E ₁ , . . . , E ₈₀

は独立で

∼ N (0, σ ² )

◎ 正規分布にかかわる事実：

• Z 1 , . . . , Z n (

^独立，

∼ N(µ, σ ² ))

⇒

Z _n = Z ₁ + · · · + Z _n

n ∼ N

( µ, σ ²

n )

• U ∼ N(µ _U , σ _U ² )

^，

V ∼ N(µ _V , σ _V ² )

^独立

⇒

U − V ∼ N(µ U − µ V , σ ² _U + σ ² _V )

◎ 店舗

X

，店舗

Y

の場合：

X ₁₀₀ ∼ N (

µ _X , σ ² 100

)

, Y ₈₀ ∼ N (

µ _Y , σ ² 80

) X ₁₀₀ − Y ₈₀ ∼ N

(

µ _X − µ _Y , σ ² ( 1

100 + 1 80

)) .

28 / 40

(29)

⃝ 1

^{帰無仮説『}

H ₀

；

µ _X = µ _Y

』

X ₁₀₀ − Y ₈₀ ∼ N (

0, σ ² ( 1

100 + 1 80

))

∴ X ₁₀₀ − Y ₈₀

√ σ ²

( 1 100 + 1

80 ) ∼ N(0, 1)

⃝ 2

^有意水準

α

⃝ 3 a(α)

を求める ◎

Z ∼ N (0, 1)

⇒

P( | Z | ≦ a) = Φ(a) − Φ( − a) = 2Φ(a) − 1 (

Φ(a) =

∫ a

−∞

√ 1 2π e ⁻

^x

2 2

dx

)

◎

1 − α = P( | Z | ≦ a) = 2Φ(a) − 1

^より，

Φ(a) = 1 − α

2 a = a(α) = NORM.S.INV

( 1 − α

2 )

(30)

∴ P



 



X 100 − Y 80

√ σ ²

( 1 100 + 1

80 )

≦ a(α)



 

 = 1 − α.

⃝ 4

^棄却

?

◎

X ₁₀₀ − Y ₈₀ = 100 − 105 = − 5

なので

5 √ σ ²

( 1 100 + 1

80 )

^と

a(α)

の比較

!

◎

σ

が既知であれば：

σ 10 20 30 40

統計量

3.33 1.67 1.11 0.83

α 0.01 0.05 0.1 0.2

a(α) 2.58 1.96 1.64 1.28

30 / 40

(31)

一般の場合

I(σ ²

が既知

)

• X

群の標本数は

n _X

，標本平均は

X

• Y

群の標本数は

n _Y

，標本平均は

Y

•

帰無仮説

H ₀

：

X

群と

Y

群の『真の平均値』は同じ

•

有意水準を

α

を決める

• N _XY := X − Y

√ σ ²

( 1 n _X + 1

n _Y

)

^とおく．

| N _XY | > NORM.S.INV (

1 − α 2

)

⇒ 帰無仮説を棄却

（＝

X

群と

Y

群の平均値は同じでない）

有意水準

=

危険率

● 『有意水準

0.05(5%)

で棄却する』：『

5%

の誤り』を内包

!

例データ：

X

：

34, 32, 33, 33, 34, 33, 33, 34, 32, 33, 34

Y

：

34, 36, 37, 35, 36, 34, 35, 34, 35, 35, 33, 34, 34, 33,

36, 35, 33

(32)

6. ^差はある ?— ^{平均の差の検定} II

一般の場合

II(σ ²

が未知

)

• X

群の標本数は

n _X

，標本平均は

X

• Y

群の標本数は

n _Y

，標本平均は

Y

•

帰無仮説

H ₀

；

X

群と

Y

群の『真の平均値』は同じ

•

有意水準を

α

^を決める

• t XY = X − Y

√

S _XX + S _YY n _X + n _Y − 2

( 1 n _X + 1

n _Y

)

^とおく．

( S XX =

n

X

∑

i=1

(X i − X ) ²

，

S YY =

n

Y

∑

j=1

(Y j − Y ) ² )

• | t _XY | > T.INV.2T(α, n _X + n _Y − 2)

⇒帰無仮説を棄却

（＝

X

群と

Y

群の平均値は同じでない）．

32 / 40

(33)

What’s behind! — t-

分布

◎ 帰無仮説の下で

t _XY

は自由度

n _X + n _Y − 2

の

t-

分布に従う

◎

W

が自由度

n

の

t-

分布に従う：

P(W ≦ a) =

∫ _a

−∞

√ 1

n B ( ⁿ ₂ , ¹ ₂ ) 1

(1 + ^x _n

²

)

ⁿ⁺¹²

dx = T _n (a) (

B(a, b) = ∫ ₁

0 x ^a ⁻ ¹ (1 − x) ^b ⁻ ¹ dx )

(

自由度

15)

◎

1 − α = P( | t _X _,Y | ≦ a)

= T n

_X

+n

_Y

− 2 (a) − T n

_X

+n

_Y

− 2 ( − a)

= 2T _n

_X

_+n

_Y

₋ ₂ (a) − 1

◎

a(α) = T.INV.2T(α, n _X +n _Y − 2)

= T.INV

( 1 − α

2 , n _X + n _Y − 2

)

例

X : 581, 700, 579, 534, 596, 582, 538, 588, 581, 539

Y : 543, 510, 580, 520, 506, 550

(34)

片側検定

[

^先の例

] ^•

^店舗

Y

の方が売上がよいはず

• | X − Y | ≦ a

^でなく

Y − X ≦ a

^を考える片側検定の実行

1

帰無仮説『

H 0

；

µ X = µ Y

』

2

有意水準

α

3 “

統計量

”

は

− N _XY (σ ²

既知

)

，

− t _XY (σ ²

未知

)

：

P( − N XY ≦ a) = Φ(a)

^，

P( − t XY ≦ a) = T n

_X

+n

_Y

− 2 (a) P( · · · ) = 1 − α

を解くと

a(α) = {

NORM.S.INV(1 − α) T.INV(1 − α, n _X + n _Y − 2)

4

データから得られる

− N _XY

，

− t _XY

：

− N _XY > a(α)

，

− t _XY > a(α)

ならば棄却する．

(Y

の方が

X

より「よい」と結論する

)

34 / 40

(35)

先の例

◎

σ

が既知であれば：

σ 10 20 30 40

− N _XY 3.33 1.67 1.11 0.83

α 0.01 0.05 0.1 0.2

a(α) 2.33 1.64 1.28 0.84 α 0.01 0.05 0.1 0.2 a(α) 2.58 1.96 1.64 1.28

◎

σ = 10

のとき，すべての有意水準で棄却される．

σ = 20

のとき，有意水準

5%

，

10%

，

20%

で棄却される．

⇒ これらのとき「

Y

^{の売上の方がよい}

!

^{」といえる}

(36)

7. ^差はある ?— ^{独立性の検定}

サンドイッチの嗜好

◎ 問題：男性，女性に好きなサンドイッチを選んでもらった結果が次のようになった．性別による嗜好の差があるか

?

卵サンドカツサンド野菜サンドハムサンド

男性

20 32 24 28

女性

28 18 30 20

※このような表をクロス集計表という．

◎ 安直に：棒グラフを書いて比べてみる．

36 / 40

(37)

もう少し数学的に説得を

•

男女比；

104 200 : 96

200

•

「卵，カツ，野菜，ハム」比：

48 200 : 50 200 : 54

200 : 48 200

•

『男女に嗜好の差がない』 ⇒ 男性＆卵サンドが好き：

200 × 104 200 × 48

200 = 24.96 (

下図

)

•

差

24.96 − 20 = 4.96

＝『嗜好に差がない』という仮定とのズレ．

•

差の二乗の総和が

“

^小さい

”

^{⇒『嗜好に差がない』}

(38)

ピアソンの

χ ² (

カイ二乗

)

独立性検定

• M

種類のグループ

A ₁ , . . . , A _M N

種類の性質

B ₁ , . . . , B _N

}

グループによる相関の違いあるか

?

• n

個のサンプルデータをクロス集計表に整理する．

B ₁ B ₂

· · ·

B _N

A ₁ S ₁₁ S ₁₂ S _1N

.. .

A _M S _M1 S _M2 S _MN

• p _i = S _i1 + · · · + S _iN

n

^，

q _j = S _1j + · · · + S _Mj

n

^，

χ ² =

∑ M

i=1

∑ N

j=1

(S _ij − np _i q _j ) ² np _i q _j

•

有意水準を

α

とし，

χ ² > CHISQ.INV(1 − α, (M − 1)(N − 1))

ならば，帰無仮説『グループ間に差がない』を棄却する

(

グループ間に性質

B

の差はある

)

．

38 / 40

(39)

What’s behind!—

カイ二乗分布

1

帰無仮説

A ₁ , . . . , A _M

と

B ₁ , . . . , B _N

は独立である．

(

グループ間に性質

B

の差はない

)

．

2

有意水準

α

3 “

統計量

”χ ²

は

(n

が大きければ

)

自由度

k = (M − 1)(N − 1)

のカイ二乗分布に従う：

P(χ ² ≦ a) =

∫ a 0

√ 1

2 ^k Γ( ^k ₂ )

x

^k⁻²²

e ⁻

^x

2 2

dx (

Γ(y ) = ∫ _∞

0 x ^y−1 e ^−x dx )

自由度：

5

，

10

，

20 P(χ ² ≦ a) = 1 − α ⇔ a = a(α) = CHISQ.INV(1 − α, k)

4 χ ² > a(α)

ならば，帰無仮説を棄却する．

(40)

サンドイッチの場合

•

クロス集計表に小計セルと

p _i , q _j

セルを作るとよい．

B 1 B 2

· · ·

B _N

^計

p i

A 1 S 11 S 12 S 1N S ₁ ^A p 1

.. .

A M S M1 S M2 S MN S _M ^A p M

計

S ₁ ^B S ₂ ^B S _N ^B

q _j q ₁ q ₂ q _N

•

サンドイッチでは：

M = 2

^，

N = 4

^である．

クロス集計表を作って計算すると

χ ² = 6.94

となる．

CHISQ.INV(0.9, 3) = 6.25

，

CHISQ.INV(0.95, 3) = 7.81

^，

CHISQ.INV(0.99, 3) = 11.3487

．

有意水準

0.1

ならば棄却されるが，有意水準

0.05

，

0.01

では棄却されない．

40 / 40

ビジネス統計学 (2018 年度夏学期 )