モジュール１のまとめ

(1)

数理統計学

(2)

標本分散と（標本）不偏分散

両方とも「分散」というのが実情

（標本）

不偏分散

＝

二乗偏差計

データ数－１

分析ではこちらをとることが多い

標本分散

＝

二乗偏差計

データ数

（

10ページ）

（

103ページ）

【復習】

(3)

実験結果（1万回）

平均50Kg、標準偏差

10Kg

、10人

> mean(jikken)

[1]

89.41373

> mean(jikken1)

[1]

99.63248

標準偏差＝１０前後

標準偏差＝

9.5前後

全体に小さすぎる偏りがとれたそもそも正規分布でもない

ここまで

【復習】

(4)

図（前頁）の作成手順①

> rnorm(10,mean=50,sd=10) ➡ 正規分布から10個のサンプル [1] 56.51273 75.94976 59.07253 55.21892 48.90524 50.07275 46.32889 [8] 48.62459 70.34706 55.00642 > varp(rnorm(10,mean=50,sd=10)) [1] 100.2284 > varp(rnorm(10,mean=50,sd=10)) [1] 47.27871 > varp(rnorm(10,mean=50,sd=10)) [1] 38.88721

> jikken <- replicate(10000,varp(rnorm(10,mean=50,sd=10))) > jikken1 <- replicate(10000,var(rnorm(10,mean=50,sd=10))) > par(mfrow=c(2,1))⏎ →2段の図の準備 > hist(jikken,main="標本分散",breaks="FD") > hist(jikken1,main="不偏分散",breaks="FD") 10個のデータの標本分散の出方をみる

Ｒで

確認

注：コマンド”varp”は次ページの説明を確認すること

(5)

varp

<- function(x){mean((x-mean(x))^2)}

以下を実行してコマンドにしておくと便利

分散

は「平均二乗偏差」のことなので、

以下のように求めるのが本来は

定義

にかなう。

mean((x-mean(x))^2

> x <- 1:5 > mean((x-mean(x))^2) [1] 2

（例）

Ｒで

確認

図（前頁）の作成手順②

(6)

別の実験（1万回）

平均170、分散

10

2 _{、データ数}

₅

_人

全体に値が小さいバイアスが消えたそもそも正規分布が当てはまらない > mean(jikken1); var(jikken1) [1]

77.83389

[1] 2840.553 > mean(jikken2); var(jikken2) [1]

100.0942

[1] 4876.461

真の分散（全体の分散）＝10

2 ←

バイアス

不偏分散

標本分散

(7)

標本分散𝑆

2 の

「バイアス」

以下の結論を数学的に証明できる

 

2

1 

2 n

n

S

E





あとの例で言うと、𝑛 = 5、𝜎

2 = 100だから

 

100

80

5

4

2







S

E

実験結果にあっ_{ているか？}

バイアスがある

＝不偏性がない

(8)

不偏分散のねらい

𝑆

2 ×

𝑁

𝑁−1

でバイアス修正

𝐸

𝑁

𝑁−1

× 𝑆

2 ₌

𝑁

𝑁−1

𝑁

𝜎

2 _{= 𝜎}

2 故に、『

（標本）不偏分散

』という。

計算式としては





₁





2 ₂ 1 2

ˆ

1

1 













 

n

X

n

X

n i i n i i シグマ二乗ハット

(9)

標本分散のバイアス

数学的計算





















10









2 1 2 10 1 2 10 1 2 2 10 1 2 10 1 2

50

10

50

10

50

50 

































    

X

i i i i i i i i i i





2 2 2

10

9

10

10 











偏差二乗和

E

真の偏差二乗和データの偏差二乗和 𝜇 = 50 𝜎2 = 100 𝑛 = 10 両辺を10で割れ

(10)

データ数が少ないとき、違いが大きい

極端なケース：データ1個の場合

言葉の定義どおりなら

母集団の分散を知りたいなら





_

_

0

1

2 1 1 2 1 1 2















X

S

i i





計算不能











0

1

2 1 1 2 i

X

i

X

S

1個のデータにはバラつきがないので分散はゼロ 1個のデータでは全体のバラつきは分からないので計算できない

(11)

【クイズ】

さいころを5回振って、目の数の標本分

散を求める。この値は2.92位になるか？

１から６まで同じ割合で出るとき、分散は2.92

𝜎

2

= 2.92

理論的には

 

2 .

92

2 .

34

5

4

2







S

E

(12)

Ｒで

確認

> varp <- function(x){mean((x-mean(x))^2)} > varp(1:6)⏎ →確率通りの目が出ると分散は2.92になる [1] 2.916667 > sample(1:6,5,replace=TRUE)⏎ →5回振ってみる [1] 6 4 6 5 5 > varp(sample(1:6,5,replace=TRUE))⏎ →分散を出してみる [1] 2.8 > jikken <- replicate(10000,varp(sample(1:6,5,replace=TRUE))) > hist(jikken) > mean(jikken)⏎ →1万回の実験結果の平均は2.32になる [1]

2.320816

定義通りの標本分散を計算する関数を定義しておくと便利計算結果とほぼ合っている

(13)

【まとめ】サンプル→母集団という観点

サンプルの平均値は「標本平均」

サンプルの分散は「（標本）不偏分散」

N

X

N

i





1 



1 ˆ

1

2

2 









N

X

N

i



不偏性あり

バイアスなし

不偏性あり

バイアスなし

下の二つを使え

(14)

次のテーマ－「分散」という結果の出方

カイ

二乗分布入門

> x1 <- rchisq(5000,df=1) > x2 <- rchisq(5000,df=2) > x3 <- rchisq(5000,df=3) > x4 <- rchisq(5000,df=4) 右の図はすべてカイ二乗分布データを集めてヒストグラムを描いてみた上の”df”は「自由度」これから説明する教科書：121ページ

(15)

カイ二乗分布

カイ二乗値が従う分布である

カイ二乗値：𝜒

2 標準正規分布𝑁 0,1 からとった𝑛個の値の二乗和

𝑍

2

自由度

１のカイ二乗値

𝑍

₁2

+ 𝑍

₂2

自由度２のカイ二乗値

𝑍

₁2

+ 𝑍

₂2

+ 𝑍

₃2

自由度３のカイ二乗値

𝑍

₁2

+ 𝑍

₂2

+ 𝑍

₃2

+ 𝑍

₄2

自由度４のカイ二乗値

以下同様

カイ二乗分布は正規分布から

出てくる分布

(16)

Ｒで

確認

１０００個

> z1 <- rnorm(1000) > z2 <- rnorm(1000) > z3 <- rnorm(1000) > z4 <- rnorm(1000)

標準正規分布から1000個

のデータをとった

(17)

𝑍

2 の分布をみる

第2章の最後のテーマ

Ｒで

確認

chi1 <- z1^2 hist(chi1) > mean(chi1); var(chi1) [1] 0.958016 [1] 1.759147 上に平均値と分散を求めている。平均値は理論と合っているか回答できるはずである。 𝑍₁で確かめたが、 𝑍2以下を使っても大体同じである。

(18)

𝑍

₁

2 + 𝑍

₂

2 の分布をみる

Ｒで

確認

上に平均値と分散を求めている。平均値は理論と合っているか回答できるはずである。 𝑍₁と𝑍₂で確かめたが、他を使っても大体同じである。 > mean(chi2); var(chi2) [1] 1.996239 [1] 3.752047 > chi2 <- z1^2 + z2^2 > hist(chi2)

(19)

𝑍

₁

2 + 𝑍

₂

2 +𝑍

₃

2 +𝑍

₄

2 Ｒで

確認

上に平均値と分散を求めている。平均値は理論と合っているか回答できるはず。 > mean(chi4); var(chi4) [1] 4.045289 [1] 7.633616 ３個の二乗和は省略 > chi4 <- z1^2 + z2^2 + z3^2 + z4^2 > hist(chi4)

(20)

Ｋは自由度。教科書123頁

『カイ二乗値』の確率分布 → カイ二乗分布

カイ二乗値

 

自由度





2

2 



V

E

Karl Pearson

何個の𝑍

2

を足すか

による。K個足す。

(21)

もし歪み度、尖り度を知っていれば

（1章20ページ、2章75ページ）

正規分布

の場合、

標準値

にすれば

1. 期待値： 𝐸 𝑍 =

0

2. 分散： 𝑉 𝑍 = 𝐸 𝑍

2 =

1

3. 歪み度： 𝐸 𝑍

3 =

0

4. 尖り度： 𝐸 𝑍

4 =

3      

Z

2 

E

Z

4 



E

Z

2 

2 

3 

1 

2 V

(22)

カイ二乗分布の期待値と分散

自由度(k)＝３の場合

 





     

1

2

3

2

1

2

3

2

1

2 













Z

E

Z

E

Z

E

Z

E



_k

 





     

2

3

2

1

2

3

2

1

2 













Z

V

Z

V

Z

V

Z

V



_k

(23)

【クイズ】

1. 自由度９のカイ二乗分布に従う変数𝑊が

ある。𝐸 𝑊 と𝑆𝐷 𝑊 はいくらか？

2. 自由度２０のカイ二乗分布に従う変数

𝜒

₂₀

2 がある。この期待値と分散はいくら

か？

自由度２０のカイ二乗値を表す記号として使うことがある。

(24)

【回答】

 

18

4 .

24 ...

18

9

2

9

2 9 2 9 2 9









SD

V

E

2 20 2 3 2 2 2 1 2 20



Z



Z



Z







Z



2 9 2 3 2 2 2 1 2 9



Z



Z



Z







Z



 

40

6 .

32 ...

40

20

2

20

2 20 2 20 2 20









SD

V

E

自由度９＝９個の合計

自由度２０＝２０個の

合計

(25)

𝜒

2 分布を活用する

データ数10個、母平均50、標準偏差10











10

1

2

50 i

X

i







_











10

1

2

10

50 i

i

X

この期待値は10 × 100

この期待値は10

μ

値

10個の

標準値

の二乗和

→

自由度10のカイ二乗分布

(26)

(27)

【クイズ】

日本人の成人男性の身長には正規分布

𝑁 170, 10

2 が当てはまっている（とする）。

6人のデータをとって、不偏分散 ෢

𝜎

2 を求める。こ

のとき、不偏分散の結果が１４４を超える確率は

どのくらいあるだろうか？

(28)

直接的な解決法＝実験（1万回）

分散が144を超えるサンプルは結構出てくる > mean(jikken); var(jikken) [1] 100.3911 → 期待値としては真の分散と（ほぼ）一致。不偏。 [1] 4093.416

真の分散＝１００

不偏性は確認結果のばらつき（分散）が4093、平均の2倍ではない。単純にカイ二乗分布が当てはまるわけではないようだ > jikken <- replicate(10000,var(rnorm(6,mean=170,sd=10))) > sum(jikken > 144) [1] 2088 →不偏分散が144以上になるのは、1万回中の2088回（

20%程度

）

(29)

カイ二乗分布応用の鍵：

定理１４

平均値の定理８、１０に該当

6

2

1 ,

X

,

X



サンプル：







 





















6 1 6 1 2 2

100

1

10

i i i i

X

W

教科書124～125頁

母集団

（正規）

真の平均ではない！

自由度５のカイ二乗値になる

𝜇 = 170

𝜎

2 = 10

2

標準値？

(30)

数学的計算

平均𝜇、分散𝜎

2 、データ数𝑛個で計算

















 





 















2 2 1 2 1 2 2 1 2 1 2 1 2 1 1 2

2 











































      

X

n

X

n

X

n

X

n i i n i i n i i n i i n i i n i i n i i データをｎ個とった、真の偏差二乗和これが大事ゼロ

(31)













2 2 2 1 2 2 1 2

1

1 _









_







_



X



n

X

n i i n i i

になっている

は標準値Z







i

X







これも１個の標準値













_





2 2 2 2

n

X

n







前のつづき（両辺を分散𝜎

2 で割る）

𝑛個の二乗和に見えるが、実は𝑛 − 1個の二乗和である

(32)









2

1

2

1

2

1

2

1

1 ˆ



















n

i

n

i

n

X

n

X

n





教科書126～127頁

෢

𝜎

2 とカイ二乗分布の関係

自由度𝑛 − 1のカイ二乗値

分散の値が

大きく出る

𝜒

_𝑛−1

2 の値が

大きく出る

(33)

クイズへの理論的回答



7 .

2 

20

144

1

6

10

₂ 1 6 2 1 6 2 1 6 2

















_























P





P





P

Rによる確認：

> 1-pchisq(7.2,df=5)

[1]

0.2061859

テキスト巻末の数値表３はカイ二乗分布のパーセント点。つまり「この値以上になる確率が５％というときのこの値」を求める表である。上の確率は巻末の数値表では無理である。さっきの実験結果と合っているか？

(34)

𝑉 ෢

𝜎

2 は実験結果で確認できるか？

144を超えるサンプルは結構出てくる > mean(jikken); var(jikken) [1]

100.3911

[1]

4093.416

真の分散＝１００

不偏性は確認結果のばらつき（分散）が4093、平均の2倍ではない。単純にカイ二乗分布が当てはまるわけではないようだ

(35)

【回答】

 

400

10 4000

20

1

6

10

₂ 5 2 2 1 6 2

























V



V

𝐸 𝜒

_𝑛

2 = 𝑛

𝑉 𝜒

_𝑛

2 = 2𝑛

自由度nのカイ二乗値の期待値と分散は

以下のとおり：

(36)

【練習問題】

真の分散が𝜎

2 、データ数が𝑛個として

標本分散S

2 _{の期待値を求めよ。}

 

2 S

E

標本分散S

2 _{の分散を求めよ。}

 

2 S

V

教科書126～127ページ