• 検索結果がありません。

モジュール1のまとめ

N/A
N/A
Protected

Academic year: 2021

シェア "モジュール1のまとめ"

Copied!
36
0
0

読み込み中.... (全文を見る)

全文

(1)

数理統計学

(2)

標本分散と(標本)不偏分散

両方とも「分散」というのが実情

(標本)

不偏分散

二乗偏差計

データ数-1

分析ではこちらをとることが多い

標本分散

二乗偏差計

データ数

10ページ)

103ページ)

【復習】

(3)

実験結果(1万回)

平均50Kg、標準偏差

10Kg

、10人

> mean(jikken)

[1]

89.41373

> mean(jikken1)

[1]

99.63248

標準偏差=10前後

標準偏差=

9.5前後

全体に 小さすぎる 偏りがと れた そもそも正規 分布でもない

ここまで

【復習】

(4)

図(前頁)の作成手順①

> rnorm(10,mean=50,sd=10) ➡ 正規分布から10個のサンプル [1] 56.51273 75.94976 59.07253 55.21892 48.90524 50.07275 46.32889 [8] 48.62459 70.34706 55.00642 > varp(rnorm(10,mean=50,sd=10)) [1] 100.2284 > varp(rnorm(10,mean=50,sd=10)) [1] 47.27871 > varp(rnorm(10,mean=50,sd=10)) [1] 38.88721

> jikken <- replicate(10000,varp(rnorm(10,mean=50,sd=10))) > jikken1 <- replicate(10000,var(rnorm(10,mean=50,sd=10))) > par(mfrow=c(2,1))⏎ →2段の図の準備 > hist(jikken,main="標本分散",breaks="FD") > hist(jikken1,main="不偏分散",breaks="FD") 10個のデータの標本分散の出方をみる

Rで

確認

注: コマンド”varp”は次ページの説明を確認すること

(5)

varp

<- function(x){mean((x-mean(x))^2)}

以下を実行してコマンドにしておくと便利

分散

は「平均二乗偏差」のことなので、

以下のように求めるのが本来は

定義

にかなう。

mean((x-mean(x))^2

> x <- 1:5 > mean((x-mean(x))^2) [1] 2

(例)

Rで

確認

図(前頁)の作成手順②

(6)

別の実験(1万回)

平均170、分散

10

2

、データ数

5

全体に値が 小さい バイアスが 消えた そもそも正規分布 が当てはまらない > mean(jikken1); var(jikken1) [1]

77.83389

[1] 2840.553 > mean(jikken2); var(jikken2) [1]

100.0942

[1] 4876.461

真の分散(全体の分散)=10

2

バイアス

不偏分散

標本分散

(7)

標本分散𝑆

2

「バイアス」

以下の結論を数学的に証明できる

 

2

1

2

n

n

S

E

あとの例で言うと、𝑛 = 5、𝜎

2

= 100だから

 

100

80

5

4

2

S

E

実験結果にあっているか?

バイアスがある

=不偏性がない

(8)

不偏分散のねらい

𝑆

2

×

𝑁

𝑁−1

でバイアス修正

𝐸

𝑁

𝑁−1

× 𝑆

2

=

𝑁

𝑁−1

𝑁−1

𝑁

𝜎

2

= 𝜎

2

故に、『

(標本)不偏分散

』という。

計算式としては

1

2 2 1 2

ˆ

1

1

 

n

X

X

n

n

n

X

X

n i i n i i シグマ二乗ハット

(9)

標本分散のバイアス

数学的計算

10

2 1 2 10 1 2 10 1 2 2 10 1 2 10 1 2

50

10

50

50

10

50

50

    

X

X

X

X

X

X

X

X

X

X

X

i i i i i i i i i i

2 2 2

10

9

10

10

10

10

10

偏差二乗和

E

真の偏差二乗和 データの偏差二乗和 𝜇 = 50 𝜎2 = 100 𝑛 = 10 両辺を10で割れ

(10)

データ数が少ないとき、違いが大きい

極端なケース:データ1個の場合

言葉の定義どおりなら

母集団の分散を知りたいなら

0

1

2 1 1 2 1 1 2

X

X

X

X

S

i i

計算不能

0

0

1

1

2 1 1 2 i

X

i

X

S

1個のデータには バラつきがないの で分散はゼロ 1個のデータでは 全体のバラつきは 分からないので計 算できない

(11)

【クイズ】

さいころを5回振って、目の数の標本分

散を求める。この値は2.92位になるか?

1から6まで同じ割合で出るとき、分散は2.92

𝜎

2

= 2.92

理論的には

 

2

.

92

2

.

34

5

4

2

S

E

(12)

Rで

確認

> varp <- function(x){mean((x-mean(x))^2)} > varp(1:6)⏎ →確率通りの目が出ると分散は2.92になる [1] 2.916667 > sample(1:6,5,replace=TRUE)⏎ →5回振ってみる [1] 6 4 6 5 5 > varp(sample(1:6,5,replace=TRUE))⏎ →分散を出してみる [1] 2.8 > jikken <- replicate(10000,varp(sample(1:6,5,replace=TRUE))) > hist(jikken) > mean(jikken)⏎ →1万回の実験結果の平均は2.32になる [1]

2.320816

定義通りの標本分散を計算す る関数を定義しておくと便利 計算結果とほぼ合っている

(13)

【まとめ】サンプル→母集団という観点

サンプルの平均値は「標本平均」

サンプルの分散は「(標本)不偏分散」

N

X

X

N

i

i

1

1

ˆ

1

2

2

N

X

X

N

i

i

不偏性あり

バイアスなし

不偏性あり

バイアスなし

下の二つを使え

(14)

次のテーマ - 「分散」という結果の出方

カイ

二乗分布入門

> x1 <- rchisq(5000,df=1) > x2 <- rchisq(5000,df=2) > x3 <- rchisq(5000,df=3) > x4 <- rchisq(5000,df=4) 右の図はすべて カイ二乗分布 データを集めてヒスト グラムを描いてみた 上の”df”は「自由度」 これから説明する 教科書:121ページ

(15)

カイ二乗分布

カイ二乗値が従う分布である

カイ二乗値:𝜒

2

標準正規分布𝑁 0,1 からとった𝑛個の値の二乗和

𝑍

2

自由度

1のカイ二乗値

𝑍

12

+ 𝑍

22

自由度2のカイ二乗値

𝑍

12

+ 𝑍

22

+ 𝑍

32

自由度3のカイ二乗値

𝑍

12

+ 𝑍

22

+ 𝑍

32

+ 𝑍

42

自由度4のカイ二乗値

以下同様

カイ二乗分布は正規分布から

出てくる分布

(16)

Rで

確認

1000個

1000個

1000個

1000個

> z1 <- rnorm(1000) > z2 <- rnorm(1000) > z3 <- rnorm(1000) > z4 <- rnorm(1000)

標準正規分布から1000個

のデータをとった

(17)

𝑍

2

の分布をみる

第2章の最後のテーマ

Rで

確認

chi1 <- z1^2 hist(chi1) > mean(chi1); var(chi1) [1] 0.958016 [1] 1.759147 上に平均値と分散を求めている。平均値は 理論と合っているか回答できるはずである。 𝑍1で確かめたが、 𝑍2以下を使っても 大体同じである。

(18)

𝑍

1

2

+ 𝑍

2

2

の分布をみる

Rで

確認

上に平均値と分散を求めている。平均値は 理論と合っているか回答できるはずである。 𝑍1と𝑍2で確かめた が、他を使っても 大体同じである。 > mean(chi2); var(chi2) [1] 1.996239 [1] 3.752047 > chi2 <- z1^2 + z2^2 > hist(chi2)

(19)

𝑍

1

2

+ 𝑍

2

2

+𝑍

3

2

+𝑍

4

2

Rで

確認

上に平均値と分散を求めている。平均値 は理論と合っているか回答できるはず。 > mean(chi4); var(chi4) [1] 4.045289 [1] 7.633616 3個の二乗和は省略 > chi4 <- z1^2 + z2^2 + z3^2 + z4^2 > hist(chi4)

(20)

Kは自由度。教科書123頁

『カイ二乗値』の確率分布 → カイ二乗分布

カイ二乗値

 

 

自由度

自由度

2

2

2

V

E

Karl Pearson

何個の𝑍

2

を足すか

による。K個足す。

(21)

もし歪み度、尖り度を知っていれば

(1章20ページ、2章75ページ)

正規分布

の場合、

標準値

にすれば

1.

期待値: 𝐸 𝑍 =

0

2.

分散: 𝑉 𝑍 = 𝐸 𝑍

2

=

1

3.

歪み度: 𝐸 𝑍

3

=

0

4.

尖り度: 𝐸 𝑍

4

=

3

     

Z

2

E

Z

4

E

Z

2

2

3

1

2

V

(22)

カイ二乗分布の期待値と分散

自由度(k)=3の場合

 

     

1

1

1

2

3

2

2

2

1

2

3

2

2

2

1

2

Z

E

Z

E

Z

E

Z

Z

Z

E

E

k

 

     

2

2

2

2

3

2

2

2

1

2

3

2

2

2

1

2

Z

V

Z

V

Z

V

Z

Z

Z

V

V

k

(23)

【クイズ】

1. 自由度9のカイ二乗分布に従う変数𝑊が

ある。𝐸 𝑊 と𝑆𝐷 𝑊 はいくらか?

2. 自由度20のカイ二乗分布に従う変数

𝜒

20

2

がある。この期待値と分散はいくら

か?

自由度20のカイ二乗 値を表す記号として使 うことがある。

(24)

【回答】

 

 

 

18

4

.

24

...

18

9

2

9

2 9 2 9 2 9

SD

V

E

2 20 2 3 2 2 2 1 2 20

Z

Z

Z

Z

2 9 2 3 2 2 2 1 2 9

Z

Z

Z

Z

 

 

 

40

6

.

32

...

40

20

2

20

2 20 2 20 2 20

SD

V

E

自由度9=9個の合計

自由度20=20個の

合計

(25)

𝜒

2

分布を活用する

データ数10個、母平均50、標準偏差10

10

1

2

50

i

X

i

10

1

2

10

50

i

i

X

この期待値は10 × 100

この期待値は10

μ

10個の

標準値

の二乗和

自由度10のカイ二乗分布

(26)
(27)

【クイズ】

日本人の成人男性の身長には正規分布

𝑁 170, 10

2

が当てはまっている(とする)。

6人のデータをとって、不偏分散 ෢

𝜎

2

を求める。こ

のとき、不偏分散の結果が144を超える確率は

どのくらいあるだろうか?

(28)

直接的な解決法=実験(1万回)

分散が144を超えるサンプル は結構出てくる > mean(jikken); var(jikken) [1] 100.3911 → 期待値としては真の分散と(ほ ぼ)一致。不偏。 [1] 4093.416

真の分散=100

不偏性は確認 結果のばらつき(分散)が4093、平均の2倍ではない。 単純にカイ二乗分布が当てはまるわけではないようだ > jikken <- replicate(10000,var(rnorm(6,mean=170,sd=10))) > sum(jikken > 144) [1] 2088 →不偏分散が144以上になるのは、1万回中の2088回(

20%程度

(29)

カイ二乗分布応用の鍵:

定理14

平均値の定理8、10に該当

6

2

1

,

X

,

,

X

X

サンプル:

 





6 1 6 1 2 2

100

1

10

i i i i

X

X

X

X

W

教科書124~125頁

母集団

(正規)

真の平均で はない!

自由度5のカイ二乗値になる

𝜇 = 170

𝜎

2

= 10

2

標準値?

(30)

数学的計算

平均𝜇、分散𝜎

2

、データ数𝑛個で計算



 

 

2 2 1 2 1 2 2 1 2 1 2 1 2 1 1 2

2

      

X

n

X

X

X

X

n

X

X

X

n

X

X

X

X

X

X

X

X

X

n i i n i i n i i n i i n i i n i i n i i データをn個とった、真の偏差二乗和 これが大事 ゼロ

(31)

2 2 2 1 2 2 1 2

1

1

X

n

X

X

X

n i i n i i

になっている

は標準値Z

i

X

これも1個の標準値

2 2 2 2

n

X

X

n

前のつづき(両辺を分散𝜎

2

で割る)

𝑛個の二乗和に見えるが、実は𝑛 − 1個の二乗和である

(32)

2

1

2

1

2

2

2

1

2

2

1

1

1

1

1

ˆ

n

n

i

i

n

i

i

n

X

X

n

X

X

n

教科書126~127頁

𝜎

2

とカイ二乗分布の関係

自由度𝑛 − 1のカイ二乗値

分散の値が

大きく出る

𝜒

𝑛−1

2

の値が

大きく出る

(33)

クイズへの理論的回答

7

.

2

20

144

144

1

6

10

2 1 6 2 1 6 2 1 6 2





P

P

P

Rによる確認:

> 1-pchisq(7.2,df=5)

[1]

0.2061859

テキスト巻末の数値表3はカイ二乗分布のパーセント点。つまり「この 値以上になる確率が5%というときのこの値」を求める表である。上の 確率は巻末の数値表では無理である。 さっきの実験結果 と合っているか?

(34)

𝑉 ෢

𝜎

2

は実験結果で確認できるか?

144を超えるサンプルは 結構出てくる > mean(jikken); var(jikken) [1]

100.3911

[1]

4093.416

真の分散=100

不偏性は確認 結果のばらつき(分散)が4093、平均の2倍ではない。 単純にカイ二乗分布が当てはまるわけではないようだ

(35)

【回答】

 

400

10

4000

20

1

6

10

2 5 2 2 1 6 2

V

V

𝐸 𝜒

𝑛

2

= 𝑛

𝑉 𝜒

𝑛

2

= 2𝑛

自由度nのカイ二乗値の期待値と分散は

以下のとおり:

(36)

【練習問題】

真の分散が𝜎

2

、データ数が𝑛個として

標本分散S

2

の期待値を求めよ。

 

2

S

E

標本分散S

2

の分散を求めよ。

 

2

S

V

教科書126~127ページ

参照

関連したドキュメント

2(1)健康リスクの定義 ●中間とりまとめまでの議論 ・第

東京は、大量のエネルギーを消費する世界有数の大都市であり、カナダ一国に匹

その際、上記の「敷地」は、次に指定する届出で提出された配置図に基づいて 確認することが望ましい。なお、工場立地法(昭和 34 年法律第 24 号)、下水道