• 検索結果がありません。

3.母集団と標本

N/A
N/A
Protected

Academic year: 2021

シェア "3.母集団と標本"

Copied!
25
0
0

読み込み中.... (全文を見る)

全文

(1)

統計の分析と利用

(旧カリ:データ分布と予測)

統計の分析と利用

(旧カリ:データ分布と予測)

3.母集団と標本

堀田 敬介

2010/11/26,Fri. ~

Contents Contents

母集団と標本

母平均,母分散の推測 標本平均

標本平均の従う確率分布 大数の法則,中心極限定理 標準正規分布,t分布

標本分散

標本分散の従う確率分布 χ

分布

母比率の推測

標本比率

(2)

母集団と標本: 統計的推論

母集団と標本: 統計的推論

推測統計学 statistical estimate / statistical inference

母集団 population

標本

sample

推論対象

調査不可能( or 困難)

知りたい( or 調査が必要)

観察対象

我々が実際に調査可能

( or 容易)な一部データ

推論

注意:今後特に断りのない限り,無限母集団を考える.

{

母集団が大きすぎて調査不可能な場合

„全国大学生の身長

{

全数調査(悉皆調査)がそもそも不可能な場合

„品質検査

„料理の味見

母集団と標本: 統計的推論

母集団と標本: 統計的推論

母集団の性質を表す数値

母平均: μ

母分散: σ

2

(母標準偏差: σ )

母集団からの標本

データ n 個を無作為抽出

X

1

,…,X

n は互いに独立な確率変数

標本調査は試行:無作為抽出により,実際に取る値は偶然による

各確率変数

X

iは母集団と同じ分布に従う

n

はサンプルサイズ(抽出した標本数)

確率変数 X 1 ,…,X n から作られる確率変数

標本平均:

標本分散:

X n

X 1 , L ,

母集団 population

標本 sample

n 個のデータを 無作為抽出した 確率変数

{

1 2 2

}

2 1

) ( ) 1 (

X X X

n X S

n X X X

n n

− + +

=

+

= +

L L

, S

2

X , σ

2

μ

X

n

X

1

, L ,

無作為抽出 には乱数な どを利用

標本から作られる 確率変数

母集団の性質を 表す数値

(3)

標本分布: 標本平均

標本分布: 標本平均

母集団から抽出した標本数 n の標本 X 1 ,…X n について,

以下の確率変数を標本平均 という

注意)「標本平均」は確率変数「標本平均値」が標本毎に実際に取る値 母集団 population

標本 sample

n 個のデータを 無作為抽出した 確率変数

, S

2

X , σ

2

μ

X

n

X

1

, L ,

標本から作られる 確率変数

母集団の性質を 表す数値

X

n

X X = X 1 + L + n

(174,166) (174,168) (174,177) (174,170) (166,174)

: (170,174) (170,166) (170,168) (170,177) 2人ずつ

非復元抽出

母集団と標本: 標本平均

母集団と標本: 標本平均

標本平均と母平均の関係

例: 5 人の身長

170, 174, 166, 168, 177

母集団 population 166 168

177 170 174

標本平均の値 170.0 171.0 175.5 172.0 170.0

: 172.0 168.0 169.0 173.5

171.0

一致する!

6.0 母集団数 N=5

母平均 μ=171.0 母分散 σ

2

=16.0

標本平均値 の平均

標本平均値 の分散

μ

= ) ( X E

X N nn σ

2

V

2

) ( = σ 母分散の 倍

(無限母集団)

母分散の

Nn

1

(有限母集団)

n

1

標本数 n=2

標本

sample

(4)

( )

2

2 2

2 2 1

1

2 2

2 2

1 2 1

2 1

2 1

2 1

2

1

1 1

1 2

) 1 2 ( 1

) , ( 2 ) 1 (

)) ( ))(

( ( 2 )) ( 1 (

)) ( ))(

( ( 2 )}

( { )}

( 1 {

)}

( { )}

( 1 {

) ( )) ( ( ) (

σ

σ σ

⋅ −

=

⎭ ⎬

⎩ ⎨

⎧ ⎟

⎜ ⎞

− −

− ⋅

=

⎭ ⎬

⎩ ⎨

⎧ +

=

⎭ ⎬

⎩ ⎨

⎧ − + − −

=

⎟⎟ ⎠

⎜⎜ ⎞

⎛ − + + − + − −

=

− + +

=

⎟ ⎠

⎜ ⎞

⎛ + + −

=

=

<

=

<

=

<

N n N n

N n

n n n

X X Cov X

n V

X E X X E X X

E X n E

X E X X E X X

E X X

E X n E

X E X X

E X n E

X n E

X E X

X E X E X V

j

i i j

n

i i

j

i i i j j

n

i i i

j i

j j i i n

n n n n

L L L

μ μ =

=

⎟ =

⎜ ⎞

⎛ + +

= ∑

=

n n X n E n

X E X

X

E

n

i i

n

1

) 1 (

) (

1

1

L

補足:標本平均の平均と母平均・標本平均 の分散と母分散の関係(証明)

補足:標本平均の平均と母平均・標本平均 の分散と母分散の関係(証明)

( )

( )

{ } { }

( )

{ }

(

2 2

)

2

2 2

1 2 1

2 2

1 2 1

1 2

1

1 0 1

) 1 (

1

) ( ) ) (

1 (

1

) ( ) ( ) ( ) ) ( 1 (

1

) )(

)( 1 ( ) 1 )(

)( 1 (

1 )( )

(

)) ( ))(

( ( ) , (

σ σ

μ μ

μ

μ μ

μ μ

μ μ μ

μ μ μ

− −

=

− −

=

⎟⎟

⎜⎜

⎛ − − + + −

⎭⎬

⎩⎨

⎧ + + −

= −

− + +

− + +

− −

=

− − + +

− −

=

= − −

=

N N N N

x N x

x x N N

x x

x N x

N

x N x

x N N x

N X X E

X E X X E X E X X Cov

N N

N N

N N j

i

j j i i j i

L L

L L

L

補足:有限母集団修正 補足:有限母集団修正

母集団が有限の場合

標本平均の分散と母分散の関係は,

母集団が無限の場合

標本平均の分散と母分散の関係は,

n N

n X N

V

2

) 1

( σ

= −

有限修正項

標本数 n に比べて母集団の数 N が大きくないとき,有限修正項を考慮する.

無限母集団( N が十分大きい)時は,有限修正項は 1 となるので無視して良い.

X n V

2

) ( = σ

Nが余り大きくない場合や,

n/Nが大きい場合

母集団 population

標本 sample

母集団の数 N

標本数 n

(5)

補足:母集団と標本: 標本平均

補足:母集団と標本: 標本平均

なぜ「標本平均の分散」が「母分散」より小さくなるのか?

〔即ち,なぜ なのか?〕

例:5人の身長

( 174, 166, 168, 177, 170 )

「 標本平均値

散らばり具合 」の方が,

「 母集団

散らばり具合 」より 小さい !

標本平均値

(各標本の標本数=2)

母集団

) 2

( X < σ V

2 16 1 5

2 5 ) 1

( 6

2

− ⋅

= −

− ⋅

= −

= N n

n X N

V σ

166 167 168 169 170 171 172 173 174 175 176 177 6 = V ( X ) < σ 2 = 16 分散= 16

分散= 6

正確には有限母集団なので以下

注意:「標本平均」と「標本平均値」は意味が違う

標本平均 … 上で定義される確率変数

標本平均値 … 確率変数「標本平均」が標本ごとに実際に取る値

「標本平均 の期待値は母平均μに等しい」

「標本平均 の分散は母分散σ 2 の1/nに等しい」

母集団と標本: 標本平均(まとめ)

母集団と標本: 標本平均(まとめ)

標本平均

) 1 (

1 X n

n X

X = + L +

母集団からn個 無作為抽出

X X

μ

= ) ( X E

X n V

2

) ( = σ

n X N

V ( ) = − σ

2

有限母集団の場合:

•X

1

,…,X

nはそれぞれ確率変数

それから作られる標本平均も 確率変数

(6)

1.世界に 4 匹しかいない貴重な昆虫がいる.その集団を母集団としよう.

神様はこの 4 匹の全長を全て知っており,それぞれ (2, 6, 7, 5) である.

神様は母平均の値を求めた.いくつか?

神様は母分散の値を求めた.いくつか?

2.探検家は 2 匹捕まえる.それが標本となる.

各探検家は重複なく 2 匹を捕まえた.

(つまり,非復元抽出で2匹捕らえ,全長測定後放す)

各探検家は自分が捕まえた 2 匹の標本の平均値を求めた.

それぞれ,いくつか? 全ての組合せについて計算せよ.

3.1と2の結果から, と が成立していること を確認しよう.

ただし,Nは母集団の大きさ,nは標本の大きさである.

演習1:標本平均

母集団

演習1:標本平均

= ? μ

μ

= ) ( X E

= ? X

2 = ? σ

n N

n X N

V

2

) 1

( ⋅ σ

= −

母集団と標本: 大数の法則

母集団と標本: 大数の法則

「標本平均 の期待値は母平均μに等しい」

「標本平均 X の分散は母分散σ

2

の 1/n に等しい」

X

標本数 n が大きくなるにつれて,標本平均

が母平均μに近い値をとる確率は 1 に近づく.

) 1 (

1 X n

n X

X = + L 大数の法則

標本数 n が十分大きければ,標本は母集団 を正しく表すと考えてもよいでしょう.

有限母集団の場合 倍 n N

n

N 1

1 ⋅

μ

= ) ( X E

X n V

2

)

( = σ

(7)

母集団と標本: 大数の法則

母集団と標本: 大数の法則

大数の法則

例:サイコロを振って出た目の平均〔μ=3.5〕

大数の法則

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6

1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96

Excel 標本平均が母平均〔 μ=3.5 〕に漸近する様子

小 ← 標本数 → 大

補足:大数の法則 補足:大数の法則

( X < ) 1 ( n )

P μ ε

大数の法則

証明はチェビシェフの不等式 P ( X μ > k σ ) 1 / k 2 から

∵) X

1

,…,X

n

は独立で,同じ分布に従う

E ( X

i

) = μ , V ( X

i

) = σ

2

( i = 1 , L , n )

( X > ) 2 / n 2 0 ( n )

P μ ε σ ε

=

=

n

i

X

i

X n

1

1 とすると

X n V X

E

2

) ( , )

( = μ = σ

ここで,チェビシェフの不等式から, kσ:=ε とおくと ( σ

2

:=σ

2

/n )

(8)

母平均μ,母分散σ 2 の母集団から大きさ n の標本を無作 為に抽出した時, n が十分大きければ,母集団の従う確 率分布に関係なく,標本平均 は平均μ,分散σ 2 /n の正 規分布 N(μ,σ 2 /n ) に従うとみなすことができる

標本分布 標本分布

標本平均 はどんな確率分布に従うのか?

母集団分布が正規分布 N(μ,σ 2 ) の場合

〔母平均μ母分散σ2

標本平均 は正規分布 N(μ,σ

2

/n ) に従う

母集団分布が正規分布ではない場合

〔母平均μ母分散σ2

標本平均 は正規分布 N(μ,σ

2

/n ) に従う

X

X

X 中心極限定理

X

⎪⎩

⎪ ⎨

+ +

= + +

) , ( )

1 ( ( , )

2 1

2 1

N n X n X

X

n n N X X

n

n

μ σ

σ μ

~ L L

X

n

X

1

, L ,

中心極限定理 中心極限定理

母集団 population

標本

sample

母平均 母分散 σ μ 2

標本平均 標本分散 S 2

X 標本平均 ( , 2 )

N n X ~ μ σ 一様分布

二項分布 ポアソン分布

正規分布 幾何分布

指数分布

標本数 n が十分大きいなら

n個とってくる

中心極限定理は,母集団分布がなんであっても(正規分布でな

くても),標本数 n が十分大きければ,標本平均 X は,近似的に

正規分布 に従う,と述べている

(9)

中心極限定理 中心極限定理

母集団 population

標本

sample

母平均 母分散 σ μ 2

標本平均 標本分散 S X

2

標本が十分大きいならば n

個とってくる

-2 -1 1 2

0.1 0.2 0.3 0.4

100 ) 2 , ( 7

) , (

1235 2

N N n X

= μ σ

さいころを1回投げる

1 2 3 4 5 6

X

P(X=i)

サイコロを100回投げる

⎪ ⎩

⎪ ⎨

=

= 12 35 2 , 7 σ

2

μ

3.5 -0.17 0.17

のとき,

が成りたつ.言い換えると,

としてよいということ.

(右辺のφは標準正規分布の累積分布関数)

補足:中心極限定理 補足:中心極限定理

( a X + + X n n n b ) a b e x dx

P 1 2

2

2 / 1

)

( L μ σ π

中心極限定理

n

) ( )

/ b ( b a

n a X

P φ φ

σ

μ

⎟⎟ ⎠

⎜⎜ ⎞

⎛ ≤ − ≤

(10)

標本分布: 標本平均の標準化

標本分布: 標本平均の標準化

平均 μ, 分散 σ 2 /n の標本平均 (確率変数)の標準化 X n

Z X σ /

μ

= −

標本から母平均 μ を推定

「Z推定」・「Z検定」

に利用する

-3 -2 -1 1 2 3

0.1 0.2 0.3 0.4

1 0

1

ZN(0,1)

μ

-2 -1 1 2

0.1 0.2 0.3 0.4

n σ

n σ

) , (

2

N n X ~ μ σ

標本平均 が,正規分布 N ( μ,σ

2

/n )に従うとき,

標準化確率変数 X Z は,標準正規分布 N ( 0, 1 )に従う

標準化

2つの世界

架け橋

二項分布から正規分布へ…

試行回数nを大きくすると,二項分布は正規 分布に近づく

試行回数nが一定の時に,確率pを0.5に近づけ ると,二項分布は正規分布に近づく

正規近似 正規近似

) , ( n p Bi

) , ( n p Bi

) , ( μ σ 2 N

) , ( μ σ 2 N

⎩ ⎨

⎧ = = −

) 1

2

np np ( p σ μ

n

5 . , 0

= →

p c

n

(11)

二項分布から正規分布へ…

試行回数nを大きくすると,二項分布は正規分布に近づく

正規近似 正規近似

二項分布(p=1/10)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 n=10 n=20 n=30 n=40 n=50 n=60 n=70 x

n x

x

n

C p p

x

f ( ) = ( 1 − )

正規分布による二項分布の近似

例:内閣支持率

500 人の人に内閣を支持するかどうか聞いたところ,

275人が指示すると答えた.

正規近似 正規近似

内閣支持率: 0 . 55 500 275 =

= p

z 内閣支持率を p (不支持率 q = 1-p) とすると,これは二項 分布となる.

z 点推定では内閣支持率は 55 %である.正規分布近似を考 えると,

z より,95%信頼区間における区間推定では,内閣支持率

は より 50.6% ~ 59.4%

11 124 45

. 0 55 . 0 500

275 55 . 0 500

×

×

=

= = × =

= npq np σ x

297 253

11 96 . 1

275 ± × ⇔ ≤ x

(12)

ポアソン分布

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

0 1 2 3 4 5 6 7 8 9 10 11 12

λ=0.5 λ=1 λ=2 λ=2.5 λ=3

ポアソン分布から正規分布へ…

正規近似 正規近似

) !

( x e x

f

λ

x

λ

=

中心極限定理の利用 中心極限定理の利用

例題 1 : 表裏が等確率で出るコインを 40,000 回投げる.表が 19,600回~20,400回出る確率は?

平均 20,000 回で,

400回は±2%の誤差!

ありふれたことだろう...

二項分布 Bi(40000, 1/2) に従う ) 1 ( ) ( , ) (

) , , 1 , 0 ( ) 1 ( ) (

p np X V np X E

n x

p p C x

f

n x x n x

=

=

=

=

L

i 回目: X

i

=1,0 ( 1 :表, 0 :裏)

表の出る回数:X=X

1

+X

2

+…+X

n

=

20400

19600

40000 40000 ( 1 / 2 ) ( 1 / 2 ) 1

x

x x

C

x

を計算すればよい!

ところが 40000 C x を計算するのは困難!

#NUM! =COMBIN(40000,19600)

例えば, Excel2003 で

40000

C

19600

を計算すると, … 計算不能!

つまり P( X > 20400 ) + P( X < 19600 ) はいくつか ?

(13)

中心極限定理の利用 中心極限定理の利用

中心極限定理 標準化

X i ~Bi(1, 1/2)

( )

( )

L L L

99993 .

0 4 4

40000 40000

20400 19600

20400 19600

4 1

2 1 40000 20400

4 1

2 1 40000 19600

20400 19600

1 1

= − ≤ ≤

=

⎟ ⎟

⎜ ⎜

⎛ − ≤ ≤ −

=

⎟⎟ ⎠

⎜⎜ ⎝

⎛ −

− ≤

− ≤

=

⎟ ⎠

⎜ ⎞

⎛ ≤ + + ≤

=

≤ + +

Z P

Z P

n n

X P n

n n

X X

P n

X X

P

n n

n n

σ μ σ

μ σ

μ

μ= E( X

i

) = n

i

p

i

= 1 × 1/2 = 1/2,

σ

2

= V( X

i

) = n

i

p

i

(1 - p

i

) = 1 × 1/2 × 1/2 = 1/4 )

, (

2

N n X ~ μ σ

) 1 , 0 (

: X N

Z

σ μ

= − : N ( 0 , 1 )

n

Z X

σ μ

= −

表 裏 1/2 1/2

-2 -1 1 2

0.1 0.2 0.3 0.4

標本

n=40000回

40000 ) 4 , 1 2 ( 1

) , (

2

N N n X

=

μ σ

⎪ ⎩

⎪ ⎨

=

= 4 1 2 , 1 σ

2

μ

表が19600~20400回出る確率を求めたいので,

中心極限定理の利用 中心極限定理の利用

例題 2 : 昨シーズン打率 3 割の打者が,今シーズン 300 回打席 にたった.今シーズンの打率が4割以上となる確率は?

二項分布 Bi(300, 3/10) に従う ) 1 ( ) ( , ) (

) , , 1 , 0 ( ) 1 ( ) (

p np X V np X E

n x

p p C x

f

n x x n x

=

=

=

=

L

i 回目: X

i

=1,0 ( 1 :ヒット, 0 :凡打)

ヒット数:X=X

1

+X

2

+…+X

n

=

300

120

300 300 ( 3 / 10 ) ( 7 / 10 )

x

x x

C

x

を計算すればよい!

つまり P( X > 120 ) はいくつか ?

(14)

中心極限定理の利用 中心極限定理の利用

中心極限定理 標準化

X i ~Bi(1, 3/10)

( )

( )

L L 00007853 .

0

7796 . 3

300 10 / 4 10 / 4

10021 103 104

= ≥

=

⎟ ⎟

⎜ ⎜

⎛ ≥ −

=

⎟⎟ ⎠

⎜⎜ ⎝

⎛ − ≥ −

=

Z P

Z P

n n

P X X P

σ μ σ

μ μ= E( X

i

) = n

i

p

i

= 1 × 3/10 = 3/10,

σ

2

= V( X

i

) = n

i

p

i

(1 - p

i

) = 1 × 3/10 × 7/10 = 21/100 )

, (

2

N n X ~ μ σ

) 1 , 0 (

: X N

Z

σ μ

= − : N ( 0 , 1 )

n

Z X

σ μ

= −

適 凡 3/10 7/10

-2 -1 1 2

0.1 0.2 0.3 0.4

標本

n=300打席

300 ) 100 , 21 10 ( 3

) ,

(

2

N N n X

=

μ σ

⎪ ⎩

⎪ ⎨

=

= 100

21 10 ,

3 σ

2

μ

打率4割以上の確率を求めたいので,

4/10

-3 -2 -1 1 2 3

0.1 0.2 0.3 0.4

1 0

1 n Z X

σ μ

= −

Z~N(0,1)

?

中心極限定理の利用 中心極限定理の利用

例題3: 2種類のゲーム機,ゾニーのBlainStation3と任天童のViiの 市場シェアはBS3が40%,Viiが60%である.ある店で,どちらかを 買いに来た200人の客がいるとき,Viiが110台以上売れる確率は?

(ただし,両方買う客はいないとする)

BS3 Vii 4/10 6/10

-2 -1 1 2

0.1 0.2 0.3 0.4

標本

n=200人

300 ) 100 , 24 10 ( 4

) ,

(

2

N N n X

=

μ σ

⎪ ⎩

⎪ ⎨

=

= 100

24 10 ,

4 σ

2

μ

9/20

-3 -2 -1 1 2 3

0.1 0.2 0.3 0.4

1 0

1 n Z X

σ μ

= −

Z~N(0,1)

?

( )

( )

L L 20327 . 0

8333 . 0

200 20 / 9 20 / 9

10024 104 209

= ≤

=

⎟ ⎟

⎜ ⎜

⎛ ≤ −

=

⎟⎟ ⎠

⎜⎜ ⎝

⎛ − ≤ −

=

Z P

Z P

n n

P X X P

σ μ σ

μ

『Viiが110台以上売れる

=BS3が90台以上売れない』 だから,

∴ 答え 20.3%

(15)

例題 出展 技術評論社「確率・統計の仕組みがわかる本」 例7.2

例題 出展 技術評論社「確率・統計の仕組みがわかる本」 例7.2

【問題】小学生の 1 ヶ月の小遣いが,平均 2250 円,標準偏差 360 円です.このとき,

ランダムに選んだ 36 人の小学生の小遣い平均が 2400 円を超える確率は?

-3 -2 -1 1 2 3

0.1 0.2 0.3 0.4

1 0

1 n Z X

σ μ

= −

( )

0062097 .

0

) 50 . 2 (

36 360

2250 2400

2400 2400 ) 2400 (

≅ > −

=

⎟⎟ ⎠

⎜⎜ ⎞

⎛ > −

=

⎟⎟ ⎠

⎜⎜ ⎝

⎛ −

− >

=

>

=

>

z P

z P

n n

P X X P

X P

σ μ σ

μ

μ μ

∴ 答え 0.62%

母集団 母平均 μ=2250円 母分散 σ

2

=360

2

-2 -1 1 2

0.1 0.2 0.3 0.4

標本

n=36人

36 ) , 360 2250 (

) , (

2 2

N N n X

=

μ σ

Z~N(0,1)

2400?

0.1 0.2 0.3 0.4

1 1

例題 :

例題 :

【問題】全国男子大学生の身長が,平均170cm,標準偏差5cmとします.このとき,

ランダムに選んだ50人の大学生の平均身長が169cmを下回る確率は?

n Z X

σ μ

= −

( )

079270 . 0

) 4142 . 1 (

50 5

170 169

169 169 ) 169 (

≅ < −

=

⎟⎟ ⎠

⎜⎜ ⎝

⎛ < −

=

⎟⎟ ⎠

⎜⎜ ⎞

⎛ − < −

=

<

=

<

z P

z P

n n

P X X P

X P

σ μ σ

μ

μ μ

∴ 答え 7%

母集団 母平均 μ=170cm 母分散 σ

2

=5

2

0.1 0.2 0.3 0.4

標本

n=50人

5 ) , 170 (

) , (

2 2

N N n X

= μ σ

Z~N(0,1)

(16)

Coffee Break!

10 100 と 100 10 はどっちが大きい ? Coffee Break!

10 100 と 100 10 はどっちが大きい ?

どちらが大きい?

10

100

? 100

10

?

どちらが大きい?

10

100

? 100! = ?

スターリングの公式

充分大きな N につ いて, N の階乗の 近似値を与える

N e

N

N ! ≈ ( ) N 2 π

累乗の計算も大 変だけど,階乗 の計算はとんで もなく大変ね!

⎟⎟ ⎠

⎜⎜ ⎞

⎛ =

+∞

1

2 ) ( lim !

N e N

N

N N

π

標本分布: 標本分散

標本分布: 標本分散

母集団から抽出した標本数 n の標本 X 1 ,…X n について,

以下の確率変数を標本分散 S 2 という

{ 1 2 2 }

2 1 ( ) ( )

X X X

n X

S = − + L + n

注意)「標本分散値」は確率変数「標本分散」が標本毎に実際に取る値 母集団 population

標本 sample

n 個のデータを 無作為抽出した 確率変数

, S

2

X , σ

2

μ

X

n

X

1

, L ,

標本から作られる 確率変数

母集団の性質を 表す数値

(17)

(174,166) (174,168) (174,177) (174,170) (166,174)

: (170,174) (170,166) (170,168) (170,177) 2

人ずつ

非復元抽出

母集団と標本: 標本分散値の平均

母集団と標本: 標本分散値の平均

母分散と標本分散の関係

例:5人の身長 母集団 population 166 168

177 170 174

標本分散値 16.0

9.0 2.3 4.0 16.0

: 4.0 4.0 1.0 12.3

10.0

標本

sample

母集団数 N=5 母平均 μ=171.0 母分散 σ

2

=16.0

標本分散値 の平均

⎟ ⎠

⎜ ⎞

⎛ ⋅ −

= −

2

2

1

) 1

( σ

n n N S N E

2

2

1

)

( σ

n S n

E = −

母分散の 倍

(無限母集団)

母分散の

NN1nn1

(有限母集団)

n n−1

Excel

標本数 n=2

{ }

{ } { }

( )

{ }

( )

2 2 2

2

2 2

2

1 2 1

1

2 1

1

2 1

2 2

2 2

1

2 2

1 2

1 1 1 ) (

) ( ) ( 1 2

) ( ) )(

( 2 ) 1 (

) ( ) )(

( 2 ) 1 (

) ( ) )(

( 2 ) 1 (

) ( ) ( )

( ) 1 (

) ( ) 1 (

) (

σ σ σ

σ

μ μ

σ

μ μ

μ

μ μ

μ μ

μ μ

μ μ

μ μ

μ μ

n

N N n

n N X V

X nE X

nE n n

X nE n X

X n X

E X n V

X E X

X E X

n E

X X

X X

n E

X X

X X

n E

X X X

n X E S E

n n

i i

n i n

i i n

i i n i

i i

n n

⋅ −

=

− ⋅

− −

=

=

− +

=

⎟⎟ ⎠

⎜⎜ ⎞

⎛ ⎟ + −

⎜ ⎞

⎛ + + − −

=

⎟⎟ ⎠

⎜⎜ ⎞

⎛ ⎟ + −

⎜ ⎞

⎛ − −

=

⎟ ⎠

⎜ ⎞

⎛ − − − − + −

=

− + +

=

⎟ ⎠

⎜ ⎞

⎛ − + + −

=

=

=

=

=

=

L L L

補足: 標本分散の平均と母分散の関係(証明)

補足: 標本分散の平均と母分散の関係(証明)

(18)

補足:有限母集団修正 補足:有限母集団修正

母集団が有限の場合

標本分散の平均と母分散の関係は,

母集団が無限の場合

標本分散の平均と母分散の関係は,

2

2 1

) 1

( σ

n n N S N

E ⋅ −

= −

有限修正項

母集団の要素数 N が大きくないとき,有限修正項を考慮.

無限母集団( N が十分大きい)時は,有限修正項は 1 となるので無視.

2

2 1

)

( σ

n S n

E = −

注意:「標本平均の分散 」と「標本分散の平均 」 を混同しないこと!

母集団と標本: 標本分散(まとめ)

母集団と標本: 標本分散(まとめ)

標本分散 S 2

2

2

1

) 1

( σ

n n N S N

E ⋅ −

= − 有限母集団の場合:

「標本分散値の平均」と「母分散」の関係 2

2 1

)

( σ

n S n

E = −

) ( S

2

E )

( X V

{ 1 2 2 }

2 1 ( ) ( )

X X X

n X

S = − + L + n

母集団から n 個 無作為抽出

•X

1

,…,X

nはそれぞれ確率変数

それから作られる標本平均も確率変数

よって,それから作られる標本分散も確率変数

(19)

1.世界に 4 匹しかいない貴重な昆虫がいる.その集団を母集団としよう.

神様はこの 4 匹の全長を全て知っており,それぞれ (2, 6, 7, 5) である.

神様は母分散の値を求めた.いくつか?

2.探検家は 2 匹捕まえる.それが標本となる.

各探検家は重複なく 2 匹を捕まえた.

(つまり,非復元抽出で2匹捕らえ,全長測定後放す)

各探検家は自分が捕まえた 2 匹の標本の分散の値を求めた.

それぞれ,いくつか? 全ての組合せについて計算せよ.

3.1と2の結果から, が成立することを確認しよ う.

ただし, N は母集団の大きさ, n は標本の大きさである.

演習2:標本分散

母集団

演習2:標本分散

2 = ? S

2 = ? σ

2

2

1

) 1

( σ

n n N S N

E ⋅ −

= −

標本分布: 標本分散と不偏分散

標本分布: 標本分散と不偏分散

標本分散 S 2

{ 1 2 2 }

2 1 ( ) ( )

X X X

n X

S = − + L + n − 不偏分散 s 2

{ 1 2 2 }

2 ( ) ( )

1

1 X X X X

s n − + + n

= − L

2

2 1

)

( σ

n S n

E = − E ( s 2 ) = σ 2

この標本分散は,母分散 σ

2

の不偏推定量

2

2

= Nn 1 σ

有限母集団の場合:

2

2

= N σ

Nが充分大きいならば,

N/(N-1) は 1 と考えて良い.

(20)

標本分布: 標本分散の従う確率分布

標本分布: 標本分散の従う確率分布

標本分散S 2 はどんな確率分布に従うのか?

{ }

2 2

1

2 2

2 1 2

2 1 ( ) ( )

⎟⎟ ⎠

⎜⎜ ⎞

⎛ −

+

⎟⎟ +

⎜⎜ ⎞

⎛ −

=

− + +

=

σ σ

σ σ

X X X

X

X X X

n X S n

n

n n

L L

母集団が正規分布 N(μ,σ 2 ) に従うとみなせる時,確率変 数

22

は自由度n-1のχ 2 (n-1)分布に従う.

σ nS

{ 1 2 2 }

2 1 ( X X ) ( X X )

S = n − + L +

n

n 個の N(0,1) に従う確率変数の二乗和 χ

2

分布に従う

という制限のため,

自由に動ける変数の 個数は n-1 となる.

0 )

( − =

X

i

X

x 0.05

0.1 0.15 0.2

標本分布: 標本分散の従う確率分布

標本分布: 標本分散の従う確率分布

標本分散 S 2 はどんな確率分布に従うのか?

) 1

2 (

2

2 = nS 2 n

σ χ

χ

{

1 2 2

}

2

1 ( ) ( )

X X X

n X

S = − + L +

n

− 母集団

母平均 μ 母分散 σ

2

標本 標本平均 標本分散 S

2

標本

n

) 1

2

(

2

2

= nS

2

χ n

χ σ ~

X

(21)

χ 2 分布とは?

χ 2 分布とは?

標準正規分布 N(0,1) に従う,互いに独立 な n 個の確率変数 Z 1 ,…,Z n を考える

2 2

1 2

Z n

Z + +

= L

χ 二乗和をとる

新たな確率変数

この確率変数χは,自由度n のχ

2

分布に従う!

互いに自由に値をとることが 出来る確率変数の個数

2.5 5 7.5 10 12.5 15

x 0.2

0.4 0.6 0.8 1

n=1 n=2

n=3 n=4 n=5 n=6

-4 -2 2 4x

0.1 0.2 0.3 0.4

χ

2

(n) N(0,1)

標本から母分散σ

2

を推定

「カイ二乗推定」「カイ二乗検定」

標本分布: 標本分散

標本分布: 標本分散

例題:道ばたの雑草の背丈の平均 μ=50cm, 分散 σ 2 =25 だとし よう.標本として10本の雑草を抜いて調べたとき,その分 散が 50 を超える確率は?

) 010 . 0 , 025 . 0 ( ) 25 20 50 10 (

) 50 (

) ) 50 (

) 50 (

2

2 2

2 2 2 2

2 2

=

>

=

>

=

⎥ ⎦

⎢ ⎤

⎡ =

>

=

>

χ χ σ

χ σ σ

χ

P P n

nS P n

S P

Q

自由度 9 の χ

2

分布表から P(χ

2

(9)>19.0228 )=0.025 P(χ

2

(9)>21.6660 )=0.010

=0.017912 母集団

母平均 μ=50cm 母分散 σ

2

=25

標本 標本平均 標本分散 S

2

標本

n=10本

X

0.1 0.15 0.2

) 1

2

(

2 2

2

= nS χ n

χ σ ~

(22)

ギネスビールとは?

1756年創業のビール醸造会社

〔ダブリン(アイルランド)〕

ギネスビール(黒スタウト)を製造

-4 -2 2 4

x 0.1

0.2 0.3 0.4

t 分布とは?

t 分布とは?

2個の互いに独立な確率変数 X, Y を考える.

X : 標準正規分布 N(0,1) に従う Y : 自由度 n の χ

2

分布 χ

2

(n) に従う

n Y T X

:= /

新たな確率変数

確率変数 T は,自由度 nt 分布に従う!

-4 -2 2 4x

0.1 0.2 0.3 0.4

X~N(0,1)

Student の t 分布 ゴセット (1876-1937)

2 4 6 8 10 12x

0.05 0.1 0.15 0.2

Y~χ

2

(n)

Tt (n)

ビール会社ギネスGuinessでビールの品質管理

標本が小さいとき,分散の値が(正規分布では上手くいかない…)

t 分布の発見("Student"[W.S.Gossett] ‘The probable error of a mean’,Biometrika vol.6,1908)

標本分布: 標本平均と標本分散

標本分布: 標本平均と標本分散

標本平均 の標準化

1 1

1 1 /

2

2 −

= −

− ⋅

⎟⎟ ⋅

⎜⎜ ⎞

⎛ −

= S n

X nS

n n

T X μ

σ σ

μ X

n Z X

X σ /

− μ

=

nS 2 σ 2

標本分散 S 2 に を掛けた 確率変数

σ 2

n

標準正規分布

N(0, 1) に従う

自由度

n-1 χ

2分布

に従う

標本から母平均μを推定

「t推定」「t検定」

自由度

n-1 の

t 分布 に従う

(23)

-4 -2 2 4 x 0.1 0.2 0.3 0.4

標本分布: 確率変数Tの従う分布

標本分布: 確率変数Tの従う分布

確率変数T は,自由度 n-1t 分布 に従う

母集団 母平均 μ 母分散 σ

2

標本 標本平均 標本分散 S

2

標本n

X

) 1

1 ( −

= − t n

n S

T X μ ~

) , (

2

N n X μ σ

-3 -2 -1 1 2 3

0.1 0.2 0.3 0.4

1 0

1

) 1

1 ( −

= − t n

n S

T X μ ~

) 1 , 0 ( n N

Z X

σ μ

= −

0

標本分布: 標本平均(その2)

標本分布: 標本平均(その2)

例題: 350ml 缶のジュース雑草の背丈の平均 μ=50cm, 分散

σ 2 =25だったとしよう.標本として20本のジュースを調べた

ら,標本分散が 5

⎟⎟ ⎠

⎜⎜ ⎞

< −

=

⎟⎟ ⎠

⎜⎜ ⎞

< −

= −

<

= <

1 345

1 345 1

) 345 (

) 345 (

n T S

P

n S n S P X

X P

X P

μ

μ μ

μ 母集団 μ

母平均 μ=50cm 母分散 σ

2

=25

標本 標本平均 標本分散 S

2

標本

n=20本

X

(24)

補足: 必要な標本の大きさ

補足: 必要な標本の大きさ

標本平均の実現値を母平均の推定値とする場合 ε

μ ≤

X

誤差 許容誤差

( X N ( μ , σ 2 n ) )

2

)

2

96 . 1 ( 96 . 1

ε σ σ ε

n

n

定められた許容誤差ε>0に対し,母集団の 大きさ N と母標準偏差 σ が既知の場合,単純 無作為抽出の大きさ n を,左不等式を満たす ようにとれば,95%以上の確率で,誤差を許

容誤差より小さくできる.

今,標本平均の従う正規分布から考えて

従って,許容誤差を ε としたとき

-3 -2 -1 1 2 3

0.1 0.2 0.3 0.4

95%

-1.96 1.96

95 . 0 ) 96 . 1 (

95 . 0 ) 96 . 1 96

. 1 (

95 . 0 ) 96 . 1 96

. 1 ( ) 1 , 0 (

=

=

=

− ≤

− ⇒

X n P

X n P n

n P X

n N X

μ σ

μ σ σ σ

μ σ

μ

参考:

有限母集団の場合

⎟⎟⎠

⎜⎜ ⎞

⎛ ⋅

= − n N

n

S2 N 2

1 σ

N N

n

1 1 1

4 1

2

2 ⎟+

⎜ ⎞

⎝⎛ −

≥=

σ ε

補足: 必要な標本の大きさ

補足: 必要な標本の大きさ

例題: 大きさ 6000 万の母集団の母比率 p を, 95 %の確率で 誤差が0.05以下になるようにしたい.必要な単純無作為抽 出の大きさnはいくらか?

Nが十分大きいので,

16 . ) 384 05 . 0 ( 4

) 96 . 1 ( 4

) 96 . 1 ( )

96 . 1 (

2 2 2

2 2

2

2 ≥ = ≈

≥ ε ε

n σ

⎟ ⎠

⎜ ⎞

⎛ = − = − − + ≤

4 1 4 ) 1 2 ( 1 ) 1

( 2

2 p p p

σ

σ

2

の最大値は 0.25(p=0.5 の時)

05 .

≤ 0

− μ

X

(25)

参考文献 参考文献

z 東京大学教養学部統計学教室編「統計学入門」東京大学出版会(1991)

z 村上雅人「なるほど統計学」海鳴社(2002)

z 田栗正章他「やさしい統計入門」 講談社(2007)

z 鈴木達三・高橋宏一「標本抽出の計画と方法」放送大学(1991)

z 永田靖「サンプルサイズの決め方」朝倉書店(2003)

z 高橋信[著]・トレンドプロ「マンガでわかる統計学」オーム社(2004)

z 丹慶勝市「図解雑学 統計解析」ナツメ社(2003)

z 白石修二「例題で学ぶ Excel統計入門」森北出版(2001)

z 東京大学教養学部統計学教室編「自然科学の統計学」東京大学出版会

(1992)

参照

関連したドキュメント

生殖毒性分類根拠 NITEのGHS分類に基づく。 特定標的臓器毒性 特定標的臓器毒性単回ばく露 単回ばく露 単回ばく露分類根拠

 「スパルテイン」作用時ノ成績ハ第2表ニシテ

 艶チ5枚ノ家兎班漆塗抹標本ノ嗜監基性自血球百分率二於テハ標本ノ種類ニョリテ起始部

Bでは両者はだいたい似ているが、Aではだいぶ違っているのが分かるだろう。写真の度数分布と考え

標準法測定値(参考値)は公益財団法人日本乳業技術協会により以下の方法にて測定した。 乳脂肪分 ゲルベル法 全乳固形分 常圧乾燥法

目標 目標/ 目標 目標 / / /指標( 指標( 指標(KPI 指標( KPI KPI KPI)、実施スケジュール )、実施スケジュール )、実施スケジュール )、実施スケジュールの の の の設定

基本目標2 一人ひとりがいきいきと活動する にぎわいのあるまちづくり 基本目標3 安全で快適なうるおいのあるまちづくり..

スペイン中高年女性の平均時間は 8.4 時間(標準偏差 0.7)、イタリア中高年女性は 8.3 時間(標準偏差