1
統計学
講義
第
17 回
母平均の区間推定
Part-1
2014
年 6 ⽉ 17 ⽇(⽕)6-7 限
担当教員:
唐渡 広志(からと・こうじ)
研究室:
経済学研究棟4階432号室
email: [email protected]
website:
http://www3.u-toyama.ac.jp/kkarato/
講義の目的
標本平均は正規分布に従うという性質を⽤いて,
⺟集団の平均を推定する⽅法を理解する.
keywords:
中⼼極限定理,標本平均の分布,区間
推定,信頼区間
参考書
⽩砂 pp.127 – 148
⿃居 pp.145 – 172
⼤屋 pp.171 – 192
【復習】標本平均の分布と正規分布(中心極限定理)
⺟集団
⺟平均 ,
⺟分散
2 (十分に大きい)n 個の 観測データ 標本抽出現値の一つ
における(数ある)実
は正規分布
計算される標本平均
X
⺟集団はどのような 分布でもよい 0 100 200 300 400 500 600 0. 001 0. 003 0.00 5 E x p o n e n t i a l D i s t r i b u t i o n X p 0 2 4 6 8 10 0.00 0.05 0.10 0.15 0.20 x p1 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 0.0 0.5 1. 0 1.5 0 1 2 3 4 5 0. 0 0 .1 0. 2 0 .3 0. 4 0. 5 -4 -2 0 2 4 0. 1 0 .2 0. 3 z
0,1 ~ , ~ 2 2 N n X n N X × 例【復習】標本平均の分布と正規分布(中心極限定理)
実際には⺟集団全体の特徴はよくわからない。
しかしながら標本調査を⾏うことができる。
⺟集団がどのような分布であったとしても,ある程度のサンプル
サイズを持った標本があれば,その標本平均は正規分布の実現値
の⼀つと考えることができる。
どのようなデータであっても,そのデータから計算できるたった
⼀つの標本平均の背後には正規分布が控えていることを理解する。
。
の正規分布にしたがう
,分散
は平均
作られる標本平均
の標本を抽出して
サンプルサイズ
の母集団分布から
,分散
平均
n
X
n
2 2
n
N
X
2,
~
【復習】二項分布と正規分布
(1)
を で割った値 の分布に等しい。 にしたがう確率変数 の分布は,二項分布 個の確率変数の平均 な にしたがう互いに独立 の二項分布 試行回数が n X n X p n B n X X X n p B n n n , , 1 1 2 1
n p p n X X X V p n X X X E n X X X n n n 1 2 1 2 1 2 1 の分布 中心極限定理 平均値
n p p p np n X V n n X V p np n X E n n X E n X n n n n n 1 1 1 1 1 1 2 2 の分布 B
n p E
X np V
X np
p
X n ~ , n , n 1 ただし,
n p p p N n X n 1 , ~【復習】二項分布と正規分布
(2)
は何を意味するか
?
n
X
n 試行回数
数
成功回数を示す確率変
:
:
n
X
n → 成功する割合(⽐率)を⽰す確率変数 例. サイコロを60回投げて6が x 回出る割合の分布 0.0 0.1 0.2 0.3 0.4 0. 00 0. 04 0. 08 0. 12 実現値 確率 で近似できる 60 , 6 1 ~ 61 65 60 N n X例
1
12
35
30
1
,
5
.
3
~
N
X
均値の分布
投げるときの出目の平
個のサイコロを同時に
30
n
12
35
,
5
.
3
1
個のサイコロの出目の
期待値は
分散
2
n
N
X
2,
~
個の平均値
30
n
実験
. 30個のサイコロを同時に投げたときの標本平均の分布
(
500回の繰り返し実験)
0 20 40 60 80 100 120 140 1.0-1.2 1.2-1.4 1.4-1.6 1.6-1.8 1.8-2.0 2.0-2.2 2.2-2.4 2.4-2.6 2.6-2.8 2.8-3.0 3.0-3.2 3.2-3.4 3.4-3.6 3.6-3.8 3.8-4.0 4.0-4.2 4.2-4.4 4.4-4.6 4.6-4.8 4.8-5.0 5.0-5.2 5.2-5.4 5.4-5.6 5.6-5.8 5.8-6.0 標本1の標本平均 = 3.53 標本 10 の標本平均 = 3.33 1回の標本調査で得られる標本平均はたった⼀つだけど,その背後には正規分 布が控えている. データとして得られる標本平均は正規分布の実現値の⼀つ であると考える で近似できる 12 35 30 1 , 5 . 3 ~ N X例
2
30歳代独⾝⼥性の貯蓄額は平均 600 万円,標準偏差 400 万円の⺟集団分布にした がうという。30歳代独⾝⼥性100⼈をランダムに選び,平均貯蓄額を計算するとき, その平均値はどのような分布に近似できるか。 0 500 1000 1500 2000 2500 0. 0000 0. 00 06 0. 00 12 貯蓄額[万円] 密度 ⺟集団分布 2 2400
,
600
標本抽出 400 500 600 700 800 0. 00 0 0 .004 0. 008 貯蓄額[万円] 密度 標本平均の分布 (正規分布) 100 400 , 600 ~ 2 N X例
3
コインを50回投げて表が出る回数の割合の分布はどのような分布に近似できるか? :50回投げて表が出る回数 の割合(比率) 50 50 X
n p p p N n X n 1 , ~の平均値
50
n
50 5 . 0 5 . 0 , 50 ~ 50 50 N X例
4
6⽉xx⽇に放映されたあるテレビ番組の真の視聴率(本当はわからない…)が10% であるとしよう。600世帯を対象に視聴率調査を⾏う場合, 600世帯中その番組を⾒ た⼈の割合(⽐率)はどのような分布で近似できるか? 見なかった 見た 0 1 1 X
0
0.9 Pr 1 . 0 1 Pr 1 1 X X 調査数 n = 600, p = 0.1で⾒る回数(成功回数)の分布 B(600,0.1) 1 ~ B
1,0.1
X 600 ~ B
600,0.1
X 600⼈中⾒た⼈数の分布 35⼈⾒ていたかもしれないし,83⼈⾒ていたかもし れない。調査しないとわからない標本変動
n p p p N n X n 1 , ~の平均値
600
n
600 9 . 0 1 . 0 , 1 . 0 ~ 600 600 N X 調査をすれば平均的にみて10%ぐ らいの視聴率がありそうだが,そ れよりも⾼かったり,低かったり することもある(誤差がある)。視聴率
X
(n)
/ n の分布
600 9 . 0 1 . 0 , 1 . 0 ~ 60 60 N X 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0. 00 0. 01 0. 02 0. 03 0. 04 0. 05 視聴率 確率 ±3%ぐらいまでの 誤差はありうる 真の視聴率は10% (p = 0.1) であるが,600世帯の標本調査では9.4%に なったり,11.6%になったりすることがある。しかしながらその標 本調査の結果は正規分布の実現値の⼀つとみなすことができる。【復習】標本平均の分布
30歳代独⾝⼥性の貯蓄額は平均600万円,標準偏差400万円の⺟集団分布にしたが うという。30歳代独⾝⼥性100 ⼈をランダムに選び,平均貯蓄額を計算するとき, その平均値はどのような分布に近似できるか。近似できる。
の正規分布に
分散
布は平均
考え方により,その分
理の
とおくと,中心極限定
を
人の貯蓄額の標本平均
ない。
分布ではないかもしれ
ただし,母集団は正規
の分布をしている.
分散
貯蓄額は母平均
n
X
2 2 2,
100
400
,
600
100
400
,
600
~
2N
X
?
%
700
万円を超える確率は何
か
平均が
これから計算する標本
問題:
標本平均の分布と確率
(1)
を求める。
規分布表からその確率
と標準化して,標準正
を計算するには,
以上である確率
が
とおく。
を
標本平均
の標本を抽出し,その
の母集団からサイズ
,母分散
母平均
n
A
Z
A
X
A
X
X
n
2 2Pr
Pr
である.
なので,標準偏差は
の分散は
標本平均
n
n
n
X
2 2 標準化のときの注意点
0
,
1
~
,
~
2 2N
n
X
n
N
X
中⼼極限定理 標準化された標本平均は標準正規分布にしたがう。例題
1
30歳代独⾝⼥性の貯蓄額は平均600万円,標準偏差400万円の⺟集団分布にしたが うという。30歳代独⾝⼥性100 ⼈をランダムに選び,平均貯蓄額を計算するとき, その平均値が700万円を超える確率を計算しなさい。
0062
.
0
4938
.
0
5
.
0
5
.
2
0
Pr
5
.
0
5
.
2
Pr
100
400
600
700
Pr
700
Pr
2
Z
Z
Z
X
Ans. 平均値が700万円を超える確率は 0.62% 標準化 標準正規分布表を利⽤ 情報の整理
600
,
400
2
400
2
,
n
100
0 500 1000 1500 2000 2500
標本平均が
700万円を超える確率
平均 = 600万円,標準偏差 = 400 万円の⺟集団分布(点線) 100 400 , 600 ~ 2 N Xの分布(実線)
の標本平均
X
n 100
450 500 550 600 650 700 750 0. 002 0 .00 6 100 400 , 600 ~ 2 N X
700
Pr
X
2
.
5
Pr
100
400
600
700
Pr
2
Z
Z
確率は標準化して考える練習問題
(1)
例題
2.標本平均と確率(2)
⼤都市に隣接した A 市に住む就業者の通勤時間は平均55分,標準偏差20分の⺟集 団分布にしたがうという。就業者81 ⼈をランダムに選び,平均通勤時間を計算す るとき,その平均値が60分以内である確率を計算しなさい.
0.9878
4878
.
0
5
.
0
25
.
2
0
Pr
5
.
0
25
.
2
Pr
81
20
55
60
Pr
60
Pr
2
Z
Z
Z
X
標準化 Ans. その平均値が1時間以内である確率は 98.78%練習問題
(2)
[1]. 平均 563万円, 分散 4000 の年収の⺟集団分布から n =100 の標本を抽出すると き,100⼈の標本平均が570万円以上である確率は?
[2]. 平均 563万円, 分散 4000 の年収の⺟集団分布から n =40 の標本を抽出するとき, 40⼈の標本平均が570万円以上である確率は?
例題
3.標本平均の分布と臨界値
⼤都市に隣接した A 市に住む就業者の通勤時間は平均55分,標準偏差20分の⺟集 団分布にしたがうという。就業者 121 ⼈をランダムに選び平均通勤時間を計算す るとき,その平均値がA分以下である確率が2.5%であるような A の値を計算しなさ い.
分
4
.
51
11
20
96
.
1
55
96
.
1
121
20
55
025
.
0
121
20
55
025
.
0
2 2
A
A
A
z
P
A
X
P
(平均通勤時間が51.4分以下である確率は2.5%)練習問題
(3)
30歳代独⾝⼥性の貯蓄額は平均600万円,標準偏差400万円の⺟集団分布にしたが うという。30歳代独⾝⼥性 100 ⼈ をランダムに選び,平均貯蓄額を計算するとき, その平均値が B 万円以上である確率が2.5%であるような B の値を計算しなさい.