統計学
第9回
正規母集団における標本理論
担当者:
高木
真吾
URL:
http://sites.google.com/site/hustat2017/
質問等は,
stakagi@econ.hokudai.ac.jp
までお願いします.
復習
復習
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 確率変数:実現するまではどの値が出るかわからないが,どの値がどのくらい
の出やすさで実現するかに関するルールは定められているもの
■ 離散型確率変数:個々の取りうる値に確率が付与されている
◆ ベルヌーイ分布に従う確率変数(値1を確率 p,値0を確率 1 − p)
◆ 二項分布に従う確率変数
■ 連続型確率変数:実現パターンが密度関数として表現されている
◆ 正規分布
復習
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 4 / 46
■ 確率変数の期待値の基本公式: 取りうる値 × 確率
◆ ベルヌーイ分布に従う確率変数 X:
■ 平均:E[X] = 1 · p + 0 · (1 − p) = p
■ 分散:V[X] = E[(X − E[X])2] = E[X2] − (E[X])2 =
12 · p + 02 · (1 − p) − p2 = p(1 − p)
◆ 正規分布に従う確率変数 X (密度関数は
φ(x) = √ 1
2πσ2 exp{−0.5(x − µ)
2/σ2})
■ 平均:E[X] =
R∞
−∞ x · φ(x)dx = µ
■ 分散:V[X] = E[(X − E[X])2] ==
R ∞
−∞(x − µ)
2
復習
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 独立な確率変数 ({Xi}n
i=1) の和に関する期待値演算(Y = β0 +
Pn
i=1 βi · Xi) ただし,{βi}n
i=0 は確率変数ではない定数.
◆ 平均:E[Y ] = β0 +
Pn
i=1 βi · E[Xi],分散:V[Y ] =
Pn
i=1 βi2 · V[Xi]
◆ 例)「標本平均」という確率変数について考える.X¯ = 1
n
Pn
i=1 Xi
■ 「標本平均」とは,n 個の確率変数を足し,n で除す 確率変数
◆ 上の公式で,β0 = 0, β1 = β2 = · · · = βn = 1/n とした場合に相当
■ 平均:E[ ¯X] = 1
n
Pn
i=1 E[Xi],分散:V[ ¯X] = 1
n2
Pn
i=1 V[Xi]
◆ さらにすべての確率変数 {Xi}n
i=1 が同じ平均,同じ分散を持つなら (E[Xi] = µ, V[Xi] = σ2, for i = 1,2, . . . , n)
復習
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 6 / 46
■ 母数:母集団を特徴づけるパラメータ
◆ 母集団平均:母集団全体における中心
◆ 母集団分散:母集団全体における中心からの平均的な乖離の程度
■ 推定量:母数を推定するため,標本から作ることができる確率変数
◆ 「標本平均」という確率変数(X¯ = 1
n
Pn
i=1 Xi):母集団平均を推定したい
◆ 「標本分散」という確率変数(S2 = 1
n−1
Pn
i=1(Xi − X¯)2):母集団分散を
推定したい
■ 不偏推定量:推定したい母数に対して,偏りがない(その推定量の平均=起き
方の中心が母数と一致)推定量
◆ 「標本平均」は母集団平均の不偏推定量:E[ ¯X] = µ
正規分布関連の確率分布に関する前
提知識
必要な確率分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 8 / 46
d.f. = degrees-of-freedom = 自由度
■ 自由度 k (パラメータ k) のカイ二乗(χ2)分布に従う確率変数の密度関数
f(y;k) = 1
2 · Γ(k/2)
y
2
k/2−1
expn−y 2
o
, k > 0, y > 0.
■ 自由度 m (パラメータ m) のt分布
f(t;m) = √ 1
m · B(m/2,1/2)
1 + t
2
m
−(m+1)/2
, m > 0, −∞ < t < ∞.
■ 自由度 (n, m) (パラメータ (n, m)) のF分布に従う確率変数の密度関数:
f(x; n, m) = n/m
B(n/2, m/2)
n
mx
n/2−1
1 + n
mx
−(n+m)/2
正規分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
0.1
0.2
0.3
0.4
y
カイ二乗分布に従う確率変数の密度関数
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 10 / 46
0 5 10 15 20
0.0
0.1
0.2
0.3
0.4
0.5
カイ二乗分布に従う確率変数の密度関数
x
cbind(y1, y2, y3)
t分布に従う確率変数の密度関数
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
t分布に従う確率変数の密度関数
cbind(y1, y2, y4)
F分布に従う確率変数の密度関数
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 12 / 46
0 1 2 3 4 5 6
0.0
0.2
0.4
0.6
0.8
1.0
F分布に従う確率変数の密度関数
x
cbind(y1, y2, y3)
正規分布との関係:カイ二乗分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 標準正規分布に従う確率変数 X:X ∼ N(0, 1)
■ カイ二乗(χ2)分布
◆ Y = X2
とおくと,Y は自由度1のカイ二乗(χ2)分布に従う
◆ 独立な標準正規分布に従う確率変数 X1, . . . , Xn を用いて
Y = n
X
i=1 Xi2
正規分布との関係:t分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 14 / 46
■ t分布
◆ X: 標準正規分布/ W: 自由度 m の χ2 分布
◆ X と W が互いに独立であるとき,自由度 m のt分布に従う.
X
p
W/m ∼ t(m)
正規分布との関係:F分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ F分布
◆ V : 自由度 n の χ2 分布/ W: 自由度 m の χ2 分布
◆ V と W が互いに独立であるとき,自由度 (n, m) のF分布に従う.
V /n
W/m ∼ F(n, m)
◆ 自由度が (1, m) のF分布に従う確率変数の平方根は,自由度 m のt分布に
母集団分布が正規分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 母集団分布:正規分布
■ 母数:母集団平均 µ / 母集団分散 σ2
■ 大きさ n の標本:{X1, X2, . . . , Xn}.ただし Xi ∼ N(µ, σ2) i = 1,2, . . . , n
■ 標本平均:
¯
X = 1
n
n
X
i=1 Xi
■ 標本分散:
S2 = 1
n − 1 n
X
標本平均の標本分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 18 / 46
■ 標本平均の分布:X¯ = n−1
Pn
i=1 Xi
¯
X ∼ N(µ, σ2/n) (1)
■ ここから(標準化によって)
¯
X − µ
p
標本平均の問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 天秤による計測:観測には多少の誤差が出る=誤差を確率変数のように考える
◆ 観測誤差は平均 0 g,分散 0.1(標準偏差
√
0.1 g)の正規分布
■ 10 回の計測を行って,その平均によって「重さ」を確定する.
■ このとき,「重さ」の取りうる値はどのような分布になるか(標本平均の分布)?
標本平均の問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 20 / 46
■ 計測量に関する大きさ 10 の標本:{X1, X2, . . . , X10}
■ 誤差を確率変数 Ui と表記するとき,Ui ∼ N(0,0.1)
■ 計測量の取りうる値を Xi とすると
Xi = 100 + Ui, i = 1.2. . . . ,10
なので Xi ∼ N(100, 0.1)(真の重さが 100 g,誤差が平均0,分散 0.1)
■ このとき(1)式より
¯
X = 1 10
10
X
i=1
Xi ∼ N(100,0.1/10)
■ 標準化を行うと(0.1/10 = 0.01,
√
0.01 = 0.1 に注意する)
Z ≡ pX¯ − 100
標本平均の問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 求めるべき条件式 |X¯ − 100| > 0.3 を Z を含む様に変形する.
|X¯ − 100| > 0.3 ⇔ 10 · |X¯ − 100| > 3 ⇔ |Z| > 3
■ 標準正規分布の数表より
標本平均に関する問題2
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 22 / 46
■ 天秤による計測:観測誤差は平均 0 g,分散 0.1 g(標準偏差
√
0.1 g)の正規
分布
■ X¯ の誤差が 0.1 g以下となる確率が 90 %以上となるようにしたい
■ 何回くらい計測すればよいか?
■ 計測量に関する大きさ n の標本:{X1, X2, . . . , Xn}
■ このとき(2)式を参照して,
Z ≡ Xp¯ − 100
0.1/n =
√
10n · ( ¯X − 100) ∼ N(0,1)
■ 問題は Pr[|X¯ − 100| < 0.1] ≥ 0.90 となるような n を求めること
標本平均に関する問題2
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
|X¯ − 100| < 0.1 ⇔ √10n · |X¯ − 100| < 0.1√10n ⇔ |Z| < 0.1√10n
■ 標準正規分布の数表より
Pr[|Z| < 1.65] = 0.90
なので臨界点を 1.65 よりも大きくすると題意を満たす.つまり
0.1√10n > 1.65 −→ n ≥ 16.5 2
10 = 27.225
Pr[
|
Z
|
< c
] = 0
.
90
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 24 / 46
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
Pr[ -1.65 < Z < 1.65 ]
x
y1
µ =0 , σ
2
=1
標本分散の標本分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 標本分散:S2 = (n − 1)−1
Pn
i=1(Xi − X¯)2
■ 標本分散は自由度 n − 1 のカイ二乗(χ2)分布に従う
(n − 1) · S
2
σ2 =
n
X
i=1
Xi − X¯ σ
2
∼ χ2(n − 1) (3)
c.f.
n
X
i=1
Xi − µ
σ 2 = n X i=1
Zi2, Zi ∼ N(0,1)
■ 自由度が n ではなく,n − 1 であることに注意.
■ データは n 個あって,本来これらがすべてどのような値でもとりうるはずだが,
¯
標本分散に関する問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 26 / 46
■ 母集団分布は正規分布/母集団平均 4,母集団分散 15.
■ 大きさ 10 の標本:{X1, X2, . . . , Xn}(Xi ∼ N(4, 15))
■ 標本分散について S2 > a となる確率が 0.05 となるような a はいくつか?
■ (3)式より,以下の関係が成り立つ
(n − 1) · S
2
σ2 = 9 · S2
15 ∼ χ
2(9)
■ また
S2 > a ⇔ 9 · S
2
15 > 9 ·
a
標本分散に関する問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ カイ二乗分布表の自由度9の欄の5%点をみると Pr[V > 16.9190] = 0.05 なの
でなので臨界点を 16.9190 とすると題意を満たす.つまり
9 · a
15 = 16.9190 −→ a =
16.9190 · 15
Pr[
V > c
] = 0
.
05
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 28 / 46
0 5 10 15 20
0.00
0.02
0.04
0.06
0.08
0.10
自由度9のカイ二乗分布: Pr[ V > 16.9190 ]
x
y1
df=9
標本平均・標本分散に関して
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
¯
X − µ
p
σ2/n ∼ N(0, 1),
¯
X − µ
p
S2/n ∼ t(n − 1)
■ (2)式は µ にも σ2 にも依存.
◆ µ についてだけ調べたいときには σ2 が厄介.
◆ 何とか σ2 に依存しないようにできないか(S2 で置換)?
標本平均・標本分散に関して
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 30 / 46
¯
X − µ
p
σ2/n ∼ N(0, 1),
¯
X − µ
p
S2/n ∼ t(n − 1)
■ 重要な結果1:( ¯X − µ)/
p
σ2/n:標準正規分布
■ 重要な結果2:(n − 1)S2/σ2 :自由度 n − 1 の χ2 分布
■ したがって
T = ( ¯X − µ)/
p
σ2/n
p
{(n − 1)S2/σ2}/(n − 1) =
¯
X − µ
p
S2/n ∼ t(n − 1) (4)
標本平均・標本分散の問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 母集団分布:正規分布/母集団平均 3,母集団分散 σ2
■ 大きさ 15 の標本:{X1, X2, . . . , X15}
■ 標本平均と標本分散を用いて,( ¯X − 3)/
√
S2 > a となる確率が 0.01 となる a は
いくらか?
■ 問題から大きさ 15 の標本:{X1, X2, . . . , X15} において,Xi ∼ N(3, σ2)
■ このとき標本平均と標本分散は
¯
X = 1 15
15
X
i=1
Xi ∼ N(3, σ2/15), S2 =
1 15 − 1
15
X
i=1
(Xi − X¯)2
標本平均・標本分散の問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 32 / 46
T ≡ pX¯ − 3
S2/15 ∼ t(14)
■ ところで
¯
X − 3
√
S2 > a ⇔
¯
X − 3
p
S2/15 >
a
p
1/15 = a
√
15
つまり
Pr
¯
X − 3
√
S2 > a
= Pr
"
¯
X − 3
p
S2/15 > a √
15
#
= 0.01
となるのは自由度 14 のt分布表から a
√
15 = 2.624 を満たす a を求めればよい
Pr[
T > c
] = 0
.
05
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
自由度14のt分布: Pr[ T > 2.624 ]
y1
df=14
正規分布とt分布の乖離
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 34 / 46
■ n回の計測で得られるであろう結果が {X1, X2, . . . , Xn}
■ 6 回の計測で標本平均と母集団平均の乖離が,標本標準偏差の 1.0 倍となる確率
はいくらか
■ 6 回の計測で標本平均と母集団平均の乖離が,(母集団)標準偏差の 1.0 倍となる
確率はいくらか
正規分布とt分布の乖離
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 前提:
T ≡ pX¯ − µ
S2/n ∼ t(n − 1), Z ≡
¯
X − µ
p
σ2/n ∼ N(0, 1)
■ 6回の計測で標本平均と母集団平均の乖離が,標本標準偏差の 1.0 倍となる確率
Pr[|X¯ − µ| ≥ √S2] = Pr
"
|X¯ − µ|
p
S2/n ≥
√
S2
p
S2/n
#
= Pr|T| ≥ √n
n = 6 なのでt分布表の自由度5の欄から
√
6 ≈ 2.45 となる確率は5%∼ 10
正規分布とt分布の乖離
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 36 / 46
■ 前提:
T ≡ pX¯ − µ
S2/n ∼ t(n − 1), Z ≡
¯
X − µ
p
σ2/n ∼ N(0, 1)
■ 母集団分散が分かっている σ2 として,6 回の計測で標本平均と母集団平均の乖
離が,(母集団)標準偏差の 1.0 倍となる確率はいくらか
Pr[|X¯ − µ| ≥ √σ2] = Pr
"
|X¯ − µ|
p
σ2/n ≥
√
σ2
p
σ2/n
#
= Pr|Z| ≥ √n
n = 6(
√
6 ≈ 2.45)のとき正規分布表から求める確率は約 0.014
本日の演習問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 母集団平均が µ 分(母集団分散・標準偏差については未知)の正規分布であっ
たとするならば、「調査による平均視聴時間」と「母集団における平均視聴時
間」が標本標準偏差の1倍以上も乖離してしまうという結果が出る確率が 0.05
以下で収まる1のは,何人について調査を実施する場合か?
■ 標本標準偏差の 0.5 倍以上も乖離してしまうという結果が出る確率が 0.05 以下
となるのは,何人について調査を実施する場合か?(問題には含まれていません
が余裕があれば考えてみてください)
宿題解説1
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 38 / 46
■ 母集団平均が µ 分(母集団分散・標準偏差については未知)の正規分布であっ
たとするならば、「調査による平均視聴時間」と「母集団における平均視聴時
間」が標本標準偏差の1倍以上も乖離してしまうという結果が出る確率が 0.05 以下で収まるのは,何人について調査を実施する場合か?
◆ 大きさ n の標本:{X1, X2, . . . , Xn},Xi ∼ N(µ, σ2)
◆ 標本平均について X¯ ∼ N(µ, σ2/n) なので
Z = pX¯ − µ
σ2/n ∼ N(0,1), T =
¯
X − µ
p
S2/n ∼ t(n − 1)
ただし S2 は標本分散.
宿題解説1
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 問題は |X¯ − µ| > 1 ·
√
S2 となる確率が 0.05 以上となる n を求めること
Pr h|X¯ − µ| > 1 · √S2i ≤ 0.05 ⇔ Pr
"
|X¯ − µ|
p
S2/n >
1 · √S2
p
S2/n
#
≤ 0.05
つまり
Pr |T| > √n = Pr
"
|X¯ − 300|
p
S2/n > √
n
#
≤ 0.05
■ 自由度 n − 1 のt分布に従う確率変数 T について,Pr[|T| > 1 ·
√
n] < 0.05 な
宿題解説1
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 40 / 46
■ 括弧内 T は自由度 n − 1 の t 分布に従う:t分布表から例えば n = 5 のとき,
自由度 4 の欄から
Pr[ |T| > qn−1 ] = Pr[ |T| > 2.776 ] = 0.05
■ 様々な n について qn
−1 を求めると以下の図の通り.
■ qn
−1 ≤
√
Figure
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
4
6
8
10
12
宿題解説2,3
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 42 / 46
■ 問題は |X¯ − µ| > 0.5 ·
√
S2 となる確率が 0.05 以上となる n を求めること
Pr h|X¯ − µ| > 0.5 · √S2i ≤ 0.05 ⇔ Pr
"
|X¯ − µ|
p
S2/n >
0.5 · √S2
p
S2/n
#
≤ 0.05
つまり
Pr T > 0.5√n = Pr
"
|X¯ − 300|
p
S2/n > 0.5 √
n
#
≤ 0.05
■ 自由度 n− 1 のt分布に従う確率変数 T について,Pr[|T| > 0.5 ·
√
n] < 0.05 な
宿題解説2,3
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 括弧内の左辺は自由度 n − 1 の t 分布に従う:t分布表から例えば n = 5 のと
き,自由度 4 の欄から
Pr[ |T| > qn−1 ] = Pr[ |T| > 2.776 ] = 0.05
■ 様々な n について qn
−1 を求めると以下の図の通り.
■ qn
−1 ≤ 0.5
√
Figure
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 44 / 46
5 10 15 20
2
4
6
8
10
12
Sample Size; n
宿題解説2,3
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 分散が既知なら,|X¯ − µ| > 0.5 ·
√
σ2 となる確率が 0.05 以上となる n を求める
ことに帰着する
Pr h|X¯ − µ| > 0.5 · √σ2i ≤ 0.05 ⇔ Pr
"
|X¯ − µ|
p
σ2/n >
0.5 · √σ2
p
σ2/n
#
≤ 0.05
つまり
Pr |Z| > 0.5√n = Pr
"
|X¯ − 300|
p
σ2/n > 0.5 √
n
#
≤ 0.05
■ 標準正規分布に従う確率変数 Z について,Pr[|Z| > 0.5 ·
√
宿題解説2,3
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
http://sites.google.com/site/hustat2017/ 統計学 第9回 – 46 / 46
■ 括弧内の左辺は標準正規分布に従う:正規分布表から
Pr[|Z| > 1.96] = 0.05
■ 1.96 ≤ √n を満たすのは n = 4 となる場合であることが分かる