統計学 第9回 正規母集団における標本理論
担当者: 高木 真吾
URL: http://sites.google.com/site/hustat2017/
質問等は, [email protected] までお願いします.
December 1st, 2017
復習
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
復習
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 確率変数:実現するまではどの値が出るかわからないが,どの値がどのくらい
の出やすさで実現するかに関するルールは定められているもの
■ 離散型確率変数:個々の取りうる値に確率が付与されている
◆ ベルヌーイ分布に従う確率変数(値1を確率 p,値0を確率 1 − p)
◆ 二項分布に従う確率変数
■ 連続型確率変数:実現パターンが密度関数として表現されている
◆ 正規分布
◆ 一様分布
復習
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 確率変数の期待値の基本公式: 取りうる値 × 確率
◆ ベルヌーイ分布に従う確率変数 X:
■ 平均:E[X] = 1 · p + 0 · (1 − p) = p
■ 分散:V[X] = E[(X − E[X])2] = E[X2] − (E[X])2 = 12 · p + 02 · (1 − p) − p2 = p(1 − p)
◆ 正規分布に従う確率変数 X (密度関数は φ(x) = √ 1
2πσ2 exp{−0.5(x − µ)2/σ2})
■ 平均:E[X] = R∞
−∞ x · φ(x)dx = µ
■ 分散:V[X] = E[(X − E[X])2] == R−∞∞ (x − µ)2 · φ(x)dx = σ2
復習
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 独立な確率変数 ({Xi}ni=1) の和に関する期待値演算(Y = β0 +
Pn
i=1 βi · Xi)
ただし,{βi}n
i=0 は確率変数ではない定数.
◆ 平均:E[Y ] = β0 + Pni=1 βi · E[Xi],分散:V[Y ] = Pni=1 βi2 · V[Xi]
◆ 例)「標本平均」という確率変数について考える.X =¯ 1
n
Pn
i=1 Xi
■ 「標本平均」とは,n 個の確率変数を足し,n で除す 確率変数
◆ 上の公式で,β0 = 0, β1 = β2 = · · · = βn = 1/n とした場合に相当
■ 平均:E[ ¯X] = 1
n
Pn
i=1 E[Xi],分散:V[ ¯X] = n12
Pn
i=1 V[Xi]
◆ さらにすべての確率変数 {Xi}n
i=1 が同じ平均,同じ分散を持つなら
(E[Xi] = µ, V[Xi] = σ2, for i = 1, 2, . . . , n)
■ 平均:E[ ¯X] = 1
n
Pn
i=1 E[Xi] = µ,分散:V[ ¯X] = n12
Pn
i=1 V[Xi] = σ
2
n
◆ 無作為抽出によって得られる大きさnの標本は,n個の確率変数によって 表現され,それぞれの確率変数は独立で同じ分布に従う.そしてその分布 は母集団分布である.
復習
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 母数:母集団を特徴づけるパラメータ
◆ 母集団平均:母集団全体における中心
◆ 母集団分散:母集団全体における中心からの平均的な乖離の程度
■ 推定量:母数を推定するため,標本から作ることができる確率変数
◆ 「標本平均」という確率変数(X =¯ 1
n
Pn
i=1 Xi):母集団平均を推定したい
◆ 「標本分散」という確率変数(S2 = 1
n−1
Pn
i=1(Xi − ¯X)2):母集団分散を
推定したい
■ 不偏推定量:推定したい母数に対して,偏りがない(その推定量の平均=起き 方の中心が母数と一致)推定量
◆ E[ ¯X] = µ
正規分布関連の確率分布に関する前
提知識
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
必要な確率分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
d.f. = degrees-of-freedom = 自由度
■ 自由度 k (パラメータ k) のカイ二乗(χ2)分布に従う確率変数の密度関数
f (y; k) = 1
2 · Γ(k/2)
y 2
k/2−1
expn−y 2
o, k > 0, y > 0.
■ 自由度 m (パラメータ m) のt分布
f (t; m) = √ 1
m · B(m/2, 1/2)
1 + t
2
m
−(m+1)/2
, m > 0, −∞ < t < ∞.
■ (n, m) ( (n, m)) :
正規分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
-4 -2 0 2 4
0.00.10.20.30.4
y
Pr[ -2.0 < Z < 1.0] Pr(Z< α)=0.95
Pr(Z> α)=0.05
カイ二乗分布に従う確率変数の密度関数
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
0 5 10 15 20
0.00.10.20.30.40.5
カイ二乗分布に従う確率変数の密度関数
cbind(y1, y2, y3)
df=2 df=5 df=10
t分布に従う確率変数の密度関数
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
-4 -2 0 2 4
0.00.10.20.30.4
t分布に従う確率変数の密度関数
x
cbind(y1, y2, y4)
df=2 df=5 N(0, 1)
F分布に従う確率変数の密度関数
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
0 1 2 3 4 5 6
0.00.20.40.60.81.0
F分布に従う確率変数の密度関数
cbind(y1, y2, y3)
df1=2 , df2=5 df1=10 , df2=20 df1=20 , df2=2
正規分布との関係:カイ二乗分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 標準正規分布に従う確率変数 X:X ∼ N(0, 1)
■ カイ二乗(χ2)分布
◆ Y = X2 とおくと,Y は自由度1のカイ二乗(χ2)分布に従う
◆ 独立な標準正規分布に従う確率変数 X1, . . . , Xn を用いて
Y =
n
X
i=1
Xi2
としたとき,Y は自由度 n の χ2 分布に従う
正規分布との関係:t分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ t分布
◆ X: 標準正規分布/ W : 自由度 m の χ2 分布
◆ X と W が互いに独立であるとき,自由度 m のt分布に従う. X
pW/m ∼ t(m)
◆ 自由度 m が大きいとき,標準正規分布に近づく.
正規分布との関係:F分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ F分布
◆ V : 自由度 n の χ2 分布/ W : 自由度 m の χ2 分布
◆ V と W が互いに独立であるとき,自由度 (n, m) のF分布に従う. V /n
W/m ∼ F (n, m)
◆ 自由度が (1, m) のF分布に従う確率変数の平方根は,自由度 m のt分布に
従うということもその構成方法から明らか.
正規母集団における標本理論
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
母集団分布が正規分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 母集団分布:正規分布
■ 母数:母集団平均 µ / 母集団分散 σ2
■ 大きさ n の標本:{X1, X2, . . . , Xn}.ただし Xi ∼ N(µ, σ2) i = 1, 2, . . . , n
■ 標本平均:
X =¯ 1 n
n
X
i=1
Xi
■ 標本分散:
S2 = 1 n − 1
n
X
i=1
(Xi − ¯X)2
標本平均の標本分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 標本平均の分布:X = n¯ −1 Pni=1 Xi
X ∼ N( µ, σ¯ 2/n ) (1)
■ ここから(標準化によって) X − µ¯
pσ2/n ∼ N(0, 1) (2)
標本平均の問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 天秤による計測:観測には多少の誤差が出る=誤差を確率変数のように考える
◆ 観測誤差は平均 0 g,分散 0.1(標準偏差 √0.1 g)の正規分布
■ 10 回の計測を行って,その平均によって「重さ」を確定する.
■ このとき,「重さ」の取りうる値はどのような分布になるか(標本平均の分布)? また,真の重さが 100 gでとき,| ¯X − 100| > 0.3 となる確率は?
標本平均の問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 計測量に関する大きさ 10 の標本:{X1, X2, . . . , X10}
■ 誤差を確率変数 Ui と表記するとき,Ui ∼ N(0, 0.1)
■ 計測量の取りうる値を Xi とすると
Xi = 100 + Ui, i = 1.2. . . . , 10
なので Xi ∼ N(100, 0.1)(真の重さが 100 g,誤差が平均0,分散 0.1)
■ このとき(1)式より
X =¯ 1 10
10
X
i=1
Xi ∼ N(100, 0.1/10)
√
標本平均の問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 求めるべき条件式 | ¯X − 100| > 0.3 を Z を含む様に変形する.
| ¯X − 100| > 0.3 ⇔ 10 · | ¯X − 100| > 3 ⇔ |Z| > 3
■ 標準正規分布の数表より
Pr[Z > 3.00] ≈ 0.00135, Pr[|Z| > 3.00] ≈ 0.0027
標本平均に関する問題2
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 天秤による計測:観測誤差は平均 0 g,分散 0.1 g(標準偏差
√0.1 g)の正規
分布
■ X¯ の誤差が 0.1 g以下となる確率が 90 %以上となるようにしたい
■ 何回くらい計測すればよいか?
■ 計測量に関する大きさ n の標本:{X1, X2, . . . , Xn}
■ このとき(2)式を参照して,
Z ≡ X − 100¯ p0.1/n =
√10n · ( ¯X − 100) ∼ N(0, 1)
Pr[| ¯X − 100| < 0.1] ≥ 0.90 n
標本平均に関する問題2
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
| ¯X − 100| < 0.1 ⇔ √10n · | ¯X − 100| < 0.1√10n ⇔ |Z| < 0.1√10n
■ 標準正規分布の数表より
Pr[|Z| < 1.65] = 0.90
なので臨界点を 1.65 よりも大きくすると題意を満たす.つまり 0.1√10n > 1.65 −→ n ≥ 16.5
2
10 = 27.225
つまり n = 28 以上に設定すればよい.
Pr[|Z| < c] = 0.90
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
-4 -2 0 2 4
0.00.10.20.30.4
Pr[ -1.65 < Z < 1.65 ]
y1
µ =0 , σ2=1
Pr[Z>1.65] = 0.050 Pr[Z<-1.65] = 0.050
標本分散の標本分布
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 標本分散:S2 = (n − 1)−1 Pni=1(Xi − ¯X)2
■ 標本分散は自由度 n − 1 のカイ二乗(χ2)分布に従う
(n − 1) · S
2
σ2 =
n
X
i=1
Xi − ¯X σ
2
∼ χ2(n − 1) (3)
c.f.
n
X
i=1
Xi − µ σ
2
=
n
X
i=1
Zi2, Zi ∼ N(0, 1)
■ 自由度が n ではなく,n − 1 であることに注意.
■ データは n 個あって,本来これらがすべてどのような値でもとりうるはずだが, X¯ による縛りが1つあるので,X¯ が与えられた下で「自由に」動けるのは
n − 1 個.
■ 証明は厄介なので省略.
標本分散に関する問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 母集団分布は正規分布/母集団平均 4,母集団分散 15.
■ 大きさ 10 の標本:{X1, X2, . . . , Xn}(Xi ∼ N(4, 15))
■ 標本分散について S2 > a となる確率が 0.05 となるような a はいくつか?
■ (3)式より,以下の関係が成り立つ (n − 1) · S
2
σ2 = 9 · S2
15 ∼ χ
2(9)
■ また
S2 > a ⇔ 9 · S
2
> 9 · a
標本分散に関する問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ カイ二乗分布表の自由度9の欄の5%点をみると Pr[V > 16.9190] = 0.05 なの でなので臨界点を 16.9190 とすると題意を満たす.つまり
9 · a
15 = 16.9190 −→ a = 16.9190 · 15
9 ≈ 28.19833
Pr[V > c] = 0.05
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
0 5 10 15 20
0.000.020.040.060.080.10
自由度9のカイ二乗分布: Pr[ V > 16.9190 ]
y1
df=9
Pr[V>16.9] = 0.050
標本平均・標本分散に関して
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
X − µ¯
pσ2/n ∼ N(0, 1),
X − µ¯
pS2/n ∼ t(n − 1)
■ (2)式は µ にも σ2 にも依存.
◆ µ についてだけ調べたいときには σ2 が厄介.
◆ 何とか σ2 に依存しないようにできないか(S2 で置換)?
◆ X¯ と S2 は独立になることを利用すると次の定理が成立する.
標本平均・標本分散に関して
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
X − µ¯
pσ2/n ∼ N(0, 1),
X − µ¯
pS2/n ∼ t(n − 1)
■ 重要な結果1:( ¯X − µ)/pσ2/n:標準正規分布
■ 重要な結果2:(n − 1)S2/σ2 :自由度 n − 1 の χ2 分布
■ したがって
T = ( ¯X − µ)/pσ
2/n
p{(n − 1)S2/σ2}/(n − 1) =
X − µ¯
pS2/n ∼ t(n − 1) (4)
■ 2 σ2 S2
標本平均・標本分散の問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 母集団分布:正規分布/母集団平均 3,母集団分散 σ2
■ 大きさ 15 の標本:{X1, X2, . . . , X15}
■ 標本平均と標本分散を用いて,( ¯X − 3)/
√S2 > a となる確率が 0.01 となる a は いくらか?
■ 問題から大きさ 15 の標本:{X1, X2, . . . , X15} において,Xi ∼ N(3, σ2)
■ このとき標本平均と標本分散は X =¯ 1
15
15
X
i=1
Xi ∼ N(3, σ2/15), S2 = 1 15 − 1
15
X
i=1
(Xi − ¯X)2
であり,(4)式より
標本平均・標本分散の問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
T ≡ X − 3¯
pS2/15 ∼ t(14)
■ ところで
X − 3¯
√S2 > a ⇔
X − 3¯ pS2/15 >
a
p1/15 = a
√15
つまり
Pr
¯
X − 3
√S2 > a
= Pr
"
X − 3¯
pS2/15 > a
√15
#
= 0.01
Pr[T > c] = 0.05
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
-4 -2 0 2 4
0.00.10.20.30.4
自由度14のt分布: Pr[ T > 2.624 ]
x
y1
df=14
Pr[T>2.624] = 0.010
正規分布とt分布の乖離
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ n回の計測で得られるであろう結果が {X1, X2, . . . , Xn}
■ 6 回の計測で標本平均と母集団平均の乖離が,標本標準偏差の 1.0 倍となる確率 はいくらか
■ 6 回の計測で標本平均と母集団平均の乖離が,(母集団)標準偏差の 1.0 倍となる 確率はいくらか
◆ 母集団分散 σ2 は既知とする
正規分布とt分布の乖離
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 前提:
T ≡ X − µ¯
pS2/n ∼ t(n − 1), Z ≡ X − µ¯
pσ2/n ∼ N(0, 1)
■ 6回の計測で標本平均と母集団平均の乖離が,標本標準偏差の 1.0 倍となる確率 Pr[| ¯X − µ| ≥ √S2] = Pr
"
| ¯X − µ| pS2/n ≥
√S2 pS2/n
#
= Pr|T | ≥ √n
n = 6 なのでt分布表の自由度5の欄から
√6 ≈ 2.45 となる確率は5%∼ 10
%の間.(正確には 5.78 %くらい)
正規分布とt分布の乖離
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 前提:
T ≡ X − µ¯
pS2/n ∼ t(n − 1), Z ≡ X − µ¯
pσ2/n ∼ N(0, 1)
■ 母集団分散が分かっている σ2 として,6 回の計測で標本平均と母集団平均の乖 離が,(母集団)標準偏差の 1.0 倍となる確率はいくらか
Pr[| ¯X − µ| ≥ √σ2] = Pr
"
| ¯X − µ| pσ2/n ≥
√σ2 pσ2/n
#
= Pr|Z| ≥ √n
n = 6(√6 ≈ 2.45)のとき正規分布表から求める確率は約 0.014
(= 0.007 × 2).
本日の演習問題
復習 正規分布関連の確率分布に関する前提知識 正規母集団における標本理論
■ 母集団平均が µ 分(母集団分散・標準偏差については未知)の正規分布であっ たとするならば、「調査による平均視聴時間」と「母集団における平均視聴時 間」が標本標準偏差の1倍以上も乖離してしまうという結果が出る確率が 0.05 以下で収まる1のは,何人について調査を実施する場合か?
■ 標本標準偏差の 0.5 倍以上も乖離してしまうという結果が出る確率が 0.05 以下 となるのは,何人について調査を実施する場合か?
■ 上の結果は母集団分散が既知と考えた場合に比べてどの程度異なっているか?
1
調査結果が,ここで想定している調査誤差の許容範囲(標本標準偏差の1倍)を超えて しまう確率が5%以内であると述べている