統計学 第九回:正規母集団の標本理論
高木 真吾
URL:
http://sites.google.com/site/hustat2017/
質問等は担当者(
[email protected])までご連絡ください
December 1, 2017
本日の演習問題 . . . 2
確率分布に関する前提知識 3 必要な確率分布 . . . 4
カイ二乗,t,F分布 . . . 5
正規分布との関係:ここは重要 . . . 6
正規母集団における標本理論 7 母集団分布が正規分布 . . . 8
標本平均の標本分布 . . . 9
標本平均に関する問題1 . . . 10
標本平均に関する問題2 . . . 11
標本分散の標本分布 . . . 12
標本分散に関する問題 . . . 13
標本平均・標本分散に関して. . . 14
母集団分散をS2で置き換えた時の問題. . . 15
正規分布とt分布の乖離 . . . 16
本日の課題問題 . . . 17
本日の演習問題
■ 母集団平均がµ 分(母集団分散・標準偏差については未知)の正規分布であったとするならば、「調査に よる平均視聴時間」と「母集団における平均視聴時間」が 標本標準偏差の1倍以上も乖離 してしまうと いう結果が出る確率が0.05以下で収まるaのは,何人について調査を実施する場合か?(自由度n − 1 のt 分布に従う確率変数T について,Pr[|T | > 1 ·√n] < 0.05 なる n を求める)
■ 標本標準偏差の0.5倍以上も乖離 してしまうという結果が出る確率が0.05以下となるのは,何人について 調査を実施する場合か?(自由度n − 1 のt分布に従う確率変数 T について,Pr[|T | > 0.5 ·√n] < 0.05 な るn を求める:答え18)
■ 上の結果は母集団分散が既知と考えた場合に比べてどの程度異なっているか?
a
調査結果が,ここで想定している調査誤差の許容範囲(標本標準偏差の1倍)を超えてしまう確率が5%以内である と述べている
統計学 第9回– 2 / 17
確率分布に関する前提知識 3 / 17
必要な確率分布
■ 自由度k(パラメータk)のカイ二乗(χ2)分布に従う確率変数の密度関数 f (y; k) = 1
2 · Γ(k/2) (y
2 )k/2−1
exp{−y 2
}, k > 0, y > 0.
■ 自由度m(パラメータm)のt分布
f (t; m) = √ 1
m · B(m/2, 1/2) (
1 + t
2
m
)−(m+1)/2
, m > 0, −∞ < t < ∞.
■ 自由度(n, m)(パラメータ(n, m))のF分布に従う確率変数の密度関数: f (x; n, m) = n/m
B(n/2, m/2) (n
mx
)n/2−1( 1 + n
mx
)−(n+m)/2
, n, m > 0, x > 0.
統計学 第9回– 4 / 17
カイ二乗,t,F分布
0 5 10 15 20
0.00.10.20.30.40.5
カイ二乗分布に従う確率変数の密度関数
x
cbind(y1, y2, y3)
df=2 df=5 df=10
-4 -2 0 2 4
0.00.10.20.30.4
t分布に従う確率変数の密度関数
x
cbind(y1, y2, y4)
df=2 df=5 N(0, 1)
0 1 2 3 4 5 6
0.00.20.40.60.81.0
F分布に従う確率変数の密度関数
x
cbind(y1, y2, y3)
df1=2 , df2=5 df1=10 , df2=20 df1=20 , df2=2
正規分布との関係:ここは重要
■ 標準正規分布に従う確率変数X:X ∼ N(0, 1)
■ カイ二乗(χ2)分布
□ Y = X2とおくと,Y は自由度1のカイ二乗(χ2)分布に従う
□ 独立な標準正規分布に従う確率変数X1, . . . , Xnを用いて
Y =
n
∑
i=1
Xi2
としたとき,Y は自由度 n の χ2分布に従う
■ t分布:特に重要
□ X:標準正規分布/W:自由度m の χ2分布
□ X と W が互いに独立であるとき,自由度 m のt分布に従う. X
√W/m ∼ t(m)
□ 自由度m が大きいとき,標準正規分布に近づく.
■ F分布
□ V:自由度n の χ2分布/W:自由度m の χ2分布
□ V と W が互いに独立であるとき,自由度 (n, m) のF分布に従う. V /n
W/m ∼ F (n, m)
□ 自由度が(1, m) のF分布に従う確率変数の平方根は,自由度 m のt分布に従うということもその構成 方法から明らか.
統計学 第9回– 6 / 17
正規母集団における標本理論 7 / 17
母集団分布が正規分布
■ 母集団分布:正規分布
□ 母集団における興味ある対象の分布状態があたかも正規分布のように分布しているという意味
■ 母数:母集団平均µ / 母集団分散 σ2
■ 大きさn の標本:{X1, X2, . . . , Xn}.ただし Xi∼ N(µ, σ2) i = 1, 2, . . . , n
■ 標本平均: ¯X = n−1∑ni=1Xi
■ 標本分散:S2= (n − 1)−1∑ni=1(Xi− ¯X)2
統計学 第9回– 8 / 17
標本平均の標本分布
■ 標本平均の分布: ¯X = n−1∑ni=1Xi
X ∼ N( µ, σ¯ 2/n ) (1)
■ ここから(標準化によって) X − µ¯
√σ2/n ∼ N(0, 1) (2)
統計学 第9回– 9 / 17
標本平均に関する問題1
■ 天秤による計測:観測には多少の誤差が出る=誤差を確率変数のように考える
□ 観測誤差は平均0 g,分散 0.1(標準偏差√0.1 g)の正規分布
■ 10回の計測を行って,その平均によって「重さ」を確定する.
■ このとき,「重さ」の取りうる値はどのような分布になるか(標本平均の分布)?また,真の重さが100 g でとき,| ¯X − 100| > 0.3 となる確率は?
■ 計測量に関する大きさ10の標本:{X1, X2, . . . , X10}
■ 誤差を確率変数Uiと表記するとき,Ui ∼ N(0, 0.1)
■ 計測量の取りうる値をXiとすると
Xi= 100 + Ui, i = 1.2. . . . , 10
なのでXiの従う分布は,
■ このとき(1)式より,標本平均X の従う分布は¯
■ 標準化を行うと(0.1/10 = 0.01,√0.01 = 0.1 に注意する)
Z ≡
X − ¯
= ∼
■ 求めるべき条件式| ¯X − 100| > 0.3 を Z を含む様に変形する.
■ 標準正規分布の数表をもちいて,
– 10 / 17
標本平均に関する問題2
■ 天秤による計測:観測誤差は平均0 g,分散 0.1 g(標準偏差√0.1 g)の正規分布
■ X の誤差が 0.1 g以下となる確率が 90 %以上となるようにしたい¯
■ 何回くらい計測すればよいか?
■ 計測量に関する大きさn の標本:{X1, X2, . . . , Xn}
■ このとき(2)式を参照して, Z ≡ X − 100¯
√0.1/n =
√10n · ( ¯X − 100) ∼ N(0, 1)
■ 問題はPr[| ¯X − 100| < 0.1] ≥ 0.90 となるような n を求めること
■ 標準正規分布の数表より Pr[|Z| < 1.65] = 0.90
なので臨界点を1.65よりも大きくすると題意を満たす.つまり
つまり 以上に設定すればよい.
統計学 第9回– 11 / 17
標本分散の標本分布
■ 標本分散:S2= (n − 1)−1∑ni=1(Xi− ¯X)2
■ 標本分散は自由度n − 1 のカイ二乗(χ2)分布に従う (n − 1) ·S
2
σ2 ∼ χ
2(n − 1) (3)
■ 自由度がn ではなく,n − 1 であることに注意.
■ 証明はスライド参照.
統計学 第9回– 12 / 17
標本分散に関する問題
■ 母集団分布は正規分布/母集団平均4,母集団分散 15.
■ 大きさ10 の標本:{X1, X2, . . . , Xn}(Xi∼ N(4, 15))
■ 標本分散についてS2> a となる確率が 0.05 となるような a はいくつか?
■ (3)式より,以下の関係が成り立つ (n − 1) ·S
2
σ2 = 9 · S2
15 ∼
■ また
■ カイ二乗分布表の自由度9の欄の5%点をみるとPr[V > 16.9190] = 0.05 なのでなので臨界点を16.9190 とすると題意を満たす.つまり
統計学 第9回– 13 / 17
標本平均・標本分散に関して
X − µ¯
√S2/n ∼ t(n − 1)
■ (2)式はµ にも σ2にも依存.
□ µ についてだけ調べたいときには σ2が厄介.
□ 何とかσ2に依存しないようにできないか(S2で置換)?
□ X と S¯ 2は独立になるaことを利用すると次の結果が成立する.
■ 前提1:( ¯X − µ)/√σ2/n:標準正規分布
■ 前提2:(n − 1)S2/σ2:自由度n − 1 の χ2分布
■ したがって
T = ( ¯X − µ)/√σ
2/n
√{(n − 1)S2/σ2}/(n − 1) = X − µ¯
√S2/n ∼ t(n − 1) (4)
■ あたかも(2)式のσ2をS2で置き換えただけのように見える
a
証明はここでは行わないが,以下のような手順で証明可能.
■ ( ¯X− µ)と,任意のiについてXi− ¯Xが独立になる
■ 一般に独立な確率変数同士において,それぞれの確率変数の関数同士も独立になる
∑
母集団分散を S
2で置き換えた時の問題
■ 母集団分布:正規分布/母集団平均4,母集団分散 σ2
■ 大きさ15 の標本:{X1, X2, . . . , X15}
■ 標本平均と標本分散を用いて,( ¯X − 3)/
√S2> a となる確率が 0.01 となる a はいくらか?
■ 問題から大きさ15 の標本:{X1, X2, . . . , X15} において,Xi∼ N(3, σ2)
■ このとき標本平均と標本分散から(4)式を用いると X =¯ 1
15
15
∑
i=1
Xi∼ , S2= 1 15 − 1
15
∑
i=1
(Xi− ¯X)2, T ≡ X − 3¯
√S2/15 ∼
■ ところで問題の条件を,t分布に従う確率変数を含むように変形すると X − 3¯
√S2 > a ⇔
つまり Pr
[ ¯ X − 3
√S2 > a ]
= Pr
[ X − 3¯
√S2/15 > a
√15 ]
= 0.01
となるのは自由度14のt分布表からa
√15 = を満たす a を求めればよい(≈ 0.713).
統計学 第9回– 15 / 17
正規分布とt分布の乖離
■ n回の計測で得られるであろう結果が{X1, X2, . . . , Xn}
■ 6回の計測で標本平均と母集団平均の乖離が,標本標準偏差の1.0倍 となる確率はいくらか
■ 6回の計測で標本平均と母集団平均の乖離が,母集団標準偏差の1.0倍 となる確率はいくらか(母集団分 散は既知で,σ2とする)
前提:
T ≡ X − µ¯
√S2/n ∼ t(n − 1), Z ≡ X − µ¯
√σ2/n ∼ N(0, 1) それぞれの場合の確率を求める.
Pr[| ¯X − µ| ≥√S2] = Pr [
≥ ]
= Pr [ ]
n = 6 なのでt分布表の自由度5の欄から√6 ≈ 2.45 となる確率は5%∼10%の間. Pr[| ¯X − µ| ≥√σ2] = Pr
[
≥
]
= Pr [ ]
n = 6(√6 ≈ 2.45)のとき正規分布表から求める確率は約 0.014 (= 0.007 × 2).
統計学 第9回– 16 / 17
本日の課題問題
1. 母集団平均がµ 分(母集団分散・標準偏差については未知であり σ2と表記しておく)の正規分布であっ たと仮定するならば、「調査による平均視聴時間」と「母集団における平均視聴時間」が
標本標準偏差の1倍以上も乖離 してしまうという結果が出る確率が0.05以下で収まるのは,何人につい て調査を実施する場合か?(自由度n − 1 のt分布に従う確率変数 T (n − 1) について,
Pr[|T (n − 1)| ≥ 1 ·√n] ≤ 0.05 なる n を求める)
■ 大きさがn の(無作為に選ばれた)標本を,n 個の独立で同一の分布に従う確率変数であらわす. X1, X2, . . . , Xn
このとき,各確率変数が従う確率分布は,問題の仮定より,Xi∼ (i = 1, 2, . . . , n).
■ 母集団平均は であり,調査の結果得られるであろう標本平均X は,上記の標本¯ {X1, X2, . . . , Xn} を用いて,
X =¯
と書くことができる.この標本平均は,標本を構成する確率変数の関数であることから,これ自身も また確率変数であり,その確率分布は,平均 E[ ¯X] = ,分散 V[ ¯X] = の
分布に従う.また標本分散,標本標準偏差は以下のように表記される S2= 1
n − 1
n
∑
i=1
(Xi− ¯X)2, S =√S2
この標本分散(標本標準偏差)を用いて T = X − µ¯
√S2/n =
√n( ¯X − µ)
S ∼ T (n − 1)
つまり,確率変数T は,自由度 n − 1 のt分布に従う ことが示されている.
■ 問題は,| ¯X − µ| ≥ 1 · S となる事象の確率について問うているので Pr[| ¯X − µ| ≥ 1 · S] = Pr[ |
√n( ¯X − µ)|
S ≥ ]
という関係を利用する.問題の要請は,上記確率が0.05以下になるようなn を求めている
■ 例えば,n が4(自由度がn − 1 = 3)のとき,上記の関係は Pr[|T (3)| ≥√4] = Pr[|T (3)| ≥ 2] である が,t分布表からPr[|T (3)| ≥ a] = 0.05 となる点は a = 3.1824 なので Pr[|T (3)| ≥ 2] > 0.05 となる.
■ 同様にn = 5, 6, . . . と考えていくと,初めて Pr[T (n − 1) ≥√n] ≤ 0.05 を満たす n は で ある.
2. 上の結果は母集団分散が既知と考えた場合に比べてどの程度異なっているか?
■ 母集団分散σ2が既知の時,母集団における標準偏差はσ であるので,計測結果が母集団平均に対して 1 × σ 以上の乖離する確率を5%以下で押さえるには以下の関係を満たす n を求めることである
Pr[| ¯X − µ| ≥ σ] ≤ 0.05 ⇔ Pr
[| ¯X − µ|
√σ2/n ≥
√n ]
≤ 0.05