【解説】 T の期待値はE[T] =E[αX1+βX2] =αE[X1] +βE[X2] = (α+β)µなので,これ がE[T] =µとなるためにはα+β = 1が必要.
この条件の下で分散V[T] =V[αX1+βX2] =α2V[X1] +β2V[X2] = (α2+β2)σ2 が最小値 をとるのはα=β= 1
2 のときである. \(^o^)/
補足6.18. c1, . . . , cn を定数として,T =c1X1+· · ·+cnXn という形で与えられる推定量を線 形推定量という.標本平均は母平均に対する線形推定量の中で不偏かつ分散が最小になるもので あり,(母平均に対する)最良線形不偏推定量 (best linear unbiased estimator, BLUE) と も言われる.証明はそれほど難しくないので自習課題とする.
6.8 補足 — 有限母集団修正
有限母集団から非復元抽出する場合に,標本平均などの性質を調べておく.
母集団を{x1, x2, . . . , xN} とする.前提として,これは有限母集団なのでその母平均µ と母分散は σ2は
µ= 1 N
∑N i=1
xk
σ2= 1 N
∑N i=1
(xi−µ)2= 1 N
∑N i=1
x2i −µ2
であることに注意する.非復元単純無作為抽出による大きさnの標本をX1, . . . , Xn とする.
補題 6.19. Xk(1≤k≤n)は同分布で,
P[Xk =xi] = 1
N (1≤i≤N) (6.6)
であり,期待値と分散はE[Xk] =µ,V[Xk] =σ2.
証明. (6.6)は明らかでもいいと思うが念のため書いておくと,抽出されるのはN 個からn個を選ぶ
順列なので全部で N(N −1)· · ·(N −n+ 1) 通りあり, Xk = xi となるのは k 番目だけ xi に限 定して他は残り N−1 個から n−1 を選ぶ順列なので (N −1)(N−2)· · ·(N −1−(n−1) + 1) 通りなので,割り算すれば (6.6)を得る.ゆえに期待値は E[Xk] = 1
N
∑N i=1
xi =µ であり,分散は V[Xk] = 1
N
∑N i=1
(xi−µ)2=σ2 である. \(^o^)/
定理 6.20. 有限母集団からの非復元単純無作為抽出では,標本平均Xn と標本分散s2n ついて以 下が成り立つ.
E[Xn] =µ (6.7)
V[Xn] = σ2
n · N−n N−1 (6.8)
E[s2n] = n−1
n σ2· N N−1 (6.9)
証明は後回しにして,この定理から言えることを先に確認しよう.
64 6 点推定
まず,標本平均は非復元抽出の場合でもやはり母平均の不偏推定量である.しかし母分散については
(6.9)から,s2n を使うと部分抽出の影響で少し小さ目に見積ってしまい,非復元抽出の影響で少し大き
目に見積ってしまうことになるので,不偏推定量にするためには N−1
N · n
n−1s2n= N−1 N u2n
と修正する必要がある.とはいえ,この影響はnとN が共に数十以上であればほぼ無視できると言っ てよい.
問題は(6.8)で,復元抽出ではV[Xn] = σ2
n だったものが N−n
N−1 倍になっている.CF =
√N−n N−1 を有限母集団修正 (finite population correction factor, FPC) という.従って
有限母集団からの非復元抽出では標本平均の分散 V[Xn] は復元抽出の場合の CF2 倍,標準偏差 はCF 倍になる.
これは単純にN が大きいだけで無視するわけにはいかず,N ≫n でないときはかなり大きな違いに なることがある.例えば100人の母集団に対して40人という中途半端な調査を行うと 100−40
100−1 ≈0.6 倍であり,これは標準偏差にしても√
0.6≈0.77倍なので2割以上の相対誤差を生む.
有限母集団修正が重要なケースとして代表的なものを一つ挙げておく.正規母集団の母平均に対する 区間推定(7.2節)では標本平均を標準化したZn = Xn−µ
√σ2/n ∼N(0,1)を用いるが,有限母集団修正 を加えるべき状況では Xn−µ
√CF2σ2/n
を採用し,最終的な信頼区間は Xn±z(α/2) σ
√n·CF としなけれ ば,みすみす推定精度を悪くしていることになる.同様に考えれば母分散未知の場合のt分布を用いた 区間推定も,最終的な信頼区間はXn±tn−1(α/2)u2
√n·CF と修正することになる.(もちろん,日本 人1億2千万人のような母集団なら影響は事実上0である.各自確認せよ.)
Todo: 有限正規母集団での計算をチェック.以下の証明は有限母集団 {x1, . . . , xN} でやっている ので厳密には違うかもしれない.
定理6.20の証明
期待値の線型性は独立性を必要としないので, (6.7)はE[Xn] = 1 n
∑n
k=1E[Xk] = 1
n ·nµ=µ と 簡単.
先に(6.8)を認めて(6.9)を示す.(6.5)はただs2n の定義から式変形しただけで独立性は用いていな いので今も成立する.そこで(6.5)の期待値をとり(6.8)を代入すれば
E[s2n] = 1 n
∑n k=1
E[(Xk−µ)2]
| {z }
=V[Xk]=σ2
−E[(Xn−µ)2]
| {z }
=V[Xn]
= 1
n·nσ2−V[Xn]
=σ2−σ2
n ·N−n
N−1 = (n−1)N n(N−1)σ2. 最後に (6.8)を示す. 補題5.6より
V[Xn] =V
[ΣkXk n
]
= 1
n2V[ΣkXk]
= 1 n2
∑n
k=1
V[Xk] +
∑n k=1
∑
ℓ̸=k
Cov(Xk, Xℓ)
(6.10)
である.(Xk, Xℓ)がとりえる値の組合せは全てでN(N−1)通りあり,単純無作為抽出ではこれらが
6.8 補足—有限母集団修正 65
等確率で現われるので,共分散は Cov(Xk, Xℓ) = 1
N(N−1)
∑
i̸=j
(xi−µ)(xj−µ)
= 1
N(N−1)
∑N i=1
(xi−µ)
| {z }
=0
2
−
∑N i=1
(xi−µ)2
| {z }
=N σ2
=− σ2 N−1 でありk, ℓに依らない.従って(B.3)の続きは
V[Xn] = 1 n2
(
nσ2+n(n−1)× −σ2 N−1
)
= σ2
n · N−n N−1
\(^o^)/
66 7 区間推定
7 区間推定
前節同様,ある母集団からの大きさ n の標本 (i.i.d.) X1, . . . , Xn を考える.母平均 µ =E[Xk] と母分散 σ2 = V[Xk] を推定するのに,点推定では標本平均 Xn = 1
n
∑n k=1
Xk と不偏分散 u2n = 1
n−1
∑n k=1
(Xk−Xn)2 を用いるのが基本であった.しかしこれらの推定量を用いて得られる推定値が 母数の真の値と完全に一致することはありえない.同じ母集団を相手にしていても調査する人が変われ ば標本の実現値は変わり推定値も変わってしまうのだから,推定値の正確な値にはあまり意味がない.
例えば 例5.15の場合,ある人の実験では7/15 という推定値が得られるが別の人の実験では9/15 で ある.このとき問題になるのは具体的な数値よりも,大体いくらくらいなのかとか1/2 より大きいのか 小さいのかということだろう,そこで,単一の数値ではなく,大体の値の範囲によって推定を行おうと いうのが区間推定の考え方である.
本節では一先ず,正規母集団の母平均と母分散に関する区間推定の典型例を一通り概観し,基本的な 考え方と最低限の注意事項を示す.ここで,パターン暗記だと思わないように注意しておきたい.区間 推定や仮説検定は意味が分かっていなくとも統計ソフトを使えば何だか結果は出てしまうため,誤解や 誤用が非常に多いようである.それを防ぐには意味を理解することが非常に重要だが,パターン暗記だ と思っている限り,区間推定や仮説検定は絶対に理解できない! 理解したければ面倒でも考え方を追う こと!
補足 7.1 (区間推定と仮説検定の関係). 実は区間推定と仮説検定は表裏一体なので,区間推定に ついて理解を深めるためには仮説検定についても知るべきである.この辺の話は仮説検定の基本 を一通りやった後に8.6節で解説する.
まず,区間推定とは何なのかを形式的にまとめると以下のようになる.
区間推定 0< α <1は定数とする.未知母数θ に対する区間推定とは
P(L≤θ≤U) = 1−α (7.1)
を満たす(未知母数を含まない)統計量L, U を求めることであり,区間[L, U]を100(1−α)% 信頼区間 (confidence interval, CI) といい, 1−αを信頼係数 (confidence coefficient) という.100(1−α)%のことはまた,信頼水準 (confidence level, CL) あるいは信頼度とい う.区間の端点を信頼限界といい,特にLを下側信頼限界,U を上側信頼限界という.
• 定数αは仮説検定における有意水準・危険率と同じ意味を持ち(というより有意水準そのもので あり),簡単に言えば区間推定が外れる確率である.
信頼区間は統計量を用いて与えられるので,実際には標本の実現値によって色々な推定区間が得 られるが,運悪くそこにθ が含まれない見当外れな推定区間が算出されてしまう確率は(7.1)よ りP(θ /∈[L, U]) =αである.
• 信頼水準は通常95,90,99 %などに設定されることが多いが,理論的な理由があるわけではなく ただの慣例である.分析者がどれくらいのリスクをとるかに応じて主観的に決めることのできる 数値である*29ことを知っておこう.少なくとも理論的には,状況によっては50 %信頼区間でい い場合もあるかもしれない.
*29そうは言っても最低限要求される水準はある程度分野毎に存在することが多い.
7.1 準備—パーセント点 67
最初から考え込んでも仕方ないのでとにかく例を見ながら慣れていこう.読み進める上でのポイント は,区間推定では基本的に『推定対象の母数以外に未知母数を含まない統計量の分布が分かればそれは 信頼区間算出に使える』と考えるので,(1)推定対象の未知母数はどこに含まれ(2)それをどう変形し て信頼区間に対応する不等式に変形しているのか,という点に着目するとよいだろう.統計量と分布さ え分かれば後は機械的で,上側と下側それぞれ確率α/2 に対応する区間を削り取れば100(1−α)% 信 頼区間が得られる.
7.1 準備 — パーセント点
少しだけ準備をする.正規分布の計算について細かいことは A.3節を参照すること.X ∼N(0,1) のとき,任意の 0 < α < 1 に対して P(X > z(α)) = α となるような値 z(α) が一つ定まる.具 体的には, N(0,1) の分布関数 Φ(z) =P[X ≤z] は単調増加な連続関数で逆関数が存在するので,
α=P[X > z] = 1−P[X≤z] = 1−Φ(z)をzについて整理してz(α) = Φ−1(1−α)とすればよい.
これを標準正規分布の上側α点あるいは上側100α%点(パーセント点)という.
上側α点は必要になればPCを使ったり正規分布表から逆算したりするが,表3 の代表的な値は大 まかに把握しておくとよい*30.
α 0.005 0.01 0.025 0.05 0.1
z(α) 2.5758 2.3263 1.9600 1.6449 1.2816 表3: 標準正規分布の上側α点の代表的な値
パーセント点は標準正規分布以外の分布に対しても同様に定義する.
補足7.2 (なぜ上側か). 数学的には上側α点を考えるのと下側1−α点を考えるのはほぼ同じこ とであり,下側1−α点は累積分布関数F(x)の逆関数によりF−1(1−α)と書けるのだから,全 て累積分布関数を用いて下側パーセント点で書いた方が理論的には断然すっきりする.しかし多 くの教科書で上側α点を用いた記述が行われているのを見るので,このノートでもそれに従って いるだけである.