担当:鹿野(大阪府立大学)
2014 年度前期
はじめに
前回の復習
二標本問題:二つの母集団の母平均・母分散を比較。
二標本t統計量:母平均の有意差を見極める。
今回学ぶこと
点推定。
区間推定。
テキスト該当箇所:11章。
1 点推定
1.1
母数の推定
母数の推定:母集団分布 f (x)の未知母数θの値を、統計量ˆθ = ˆθ(X1,X2, . . . ,Xn)から推測 する作業を、母数の と呼ぶ。このときˆθを、θの と呼ぶ。
⊲ ∴推定=標本X1,X2, . . . ,Xnから、母数のおおよその値を求める。
⊲ 例:母平均µ(母数)を、標本平均X¯(推定量)で推定。
⊲ 注意:「統計的推測」は「推定」と「仮説検定(次回)」を含む広義の言葉。
Remark:推定のアプローチとして、点推定と区間推定がある。
⊲ :推定結果をθの近似値として、「ˆθ =○ ○ 」と点で答える。シンプル。
⊲ (次節):ˆθが確率変数であることを考慮⇒推定結果に幅を持たせ、「△
△ %の確率で、母数は○ ○ 以上× × 以下の値である」と答える。用心深い。
1
A: Unbiased vs. Biased Estimator
E(θ~)≠ θ E(θ^)= θ f(θ^)
g(~θ)
Efficeint vs. Inefficient Estimator
E(θ^)= θ f(θ^)
g(θ~)
図1:不偏推定量と有効推定量のイメージ
1.2
推定量の採用基準:不偏性と有効性
推定量をデザインする:分析者は、自由に標本X1,X2, . . . ,Xnを使って推定量 ˆθを求め、θ を点推定して良い。
⊲ 分析者が直面する問題:標本をどう使えば、「 」ˆθが作成できる?
⊲ 例:母平均µを、標本平均X =¯ 1n Xiで推定。... ¯Xがµの推定量として最良である 根拠は?X¯ より良いµの推定量は無いのか?
⊲ 推定量の採用基準:具体的に、どんな推定量を「良い推定量」とするか?⇒不偏性 と有効性。
不偏性:未知の母数θとその推定量ˆθについて
E(ˆθ) = θ (1)
が成立するとき、ˆθをθの と呼ぶ。推定量として、最低限満たすべき基準。
⊲ 不偏性はなぜ望ましい?⇒不偏推定量 ˆθは、その実現値としてθ(分析者が知りた いターゲット)が出やすい。...試行を繰り返すと、プラスのズレ、マイナスのズレ が相殺され、偏りなくθぐらいの値が出る「サイコロ」。
⊲ 図1A:不偏推定量ˆθと、偏りのある推定量˜θ。
⊲ 例:講義ノート#16よりE( ¯X) = µ。∴標本平均X¯ は、 の不偏推定量。
⊲ 例:標本分散s2= n−11 (Xi− ¯X)2は、期待値をとると
E(s2) = σ2. (2)
∴ s2は の不偏推定量。(証明:テキストp184、練習問題9.4参照。)
有効性:母数θに対し、不偏性の基準を満たす推定量が ある場合、そのうち最も
分散Var(ˆθ)が小さいものを と呼ぶ。
⊲ 有効性はなぜ望ましい?⇒ θを軸にした ˆθのブレが、最も小さい。∴複数ある不偏 推定量の中で、最も精度が高い推定量。
⊲ 図1B:有効推定量ˆθと、分散で劣る推定量˜θ。二つの推定量 ˆθ、˜θが、ともに不偏性 を満たす点に注意。
⊲ 例:µの不偏推定量は複数存在するが、最小分散となるのは標本平均X¯。∴X¯は の有効推定量。X¯ の分散(講義ノート#16)
Var( ¯X) = σ
2
n (3)
を下回るµの不偏推定量を作ることは、不可能。(証明⇒宿題#04参照。)
Remark:標本平均X¯ で母平均µを推定するのには、確率論上の合理性(X¯ の不偏性・有
効性)がある。
⊲ ¯Xの計算は、小学生でも出来る。
⊲ 統計学で問うべきことは、「そこでなぜX¯なのか?」⇒その基礎として確率論が必須。
2 区間推定
2.1
標準誤差
Remark:不偏性・有効性は、統計量を設計するうえでの理論上の基準。
⊲ 標本X1,X2, . . . ,Xnが確率変数⇒ ˆθはあくまで偶然に左右される確率変数。分散Var(ˆθ) を最小に抑える(有効性)ことは出来ても、ゼロには出来ない。
⊲ ∴実際に標本を用いて点推定を行った際、得られた を評価する 方法は?
標準誤差:推定量ˆθの標準偏差
Var(ˆθ)を標本から推定した値を、 (standard
deviation)と呼び、
s.e.(ˆθ) (4)
と表記。
⊲ 推定量のバラつき具合を、標本から推定。s.e.(ˆθ)が ⇔精度の 推定。
⊲ 実際のデータ分析では、母数θの点推定値ˆθだけでなく、推定の精度を測るs.e.(ˆθ)も レポート。
標本平均X¯ の標準誤差:X¯ の標準偏差は、(3)式より
Var( ¯X) = √σ
n。(σは未知。)⇒ σ
を標本標準偏差s(標本から計算可能)で置き換えた
s.e.( ¯X) = (5)
が、X¯ の標準誤差。→コレでX¯ のブレ具合・精度を評価!
⊲ サンプル数nが多いほどs.e.( ¯X)が (精度が上がる)。
⊲ 正規母集団のX¯ について、s.e.( ¯X)を使ってt統計量(講義ノート#17)を表すと
t = X − µ¯
s/√n = ∼ T(n − 1). (6)
µの信頼区間(後述)の導出で利用。
例:標本平均X = 200¯ 、標本標準偏差s = 100、サンプル数n = 25。
⊲ このときX¯ の標準誤差は
s.e.( ¯X) = 100√ 25 =
100
5 = . (7)
2.2
区間推定:信頼区間の推定
区間推定:未知の母数θが、ある確率αでL以上U以下の値を取るとき、
Pr(L < θ < U) = α, (8)
この区間[L, U]をθの100 × α% と呼ぶ。信頼区間の下限Lと上限Uを標本
から求める作業を、 と呼ぶ。
⊲ 通常、 %信頼区間(α = 0.95)を求める。「θのはっきりした値は不明だが、 95%の確率でL以上U以下の値をとるだろう」という意味。
⊲ 点推定と異なり、幅を持たせた(控えめな)推定結果の見せ方。推定結果が、あく まで確率的試行の産物であることを強調。
⊲ 信頼区間[L, U]が ⇔未知のθの値を、より絞り込んでいる。∴信頼区間は、
狭いほどよい。
母平均µの区間推定:標本平均X¯ によるµの95%信頼区間
Pr(L < µ < U) = 0.95 (9)
は、正規母集団ならば
L = , U = . (10)
ただしt0.025はt分布の2.5%臨界値。自由度m = n − 1に依存。
⊲ ∴ s.e.( ¯X)が (推定の精度低い)⇔信頼区間 (ハッキリしない推
定結果)。
⊲ 証明:t分布の2.5%臨界値の定義から、 Pr(−t0.025<t < t0.025
(∗)
) = 0.95. (11)
t統計量の表現(6)式に注意して上式(∗)の大小関係を変形すると
−t0.025<
X − µ¯
s.e.( ¯X) <t0.025 ⇔ − ¯X − t0.025· s.e.( ¯X) < −µ < − ¯X + t0.025· s.e.( ¯X)
⇔ X − t¯ 0.025· s.e.( ¯X)
=L
< µ < ¯X + t0.025· s.e.( ¯X)
=U
. (12)
よってPr(−t0.025<t < t0.025) = Pr(L < µ < U) = 0.95。
例:X = 200¯ 、s = 100、n = 25。→母平均µの信頼区間は?
⊲ 標準誤差s.e.( ¯X) = 1005 = 20。t分布(自由度m = 24)の2.5%臨界値はt0.025= 2.064。
⊲ ∴ µの95%信頼区間は
⎧⎪
⎪⎨
⎪⎪
⎩
L = 200 − 2.064 · 20 = U = 200 + 2.064 · 20 =
まとめ
−−−−−→ [L, U] = [158.72, 241.28]. (13)
95%の確率で、µは160∼240ぐらいの値。
⊲ 正規分布のµは、何の前提もなければ理論上−∞ < µ < ∞。∴信頼区間158.72 < µ <
241.28は少々広い気もするが、分析前の状態と比べるとだいぶµに迫っている!
母分散σ2の区間推定:標本分散s2によるσ2の95%信頼区間
Pr(L < σ2 <U) = 0.95 (14)
は、正規母集団ならば
L = , U = . (15)
ただしχ2
L,0.025、χ2R,0.025はカイ2乗分布の左右2.5%臨界値。自由度m = n − 1に依存。
⊲ 下限Lに右端臨界値χ2R,0.025、上限Uに左端臨界値χ2L,0.025を使う点に注意。
⊲ 証明:カイ2乗統計量(講義ノート#17) χ2= (n− 1)s
2
σ2 ∼ Chi(n − 1) (16)
を使い、Pr(χ2
L,0.025< χ 2< χ2
R,0.025) = 0.95を変形して導出。(証明⇒宿題#04参照。)
Remark:データ分析の結果として、推定の精度をレポートする二つの方法。
1. θの点推定値ˆθと併せて、標準誤差s.e.(ˆθ)を見せる。 2. 点推定値ˆθと併せて、95%信頼区間[L, U]を見せる。
まとめと復習問題
今回のまとめ
点推定:不偏性・有効性による推定量の採用基準。
区間推定:母平均、母分散の95%信頼区間の意味と求め方。
復習問題
出席確認用紙に解答し(用紙裏面を用いても良い)、退出時に提出せよ。
1. 未知の母数θ(例えば母分散)に対し、標本X1,X2, . . . ,Xnの使い方次第で二つの推定量 ˆθ1、ˆθ2が作成できるとする。また、それぞれの確率分布が次の通りであるとする。
Pr(ˆθ1) = f (ˆθ1) =
⎧⎪
⎪⎨
⎪⎪
⎩
0.5 for ˆθ1= 0.5θ
0.5 for ˆθ1= 1.5θ, Pr(ˆθ2) = g(ˆθ2) =
⎧⎪
⎪⎨
⎪⎪
⎩
0.4 for ˆθ2= 0.5θ
0.6 for ˆθ2= 1.5θ (17)
(注意:ˆθ1とˆθ2の実現値は0.5θ、1.5θで共通だが、その確率が異なる。)
(a) ˆθ1とˆθ2、それぞれの期待値を求めよ。(計算結果だけ答えればよい。)
(b) 不偏性の観点から、θの推定量としてどちらが望ましいか?
2. 例:標本平均X = 100¯ 、標本標準偏差s = 40、サンプル数n = 16であるとする。
(a) ¯Xの標準誤差s.e.( ¯X)を求めよ。(計算結果だけ答えればよい。)
(b) µの95%信頼区間[L, U]を求めよ。(計算結果だけ答えればよい。)