応用統計 第 9 回
推測統計 (2): 信頼区間の推測
応用情報工学科
准教授 松野 裕
http://www.matsulab.org
2016 年 7 月 1 日
前回の演習問題について
解答の通り、前回の授業資料の最後の式に、n = 36, X = 3.5, σ = 0.6を代入すれば良い。注意すべきは、 この信頼区間は、ある時一回にとった標本36個のデータより得られた信頼区間であることである。同様に 100回、36個の部品を無作為に抽出したら、確率としてそのうち95回程度の抽出より得られた信頼区間は、 母集団の平均µを範囲に含み、残りの5回程度は、µを含まない。ただし、どの回の信頼区間が正しいのか、 正しくないのか、我々は判断できない。なぜなら、µは、母集団すべてを調べない限り、知ることはできない からである。
1 母分散 σ
2が未知の場合の、母平均 µ の信頼区間の推測
母平均を求めようとしているのに、母分散が既知である場合は少ない。母分散が未知の場合、母分散の代替 として、標本不偏分散s
2
を用いることを考える。すなわち
t = X − µ
√s2/n
このtをStudentのt統計量と呼ぶ(t統計量を考案したのはウイリアム・ゴセット(1876-1937)であるが、 ペンネームとしてStudentを用いたことに由来する)。
tは自由度n − 1のt分布t(n − 1)に従う。自由度n − 1のt分布の確率密度関数は以下になる。
fn−1(x) = Γ(
n 2)
√(n − 1)πΓ(n−12 )
(1 + x
2
n − 1)
−n2
Γ()は、ガンマ関数と呼ばれる関数である。なぜこのような確率密度関数になるかは、理系の大学教養課程 の数学を勉強していると分かるが、結構難しい(*1などを参照)。
図1にt分布の確率分布を示す。図1では、緑色(一番外側)は標準正規分布、青色(2番めに外側)は
*1http://www.an.econ.kobe-u.ac.jp/~namba/powerdot/mathstat/3-2-5_print.pdf, http://www.an.econ.kobe-u.ac.jp/~namba/powerdot/mathstat/3-2-6_print.pdf
1
図1 t分布の例
自由度10、赤色(3番目)は自由度3、黒色は自由度1のt分布である。自由度が大きくなるほど、標準正 規分布に近づくことが分かる。このt分布を用いて、標準正規分布の時のように信頼区間を求めるには配布 し たt分 布 表 を 用 い る 。こ の 表 は 、自 由 度n − 1の と き 、t ≤ −t1、t ≥ t1 の 範 囲 に あ る 確 率 密 度 の 和 が 0.1, 0.05, 0.02, 0.01, 0.01であるときのt1の値を表している。以下の例題を考えよう。
問 ある自動車会社の新車の走行実験に関して、一部の9件の走行テストデータを得た。そのデータでの走 行距離の平均は450km、標本(不偏)標準偏差は100kmであった。走行距離に関する母平均µの95%の信頼 区間を求めよ。
n = 9、X = 450、s = 100のときのt分布の範囲を求め、母集団の平均µの信頼区間95%求めてみよう。 自由度は9 − 1 = 8になる。95%区間を求めるには、t分布の両側の面積が0.05になるt1を選ぶ。自由度が 8の場合、t分布表よりt1= 2.306である。すなわちP (−t1≤ t ≤ t1) = 0.95。tの範囲を展開すると、
−t1≤ X − µs
√n ≤ t 1
である確率は95%であることが言える。変形して、
−t1√s
n ≤ X − µ ≤ t1√s n つまり
X − t1√s
n ≤ µ ≤ X + t1√s n である確率が95%であることがわかり、母平均のµの95%信頼区間は
[450 − 2.306 ·100
3 , 450 + 2.306 ·100 3 ] つまり
[373.1333, 526.8667]
である。
注意すべきことは、母集団が正規分布であると推定できる時のみ、t分布を用いて推定できることである。 2
2 χ
2分布と母分散の信頼区間
2.1 χ
2分布
Z1, . . . , Zkを独立な、標準正規分布N (0, 1)に従う確率変数とする。いま χ2= Z12+ · · · + Zk2
と す る と 、確 率 変 数χ
2
が 従 う 確 率 分 布 を 自 由 度k のχ
2
分 布と い う 。χ
2
分 布 は 、正 規 標 本 論 で 標 本 分 散 を 扱 う と き に は 、必 ず 関 係 し て く る 確 率 分 布 で あ る 。自 由 度kのχ
2
分 布 の 上 側 確 率 がpと な る 値( 添 付のχ
2
分布表を参照)をχ
2
p(k)と書き、上側確率100p%のパーセント点という。たとえばk = 5の場合 χ20.05(5) = 11.0705すなわち、P (χ2 > 11.0705) = 0.05となる。確率変数χ2が従う確率分布を自由度kの χ2分布という。自由度kのχ2分布をχ2(k)で表す。
確率密度関数は、ガンマ関数Ga(n/2, 1/2): fk(x) = (1/2)
k/2
Γ(k/2) x
k−2 2 e−
x
2 (x ≥ 0), 0 (x < 0)
で与えられる(なぜこうなるかは、余裕があれば調べてみて欲しい)。自由度kを変えていくつかχ
2
分布を 書いてみる(図2)。χ
2
分布は、自由度が大きくなるに従って、正規分布に近づく。図3に、k = 100のχ
2
分
図2 自由度1, 4, 10のχ2分布
布(実線)、N (100, 200)の正規分布(破線)を示す。
3
図3 χ2(100)とN(100, 200)
2.2 母分散の信頼区間
母集団が正規分布に従うとき、統計量
χ2≡(n − 1)s
2
σ2 は自由度n − 1のχ
2
分布χ
2(n − 1)に従う。χ2分布表から P (χ21−p
2(n − 1) ≤ (n − 1)s2/σ2≤ χ2p
2(n − 1)) = 1 − p をσ
2
について解くと、母分散σ
2
の信頼係数1 − pの信頼区間は [(n − 1)s
2
χ2p 2(n − 1)
, (n − 1)s
2
χ21
−p2(n − 1)
]
となる。例題を示す。
問 ある電球会社で製造した10個の電球の寿命を測定したところ、次のようなデータを得た(単位:時間)。 電球の寿命が正規分布に従うと仮定した場合、製造した電球の分散の95%の信頼区間を求めよ。
• 2529, 2520,2516,2772,2593,2592,2565,2645,2561,2639
n = 10,自由度n − 1 = 9, s = 77.48である。95%信頼区間を求めるためには、χ
2
分布表で、p = 0.05を用 いる。
χ2p
2(n − 1) = χ20.025(9) = 19.0228 χ21−p
2(n − 1) = χ20.975(9) = 2.70039 [9 · 77.48
2
19.0228 ,
9 · 77.482 2.70039 ] = [2840, 20007.61] = [53.292, 141.452]
が母分散の95%の信頼区間になる。
4