Classes Yutaka Matsuno's Homepage 20160701

(1)

応用統計第 ₉ 回

推測統計 _(2): 信頼区間の推測

応用情報工学科

准教授松野裕

http://www.matsulab.org

2016 年 7 月 1 日

前回の演習問題について

解答の通り、前回の授業資料の最後の式に、n = 36, X = 3.5, σ = 0.6を代入すれば良い。注意すべきは、この信頼区間は、ある時一回にとった標本₃₆個のデータより得られた信頼区間であることである。同様に 100^回、36個の部品を無作為に抽出したら、確率としてそのうち₉₅回程度の抽出より得られた信頼区間は、母集団の平均_µを範囲に含み、残りの₅回程度は、_µを含まない。ただし、どの回の信頼区間が正しいのか、正しくないのか、我々は判断できない。なぜなら、_µは、母集団すべてを調べない限り、知ることはできないからである。

1 ^母分散 ^σ

²

が未知の場合の、母平均 _µ の信頼区間の推測

母平均を求めようとしているのに、母分散が既知である場合は少ない。母分散が未知の場合、母分散の代替として、標本不偏分散_s

2

を用いることを考える。すなわち

t = ^{X − µ}

√s²/n

この_tをStudentの_t統計量と呼ぶ（_t統計量を考案したのはウイリアム・ゴセット(1876-1937)^{であるが、} ペンネームとして_Studentを用いたことに由来する）。

t^は自由度_{n − 1}^のt^分布_{t(n − 1)}^{に従う。自由度}_{n − 1}^のt分布の確率密度関数は以下になる。

f_n−1(x) = ^Γ(

n 2)

√(n − 1)πΓ(ⁿ⁻¹2 ⁾

(1 + ^x

2

n − 1⁾

−ⁿ₂

Γ()は、ガンマ関数と呼ばれる関数である。なぜこのような確率密度関数になるかは、理系の大学教養課程の数学を勉強していると分かるが、結構難しい₍^*1などを参照₎。

図₁に_t分布の確率分布を示す。図₁では、緑色（一番外側）は標準正規分布、青色（２番めに外側）は

*1http://www.an.econ.kobe-u.ac.jp/~namba/powerdot/mathstat/3-2-5_print.pdf, http://www.an.econ.kobe-u.ac.jp/~namba/powerdot/mathstat/3-2-6_print.pdf

1

(2)

図_{1 t}分布の例

自由度₁₀、赤色（３番目）は自由度₃、黒色は自由度１の_t分布である。自由度が大きくなるほど、標準正規分布に近づくことが分かる。この_t分布を用いて、標準正規分布の時のように信頼区間を求めるには配布した_t分布表を用いる。この表は、自由度_{n − 1}のとき、_{t ≤ −t}1、_{t ≥ t}1 の範囲にある確率密度の和が 0.1, 0.05, 0.02, 0.01, 0.01^{であるときの}t1の値を表している。以下の例題を考えよう。

問ある自動車会社の新車の走行実験に関して、一部の₉件の走行テストデータを得た。そのデータでの走行距離の平均は_450km、標本₍不偏₎標準偏差は_100kmであった。走行距離に関する母平均_µの_95%の信頼区間を求めよ。

n = 9^、X = 450^、s = 100^のときのt分布の範囲を求め、母集団の平均_µの信頼区間_95%求めてみよう。自由度は_{9 − 1 = 8}になる。_95%区間を求めるには、_t分布の両側の面積が_0.05になる_t1を選ぶ。自由度が 8^の場合、t^{分布表より}t¹= 2.306^{である。すなわち}_{P (−t}¹≤ t ≤ t¹) = 0.95^。t^{の範囲を展開すると、}

−t¹≤ ^{X − µ}s

√n ^{≤ t} 1

である確率は_95%であることが言える。変形して、

−t¹√^s

n ≤ X − µ ≤ t¹√^s n つまり

X − t¹√^s

n ≤ µ ≤ X + t¹√^s n である確率が_95%であることがわかり、母平均の_µの_95%信頼区間は

[450 − 2.306 ·¹⁰⁰

3 , 450 + 2.306 ·¹⁰⁰ 3 ^] つまり

[373.1333, 526.8667]

である。

注意すべきことは、母集団が正規分布であると推定できる時のみ、_t分布を用いて推定できることである。 2

(3)

2 χ

²

分布と母分散の信頼区間

2.1 χ

²

^分布

Z1, . . . , Zkを独立な、標準正規分布_{N (0, 1)}に従う確率変数とする。いま χ²= Z1²+ · · · + Zk²

とすると、確率変数_χ

2

が従う確率分布を自由度_k の_χ

2

分布という。_χ

2

分布は、正規標本論で標本分散を扱うときには、必ず関係してくる確率分布である。自由度_kの_χ

2

分布の上側確率が_pとなる値（添付の_χ

2

分布表を参照）を_χ

2

p^(k)^{と書き、上側確率}^100p%のパーセント点という。たとえば_{k = 5}の場合 χ²_0.05(5) = 11.0705^{すなわち、}P (χ² > 11.0705) = 0.05^{となる。確率変数}χ²が従う確率分布を自由度_kの χ²^{分布という。自由度}k^のχ²^分布をχ²(k)^で表す。

確率密度関数は、ガンマ関数Ga(n/2, 1/2): fk(x) = ^(1/2)

k/2

Γ(k/2) ^x

k−2 2 _e⁻

x

2 (x ≥ 0), 0 (x < 0)

で与えられる（なぜこうなるかは、余裕があれば調べてみて欲しい）。自由度_kを変えていくつか_χ

2

分布を書いてみる（図₂）。_χ

2

分布は、自由度が大きくなるに従って、正規分布に近づく。図₃に、_{k = 100}の_χ

2

分

図₂ 自由度_{1, 4, 10}の_χ²分布

布₍実線₎、N (100, 200)の正規分布（破線）を示す。

3

(4)

図_{3 χ}²₍₁₀₀₎と_N_{(100, 200)}

2.2 ^{母分散の信頼区間}

母集団が正規分布に従うとき、統計量

χ²_≡^{(n − 1)s}

2

σ² は自由度_{n − 1}の_χ

2

分布_χ

2(n − 1)^に従う。^χ²^{分布表から} P (χ²1₋^p

2(n − 1) ≤ (n − 1)s²^/σ²≤ χ²^p

2(n − 1)) = 1 − p を_σ

2

について解くと、母分散_σ

2

の信頼係数_{1 − p}の信頼区間は [^{(n − 1)s}

2

χ²p 2^{(n − 1)}

, ^{(n − 1)s}

2

χ²₁

−^p₂^{(n − 1)}

]

となる。例題を示す。

問ある電球会社で製造した₁₀個の電球の寿命を測定したところ、次のようなデータを得た₍単位_:時間₎。電球の寿命が正規分布に従うと仮定した場合、製造した電球の分散の_95%の信頼区間を求めよ。

• 2529, 2520,2516,2772,2593,2592,2565,2645,2561,2639

n = 10,^自由度n − 1 = 9, s = 77.48^である。^95%信頼区間を求めるためには、_χ

2

分布表で、_{p = 0.05}を用いる。

χ²^p

2(n − 1) = χ²0.025(9) = 19.0228 χ²1₋^p

2(n − 1) = χ²0.975(9) = 2.70039 [^{9 · 77.48}

2

19.0228 ^,

9 · 77.48² 2.70039 ^{] =} [2840, 20007.61] = [53.29², 141.45²]

が母分散の_95%の信頼区間になる。

4

Classes Yutaka Matsuno's Homepage 20160701

応用統計 第 9 回

推測統計 (2): 信頼区間の推測