基礎統計学(第
13
回)
6
統計的推定
ここでは、標本に基づいて全体を推論することを試みる。この推論において、基本的な役割を果たすのが標
本分布という考え方である。
6.1
母集団と標本
例えば、新聞社が行う世論調査によって、各政党の支持率を調べるとき、新聞社が全国民(あるいは全読者)
の回答を集めることは非常に困難である。こういった場合、新聞社は、対象となる人の中から、数百人あるい
は数千人を選んで、その人たちの回答を集めることにより、各政党に対する全体の支持率を推測する。ここで、
推測の対象となる全体の集団のことを母集団といい、これに対し、母集団の中から選ばれる一部分の集まりを標
本という。標本についての調査に基づいて、母集団の性質を推測することを統計的推測あるいは統計的推論と
いう。
6.2
母集団特性値と標本統計量
先ほど示した各政党の支持率の調査に戻って考えてみると、新聞社が知りたいのは母集団における内閣支持
率であり、これをpと表す。pは母集団のある1つの性質を表していて、このようなものを母集団特性値とい
う。ここで、pの値を推測するために、n人の人が選ばれたとする。このnを標本の大きさという。ただし、n
は決まった値ではなく、調査方式によって必要なnの値は異なる。nの標本から求められる統計量を標本統計
量といい、統計的推測は 標本統計量に基づいて母集団特性値の推測を行う ことを指す。
標本の集め方(標本抽出)については、様々な考え方があるが、最も単純な方法としては、標本に選ばれる
機会(確率)が同じであるようにする単純無作為抽出がある。
6.3
標本分布
集めた標本は母集団と同様に確率法則に従う。つまり、標本は標本統計量を確率変数とする確率分布をもつ。
この分布のことを標本分布という。
(例) 母集団がp: 1−pで2つのグループA(p)とB(1−p)に分かれている。大きさnの標本を抽出し、 グループAの要素の数がxであるとき、標本の比率pˆは
ˆ
p= x
n
と表すことができる。このxは二項分布に従う確率分布であり、nの値が大きいとき、xの分布は正規分
布に近似できる(x∼N
µ, σ2)。このことから、標本の比率pˆは、
ˆ
p∼N
p, p(1−p) n
(91)
といえる。つまり、この標本分布のpˆの期待値E(ˆp)はpであり、分散V (ˆp)は
p(1−p)
n である。
ここで、nが大きくなると、pˆの分散は0に近づくことが分かる。このことは、nが大きくなると、pˆはいくら
でもpに近くなることを意味する。標本分布におけるこの特徴を大数の法則という。
(例) 平均値µ、分散σ2である母集団(x∼N
µ, σ2)について、大きさnの標本を抽出し、その平均値が
xであるとき、標本平均の期待値E(x)は、
E(x) =µ
であり、分散V (x)は
V (x) = σ
2
n
となる。この標本分布は正規分布であること(中心極限定理)が知られており、
x∼N
µ, σ 2
n
(92)
となる。
先ほどの例では、母集団の平均値µと分散σ2が分かっていたが、いずれかの母集団の特性値が未知の場合、
異なる標本分布(t分布、χ2分布、F分布等)を用いて統計的推定を行う必要がある。
6.4
区間推定
先ほどの支持率の例において、支持率を確定した値で推定することは難しい。そこで、誤差を含む値の範囲
で推測することを試みる。母集団の未知のパラメーターpをある区間の間にあると推定することを区間推定と
いう。また、その区間を信頼区間という。また、信頼区間が信頼できると確信できる程度を信頼係数という。
(比率の区間推定) 母集団の比率pにおける信頼係数95%の信頼区間について考える。(91)より、pˆは、次 の標準化の式を用いて、
z= pˆ−p
p(1−p) n
(93)
と変換することができる。このzは標準正規分布N(0, 1)に従う。確率表より、zの区間−1.96≤z≤1.96 の確率は95%であることから、pの信頼区間は、
−1.96≤ pˆ−p
p(1−p) n
≤1.96
(ˆp−p)2≤(1.96)2 p(1−p)
n
となる不等式の解として得られる。
(例) 標本大きさn= 400の標本分布において、pˆ=
95
400 であるとき、母集団の比率を区間推定せよ。
先ほどの式を用いると、
95 400 −p
2
≤(1.96)2 p(1−p)
n
となり、この不等式を解くと、p= 0.198, 0.282が得られる。よって、この母集団の比率は
0.198 ≤p≤0.282となる。
[確認課題28] 「母集団比率の信頼区間」
無作為に選んだ大学生250名について運転免許を持っているかどうかを調査したところ、120名が運転免
許を所有していた。信頼係数95%で、運転免許を持っている大学生の割合の信頼区間を求めよ。
[確認課題29] 「母集団比率の信頼区間」
ある番組を見た視聴者100人について調査したところ、その内の40人がその番組が面白かったと答えた。
信頼係数99%で、その番組が面白かったと答えた人の割合の信頼区間を求めよ。