応用統計 第 9 回
推測統計 (1): 推測統計の基本的な考え方
応用情報工学科
准教授 松野 裕
2016 年 6 月 17 日
1 推測統計の基本的な考え方
推測統計とは、日本人全体などの母集団(population)から、実際に調査対象となる母集団の一部を標本
sampleとして抽出samplingし、標本を解析することにより母集団について推測することである。推測す
る内容は、母集団の平均µ、分散σ
2
などである。これらを総称して母数 parameterという。母集団の分布 は、正規分布であると仮定することが多い。自然界、社会における多くの現象が、正規分布に従うことが知ら れている。
母集団から標本を取り出す方法は、母集団の数がN(N = ∞であるとすることが多い)、標本数をnとす ると、NCn個の標本の取り出し方がある。標本の取り出し方は、母集団からの各要素が標本として取り出さ れる確率を等しくn/Nとする、単純ランダム・サンプリングを考えるのが普通である。取り出し方によって 標本は異なるので、標本に対して、確率的取り扱いが必要である。母集団の確率分布をf (x)とする。標本は 母集団からランダムに選ぶのであるから、それぞれの標本は、この母集団分布に従う確率変数であると考えら れる:
標本X1, X2, . . . , Xnは、同一の母集団分布f (x)に従うn個の独立な確率変数である。
このとき、f (x)は問題に応じて、連続型でも離散型でもよい。例として、日本人(有限集団だが、無限集団と 考えて良い)の身長という母集団と標本の例を図1に示す。図1の標本は、一例に過ぎず、サンプリングの度
図1 日本人の(身長)という母集団と標本
1
に変わりうる。その分布は、母集団の確率密度関数f (x)に従う。
1.1 中心極限定理
推測統計の基本原理である、中心極限定理を示す。おおまかに言えば母集団分布が何であっても、標本の和 X1+ · · · + Xnの確率分布の形は、nが大きい時は、大体、正規分布と考えてよいということである。
1.2 母数と統計量
母集団の特徴を表すパラメータとして、最も使われるのは母平均 population mean µと母分散 popu- lation variance σ2である。これは主に以下の理由による。
• µとσ2は分布の位置とばらつきを規定すること。
• 母集団分布が正規分布の場合、この二つの母数µ, σ
2
で母集団分布の特性を完全に表現できること。
標本において、母平均、母分散に対応するものは、標本平均X、不偏標本分散s
2
である: X = X1+ · · · + Xn
n s2= 1
n − 1{(X1− X)
2+ · · · + (Xn− X)2}
Xは、その期待値と分散を取ると(分散を求める時、標本の独立性を用いている)、 E(X) = E(X1+ · · · + Xn
n ) =
1
n(E(X1) + · · · + E(Xn)) = n1 · nµ = µ V (X) = V (X1+ · · · + Xn
n ) =
1
n2(V (X1) + · · · + V (Xn)) = n12 · nσ2= σ
2
n つまり、Xはµを偏りなく、平均的に推定する。さらに、分散が
σ2
n だから、n → ∞のとき、分散は0に近 づき、X → µのように定数µ(母平均)に集中、確率収束していく。
不偏標本分散s2を、いままで用いてきた分散s2 s2= 1
n{(X1− X)
2+ · · · + (Xn− X)2}
の代わりに用いるのは、s2の期待値E(s2)が
E(s2) = σ2
を満たすからである。つまり、s2は、母分散σ2を偏りなく(unbiased)推定できる。µとσ2、X とs2の関 係を図示すると、図2になる。
1.3 正規分布からの標本
本講義では、正規母集団を主な対象とする。確率変数X が正規分布に従う時、確率密度関数は以下で表さ れる。
f (x) = √1 2πσexp{
−(x − µ)2
2σ2 }, − ∞ < x < ∞
2
図2 母集団と標本の関係
N (µ, σ2)で表す。期待値、分散は以下である。
E(X) = µ, V (X) = σ2
標本X1, . . . , Xnは母集団分布と同一の分布に従う独立な確率変数であるから、各々独立でN (µ, σ
2)に従 う。正規分布の性質を使うと標本平均X =
X1+···+Xn
n は、N (µ,σn2)に従う。この結果は、nが十分に大きい 時、中心極限定理を使ったときと同じである。母集団を正規分布であると仮定できないときは、nが十分に大 きくないと、標本平均が正規分布に従うとは言えない。
標本平均Xを標準化した
Z = X − µσ
√n
は標準正規分布N (0, 1)に従う。X の標準偏差はσ/
√nである。
これを用いて母平均µを推定してみよう。正規分布表を用いて−1.96 ≤ Z ≤ 1.96となる確率を求める。 P (−1.96 ≤ Z ≤ 1.96) = Φ(1.96) − Φ(−1.96) = 2 · Φ(1.96) − 1 = 2 · 0.975 − 1 = 0.95
つまり、−1.96 ≤ Z ≤ 1.96である確率は95%であるといえる。つまり、
−1.96 ≤ X − µσ
√n ≤ 1.96
である確率は95%である。更に式変形をすると、 X − 1.96√σ
n ≤ µ ≤ X + 1.96√σ n
である確率は95%である。これを母平均の95%信頼区間という。範囲として、 [X− 1.96√σ
n, X + 1.96
√σn]
と書く。
X, σ, nは与えられているとすると、95%の正しい確率で、母平均µを推定できることになる。この考え方
が推測統計の基本である。
3
参考文献
今回の内容は、「統計学入門、東京大学教養学部統計学教室編、東京大学出版会」、「入門統計学−検定から 多変量解析・実験計画法まで−、栗原伸一、オーム社」を参考にした。
4