第 9 章 2つの確率変数と相関 35
10.5 推定量の選び方
一般に、不偏推定量はたくさんありえるので、不偏であるだけでは、推 定量としては不十分である。一般に、推定量としては、最低でも不偏推 定量であることが望ましい。さらに、一致推定量であれば、サンプルを 増やすことで、良い推定量になる。与えられたデータを増やせない場合 には、その中で、最尤推定量をとるのが良い。
10.5. 推定量の選び方 45
Example 10.9. ある商品に関するアンケート調査を考える。この商品の満
足度の期待値µを求めたい。ランダムに抽出した2人に、アンケートをし て、商品の満足度(X1,X2)のデータを得た。推定値として、サンプル平均
µˆ2= X1+X2
2 (10.28)
をとると、不偏推定量であることがわかる。一方、ランダムに抽出する 人数をもっと増やして、1000人にした場合、
µˆ1000= 1 n
∑
n iXi, (10.29)
としても、同じように不偏推定量である。
Problem 10.4. 上の二つの推定量が不偏であることを示せ。
しかし、直感的にもµˆ1000の方が、望ましい推定量であることがわかる。
これは、分散を比較することで定量的に、明らかにできる。
Problem 10.5. 二つの推定量の分散を比較せよ。
46
第 11 章 信頼区間
Chapter 10では、どのような推定量を使うのが適切かを学んだ。しかし、
「その推定量が、真の値にどれくらい近いのか?」
ということが、まだわかっていない。この章では、さまざまな場面を設 定し、この疑問に答える。
Problem 11.1(フロリダの降雨確率). あなたが、フロリダに一日滞在した
とする。その日がたまたま雨であったとする。あなたの滞在した日は、ラ ンダムサンプルと言えるから、フロリダの降雨確率は、
雨が降った日数
滞在した日数 =1, (11.1) という推定量で推定できる。この推定量が真のフロリダの降雨確率とど の程度かけ離れているだろうか?
Problem 11.2. ある企業の監査を行なった。10の伝票をチェックしたら、
不正なく処理されていることがわかった。その企業が正当な会計処理を 行なっている確率を
不正のない伝票の数
チェックした伝票の数=1, (11.2) という推定量で推定できる。この推定は、正しいか?
11.1 正規分布を使って信頼区間を求める:分散既 知の場合
データX1,X2, ...,Xnが正規分布からのランダムサンプルであるとする。
すると、期待値µ=E[X]の推定量として、サンプル平均x¯を使うのは自 然である。
¯ x= 1
n
∑
n i=0Xi. (11.3)
11.1. 正規分布を使って信頼区間を求める:分散既知の場合 47 Theorem 11.1. x¯も正規分布である。
Proof. Theorem 8.7より、独立な正規分布の和は、正規分布なので、x¯も 正規分布である。
この定理から、x¯の分布がわかった。しかし、我々が知りたいのは、x¯ がどの程度、真の値µから離れているかである。その距離をcと考える と、我々の目標は、
真の値µが[x¯−c,x¯+c]に入る確率
を評価することである。もし、この評価ができたとすると、これを逆に 使うことで、
真の値µが[x¯−c,x¯+c]に入る確率を95%とするようなc を求めることができる。
Definition 11.1 (信頼区間と信頼度). データX1,X2, ...,Xnを使って、パラ メータµをx¯で推定するとき、その推定値と真の値の誤差の大きさを信 頼区間[x¯−c,x¯+c]、その信頼区間の信頼度をCLとする。
より詳しくは、真の値µ と推定値x¯には次の関係が成立する。
P{x¯−c<µ <x¯+c}=CL. (11.4) Theorem 11.2(信頼区間). データX1,X2, ...,Xnが正規分布からのランダム サンプルであるとき、
P{x¯−c<µ <x¯+c}=0.95, (11.5) (11.6) を満たすcは、
c= 1.96√ σ
n , (11.7)
で与えられる。すなわち、信頼度95%の信頼区間は、
[x¯−c,x¯+c] = [
¯
x−1.96√ σ
n ,x¯+1.96√ σ n
]
, (11.8)
となる。
48 第11章 信頼区間 はじめに、次のLemmaを証明しておく。
Lemma 11.1.
Z= √x¯−µ σ2/n =
√nx¯−µ
σ , (11.9)
は、標準正規分布N[0,1]に従う。
Proof. x¯の平均はµ,分散はσ2/nなので、Theorem 8.5の変形を使えばよ い。
Proof of Theorem 11.3. Lemma 11.1を使うと、
P{x¯−c<µ <x¯+c}=P{−c<x¯−µ <c}
=P{−c√ n σ <
√nx¯−µ σ <
c√ n σ }
=P{−c√ n
σ <Z<
c√ n σ }. ここで、標準正規分布の性質より、
P{−1.95<Z<1.95}=0.95. (11.10) したがって、
c=1.96√ σ
n . (11.11)
Problem 11.3. 信頼区間の大きさは、何を表しているのか?どんなときに、
信頼区間は小さくなるか?