大数の法則から lim
n→∞Xn =µは成り立つが,無限回の試行を行うことは現実には不可能であり,有 限のnで切れば例 5.15でも見たようにある程度のばらつきが残るのは仕方がない.そこで問題になる のは,有限のnで切ったときXn がµにどれ位近いのかを見積ることである.nがある程度大きいと きは次の中心極限定理(central limit theorem) が一つの解答を与えてくれる.
5.4 中心極限定理 53
0 5000 10000 15000 20000 25000 30000
−10−50510
n Xn
図5: 大数の法則が成り立たない例.標準Cauchy分布に従うi.i.d.の標本平均の挙動(サンプル数20). 図4とのスケールの違いにも注意.大きくジャンプすることがあり,いつまでも収束しそうな様子が見 えない.
定理 5.17 (中心極限定理). X1, X2, . . . はi.i.d.で,期待値µ=E[X1],分散σ2 =V[X1] は存 在しているとする.n→ ∞のとき Zn = Xn−µ
σ/√
n の分布は標準正規分布N(0,1) に収束する.
すなわち
nlim→∞P (
a≤Xn−µ σ/√
n ≤b )
=
∫ b a
√1 2πe−x
2 2 dx
証明はこのノートのレベルを越えるので割愛する.
確率論で最も重要な定理と言って過言でないことは,定理の名前からしてわかるだろう.重要な定理 なのでそれなりには理解しておきたい.
まず,次のことを理解していれば Zn の形を覚えることはない.E[Xn] =µ, V[Xn] = σ2 n なので Zn= Xn−µ
σ/√
n はXn の標準化(問題4.18参照)であり,E[Zn] = 0, V[Zn] = 1. 標準正規分布につ いてはA.3節で解説しているが,とりあえず期待値0で分散1の確率分布である.標準化により全て のnに対してE[Zn] = 0, V[Zn] = 1なので,もし極限が存在するならその期待値と分散も0と1にな るはずで,実際にそうなっているということである.
この定理のすごいところは, Xk の分布についてほとんど何も仮定をしていない事である*22.実験 だろうが視聴率調査だろうが何だろうが,標本平均を標準化して n→ ∞ としたら標準正規分布に収束 すると言うのだ.ちなみに標準正規分布は英語で “standard normal distribution”であり,定理名は
“central limit theorem” である.こんな名前のついているものを忘れるわけにはいかない.さすがに
正規分布の密度関数も完全に覚えろというのは酷かもしれないが,それ以外は自力で再現できるように なるべきである.
注5.18. 中心極限定理の様子を数値実験で見ておこう.図6は,元になる分布が異なる3種類の
i.i.dに対して,Xn の分布の様子を図示したものである.n= 1のときはX1=X1 なので元の
分布そのもの.n= 5で既に山形の分布は見えているがまだいびつさはある.これがn= 100に なると,標準化していないために平均や分散が異なる部分を除けば,どれも図だけでは正規分布と
*22期待値や分散が存在するというのは,知らない人にとっては当たり前の話で仮定ですらないだろう.
54 5 独立同分布確率変数列と二つの極限定理
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
0.2 0.4 0.6 0.8
0.01.02.03.0
0.40 0.50 0.60
051015
0 2 4 6 8 10
0.00.20.40.60.8
0 1 2 3 4
0.00.20.40.60.81.0
0.8 1.0 1.2 1.4
01234
−3 −2 −1 0 1 2
0.00.20.40.60.8
−3 −2 −1 0 1 2
0.00.20.40.60.8
−1.0 −0.5 0.0
0.00.51.01.52.0
n= 1 n= 5 n= 100
図6: 中心極限定理の様子.i.i.d. X1, X2, . . .の標本平均Xn の分布.(それぞれサンプル数20000で シミュレーションしてヒストグラムを作成.点線はデータと同じ平均と標準偏差を持つ正規分布の密度 関数.)上段,中段,下段はそれぞれXk の分布を一様分布,指数分布,適当に作成した二峰形分布にし たもの.n= 1ではもちろん元の分布と一致.一様分布はn= 5でも既に正規分布に近いが,ほかはま だまだ.しかしn= 100 ではどれも正規分布と区別がつかない.
区別できないだろう.
例 5.19(視聴率調査の精度). 例5.10の設定を再掲すると,無作為抽出されたk番目の回答者が 視聴した Xk = 1 かそうでないXk = 0 かは真の視聴率 θ をパラメータとするベルヌーイ分布 P(Xk = 1) =θ, P(Xk = 0) = 1−θ に従いX1, X2, . . . はi.i.d.だとする.µ=E[Xk] =θ であ る.中心極限定理より,調査人数nがある程度大きければ
P (
−a≤ Xn−µ σ/√
n ≤a )
≒
∫ a
−a
√1 2πe−x
2 2 dx
= Φ(a)−Φ(−a) = 2Φ(a)−1
という近似計算ができる.ここでΦ(z)は標準正規分布の分布関数(A.4)(A.3節参照)である.
ここで例えばa= 1.96の場合を考えてみると,正規分布表からΦ(1.96)≒0.9750なので P
(
−1.96≤Xn−µ σ/√
n ≤1.96 )
≒2Φ(1.96)−1≒0.95, 左辺の括弧内を変形すれば,0.95の確率で
Xn−1.96σ
√n ≤µ=θ≤Xn+1.96σ
√n
5.4 中心極限定理 55 が成り立っている.調査結果としてXn の値が得られたとき,真の視聴率はθ=µ≒Xn である と推測するのだが,その推定のある種の精度を上式で保証できる.(これは後に改めて解説する区 間推定そのものである.)
具体的な数値を入れて考えてみよう.ベルヌーイ分布の分散はσ2=√
θ(1−θ) = なので上式 は正確にはθの2次不等式だが,ここでは簡単のため,粗っぽいがσ≒√
Xn(1−Xn)としてし
まおう.n= 600(ビデオリサーチ社の大都市圏での調査数)とすると結局,0.95の確率(信頼
度)で
Xn−0.08
√
Xn(1−Xn)≤θ≤Xn+ 0.08
√
Xn(1−Xn) が成り立つので,視聴率をθ≒Xn と推定するときの誤差は±0.08
√
Xn(1−Xn)だと言えるだ ろう.いくつかの値で実際にどうなるか表にすると以下のようになる.
推定視聴率Xn 0.05 0.1 0.2 0.3 0.4 0.5 誤差± 0.017 0.024 0.032 0.037 0.039 0.040 これが,ビデオリサーチ社が公開している視聴率調査の誤差aの算出根拠である.
ahttps://www.videor.co.jp/tvrating/attention/index.html
ここまでの議論から,一般的な世論調査の類いで発表される数値には数%の誤差は入っていると考 えておくべきで,まして.1% の桁に意味など期待できないことがわかる.では,.1%の桁に意味を持 たせようと思ったら何人に調査すればいいのだろうか?
問題 5.20. 確率0.99で,視聴率調査の誤差を(条件最悪のθ= 0.5 のときでも)±0.05% 以下 にするには調査人数nをいくらにすればよいか?
【解説】 正規分布表からΦ(2.576)≒0.995なので P
(
−2.576≤Xn−µ σ/√
n ≤2.576 )
≒0.99
上の例と同様に考えれば誤差は±2.576× σ
√n =±2.576×
√θ(1−θ)
√n . これを精度が最悪になる θ= 0.5のときでも ±0.0005以内に収めるには不等式
2.576×
√0.5×0.5
√n ≤0.0005
を解いて,n≥6635776ならよい. \(^o^)/
56 6 点推定
6 点推定
推定や検定の話をするのに最初に多くの用語を導入しなければならないのは億劫だが,これは我慢す るしかない.大半の用語についてはあまり厳格に定義せずとも学習するうちに慣れればよいと思われる が,次のことには最初から注意が必要である.
•『標本の大きさ』(サンプルサイズ,sample size)と『標本数』(サンプル数,number of samples) は厳密に異なる!
•『母数』は英語で parameter (パラメータ)であり,「全体数」とか「分母」という意味 ではない!
•『推定量』(estimator)と『推定値』(estimate)とは,「関数」と「関数の値」のように 階層の異なる概念である
例えば,本節以降ではしばしば標本平均
Xn= 1 n
∑n k=1
Xk
や不偏分散
u2n = 1 n−1
∑n k=1
(Xk−Xn)2
などが考察の中心になるが,ここで n は標本の大きさ(サンプルサイズ)である.断じて標本数では ない!
6.1 母集団と標本
統計調査や検査を行う対象を全て集めた集合を母集団 (population) という.統計学はデータに基 づき母集団の特性を把握することを目的とするが,データの集め方には大きく二種類ある.
一つは母集団を構成する全個体を調査する方法であり,全数調査あるいは悉皆調査*23という.例えば 国勢調査は代表的な全数調査だし,数理統計学I受講者の成績集計なども全数調査である.しかし大規 模な母集団に対して全数調査を行うことは物理的にもコスト的にも困難な場合が多い*24.また,小規模 な母集団であっても,工業製品の破壊検査を全製品に行っては意味がないし,個々の検査費用が高過ぎ て予算上の制約で全数検査できない場合もあるだろう.また,将来の人口予測などでは現時点で測定不 可能な要因を含む.このような場合,母集団の一部を抜き出して調査することになる.これを標本調査
(sample survey)といい,抜き出したデータを分析して母集団についての推測を行うことを統計的推
測(statistical inference)という.推測結果に基づく仮説検定なども含めた統計学の分野が推測統計 学(inferential statistics)である.これに対して,全数調査で得られる(一般には大量の)データを 整理・要約する方法を記述統計学(descriptive statistics) という.このノートの主題は推測統計学 である.
母集団(あるいはその属性値)の部分集合を選び出すことを標本抽出 (sampling) または単に抽出 といい,抽出された集合を標本 (sample) ,標本に含まれる個体の個数を標本の大きさあるいは英語 のままサンプルサイズ(sample size) という.
(この段落の内容は初学時には理解できず流し読みになる学生がいるかもしれないが,実用面では 重要な内容であるということは認識して欲しい.)母集団からの標本の抽出方法を具体的にどうする
*23「しっかいちょうさ」と読む.
*24平成27年度国勢調査の経費は総務省予算概要によれば約670億円である.個人や企業で簡単にできることではない.
6.1 母集団と標本 57
かは,調査の信頼性の根幹に関わる重要な要素であり,様々な手法が提案されている.N 個の個体を 含む母集団からn 個の個体(=大きさ n の標本)を抽出するために一つずつ個体を抽出していくと き,抽出したものを再び母集団に戻してその後の抽出対象に含める方法を復元抽出 (sampling with replacement),母集団に戻さない方法を非復元抽出 (sampling without replacement)という.
現実の調査の多くで行われるのは非復元抽出と考えられる一方で,多くのテキストが採用する独立同分 布確率変数に基づく理論は復元抽出を仮定していることに注意する.復元の有無により標本の統計的性 質は異なるのだが,母集団が非常に大きく N ≫n の場合や無限母集団 (N =∞) の場合には復元の 有無による差が無視できる(例2.15, 補足6.2参照)ため問題ないとされることが多い.しかし裏を返 せば,N があまり大きくない場合やn/N が十分小さくない場合には何らかの修正が必要になると認識 すべきである(6.8節参照).その上で,各個体が標本に含まれる確率(抽出率)が均等になるようラ ンダムに抽出する方法を単純無作為抽出 (simple random sampling)という.これはまた,抽出可 能な標本の組全てが等確率で選ばれる抽出法と言っても同じである.有限母集団で非復元抽出の場合の 抽出率は n
N である.数理統計学の初等的テキストの多くがそうであるように,このノートでは単純無 作為抽出のみを考え他の方法は考慮しない.
注 6.1. 単純無作為抽出は母集団が大きい場合に実行するのが難しくなるなどの欠点があるため,
実際の世論調査などでは層化抽出法や多段抽出法などより実践的な抽出法を用いることが多い.
理論を学習するのに単純無作為抽出が最も基本的で重要であることに疑いの余地はないが,実践と なれば標本抽出法についてもっと真面目に考える必要があることは知っておこう.
補足 6.2 (復元の有無による差). 非復元抽出でN 個からn 個を抽出するとき,可能な組合せの 総数はNCn = N!
(N−n)!n! = N(N−1)· · ·(N−n+ 1)
n! なので,単純無作為抽出で各標本が抽 出される確率は均等に
1
NCn
= n!
N(N−1)· · ·(N−n+ 1) (6.1)
であり,各個体が標本に含まれる確率は均等に n
N となる.
復元抽出では,一つずつの抽出作業で各個体が選ばれる確率は均等に 1
N で,その結果得られる 重複順列が全て 1
Nn で現れる.ここで,非復元抽出で得られる標本(組合せ)に対応する順列は n!個ずつあるので,それらが復元抽出で抽出される確率は
n!
Nn (6.2)
であり,各個体がそこに含まれる確率は(何回目で選ばれるかn通りあるので) n
N である.
ここでN ≫nならば(6.1)と(6.2)の差は非常に小さくなるし,重複を含む順列の出現確率も
非常に小さくなるから,復元抽出と非復元抽出の違いによる抽出確率の差は無視できるようにな る,ということである.
問題 6.3. 身長 170,171,172,173,174 の5人から3人抽出くらいで例題.標本平均がどうなる かも.