担当:鹿野(大阪府立大学)
2014 年度前期
はじめに
前回の復習
重回帰モデルの使い方。
ダミー変数を説明変数に使う。
今回学ぶこと
漸近理論とは?
大数の法則と中心極限定理。
テキスト該当箇所:8章。
1 漸近理論とは?
1.1
漸近理論による統計量の近似
漸近理論:サンプル数nが十分大きい場合の統計的推測を、 (大標本理論) と呼ぶ。
⊲ 統計量の、n → ∞のときに成立する性質( )を、推定・検定に利用。
⊲ 例:nが大きい時、自由度m = n − 1のt分布T (m)の代わりに標準正規分布N(0, 1) の臨界値を仮説検定に使う。
⊲ 基幹となる定理:大数の法則(たいすうのほうそく)と中心極限定理。
小標本理論:nが有限に固定された下での統計的推測を、 と呼ぶ。
⊲ nの大小に左右されず、常に成立する統計量の性質を利用。
⊲ ∴ここまで使ってきた分析ツールのほとんどは、小標本理論。
Remark:漸近理論の必要性
1. 緩い前提条件でデータ分析ができる。(正規性を仮定しない、など。)
2. モデルによっては、不偏推定量が存在しない。⇒推定方法の選択で、漸近的な採用 基準が必要。
1
⊲ 確率分布 fn(an)に従う確率変数anを、順序良く並べたのが、確率数列。
⊲ ... 分かりにくい場合は、anを「nに依存して確率分布が変化するひとつの確率変数」 と考えれば良い。
例:サンプル数n = 1, 2, 3, ..の標本平均 X¯1= 1
1X1, X¯2= 1
2(X1+ X2), X¯3= 1
3(X1+ X2+ X3), . . . (1)
⊲ ¯X1, ¯X2, ¯X3, . . .は、nの大きさ順に並べた確率数列。→代表して と表記。
⊲ ¯Xnの期待値・分散は、無作為標本ならば(講義ノート#16) E( ¯Xn) = µ, Var( ¯Xn) = σ
2
n . (2)
∴nに依存して、X¯nの分布(厳密には分散)は変化。
確率収束:確率数列anと定数cを考える。任意の定数ǫ >0(イプシロン)について
n→∞lim Pr(|an− c| > ǫ) = 0 (3)
ならば、「anはcに する」と言う。
⊲ anのcへの確率収束を、
(4)
と略記(plim = probability limit)。
⊲ 確率収束の意味:確率変数anと定数cがわずかǫだけズレる確率が、n → ∞ならば ゼロに近づく。(ǫは何でもよいので、ǫ = 0.000001など小さい数をイメージ。)
⊲ ... 簡単に言えば、「nが十分大きければ、 」ということ。
分布収束:確率数列anの確率分布 fn(an)が、n → ∞のとき確率分布 f∗(a)に近づくなら ば、「anはf∗(a)に する」と言う。
⊲ anの f∗(a)への分布収束を、
(5)
と略記(a = asymptotically)。
⊲ ... 簡単に言えば、「nが十分大きければ、 」ということ。⇒ nが十 分大きいときは、分布 f∗(a)でanの確率計算ができる。
⊲ 特に、収束先の分布 f∗(a)が取扱いやすい分布ならうれしい!
0.00.20.40.60.8
µ
n→ ∞ Var(X) = σ
2
n
図1: ¯Xの分布と大数の法則
2 大数の法則と中心極限定理
2.1
大数の法則
大数の法則:無作為標本の標本平均X¯n = 1
n Xi(正規母集団の仮定は不要)について、
plim ¯Xn= µ (6)
が成立。これを と呼ぶ。
⊲ 無作為標本ならば、X¯nは母平均µに確率収束。∴nが十分大きければ、未知のµは、 ぐらいであるとみなしてよい!
⊲ 証明(簡略版、図1参照):(2)式より、X¯nは、どんなnであれ常にµを重心に分布。 一方分散はnに反比例。∴X¯nの分布はn → ∞のときµの近傍に集中⇒ ¯Xnがµから 外れた値をとる確率は、ほぼゼロ。
⊲ 厳密な照明⇒テキストp160 ∼ 162参照。
Remark:「n → ∞」は、現実のデータでは有り得ない。
⊲ 現実的なサンプル数で、大数の法則が示す近似は成立するか?⇒コンピュータ・シ ミュレーションで確認。
⊲ 適当な母数値を設定し、そのもとで擬似的なサンプリング(乱数発生)を行い、統 計量の理論上の性質を確認するシミュレーションを、 と呼ぶ。
大数の法則のモンテカルロ実験:成功確率p = 0.5のベルヌーイ母集団Xi∼ Bin(1, 0.5)。
⊲ ベルヌーイ分布の母平均・母分散は一般に
µ = p, σ2= p(1− p) (7)
(講義ノート#08)。∴この実験ではµ = 0.5、σ2= 0.52。母数が であること がポイント。→好きなサンプル数で乱数を発生できる。
50 100 150 200
0.000.050.10
n
|X−p| µ = p = 0.5
図2:サンプル数nと| ¯X − p|の関係
⊲ n = 10, 50, 100, 150, 200の標本抽出を各1万回づつ反復→ | ¯Xn− 0.5|の平均値を計算。
⊲ 図2:nが増えるにつれ、| ¯X − 0.5|の平均は 。(n = 200で約6%程度のズレ。)
2.2
中心極限定理
中心極限定理:標本平均X¯n= 1
n Xiを、標準化する。
Zn= X¯n− µ
σ/√n. (8)
このとき無作為標本ならば(正規母集団の仮定は不要)、
Zn∼ N(0, 1)a (9)
が成立。これを と呼ぶ。
⊲ 作為標本ならば、Znの分布は標準正規分布へ分布収束。∴nが大きければ、無母集 団分布が正規分布でなくとも、Znの臨界値を標準正規分布で近似できる!(詳しくは 次回。)
⊲ 注意:正規母集団なら、nの大小に関わらずZn∼ N(0, 1)。
⊲ 証明:とても難しいので省略。中級以上の数理統計学のテキスト参照。
例:ベルヌーイ母集団Xi∼ Bin(1, p) → ¯Xn。
⊲ ベルヌーイ分布の母平均・母分散はµ = p、σ2= p(1− p)。(7)式参照。∴ X¯nを標準 化すれば
Zn=
X¯n− p
σ2/n =
X¯n− µ
p(1 − p)/n. (10)
⊲ nが少ないときZn ∼? ...分布は不明。
⊲ nが十分大きければZn∼ N(0, 1)a 。コレを区間推定(信頼区間の計算)や仮説検定に 使う。
−4 −2 0 2 4
0.00.10.20.30.40.50.6
n = 10
x
−4 −2 0 2 4
0.00.10.20.30.40.50.6
n = 25
x
−4 −2 0 2 4
0.00.10.20.30.40.50.6
n = 100
x
−4 −2 0 2 4
0.00.10.20.30.40.50.6
n = 500
x
図3:標本平均X¯n(ベルヌーイ母集団)の分布収束
中心極限定理のモンテカルロ実験:成功確率p = 0.25のベルヌーイ母集団Xi ∼ Bin(1, 0.25)。
⊲ この実験ではµ = p = 0.25、σ2= p(1− p) = 0.25 · 0.75。
⊲ n = 10, 25, 100, 500の標本抽出を各1万回づつ反復→ Zn = √0.25·0.75/nX¯n−0.25 のヒストグラ
ムを作成。
⊲ 図3(曲線は標準正規分布):n = 25程度でも、Znの分布は で十分近似で きそう。
Remark:「収束」は「近似」。簡単に言えば...
⊲ 大数の法則(確率収束と関係):nが大きい⇒ µをX¯nで !
⊲ 中心極限定理(分布収束と関係):nが大きい⇒ Zn= σ/X¯n−µ√nの分布をN(0, 1)で !
⊲ 「収束」と言うと分かりづらいが、要はnが大きいときに許される「近似」。
⊲ いずれの定理も、無作為標本の仮定だけでOK。正規母集団である必要はない。
漸近理論:確率収束と分布収束。
大数の法則と中心極限定理。
復習問題
出席確認用紙に解答し(用紙裏面を用いても良い)、退出時に提出せよ。
1. 大数の法則とはどんな定理か?「確率収束」という言葉を用い、簡潔に説明せよ。この定 理が成立するための条件も、明記する事。
2. 確率変数Xは実現値x = 0, 1のいずれかをとり、その確率は
Pr(Xn= 0) = 1− 1n, Pr(Xn= 1) = 1
n (11)
で与えられるとする。n → ∞のときの,Xnの収束先を考えよ.