1 有限標本理論と大標本理論 — 漸近理論へ
通常の回帰分析では標本が有限かつ小数であることが多い。古典的な分析では そのような観点から、標本が有限である場合の理論的研究が行われてきた。この ように、標本が有限な状況の下で、諸統計分析の影響を評価する理論を有限標本 理論という。しかし、有限標本理論で最小二乗法が望ましさを維持するにはいく つかの条件を満たす必要がある。ただし、その条件がきついため、現実的にそれ を応用できる状況ではない。そこで、十分標本が大きな場合を考えて、その性質 を考えてみると、かなり条件がゆるくなることがわかる。これを大標本理論とい う。大標本理論は正規分布を仮定する基本的な母集団分布ではなく、一般的な標 本分布の元で、標本を無限大にした際の統計的な特性を見ることができ、その統 計的特性を特定のものに近づけられるため漸近理論ともいう。
1.1 有限標本理論と限界
説明変数の外生性、誤差項の正規性を仮定していたが、経済システムではこの 両者は成り立ちにくい。
1.2 大標本理論と限界
大標本であるということは無限大ではなくとも豊富な標本の下で分析を行うこ とが前提となる。しかし、現実には大標本といえるほどの標本が集められないこ ともあり、その場合に大標本理論を前提とした議論は成り立たないことも多く知 られている。そのため、汎用性を維持するための標本数の維持を図るか、有限標 本を前提とした議論を再構築するかの判断が迫られることになるだろう。
1.3 大標本理論
大標本理論の下では、収束概念を用いて、さまざまな確率分布を汎用性のある 正規分布に収束させて議論を集約化させる。そこで中心的な役割を果たすのは大 数の法則や中心極限定理であるが、それらから広がる議論はいくつかの強力な結 論を導く。ただし、先にも述べたように大標本という限界が背後にあることを忘 れてはならない。
1.4 大標本理論の基礎知識 ( 収束概念 )
大標本理論で議論を集約する要となる収束概念を学んでゆく。
1.4.1 概収束(Converge Almost Surely)
✓ ✏
Definition 1.4.1 (概収束) 確率変数の流列 {Xn}∞n=0が確率変数X に概収束 するとは
Plim
n→∞Xn= X
= 1
となることで、Xn
−−−→ X とかく。a.s.
✒ ✑
なお、至る所で収束する(Converge Almost Everywhere)、確率 1 で収束する (Con- verge with Probability 1) などとも表現します。イメージとしては、確率変数があ る定数に一致してゆくことようなものです1。
1.4.2 確率収束(Convergence in Probability)
✓ ✏
Definition 1.4.2 (確率収束) 確率変数の流列 {Xn}∞n=0が確率変数X に確率 収束するとは、∀ǫ > 0 に対して、
Plim
n→∞|Xn− X| > ǫ= 0 であることをさす。このとき、Xn
−−→ X, plimXp n= X とかく。なお、X を確 率極限とよぶ。
✒ ✑
イメージとしては、確率変数がある定数に限りなく近づきほとんど動かないよ うなものである2。
1.4.3 平均二乗収束(Convergence in Mean Squared)
✓ ✏
Definition 1.4.3 (平均二乗収束) 確率変数の流列 {Xn}∞n=0が確率変数X に 平均二乗収束するとは
n→∞lim E|Xn− X|
2 = 0
となることで、Xn
−−→ X とかく。m
✒ ✑
なお、収束要件をいっそう強められる平均n 乗収束というのもある。イメージ としては、差を二乗という縮尺(長いものは一層長く、短いものを一層短く評価す
1
収束先に一致するというイメージでもいい。
2
どこまでも動きを押さえ込むことができるというイメージでもいい。
る定規) で見れば、収束先の確率変数に差がほとんどないところに収束する確率変 数が集まっているというのが適当である。
1.4.4 分布収束(Convergence in Distribution)
✓ ✏
Definition 1.4.4 (分布収束) 確率変数の流列 {Xn}∞n=0が確率変数X に分布 収束するとは、分布関数F (·) の任意の連続点について、
n→∞lim F (Xn) = F (X)
となることで、Xn
−−→ X または Xd n−−→ X とかく。L
✒ ✑
なお、法則収束(Convergence in Law) などとも呼ぶ。イメージとしては、さま ざまな試行の結果としては収束先の分布と同じになるというのが適当だろう。そ れくらい収束としては弱いというともいえる。
1.4.5 収束概念の関係
収束の強弱関係を上下関係で示せば、 概収束→ 確率収束 → 分布収束 平均二乗収束 → 確率収束 → 分布収束 となる。
平均二乗収束と確率収束 平均二乗収束するならば、チェビシェフの不等式が P (|xn− c| > ǫ) ≤ E(xn− c)2/ǫ2 (1.1) であるので、
n→∞lim E(xn− c)
2 = 0 (1.2)
がいえる。ところで、 limǫ→01/ǫ
2 = ∞ (1.3)
なので、P (|xn− c| > ǫ) ≥ 0 であることに注意すると、n → ∞ のとき、
P (|xn− c| > ǫ) ≤ E(xn− c)2/ǫ2 = 0, (n → ∞) (1.4) となるため、確率収束の条件である∀ǫ について成り立つことがいえる。したがっ て、平均二乗収束を満たせば確率収束が満たされる。
1.5 収束概念に関する諸定理
1.5.1 スラツキー定理(Slutsky’s Theorem)
関数の確率極限を評価する場合に、スラツキー定理(Slutsky’s Theorem)
plim g(xn) = g(plim xn) (1.5) が便利である。
1.5.2 確率極限の演算法則
ベクトルについて、確率極限でplim xn = a, plim yn = b とするとき、四則演 算は
plim xn+ yn = a + b (1.6)
plim xnyn = ab (1.7)
plim xn yn
= a
b if b = 0 (1.8)
となる。
行列についてはplim Xn= A, plim Yn= B とすれば、
plim Xn−1 = A−1 (1.9)
plim XnYn = AB (1.10)
が成立する。
1.5.3 極限分布の演算法則
ベクトルについて、確率極限でxn
−−→ x, plim yd n = b とするとき3、四則演算は
xn
−−→ x, yd n−−→ b ⇒ xp n+ yn−−→ x + bd (1.11) xn
−−→ x, yd n −−→ 0 ⇒ yp n′xn
−−→ 0d (1.12)
である。
1.6 大標本理論の基礎知識 — 大数の法則
学部等で、一般的に示される大数の法則を確認しつつ、その他の法則を確認する。
3xn
−−→ x で x とあるのは確率変数ベクトルを意図している。d
1.6.1 大数の(弱) 法則 基本的な大数の法則は、
✓ ✏
Theorem 1.6.1 (大数の弱法則) x1, x2, · · · , xnは独立で同一分布(i.i.d. : in- dependent and identically distributed) に従い、それぞれの平均が µ、分散が σ2 であるとき、∀ǫ > 0 について、
n→∞lim P (|¯xn− µ| ≥ ǫ) = 0 である。
✒ ✑
なお、大数の弱法則は分散が漸近的に0 に落ちてゆくことで、確率収束の定義を 満たしている4。
ヒンチンの定理 — Kinchine’s Theorem 通常の大数の法則より一般的な条件 の下で成り立つ大数の法則もある。
✓ ✏
Theorem 1.6.2 (ヒンチンの定理) x1, x2, · · · , xnは独立で同一分布(i.i.d. : independent and identically distributed) に従い、平均が E[xi] = µ であるとき、 観測値の平均x について、¯
n→∞lim P (|¯xn− µ| ≥ ǫ) = 0 が成り立つ。
✒ ✑
各観測値の期待値のみが有限かつ同一であることが要請されていていても大数の 法則は成り立つのである。
チェビシェフの大数の弱法則 異なる確率分布に加え、異なる平均を持った標本 も許容する大数の法則もある。
4
コーシー分布は分散が無限大なので、これは使えない。
✓ ✏
Theorem 1.6.3 (チェビシェフの大数の弱法則) x1, x2, · · · , xn の 期 待 値 が E(xi) = µiかつ、V ar(xi) = σi2の独立な確率変数であって、lim
n→∞
1 n2
n
i=1
σi2 < ∞
であれば、µ¯n= 1 n
n
i=1
µiについて、
n→∞lim P (|¯xn− ¯µn| ≥ ǫ) = 0 が成り立つ。
✒ ✑
これによれば、平均値の期待値があることと、分散の性質を限定するだけで、平 均値だけを使って大数の法則を利用できることになる。
1.6.2 大数の(強) 法則
前の大数の法則に比べ、収束概念の強い大数の(強) 法則というものがある。
✓ ✏
Theorem 1.6.4 (大数の強法則) x1, x2, · · · , xnは独立で同一分布(i.i.d. : in- dependent and identically distributed) に従い、それぞれの平均が µ であるとき、
Plim
n→∞x¯n = µ
= 1
が成り立つ。
✒ ✑
これは
“xi ∼ i.i.d., E(xi) = µ′′⇒ “¯xi −−−→ µa.s. ′′
という条件を満たすため、概収束の概念を満たす。なお、i.i.d. であることが要請 されるが、分散の条件がないことが特徴的である。その意味ではチェビシェフの 大数の法則のより強いものだといえる。
コルモゴロフの大数の強法則 積率条件を厳しくする一方、異なる分布からの標 本を許容する大数の法則を考えてみよう。
✓ ✏
Theorem 1.6.5 (コルモゴロフの大数の強法則) x1, x2, · · · , xnは独立な確率 変 数で 、そ れ ぞれ の 平均 がµi, σi2 で ある とき 、
∞
i=1
σ2i
i2 < ∞ ならば、¯µn = 1
n
n
i=1
µiについて、
Plim
n→∞x¯n = ¯µn
= 1
が成り立つ。
✒ ✑
マルコフの大数の強法則 また、もう少し広範な積率条件の下で、大数の法則が
いえる。✓ ✏
Theorem 1.6.6 (マルコフの大数の強法則) x1, x2, · · · , xnはE[xi] = µi < ∞ である独立な確率変数で、あるδ > 0 において、
∞
i=1
E[|xi− µi|1+δ]
i1+δ < ∞ なら ば、µ¯n=
1 n
n
i=1
µiについて、
Plim
n→∞x¯n = ¯µn
= 1
が成り立つ。
✒ ✑
1.7 大標本理論の基礎知識 — 中心極限定理
1.7.1 中心極限定理(Central Limit Theorem) — 一つの確率変数の場合 リンデバーグ=レビーの中心極限定理(Lindeberg-Levy の中心極限定理) 元の 確率分布が何であれ、そして分布が異なっていても、平均と分散が一定であれば、 中心極限定理は使うことができる。
✓ ✏
Theorem 1.7.1 (リンデバーグ=レビーの中心極限定理) 確 率 変 数 で あ る x1, x2, · · · , xn が 、そ れ ぞ れ の 平 均 が 、共 分 散 行 列 が E(xn) = µ かつ V ar(xn) = σ2 < ∞ の無作為抽出標本ならば、この確率変数の算術平均 ¯xnに ついて、
√n(¯xn− µ)
−−→ N(0, σd 2)
が成り立つ。
✒ ✑
リンデバーグ=フェラーの中心極限定理(Lindeberg-Feller の中心極限定理) 平 均と分散が異なる確率変数の集合にも、中心極限定理を用いることができる。
✓ ✏
Theorem 1.7.2 (リンデバーグ=フェラーの中心極限定理) 確率変数である x1, x2, · · · , xn が、それぞれの平均がµi、共分散行列がσi2 であるとき、その
算術平均をµ¯n, ¯σn2として、lim
n→∞
max σn
n¯σn
= 0 をみたす無作為抽出標本ならば、
√n(¯xn− ¯µn)−−→ N(0, ¯σd 2)
が成り立つ。
✒ ✑
1.7.2 中心極限定理(Central Limit Theorem) — 確率変数ベクトルの場合 リンデバーグ=レビーの中心極限定理(Lindeberg-Levy の中心極限定理) 中心 極限定理の定理であるリンデバーグ=レビー版の中心極限定理のベクトル表記を
考える。✓ ✏
Theorem 1.7.3 (リンデバーグ=レビーの中心極限定理) 確率変数ベクトル であるx1, x2, · · · , xn が、それぞれの平均ベクトルが、共分散行列がE(xn) = µ かつV ar(xn) = Σ < ∞ の無作為抽出標本ならば、この確率変数ベクトルの算 術平均x¯nについて、
√n(¯xn− µ)
−−→ N(0, Σ)d
が成り立つ。
✒ ✑
リンデバーグ=フェラーの中心極限定理(Lindeberg-Feller の中心極限定理) 中 心極限定理の強い定理となるリンデバーグ=フェラー版中心極限定理のベクトル 表記を考えてみよう。
✓ ✏
Theorem 1.7.4 (リンデバーグ=フェラーの中心極限定理) 確率変数ベクト ルであるx1, x2, · · · , xn が、それぞれの平均ベクトルがµi、共分散行列がΣi であるとき、その算術平均をµ¯n, ¯Σnとして、
n→∞lim n¯Σn
−1
Σi = lim
n→∞
n
i=1
Σi
−1
Σi = 0
の無作為抽出標本ならば、
√n(¯xn− ¯µn)−−→ N(0, ¯d Σ)
が成り立つ。
✒ ✑
1.8 大標本理論の考え方 — 漸近分布の利用
中心極限定理はさまざまな分布を持つ確率分布を正規分布に持ち込む方法論を 学んだ。この概念を利用すれば、多くの標本さえあれば、誤差はあるものの正規 分布(極限正規分布: Limiting Normal Distribution) とみなして、議論することも 可能である。
確率変数の有限標本分布の近似分布として考える分布を漸近分布と呼ぶ。
1.8.1 大標本理論の考え方 — 漸近分布の利用
統計の入門レベルでは漸近正規性を利用した。たとえば、中心極限定理において、
√n(¯xn− µ)/σ
−−→ N(0, 1)d (1.13)
というのがあった。このとき、
√n(xn− µ)/σ
∼ N(0, 1)a (1.14)
として、漸近分布である標準正規分布を利用する。なお、
√n(xn− µ)
∼ N(0, σa 2) (1.15)
xn
∼ Na
µ, 1
nσ
2
(1.16)
でも表現できる。これはベクトルでも表現できて、xnをベクトルとして扱えば、
√n(xn− µ)
∼ N(0, Σ)a (1.17)
xn
∼ Na
µ, 1
nΣ
(1.18)
となる。このとき、漸近的に利用する分散を漸近共分散行列(Asymptotic Co- variance Matrix) と呼び、
AVar(xn) = 1
nΣ (1.19)
と書く。
1.8.2 非線形関数の漸近分布
線形の演算を含む非線形の確率変数については次のような漸近分布に関する定 理がある。
✓ ✏
Theorem 1.8.1 (非線形関数の漸近分布) 一 変 数 の 確 率 変 数 √N(¯xN −
¯
µN)−→ N(0, σd 2) において、g(¯xN) が標本数 N を含まない連続関数ならば、 g(¯xN)∼ Na
g(¯µN),[g
′(¯µN)]2σ2 N
(1.20)
である。また、確率変数ベクトルx¯N
−→ N(¯µd N, [1/N]Σ) において、g(x) が標 本数N を含まない J × 1 の連続関数ならば、
g(¯xN)∼ Na
g(¯µN),G(¯˜ µN)Σ ˜G
′(¯µN) N
(1.21)
である。なお、 ˜G(¯µN) =
∂g(¯xN)
∂¯x′N
x¯N=¯µN
のJ × K 行列である。
✒ ✑
1.8.3 漸近分布を用いた推定量における効率性
漸近分布では、基本的に統計量がすべての漸近分布がひとつの分布で議論され るが、一致性と正規性以外に、効率性を次のように定義して、よりよい全均等計 量を見ることが可能となる。
✓ ✏
Definition 1.8.1 (推定量の効率性) 推定量の漸近共分散行列において、非負 定号行列の意味で他の行列よりも小さいときに効率的であるという。
✒ ✑