平成25年度 上級計量経済学
講義ノート8: ノンパラメトリック、セミパラメトリック法
本説では、分布の仮定をおかずに、密度関数や回帰関数の推定を行うノンパラメトリッ ク法と、それを応用し、未知の関数を推定する必要があるが興味のあるパラメーターは有限 次元であるセミパラメトリックな統計分析の紹介を行う。パラメトリックモデルを仮定する ことが可能であれば、その下で興味あるパラメータを最尤法を行うのが、最も望ましい統 計分析となる。具体的には、モデルが正しい時には最尤法によって一致性、漸近正規性、効 率性のある推定が可能である。しかし、仮定したパラメトリックモデルが間違っているとき には、以下に示すように一般には推定量の一致性すら失われる。つまり、仮定の強弱によっ て統計分析の効率性と頑健性(robustness)のトレードオフがある。パラメトリック法に対 して、できるだけ仮定を置かないようにするアプローチがノンパラメトリック法である。以 下では、密度関数や回帰関数について、一定の滑らかさのみを仮定して推定を行う方法を紹 介する。ノンパラメトリック法による推定量は非常に緩い仮定の下で一致性を有するが、通 常は収束速度がパラメトリック法よりも遅い。一般にパラメトリック推定量はn−1/2の収束 速度を持つが、ノンパラメトリック推定量は、ある定数δをおいて、n−1/2+δが収束速度と なる。
8.1 パラメトリックモデルの特定化の誤り
上に書いたように仮定したパラメトリックモデルが間違っているときには、一般には推定量 の一致性すら失われる。単純な一例として、単回帰モデルを考える。真の構造が
yi = x2i + ϵi, ϵi|xi∼ (0, σ2ϵ)
で、更にxi ∼ (0, σx2)、xiの分布は左右対称であるとする。このモデルに誤って線形モデル yi= βxi+ ui
をあてはめてOLS推定を行ったとき、 βˆ = (∑x2i)
−1∑
xiyi =(∑x2i)
−1∑
x3i +(∑x2i)
−1∑
xiϵi
= ( 1 n
∑x2i )−1
1 n
∑x3i +( 1 n
∑x2i )−1
1 n
∑xiϵi
→ σp x−2× 0 + σx−2× 0 = 0
となる。結果、xはyに影響を与えないという(間違った)結論を得ることになる。 そこで、パラメトリックな仮定をおかない推定、検定法があればよいが、その第一ステッ プがノンパラメトリック密度推定である。
8.2 ノンパラメトリック密度推定
同時密度関数f (x)をもつd次元確率変数Xを考える。その分布から無作為標本{Xi}, i =
1, · · · , nが得られたとき、密度関数を推定する問題を考える。密度関数の推定は、統計分析
一般にとって重要な問題である。なぜなら、同時密度関数が推定されれば、その確率変数に 関するどのような量(平均、分散、分位点、条件付き分布、条件付き期待値、その他)でも 計算できるからである。最も初歩的な推定法はヒストグラムである。
8.2.1 ヒストグラム
単純なケースとしてd = 1の場合を考える。ヒストグラムの始点x0、バンド幅(ビン幅) h > 0、ビンの数J を適当に決めて、
[x0, x0+ h), [x0+ h, x0+ 2h), · · · , [x0+ (J − 1)h, x0+ Jh)
の各区間の中に含まれるデータ数を数えて棒グラフにしたものをヒストグラムという。式で 書くと次のようになる。Ikをk番目の区間[x0+ (k − 1)h, x0+ kh)とする。そのとき、区 間Ikに含まれる点xにおける密度f (x)のヒストグラム推定値は
f (x) =ˆ {Ikに含まれる観測値の数} nh
である。ヒストグラムは直観的で簡単であるため、データの分布を概観するには良い手法で ある。しかし、以下のような問題点がある。
(1)始点x0の取り方によって大きく印象が変わることがある。 (2)各区間の端に近い点での推定値はよくないかもしれない。 (3)連続でない(微分できない;微分はほとんど至る所0になる)。
なお、ヒストグラムを図示する際には3変量以上では描けない。とはいえ、この問題は、 すべての密度関数の推定法に共通する問題である。
8.2.2 Naive estimator (NE)
ヒストグラムの問題点(1)、(2)に対処した推定量がNEである。それは、ヒストグラムと 違ってビンを固定せず、
f (x) =ˆ {[x −
h 2, x +
h
2)に含まれる観測値の数} nh
によって定義される。この推定量は、xの左右h/2の区間に入っている観測値の数を数えて 密度の推定値を作っているので、hを小さくするとxのすぐ近くの観測値のみ用いることに なり、逆にhを大きくするとxから離れた観測値も用いることになる。大きいhでは、当 然使われるデータ数が増えるので分散が小さくなるが、xから離れた値をf (x)の推定に用 いることになってしまい、それがバイアスの増加となって現れる。逆にhを小さくとると、 バイアスは小さくなるがデータ数が減るために分散が上昇する。つまり、hの大小によって 分散ーバイアスのトレードオフが生ずる。
ヒストグラムでは先にビンを決めてしまうが、NEはxに対応させて ”ビン ”(区間)を 決める。この推定量は、以下のように書き換えられる。
f (x) =ˆ 1 nh
n
∑
i=1
I (
x − h2 ≤ Xi ≤ x +h2 )
= 1
nh
n
∑
i=1
I (
−12 ≤ Xih− x ≤ 12 )
= 1
nh
n
∑
i=1
I (
Xi− x h
≤
1 2
)
= 1 n
n
∑
i=1
1 hw
( x − Xi
h )
ただし
w(u) =
{1 |u| ≤ 12のとき
0 |u| > 12のとき
この推定量は(1), (2)の問題点の解決にはなっているが、(3)は残っている。それを解決し ようとするのがカーネル推定量である。
8.2.3 カーネル密度推定量
w(u)を一般化して、
∫
K(u)du = 1, K(u) = K(−u) を満たす関数K(u)を用いて、
f (x) =ˆ 1 nh
n
∑
i=1
K(x − Xi
h ) (1)
をカーネル密度推定量という。hはバンド幅、平滑化パラメータなどと呼ばれ、K(u)はカー ネル関数と呼ばれる。カーネル推定量は原理的にNEと同じであるため、hの選択によって NEと全く同様のバイアスー分散のトレードオフが起こる。
多変量のカーネル密度推定量は(1)の自然な拡張として f (xˆ 1, x2, · · · , xd) =
1 nh1h2· · · hd
n
∑
i=1
K( x1− X1i h1
,x2− X2i h2 , · · · ,
xd− Xdi hd
)
によって与えられる。ここでのK(·)は多変量カーネル関数である。通常は、1変量カーネ ル関数の積を多変量カーネル関数として使用する。つまり
f (xˆ 1, x2, · · · , xd) =
1 nh1h2· · · hd
n
∑
i=1
K( x1− X1i h1
)
K( x2− X2i h2
)
· · · K( xd− Xh di
d
)
とするのである。
8.2.4 カーネル密度推定量の漸近的性質
証明に以下の結果を用いる。
補題1 (押さえ込み収束定理(Dominated convergence theorem)). gn(x)をS上で定義された 関数とし、gn(x) → g(x)であるとする。また、x ∈ Sに対して|gn(x)| ≤ m(x)、∫Sm(x)dx <
∞を満たす関数m(x)があるとき、
n→∞lim
∫
S
gn(x)dx =
∫
S
g(x)dx が成り立つ。
定理 1 (一致性). (i) f (x)は2回連続微分可能である。
(ii) カーネル関数Kは有界なサポート[−c, c]をもち、0 ≤ K(u) ≤ C, K(u) = K(−u),
∫ K(u)du = 1である。 また、µ2=∫ u2K(u)du, κ =∫ K(u)2duとする。
(iii) バンド幅h > 0について、n → ∞のときh → 0, nh → ∞である。
(i)-(iii)が満たされているとき、xをf (x)のサポートの内点として、n → ∞のとき E{ ˆf (x) − f(x)}2 = 14h4µ22f′′(x)2+κf (x)nh + o(h4+nh1 )
が成立する。したがって、f (x)ˆ → f(x)p が成立する。
(証明) まず、f (x)ˆ の期待値と分散を評価する。iidの仮定とK(u)の対称性を用いて、 λ ∈ [0, 1]について
E{ ˆf (x)} = E{h1K(x − Xh 1)} = E{1hK(X1h− x)} =
∫ 1 hK(
y − x
h )f (y)dy
=
∫
K(u)f (x + hu)du
=
∫
K(u){f(x) + huf′(x) + (hu)
2
2 f
′′(x + λhu)}du
= f (x) + h
2
2
∫
u2K(u)f′′(x + λhu)du
と書ける。xを固定された点と見て、仮定(i)、(ii)より−c ≤ u ≤ cにおいて十分大きなn について|f′′(x + λhu)| < M < ∞が成立し、従って
|u2K(u)f′′(x + λhu)| ≤ Mu2K(u)
となり、またu2K(u)はK(u)のサポートの有界性より可積分である。更に、 u2K(u)f′′(x + λhu) → u2K(u)f′′(x)
であるから、補題6より
∫
u2K(u)f′′(x + λhu)du →
∫
u2K(u)f′′(x)du = µ2f′′(x) (2) となる。従って、
E{ ˆf (x)} = f(x) + h
2
2 µ2f
′′(x) + o(h2) (3)
を得る。次に分散を評価する。iidの仮定より、 V { ˆf (x)} = 1
n [
E{1 hK(
x − X1 h )}
2− [E{ ˆf (x)}]2 ]
(4) で、右辺[ ]の中の第二項は(3)の2乗である。第一項は
E{1hK(x − Xh 1)}2 = h12
∫
K(y − x h )
2f (y)dy
= 1 h
∫
K(u)2f (x + hu)du
= 1 h
∫
K(u)2{f(x) + huf′(x) + (hu)
2
2 f
′′(x + λhu)}du
= 1
h{κf(x) + h2
2
∫
u2K(u)2f′′(x + λhu)du}
= 1
hκf (x) + O(h) (5)
となる。最後の等号は、K(u)の有界性と(2)を用いた。(4)に(3)、(5)を代入して
V { ˆf (x)} = κf (x)nh + o(nh1 ) を得る。従って、
M SE( ˆf (x)) = E{ ˆf (x) − f(x)}2 = 14h4µ22f′′(x)2+κf (x)nh + o(h4+nh1 ) (6)
となる。また、(iii)よりM SE( ˆf (x)) → 0なので、 f (x)ˆ → f(x)p が成立する。
この定理は各点での一致性を保証しているが、条件を少し強めることによってある閉区 間D上の一様一致性(uniform consistency)
sup
x∈D| ˆf (x) − f(x)|→ 0p
が証明される(詳細は例えばLi and Racine (2005) Nonparametric Econometrics, p.31, Theorem 1.4, 1.5を参照)。
次に、カーネル推定量に関する中心極限定理を証明なしに述べる(詳細は例えばLi and Racine (2005) Nonparametric Econometrics, p.29, Theorem 1.3を参照)。
定理 2 (漸近正規性). (i)f (x)は3回連続微分可能である。
(ii) カーネル関数Kは有界なサポート[−c, c]をもち、0 ≤ K(u) ≤ C, K(u) = K(−u),
∫ K(u)du = 1である。また、µ2 =∫ u2K(u)duとする。
(iii) バンド幅h > 0について、n → ∞のときnh → ∞, nh5→ 0である。
(i)-(iii)が満たされているとき、xをf (x)のサポートの内点として、n → ∞のとき
√nh{ ˆf (x) − f(x)}→ N(0, κf(x))d である。
バンド幅の選択は実際にカーネル推定を行う時に厄介な問題である。ひとつの考え方は MSEが小さくなるようにhを選ぶやリ方である。(6)におけるオーダーの大きな項
1 4h
4µ22f′′(x)2+κf (x) nh をhに関して最小にするように
h(x)∗= c(x)n−15, c(x) =
{ κf (x) µ22f′′(x)2
}15
とすることが考えられる。また、これはある特定の点xの推定において良い選択であって、 密度関数全体としては良いかどうかわからない。そこで、大域的に見るためにMISE(mean integrated squared error)∫ E{ ˆf (x) − f(x)}2dxのオーダーの大きい部分
∫ { 1 4h
4µ22f′′(x)2+κf (x) nh
} dx を小さくするように
h∗ = c1n−15, c1 =
{ κ
µ22∫ f′′(x)2dx }15
と選ぶことも考えられる。ただし、こうして選んだバンド幅は、漸近正規性の条件である nh5→ 0を満たさないことに注意する必要がある。いずれにしても、これらは未知の関数f を含む表現であるため、そのままでは実現可能でないため、色々な手法が提案されている。
8.3 ノンパラメトリック回帰推定
回帰モデルy = m(x) + ϵから無作為標本(yi, xi), i = 1, · · · , nが得られたとする。 yi= m(xi) + ϵi, i = 1, · · · , n
パラメトリックなアプローチでは、例えばm(x) = β′xといった線形関係を想定してβ を LS推定する。しかし、特定化に誤りがあると推定は全く意味をもたなくなる。そこで、ノ ンパラメトリック法ではm(x)の形を特定化せずに関数そのものを推定することを考える。 (y, x)の同時密度関数をf (y, x)、xの密度関数をf (x)とすると、回帰関数の定義は
m(x) =
∫
yf (y|x)dy = f (x)1
∫
yf (y, x)dy である。f (x), f (y, x)のノンパラメトリック密度推定量を
f (x) =ˆ 1 nh2
n
∑
i=1
K(x − Xi h2
)
f (y, x) =ˆ 1 nh1h2
n
∑
i=1
K(y − yi h1
)K(x − xi h2
)
とすると、m(x)の自然な推定量は ˆ
m(x) = 1 f (x)ˆ
∫
y ˆf (y, x)dy
である。ここで、
∫
y ˆf (y, x)dy =
∫ y 1
nh1h2 n
∑
i=1
K(y − yi h1
)K(x − xi h2
)dy
= 1
nh2 n
∑
i=1
∫
(yi+ h1u)K(u)K(x − xi h2
)du
= 1
nh2 n
∑
i=1
K(x − xi h2
)yi
なので、
ˆ
m(x) =
∑n
i=1K(x−xh2i)yi
∑n
i=1K(x−xh2i)
となる。これを回帰関数のNadaraya-Watson (NW)カーネル推定量という。一定の条件の もとで、一致性と漸近正規性を証明できる。
8.4 セミパラメトリック回帰推定
部分的にパラメータで特徴づけられる統計モデルをセミパラメトリックモデルという。以下 にその代表的なものを記す。セミパラメトリックモデルは、パラメトリックな部分とノンパ ラメトリックな部分の両方を含む統計モデルであるが、そのパラメトリック部分に興味があ り、ノンパラメトリック部分はnuisance parameter(局外母数)である場合が多い。多くのセ ミパラメトリック推定量は、収束が遅いノンパラメトリック部分の推定量を含むにも関わら ずn−1/2のオーダーで収束するものが多く、当初は驚くべき結果と考えられていた。
8.4.1 部分線形回帰モデル(Robinson (1988), Econometrica)
これはサンプルセレクションモデル等を含むモデルで、g(·)を未知の関数として
yi= β′xi+ g(zi) + ϵi, i = 1, · · · , n (7) によって定義される。言うまでもなく、回帰関数
E(yi|xi, zi) = β′xi+ g(zi) (8) はxiについては線形である。興味対象となるパラメータはβであるとする。ziを条件づけ て(7)の期待値を取って(7)から引くと、g(zi)が消えて、
yi− E(yi|zi) = β′{xi− E(xi|zi)} + ϵi
を得る。これは線形回帰モデルの形になっており、E(yi|zi)とE(xi|zi)がわかればOLSに よってβが推定できる。それらの関数はノンパラメトリック回帰E(yˆ i|zi)、E(xˆ i|zi)により 推定できるため、それらで置き換えて、βを
β = [ˆ
n
∑
i=1
{xi− ˆE(xi|zi)}{xi− ˆE(xi|zi)}′]−1
n
∑
i=1
{xi− ˆE(xi|zi)}{yi− ˆE(yi|zi)}
によって推定することができる。(yi, xi, zi)がiidで、ϵiはxi, ziと独立であるとき、この推 定量は√n−一致性を持つ推定量であることが示されている。すなわち、ある正値定符号な V に対して
√n( ˆβ − β)→ N(0, V )d
が導かれる。
8.4.2 インデックスモデル
yがxの線形結合の未知関数G(·)に依存する回帰モデル
yi = G(β′xi) + ϵi
を(シングル)インデックスモデルという。例えばTobit, Probit, Logitなどはこのモデル の特殊ケースである。興味対象のパラメータはβである。このモデルに対して、E(y|βˆ ′x) を”ノンパラメトリック回帰推定量”
E(y|βˆ ′x) =
∑n
j=1K(
β′x−βτxj
h )yj
∑n j=1K(
β′x−β′xj
h )
として
β = arg minˆ
β n
∑
i=1
{yi− ˆE(yi|β′xi)}2
によって推定することが考えられる。これをインデックスモデルのセミパラメトリックLS 推定量という(Ichimura (1993), Journal of Econometrics)。この目的関数はβに関して非 線形なので数値計算が必要になる。
別のより簡便な推定法としてAveraged derivatives推定量 (H¨ardle & Stoker (1989), JASA)が提案されている。g(x) = G(β′x)とおくと
g′(x) = G′(β′x)β なので、
E{g′(x)} = E{G′(β′x)}β = cβ
となる。cはある未知定数である。従って、cβの推定はE{g′(x)}の推定と同じである。xの 密度をf として、g(u)f (u)が裾で0に収束すると仮定すると、
E{g′(x)} =
∫
g′(u)f (u)du = [g(u)f (u)]∞−∞−
∫
g(u)f′(u)du
= −
∫
g(u)f
′(u)
f (u)f (u)du
= −E {
g(x)f
′(x)
f (x) }
= −E {
yf
′(x) f (x)
}
fのノンパラメトリック推定量をfˆとすると、これは
−1n
n
∑
i=1
yifˆ
′(x i)
f (xˆ i)
によって推定できる。これらの推定量も、適当な仮定の下で√n−一致性を持つ推定量であ ることが示されている。
8.4.3 未知の分散不均一性を持つ回帰(Robinson (1987), Econometrica) 誤差項の分散が不均一な回帰モデル
yi = β′xi+ ϵi, E(ϵi|xi) = 0, V (ϵi|xi) = σ2(xi)
を考え、σ2(x)は未知関数であるとする。そのとき、次の2ステップFGLS推定によって、 βの効率的な推定量が得られる。
(i) OLS回帰を行い、残差ϵˆi = yi− x′iβˆOLSを計算する。σ2(xi) = E(u2i|xi)なので、こ れをノンパラメトリック回帰とみなし、更にuiをuˆiで置き換えて、
ˆ
σ2(x) = 1 f (x)ˆ
1 nhp
n
∑
i=1
K(x − xi h )ˆu
2 i
によってσ2(xi)の推定量を構成する。
(ii)上の結果を用いて、以下のFGLSを行う。 β = {ˆ
n
∑
i=1
(xi− ¯x)(xi− ¯x)′ ˆ
σ2(xi) }
−1 n
∑
i=1
(xi− ¯x)(yi− ¯y) ˆ
σ2(xi) この推定量も√n−一致性を有する推定量であることが示される。
計量経済学の分野では、1980年代の終わりころから様々なセミパラメトリックモデルが 提案され、その推定法が開発されてきた。その一つの理由は、経済理論は完全にパラメト リックな統計モデルを与えることはできないため、興味ある部分のみをパラメトリックに表 現し、それ以外を特定しないモデルが計量経済学は適切であると考えられることである。ま た、ノンパラメトリックモデルは非常に緩い仮定の下でよい性質を持つが、収束のオーダー が遅いため、経済データのサンプル数が通常多くないことを考慮すると、パラメトリック法 と同じ収束オーダーをもつセミパラメトリック法は経済分析に適切であると考えられる。