8 教育 OKUI, Ryo

(1)

平成25年度上級計量経済学

講義ノート^8: ノンパラメトリック、セミパラメトリック法

本説では、分布の仮定をおかずに、密度関数や回帰関数の推定を行うノンパラメトリック法と、それを応用し、未知の関数を推定する必要があるが興味のあるパラメーターは有限次元であるセミパラメトリックな統計分析の紹介を行う。パラメトリックモデルを仮定することが可能であれば、その下で興味あるパラメータを最尤法を行うのが、最も望ましい統計分析となる。具体的には、モデルが正しい時には最尤法によって一致性、漸近正規性、効率性のある推定が可能である。しかし、仮定したパラメトリックモデルが間違っているときには、以下に示すように一般には推定量の一致性すら失われる。つまり、仮定の強弱によって統計分析の効率性と頑健性（robustness）のトレードオフがある。パラメトリック法に対して、できるだけ仮定を置かないようにするアプローチがノンパラメトリック法である。以下では、密度関数や回帰関数について、一定の滑らかさのみを仮定して推定を行う方法を紹介する。ノンパラメトリック法による推定量は非常に緩い仮定の下で一致性を有するが、通常は収束速度がパラメトリック法よりも遅い。一般にパラメトリック推定量はn⁻¹^/2の収束速度を持つが、ノンパラメトリック推定量は、ある定数δをおいて、n⁻¹^/2+δが収束速度となる。

8.1 パラメトリックモデルの特定化の誤り

上に書いたように仮定したパラメトリックモデルが間違っているときには、一般には推定量の一致性すら失われる。単純な一例として、単回帰モデルを考える。真の構造が

y_i = x²_i + ϵ_i, ϵ_i_|x_i_{∼ (0, σ}²_ϵ)

で、更にx_i _{∼ (0, σ}_x²)、x_iの分布は左右対称であるとする。このモデルに誤って線形モデル y_i= βx_i+ u_i

をあてはめてOLS推定を行ったとき、 βˆ = ^(∑x²_i⁾

−1_∑

xiyi =^(∑x²_i⁾

−1_∑

x³_i +^(∑x²_i⁾

−1_∑

xiϵi

= ^{( 1} n

∑x²_i )−1

1 n

∑x³_i +^{( 1} n

∑x²_i )−1

1 n

∑x_iϵ_i

→ σp x⁻²× 0 + σx⁻²× 0 = 0

となる。結果、xはyに影響を与えないという（間違った）結論を得ることになる。そこで、パラメトリックな仮定をおかない推定、検定法があればよいが、その第一ステップがノンパラメトリック密度推定である。

8.2 ノンパラメトリック密度推定

同時密度関数f (x)をもつd次元確率変数Xを考える。その分布から無作為標本_{Xi}, i =

1, · · · , nが得られたとき、密度関数を推定する問題を考える。密度関数の推定は、統計分析

一般にとって重要な問題である。なぜなら、同時密度関数が推定されれば、その確率変数に関するどのような量（平均、分散、分位点、条件付き分布、条件付き期待値、その他）でも計算できるからである。最も初歩的な推定法はヒストグラムである。

(2)

8.2.1 ヒストグラム

単純なケースとしてd = 1の場合を考える。ヒストグラムの始点x0、バンド幅（ビン幅） h > 0、ビンの数J を適当に決めて、

[x0, x0+ h), [x0+ h, x0+ 2h), · · · , [x⁰+ (J − 1)h, x⁰^{+ Jh)}

の各区間の中に含まれるデータ数を数えて棒グラフにしたものをヒストグラムという。式で書くと次のようになる。I_kをk番目の区間[x0+ (k − 1)h, x⁰^{+ kh)}^{とする。そのとき、区} 間I_kに含まれる点xにおける密度f (x)のヒストグラム推定値は

f (x) =ˆ ^{I^k^{に含まれる観測値の数}^} nh

である。ヒストグラムは直観的で簡単であるため、データの分布を概観するには良い手法である。しかし、以下のような問題点がある。

(1)始点x0の取り方によって大きく印象が変わることがある。 (2)各区間の端に近い点での推定値はよくないかもしれない。 (3)連続でない（微分できない；微分はほとんど至る所０になる）。

なお、ヒストグラムを図示する際には３変量以上では描けない。とはいえ、この問題は、すべての密度関数の推定法に共通する問題である。

8.2.2 Naive estimator (NE)

ヒストグラムの問題点(1)、(2)に対処した推定量がNEである。それは、ヒストグラムと違ってビンを固定せず、

f (x) =ˆ ^{{[x −}

h 2^{, x +}

h

2⁾^{に含まれる観測値の数}} nh

によって定義される。この推定量は、xの左右h/2の区間に入っている観測値の数を数えて密度の推定値を作っているので、hを小さくするとxのすぐ近くの観測値のみ用いることになり、逆にhを大きくするとxから離れた観測値も用いることになる。大きいhでは、当然使われるデータ数が増えるので分散が小さくなるが、xから離れた値をf (x)の推定に用いることになってしまい、それがバイアスの増加となって現れる。逆にhを小さくとると、バイアスは小さくなるがデータ数が減るために分散が上昇する。つまり、hの大小によって分散ーバイアスのトレードオフが生ずる。

ヒストグラムでは先にビンを決めてしまうが、NEはxに対応させて ”ビン ”（区間）を決める。この推定量は、以下のように書き換えられる。

f (x) =ˆ ¹ nh

n

∑

i=1

I (

x − ^h₂ ≤ Xi ≤ x +^h₂ )

= ¹

nh

n

∑

i=1

I (

−¹₂ ≤ ^Xⁱ_h^{− x} ≤ ¹₂ )

= ¹

nh

n

∑

i=1

I (

X_i_{− x} h

^≤

1 2

)

= ¹ n

n

∑

i=1

1 h^w

( x − Xi

h )

ただし

w(u) =

{1 |u| ≤ ¹2^のとき

0 |u| > ¹2^のとき

(3)

この推定量は(1), (2)の問題点の解決にはなっているが、(3)は残っている。それを解決しようとするのがカーネル推定量である。

8.2.3 カーネル密度推定量

w(u)を一般化して、

∫

K(u)du = 1, K(u) = K(−u) を満たす関数K(u)を用いて、

f (x) =ˆ ¹ nh

n

∑

i=1

K(^{x − X}ⁱ

h ⁾ ⁽¹⁾

をカーネル密度推定量という。hはバンド幅、平滑化パラメータなどと呼ばれ、K(u)はカーネル関数と呼ばれる。カーネル推定量は原理的にNEと同じであるため、hの選択によって NEと全く同様のバイアスー分散のトレードオフが起こる。

多変量のカーネル密度推定量は(1)の自然な拡張として f (xˆ 1, x2, · · · , xd^{) =}

1 nh1h2_{· · · h}_d

n

∑

i=1

K^{( x}¹^{− X}¹ⁱ h1

,^x²^{− X}²ⁱ h2 ^{, · · · ,}

x_d_{− X}_di h_d

)

によって与えられる。ここでの_K(·)は多変量カーネル関数である。通常は、１変量カーネル関数の積を多変量カーネル関数として使用する。つまり

f (xˆ 1, x2, · · · , xd^{) =}

1 nh1h2_{· · · h}_d

n

∑

i=1

K^{( x}¹^{− X}¹ⁱ h1

)

K^{( x}²^{− X}²ⁱ h2

)

· · · K^{( x}^d^{− X}_h ^di

d

)

とするのである。

8.2.4 カーネル密度推定量の漸近的性質

証明に以下の結果を用いる。

補題^{1 (}押さえ込み収束定理(Dominated convergence theorem)). g_n(x)をS上で定義された関数とし、gn_{(x) → g(x)}であるとする。また、_{x ∈ S}に対して_|gn(x)| ≤ m(x)^、^∫_Sm(x)dx <

∞^{を満たす関数}^m(x)^{があるとき、}

n→∞lim

∫

S

g_n(x)dx =

∫

S

g(x)dx が成り立つ。

定理 ^{1 (}一致性). (i) f (x)は２回連続微分可能である。

(ii) カーネル関数Kは有界なサポート_{[−c, c]}をもち、0 ≤ K(u) ≤ C, K(u) = K(−u),

∫ K(u)du = 1である。また、µ2=∫ u²K(u)du, κ =∫ K(u)²duとする。

(iii) バンド幅h > 0について、_{n → ∞}のときh → 0, nh → ∞^である。

(i)-(iii)が満たされているとき、xをf (x)のサポートの内点として、_{n → ∞}のとき E{ ˆf (x) − f(x)}² ⁼ ¹₄^h⁴^µ²²^f^′′^(x)²⁺^{κf (x)}_nh ^{+ o(h}⁴⁺_nh¹ ⁾

が成立する。したがって、f (x)^ˆ _{→ f(x)}^p が成立する。

(4)

（証明）まず、f (x)^ˆ の期待値と分散を評価する。iidの仮定とK(u)の対称性を用いて、 λ ∈ [0, 1]^について

E{ ˆf (x)} = E{_h¹^K(^{x − X}_h ¹)} = E{¹_h^K(^X¹_h^{− x})} =

∫ 1 h^K(

y − x

h ^{)f (y)dy}

=

∫

K(u)f (x + hu)du

=

∫

K(u){f(x) + huf^′^{(x) +} ^(hu)

2

2 ^f

′′(x + λhu)}du

= f (x) + ^h

2

∫

u²K(u)f^′′(x + λhu)du

と書ける。xを固定された点と見て、仮定(i)、(ii)より_{−c ≤ u ≤ c}において十分大きなn について_|f^′′(x + λhu)| < M < ∞^{が成立し、従って}

|u²^K(u)f^′′(x + λhu)| ≤ Mu²^K(u)

となり、またu²K(u)はK(u)のサポートの有界性より可積分である。更に、 u²K(u)f^′′(x + λhu) → u²^K(u)f^′′^(x)

であるから、補題6より

∫

u²K(u)f^′′(x + λhu)du →

∫

u²K(u)f^′′(x)du = µ2f^′′(x) (2) となる。従って、

E{ ˆf (x)} = f(x) + ^h

2

2 ^µ²^f

′′(x) + o(h²) (3)

を得る。次に分散を評価する。iidの仮定より、 V { ˆf (x)} = ¹

n [

E{¹ h^K(

x − X¹ h ^)}

2− [E{ ˆf (x)}]² ]

(4) で、右辺[ ]の中の第二項は(3)の２乗である。第一項は

E{¹_h^K(^{x − X}_h ¹)}² ⁼ _h¹2

∫

K(^{y − x} h ⁾

2f (y)dy

= ¹ h

∫

K(u)²f (x + hu)du

= ¹ h

∫

K(u)²{f(x) + huf^′^{(x) +} ^(hu)

2

2 ^f

′′(x + λhu)}du

= ¹

h^{{κf(x) +} h²

2

∫

u²K(u)²f^′′(x + λhu)du}

= ¹

hκf (x) + O(h) (5)

となる。最後の等号は、K(u)の有界性と(2)を用いた。(4)に(3)、(5)を代入して

V { ˆf (x)} = ^{κf (x)}_nh ^{+ o(}_nh¹ ⁾ を得る。従って、

M SE( ˆf (x)) = E{ ˆf (x) − f(x)}² ⁼ ¹₄^h⁴^µ²²^f^′′^(x)²⁺^{κf (x)}_nh ^{+ o(h}⁴⁺_nh¹ ⁾ ⁽⁶⁾

(5)

となる。また、(iii)よりM SE( ˆ_{f (x)) → 0}なので、 f (x)ˆ _{→ f(x)}^p が成立する。

この定理は各点での一致性を保証しているが、条件を少し強めることによってある閉区間D上の一様一致性(uniform consistency)

sup

x∈D^{| ˆ}f (x) − f(x)|→ 0^p

が証明される（詳細は例えばLi and Racine (2005) Nonparametric Econometrics, p.31, Theorem 1.4, 1.5を参照）。

次に、カーネル推定量に関する中心極限定理を証明なしに述べる（詳細は例えばLi and Racine (2005) Nonparametric Econometrics, p.29, Theorem 1.3を参照）。

定理 ^{2 (}漸近正規性). (i)f (x)は３回連続微分可能である。

(ii) カーネル関数Kは有界なサポート_{[−c, c]}をもち、0 ≤ K(u) ≤ C, K(u) = K(−u),

∫ K(u)du = 1である。また、µ2 =∫ u²K(u)duとする。

(iii) バンド幅h > 0について、_{n → ∞}のとき_{nh → ∞, nh}⁵_{→ 0}である。

(i)-(iii)が満たされているとき、xをf (x)のサポートの内点として、_{n → ∞}のとき

√nh{ ˆf (x) − f(x)}→ N(0, κf(x))^d である。

バンド幅の選択は実際にカーネル推定を行う時に厄介な問題である。ひとつの考え方は MSEが小さくなるようにhを選ぶやリ方である。(6)におけるオーダーの大きな項

1 4^h

4µ²2f^′′(x)²+^{κf (x)} nh をhに関して最小にするように

h(x)^∗= c(x)n⁻¹⁵, c(x) =

{ κf (x) µ²₂f^′′(x)²

}¹₅

とすることが考えられる。また、これはある特定の点xの推定において良い選択であって、密度関数全体としては良いかどうかわからない。そこで、大域的に見るためにMISE(mean integrated squared error)_{∫ E{ ˆ}f (x) − f(x)}²^dxのオーダーの大きい部分

∫ _{{ 1} 4^h

4µ²2f^′′(x)²+^{κf (x)} nh

} dx を小さくするように

h^∗ = c1n⁻¹⁵, c1 =

{ κ

µ²₂∫ f^′′(x)²dx }¹₅

と選ぶことも考えられる。ただし、こうして選んだバンド幅は、漸近正規性の条件である nh⁵_{→ 0}を満たさないことに注意する必要がある。いずれにしても、これらは未知の関数f を含む表現であるため、そのままでは実現可能でないため、色々な手法が提案されている。

(6)

8.3 ノンパラメトリック回帰推定

回帰モデルy = m(x) + ϵから無作為標本(yi, xi), i = 1, · · · , n^{が得られたとする。} y_i= m(x_i) + ϵ_i, i = 1, · · · , n

パラメトリックなアプローチでは、例えばm(x) = β^′xといった線形関係を想定してβ を LS推定する。しかし、特定化に誤りがあると推定は全く意味をもたなくなる。そこで、ノンパラメトリック法ではm(x)の形を特定化せずに関数そのものを推定することを考える。 (y, x)の同時密度関数をf (y, x)、xの密度関数をf (x)とすると、回帰関数の定義は

m(x) =

∫

yf (y|x)dy = _{f (x)}¹

∫

yf (y, x)dy である。f (x), f (y, x)のノンパラメトリック密度推定量を

f (x) =ˆ ¹ nh2

n

∑

i=1

K(^{x − X}ⁱ h2

)

f (y, x) =ˆ ¹ nh1h2

n

∑

i=1

K(^{y − y}ⁱ h1

)K(^{x − x}ⁱ h2

)

とすると、m(x)の自然な推定量は ˆ

m(x) = ¹ f (x)ˆ

∫

y ˆf (y, x)dy

である。ここで、

∫

y ˆf (y, x)dy =

∫ y ¹

nh1h2 n

∑

i=1

K(^{y − y}ⁱ h1

)K(^{x − x}ⁱ h2

)dy

= ¹

nh2 n

∑

i=1

∫

(yi+ h1u)K(u)K(^{x − x}ⁱ h2

)du

= ¹

nh2 n

∑

i=1

K(^{x − x}ⁱ h2

)y_i

なので、

ˆ

m(x) =

∑_n

i=1^K(^x−xh2ⁱ^)yⁱ

∑_n

i=1^K(^x−xh2ⁱ⁾

となる。これを回帰関数のNadaraya-Watson (NW)カーネル推定量という。一定の条件のもとで、一致性と漸近正規性を証明できる。

8.4 セミパラメトリック回帰推定

部分的にパラメータで特徴づけられる統計モデルをセミパラメトリックモデルという。以下にその代表的なものを記す。セミパラメトリックモデルは、パラメトリックな部分とノンパラメトリックな部分の両方を含む統計モデルであるが、そのパラメトリック部分に興味があり、ノンパラメトリック部分はnuisance parameter(局外母数)である場合が多い。多くのセミパラメトリック推定量は、収束が遅いノンパラメトリック部分の推定量を含むにも関わらずn⁻¹^/2のオーダーで収束するものが多く、当初は驚くべき結果と考えられていた。

(7)

8.4.1 部分線形回帰モデル(Robinson (1988), Econometrica)

これはサンプルセレクションモデル等を含むモデルで、_g(·)を未知の関数として

y_i= β^′x_i+ g(z_i) + ϵ_i, i = 1, · · · , n ⁽⁷⁾ によって定義される。言うまでもなく、回帰関数

E(y_i_|x_i, z_i) = β^′x_i+ g(z_i) (8) はxiについては線形である。興味対象となるパラメータはβであるとする。ziを条件づけて(7)の期待値を取って(7)から引くと、g(z_i)が消えて、

y_i_{− E(y}_i_|z_i) = β^′_{x_i_{− E(x}_i_|z_i_{)} + ϵ}_i

を得る。これは線形回帰モデルの形になっており、E(yi_|zi)とE(xi_|zi)がわかればOLSによってβが推定できる。それらの関数はノンパラメトリック回帰E(y^ˆ _i_|z_i)、E(x^ˆ _i_|z_i)により推定できるため、それらで置き換えて、βを

β = [ˆ

n

∑

i=1

{xⁱ− ˆ^E(xⁱ|zⁱ)}{xⁱ− ˆ^E(xⁱ|zⁱ)}^′^]⁻¹

n

∑

i=1

{xⁱ− ˆ^E(xⁱ|zⁱ)}{yⁱ− ˆ^E(yⁱ|zⁱ)}

によって推定することができる。(y_i, x_i, z_i)がiidで、ϵ_iはx_i, z_iと独立であるとき、この推定量は^√_n−一致性を持つ推定量であることが示されている。すなわち、ある正値定符号な V に対して

√n( ˆ_{β − β)}_{→ N(0, V )}^d

が導かれる。

8.4.2 _{インデックスモデル}

yがxの線形結合の未知関数_G(·)に依存する回帰モデル

y_i = G(β^′x_i) + ϵ_i

を（シングル）インデックスモデルという。例えばTobit, Probit, Logitなどはこのモデルの特殊ケースである。興味対象のパラメータはβである。このモデルに対して、_E(y|β^ˆ ^′x) を”ノンパラメトリック回帰推定量”

E(y|βˆ ^′^{x) =}

∑_n

j=1^K(

β^′x−β^τxj

h ^)y^j

∑n j=1^K(

β^′x−β^′xj

h ⁾

として

β = arg minˆ

β n

∑

i=1

{yi− ˆ^E(yi|β^′^xi)}²

によって推定することが考えられる。これをインデックスモデルのセミパラメトリックLS 推定量という(Ichimura (1993), Journal of Econometrics)。この目的関数はβに関して非線形なので数値計算が必要になる。

(8)

別のより簡便な推定法としてAveraged derivatives推定量 (H¨ardle & Stoker (1989), JASA)が提案されている。g(x) = G(β^′x)とおくと

g^′(x) = G^′(β^′x)β なので、

E{g^′(x)} = E{G^′^(β^′x)}β = cβ

となる。cはある未知定数である。従って、cβの推定は_E{g^′_(x)}の推定と同じである。xの密度をf として、g(u)f (u)が裾で0に収束すると仮定すると、

E{g^′(x)} =

∫

g^′(u)f (u)du = [g(u)f (u)]^∞−∞₋

∫

g(u)f^′(u)du

= −

∫

g(u)^f

′_(u)

f (u)^{f (u)du}

= −E {

g(x)^f

′_(x)

f (x) }

= −E {

y^f

′(x) f (x)

}

fのノンパラメトリック推定量をf^ˆとすると、これは

−¹_n

n

∑

i=1

y_i^f^ˆ

′_(x i⁾

f (xˆ _i)

によって推定できる。これらの推定量も、適当な仮定の下で^√_n−一致性を持つ推定量であることが示されている。

8.4.3 未知の分散不均一性を持つ回帰(Robinson (1987), Econometrica) 誤差項の分散が不均一な回帰モデル

y_i = β^′x_i+ ϵ_i, E(ϵ_i_|x_i) = 0, V (ϵ_i_|x_i) = σ²(x_i)

を考え、σ²(x)は未知関数であるとする。そのとき、次の２ステップFGLS推定によって、 βの効率的な推定量が得られる。

(i) OLS回帰を行い、残差ϵˆ_i = y_i_{− x}^′_iβ^ˆ_OLSを計算する。σ²(x_i) = E(u²_i_|x_i)なので、これをノンパラメトリック回帰とみなし、更にu_iをuˆ_iで置き換えて、

ˆ

σ²(x) = ¹ f (x)ˆ

1 nh^p

n

∑

i=1

K(^{x − x}ⁱ h ^)ˆ^u

2 i

によってσ²(x_i)の推定量を構成する。

(ii)上の結果を用いて、以下のFGLSを行う。 β = {ˆ

n

∑

i=1

(x_i_{− ¯x)(x}_i_{− ¯x)}^′ ˆ

σ²(x_i) ^}

−1 n

∑

i=1

(x_i_{− ¯x)(y}_i_{− ¯y)} ˆ

σ²(x_i) この推定量も^√_n−一致性を有する推定量であることが示される。

(9)

計量経済学の分野では、1980年代の終わりころから様々なセミパラメトリックモデルが提案され、その推定法が開発されてきた。その一つの理由は、経済理論は完全にパラメトリックな統計モデルを与えることはできないため、興味ある部分のみをパラメトリックに表現し、それ以外を特定しないモデルが計量経済学は適切であると考えられることである。また、ノンパラメトリックモデルは非常に緩い仮定の下でよい性質を持つが、収束のオーダーが遅いため、経済データのサンプル数が通常多くないことを考慮すると、パラメトリック法と同じ収束オーダーをもつセミパラメトリック法は経済分析に適切であると考えられる。