つの方法

• 各個人ごとに計算した統計量の分布を分析する

• Deconvolution^法

• グループ化

平均以外の統計量

変量係数モデルに関しては、近年も重要な研究がいくつか発表されている。

始めに、各個人ごとに推定した係数の統計量を計算する方法を紹介する。

• Arellano and Bonhomme (2012)は、変量係数の平均分散の識別推定を議論している。なお、この論文は変量係数の分布も考えているがそれについては後述。

• Fern´andez-Val and Lee (2013)はモーメント条件で定義されるモデルの変量係数の平均や分散などの推定方法を議論している。

• 変量係数モデルとは少し異なるが、動学構造を示す係数の分布を求める方法をOkui and Yanagi (2015)^{は考案している。}

Arellano and Bonhomme (2012)

先に見た一部の変数の係数が変量係数になっているモデルを考える。

y_it=w_it^′a_i+x_it^′β+u_it (30) 各a_i^{の推定量は}

ai = (W_i^′Wi)⁻¹W_i^′(Yi−Xiβ)ˆ (31) となる。

• 既に平均の推定については紹介したので、ここでは、分散の推定に焦点を合わせる。

変量係数の分散の推定

a_i ^の分散はa_i の分散の一致推定量にはなっておらず(^{非線形バイ} アス)、バイアス修正が必要になる。

Var(ˆa_i) =Var(ai) +Var((W_i^′W_i)⁻¹W_i^′U_i) (32) したがって、

(Var\(ai)) = 1 N

i=1

(ˆa_i−µˆa)(ˆa_i −µˆa)^′−Var((W_i\^′W_i)⁻¹W_i^′U_i) (33) として、分散の推定ができる。

しかし、Var((W_i\^′Wi)⁻¹W_i^′Ui)^{を推定するためには}Uiの相関構造に制約が必要である。

分散の推定 : 誤差項が均一分散の場合

誤差項U_iが均一分散で系列相関がないなら、

σ² = 1

N(T −q)

i=1

(Y_i−X_iβˆ)^′M_i(Y_i−X_iβ)ˆ (34)

として、

Var((W_i\^′Wi)⁻¹W_i^′Ui) = ˆσ²1 N

i=1

(W_i^′Wi)⁻¹ (35)

を使うと良い。

Fernand´ez-Val and Lee (2013)

モーメント条件で定義されるモデルに変量係数が入っている場合

E(g(z_it, θ₀, α_i₀)) = 0 (36)

• g は既知の関数

• θ₀^{は個人間で共通の係数}θ^の真値

• αi0は個人間で異なる係数αi の真値

• この論文ではN,T → ∞の元での推定を考えている。

FE-GMM ^推定

推定はGMM^{の様な推定量で行う。}

(ˆθ,{αˆi}^Ni=1) = arg inf

(θ,{αi}^N_i=1) N

i=1

g_i(θ, αi)^′W_igˆ_i(θ, αi) (37)

ただし、

g_i(θ, αi) = 1 T

t=1

g(zit, θ, αi) (38)

かつW_i は重み付け行列である。

• 各個人ごとにGMMの目的関数を作って、その和を取る形で目的関数が定義されている。

変量係数のモーメントの推定

αiの平均や分散は、αˆiの平均や分散を取ることで推定できる。例えば、αi の平均は

ˆ µ_α = 1

i=1

αi (39)

とする。

• この方法は、N,T → ∞の漸近理論のもとで一致性をもつ。

• T ^がNに比べて非常に大きくない場合には、推定量にバイアスがでるので、バイアス修正が必要となる。

• この論文では、バイアスの式を明示的に導出し、その式を元にバイアスをanalyticalに推定する方法を提唱している。

Dhaene and Jochmans (2015)のハーフパネルジャックナイフも使用可能。

Okui and Yanagi (2015)

動学構造が個人ごとに異なる場合に、平均や自己共分散などの分布を分析する手法である。

設定は、以下の通りである。

• まず、αi をある分布から個人ごとの独立に抽出する。

• そして、{y_it}^Tt=1の値を、αiに依存する分布L({y_it}^Tt=1;αi) から抽出する。

• µi =E(yit|αi)が個人ごとに異なる平均になる。

w_it =y_it−µ_i ^とおく。

• γ_k,i =E(witw_i,t−k|αi)^が個人iにとっての自己共分散になる。

個人ごとの平均と自己共分散

まず、個人ごとの平均と自己共分散を計算する。

µ_i := ¯y_i := 1 T

t=1

y_it,

と

γ_k,i := 1 T −k

t=k+1

(yit−y¯i)(y_i,t−k −y¯i).

と定義する。

そして、µˆi とγˆ_k,i ^{の分布を用いて、}µiとγ_k,i ^{の分布を推定する。}

分布と分位点

分布や分位点の推定量は、µˆ_i ^あるいはγˆ_k,i^{の経験分布から得ら} れる。

例えば、µi の分布は、

F^µ_N^ˆ(a) := 1 N

i=1

1(ˆµi ≤a),

として推定する。ただし、 1(·)^{は指示関数であり}a∈R^である。

また、µiのτ ^{分位点は、}

q_τ := inf{a:F^muN^ˆ (a)≥τ}. として、推定する。

ある関数の期待値

興味のある数量が、µi あるいはγ_k,i の滑らかな関数の期待値として書ける場合は、T がそれほど大きくなくとも、バイアスが小さいことが証明できる。

θi をµiとγ_k,i ^{のベクトルとする。}

hを滑らかな関数とする。

H :=E(h(θi))^{の推定は、}

Hˆ := 1 N

i=1

h(ˆθi).

として出来る。HˆはN/T² →0のとき、漸近的にバイアスがない。

• 例１：µi の平均の場合は、h(θi) =µi。

• 例２：µi とγ_1,i^{の共分散は、}h(θi) = (µiγ_1,i, µi, γ_1,i)^として、

Hˆ^{を推定し、}E(µ_iγ_1,i)−E(µ_i)E(γ_1,i)^{の推定量を求める。}

ハーフパネルジャックナイフ

Dhaene and Jochmans (2015)によるハーフパネルジャックナイフ

(HPJ)を使用して、バイアス修正を行う。

T が偶数の場合を考える。(奇数の場合は論文を参照)

1. まず、パネルデータを前半と後半の二つのパネルデータに分ける。({{y_it}^T/2t=1}^Ni=1と{{y_it}^T_t=T/2+1}^Ni=1)

2. H(1)ˆ ^とH(2)ˆ ^{を、それぞれ、}{{y_it}^T/2t=1}^Ni=1あるいは

{{yit}^T_t=T/2+1}^Ni=1を使った推定量とする。

3. HPJ^{推定量は、}

H˜^HPJ = 2 ˆH−1 2

H(1) + ˆˆ H(2) .

となる。この推定量は、バイアスの最大項を消すことができる。

Deconvolution ^法

変量係数の分布を、Deconvolution法を用いて推定する方法が、近年提唱されている。

• T → ∞の状況では、先に見たように直接的に分布を推定することができる。

• しかし、T が固定の場合は、変量係数の分布を推定するため

には、Deconvolution法、あるいはそれを一般化した線形作

用素の逆作用素を取る方法が必要になる。

Deconvolution ^{法の基本的なアイデア}

Deconvolution法の基本的なアイデアを説明するために、次の簡

単な例を考える。

X₁=u+e₁ (40)

X₂=u+e₂ (41)

X₁^とX₂の分布は分かっており、u,e₁ ,e₂^{は独立に分布し}e₁^とe₂ は同じ対称な分布を持つとする。

確率変数u^{の特性関数を}

φ_u(τ) =E(exp(juτ)) (42) と定義する。ただしj^{は虚数単位である。}

またe₁^とe₂^{の特性関数を}

φe(τ) =E(exp(je₁τ)) =E(exp(je₂τ)) (43) とする。

Deconvolution ^{法による識別}

X₁^とX₂の分布は分かっているので、その特性関数も分かる。

φ_X(τ) =E(exp(jX₁τ)) =φu(τ)φe(τ) (44) またX₁−X₂=e₁−e₂ ^{の特性関数から}e^{の特性関数も分かる。}

φe(τ) = (φe(τ)φe(τ))^1/2 =E(exp(j(e₁−e₂)))^1/2 (45) したがって、

φu(τ) = φX(τ)

φ_e(τ) (46)

として、uの特性関数も識別出来る。

• Deconvolution^法はKotlarski (1967)が初期の重要な研究としてあげられる。その後、数学的にも応用上も大きな進展を遂げた。

Deconvolution ^推定量

u^やe₁,e₂^{の分布は、}X₁^とX₁−X₂の特性関数を推定し、それを逆フーリエ変換することで得られる。

たとえば、u^{の密度関数は、}

fˆ_u(a) = 1 2π

Z ∞

−∞

K(τ) exp(−jaτ) ˆφX(τ)/φˆe(τ)dτ (47) ただし、K(τ)はトリミング関数であり、大きい値のτ ^{を計算から} 除く。

• K(τ)を入れないと、推定はうまく行かない。

• Deconvolution^問題は、ill-posed inverse^{問題を起こす代表的} な例であり、トリミングなどといったregularization^がかなり重要な役割を果たす。

経済学での応用

• Deconvolution^法は、Horowitz and Markatou (1996)^によって経済学界で知られるようになったと思われる。かれらは、パネルデータへの応用を行っている。

• 近年、多くの分野で使用されるようになった。

• ファクターモデル: Cunha, Heckman and Schennach (2010) 測定誤差のある変数を含むモデルの分析: Schennach (2007) オークション: Krasnokutskaya (2011)

マッチング(ミクロ経済学の意味での。学校選択など):

Agarwal and Diamond (2014)

• ここでは、Deconvolution法を応用による、個人間の異質性を分析する手法を紹介する。

Arellano and Bonhomme (2012)

先に見た一部の変数の係数が変量係数になっているモデルを考える。

yit=w_it^′ai+x_it^′β+uit (48) 各aiの推定量は

ai = (W_i^′Wi)⁻¹W_i^′(Yi−Xiβ)ˆ (49) となる。

a_i =a_i+ (W_i^′W_i)⁻¹W_i^′U_i (50) という式から、(W_i^′Wi)⁻¹W_i^′Uiの分布が分かると、aiの分布が分かる。

• 実際の方法は論文を参照のこと。

Mavroedis, Sasaki and Welch (2015)

パネルAR(1)モデルで、変量係数になっている場合の識別と推定

を考察している。

yit =αi+βiy_i,t−1+ǫit (51)

ただし、ǫit ∼N(0, σ²_i) というモデルを考える。

• おそらく、ここで議論されている方法はDeconvolution^法とは呼ばれないだろう。より一般的な線形作用素の逆変換の議論を用いている。

変量係数からデータへの線形作用素

変量係数の分布F(α, β, σ²|y₁)^{からデータの分布}F(y_T, . . . ,y₂|Y₁) は、次の線形作用素で表現できる。

L(ξ)(yT, . . . ,y₂) (52)

= Z Z Z

ξ(a,b,s)

s^1−T

t=2

yt−a−by_t−1 s

da·db·ds

(53) データの分布F(yT, . . . ,y₂|y₁)^{は識別できるので、}L作用素の逆変換をとることができれば変量係数の分布の識別が出来る。

• この論文の本論では、F(α, β, σ²|y₁)^{が正規分布と仮定し、}

local maximum likelihoodでの推定を考えている。Sieve^近似を用いたnonparameteric^な方法はAppendix^にある。

グループ化

個人を数個のグループにわけて、各グループ内では係数の値は同じだが、グループが異なると係数の値も異なるというモデル。

• いわゆる構造推定の分野では、広く使われてきた。Keane and Wolpin (1997)^など。

• 動学的離散選択モデルでは標準的な手法であり、計量経済学での研究の蓄積も多い。Kasahara and Shimotsu (2009)^など。

• ただし、これまではいわゆる有限混合モデルが中心である。

• ここでは、線型モデルで、機械学習的な手法を使ってグループ分けを行う方法を紹介する。

Bonhomme and Manresa (2015)

次の切片が個人ごとにも時間を通じても異なるモデルを考える。

y_it =x_it^′β+α_g_i_t+v_it (54) ただし、全ての個人が異なる切片をもつわけではなく、各個人は G 個あるグループのどれかに属し、グループ内では、同じ切片を持つものとする。

• これをグループ固定効果(Grouped fixed effects)^と呼ぶ。

• いわゆる“kmeans”と呼ばれる手法の拡張になる。

• N/T^ν →0^があるv>0に成り立つとよいという弱い条件のもとで正当化できる。ただしT → ∞^は必要。

• 係数がグループ構造を持つモデルもOnline Appendix^で議論されている。

推定量

推定はOLS^で可能(STATA^{コードも存在する})

( ˆβ,α,ˆ ˆγ) = arg min

i=1 T

t=1

(yit−x_it^′β−αgit)² (55)

ただし、γ^はN^個体をG 個のグループに配分するやり方である。

• N,T → ∞^かつN/T^ν → 0^があるv >0^{に成り立つ、という} 条件が必要。

• ただし、標準誤差はT が固定の元で求めた分散の推定量を使用するとよい。

アルゴリズム

1. β^とα^{の初期値を決める。}(β⁽⁰⁾, α⁽⁰⁾)^とする。s = 0^とおく。

2. ^すべてのiをグループ分けする。

g_i^(s+1) = arg min

g∈{1,...,G} T

t=1

(y_it−x_it^′β^(s)−α^(s)_g_i_t)² (56) 3. β^とα^{の値を更新する。}

(β^(s+1), α^(s+1)) = arg min

β,α T

t=1

(y_it−x_it^′β−α_g(s+1)

i t)² (57)

• 論文によると、この方法はG = 3^{までうまくいく。}

• しかし、kmeans法はより速く安定した手法が現在も開発されており、それらを応用することで、グループが多い場合も計算が可能になる。

Su, Shi and Phillips (2014)

変量係数モデルを考える。

y_it=x_it^′βi+αi +v_it (58) ただし、β_iは個体ごとに異なるが、個体はG^{個のグループのどれ} かに属するし、グループ内では係数の値は同じとする。

• G ^{個の異なる係数を}(θ₁, . . . , θG)^とする。

• αiは個人ごとに異なってもよい。

CLasso ^推定

固定効果変換を行った変数に次のCLasso (classfier Lasso)^を使用する。

( ˆβ,θ) = arg minˆ

β,θ

1 NT

i=1 T

t=1

(¨yit−x¨_it^′βi)²+ λ N

g=1

kβi −θgk (59)

• λ^はtuning parameter^。

• L1^{罰則の性質により、}βˆi = ˆθg があるg ^{について漸近的に確} 率1^{で成り立つ。}

• N,T → ∞^が必要。T ^{の大きさの条件は}λ^{の大きさによる。}

補足

Su, Shi and Phillips (2014)では他にも多くの分析がなされている。

• 動学パネルデータモデルのCLasso^によるGMM^推定

• グループの数を情報量基準から選択する方法

• グループの数を検定する方法はLu and Su (2014)^{で紹介され} ている。

ドキュメント内 pdf 教育 OKUI, Ryo panel hetero v2 (ページ 31-60)

平均以外の統計量

Arellano and Bonhomme (2012)

変量係数の分散の推定

分散の推定 : 誤差項が均一分散の場合

Fernand´ez-Val and Lee (2013)

FE-GMM 推定

変量係数のモーメントの推定

Okui and Yanagi (2015)

個人ごとの平均と自己共分散

分布と分位点

ある関数の期待値

ハーフパネルジャックナイフ

Deconvolution 法

Deconvolution 法の基本的なアイデア

Deconvolution 法による識別

Deconvolution 推定量

経済学での応用

Arellano and Bonhomme (2012)

Mavroedis, Sasaki and Welch (2015)

変量係数からデータへの線形作用素

グループ化

Bonhomme and Manresa (2015)

推定量

アルゴリズム

Su, Shi and Phillips (2014)

CLasso 推定

補足

FE-GMM ^推定

Deconvolution ^法

Deconvolution ^{法の基本的なアイデア}

Deconvolution ^{法による識別}

Deconvolution ^推定量

CLasso ^推定