• 各個人ごとに計算した統計量の分布を分析する
• Deconvolution法
• グループ化
平均以外の統計量
変量係数モデルに関しては、近年も重要な研究がいくつか発表さ れている。
始めに、各個人ごとに推定した係数の統計量を計算する方法を紹 介する。
• Arellano and Bonhomme (2012)は、変量係数の平均分散の識 別推定を議論している。なお、この論文は変量係数の分布も 考えているがそれについては後述。
• Fern´andez-Val and Lee (2013)はモーメント条件で定義され るモデルの変量係数の平均や分散などの推定方法を議論して いる。
• 変量係数モデルとは少し異なるが、動学構造を示す係数の分 布を求める方法をOkui and Yanagi (2015)は考案している。
Arellano and Bonhomme (2012)
先に見た一部の変数の係数が変量係数になっているモデルを考 える。
yit=wit′ai+xit′β+uit (30) 各aiの推定量は
ˆ
ai = (Wi′Wi)−1Wi′(Yi−Xiβ)ˆ (31) となる。
• 既に平均の推定については紹介したので、ここでは、分散の 推定に焦点を合わせる。
変量係数の分散の推定
ˆ
ai の分散はai の分散の一致推定量にはなっておらず(非線形バイ アス)、バイアス修正が必要になる。
Var(ˆai) =Var(ai) +Var((Wi′Wi)−1Wi′Ui) (32) したがって、
(Var\(ai)) = 1 N
N
X
i=1
(ˆai−µˆa)(ˆai −µˆa)′−Var((Wi\′Wi)−1Wi′Ui) (33) として、分散の推定ができる。
しかし、Var((Wi\′Wi)−1Wi′Ui)を推定するためにはUiの相関構造 に制約が必要である。
分散の推定 : 誤差項が均一分散の場合
誤差項Uiが均一分散で系列相関がないなら、
ˆ
σ2 = 1
N(T −q)
N
X
i=1
(Yi−Xiβˆ)′Mi(Yi−Xiβ)ˆ (34)
として、
Var((Wi\′Wi)−1Wi′Ui) = ˆσ21 N
N
X
i=1
(Wi′Wi)−1 (35)
を使うと良い。
Fernand´ez-Val and Lee (2013)
モーメント条件で定義されるモデルに変量係数が入っている場合
E(g(zit, θ0, αi0)) = 0 (36)
• g は既知の関数
• θ0は個人間で共通の係数θの真値
• αi0は個人間で異なる係数αi の真値
• この論文ではN,T → ∞の元での推定を考えている。
FE-GMM 推定
推定はGMMの様な推定量で行う。
(ˆθ,{αˆi}Ni=1) = arg inf
(θ,{αi}Ni=1) N
X
i=1
ˆ
gi(θ, αi)′Wigˆi(θ, αi) (37)
ただし、
ˆ
gi(θ, αi) = 1 T
T
X
t=1
g(zit, θ, αi) (38)
かつWi は重み付け行列である。
• 各個人ごとにGMMの目的関数を作って、その和を取る形で 目的関数が定義されている。
変量係数のモーメントの推定
αiの平均や分散は、αˆiの平均や分散を取ることで推定できる。例 えば、αi の平均は
ˆ µα = 1
N
N
X
i=1
ˆ
αi (39)
とする。
• この方法は、N,T → ∞の漸近理論のもとで一致性をもつ。
• T がNに比べて非常に大きくない場合には、推定量にバイア スがでるので、バイアス修正が必要となる。
• この論文では、バイアスの式を明示的に導出し、その式を元 にバイアスをanalyticalに推定する方法を提唱している。
Dhaene and Jochmans (2015)のハーフパネルジャックナイフ も使用可能。
Okui and Yanagi (2015)
動学構造が個人ごとに異なる場合に、平均や自己共分散などの分 布を分析する手法である。
設定は、以下の通りである。
• まず、αi をある分布から個人ごとの独立に抽出する。
• そして、{yit}Tt=1の値を、αiに依存する分布L({yit}Tt=1;αi) から抽出する。
• µi =E(yit|αi)が個人ごとに異なる平均になる。
wit =yit−µi とおく。
• γk,i =E(witwi,t−k|αi)が個人iにとっての自己共分散になる。
個人ごとの平均と自己共分散
まず、個人ごとの平均と自己共分散を計算する。
ˆ
µi := ¯yi := 1 T
T
X
t=1
yit,
と
ˆ
γk,i := 1 T −k
T
X
t=k+1
(yit−y¯i)(yi,t−k −y¯i).
と定義する。
そして、µˆi とγˆk,i の分布を用いて、µiとγk,i の分布を推定する。
分布と分位点
分布や分位点の推定量は、µˆi あるいはγˆk,iの経験分布から得ら れる。
例えば、µi の分布は、
FµNˆ(a) := 1 N
N
X
i=1
1(ˆµi ≤a),
として推定する。ただし、 1(·)は指示関数でありa∈Rである。
また、µiのτ 分位点は、
ˆ
qτ := inf{a:FmuNˆ (a)≥τ}. として、推定する。
ある関数の期待値
興味のある数量が、µi あるいはγk,i の滑らかな関数の期待値とし て書ける場合は、T がそれほど大きくなくとも、バイアスが小さ いことが証明できる。
θi をµiとγk,i のベクトルとする。
hを滑らかな関数とする。
H :=E(h(θi))の推定は、
Hˆ := 1 N
N
X
i=1
h(ˆθi).
として出来る。HˆはN/T2 →0のとき、漸近的にバイアスが ない。
• 例1:µi の平均の場合は、h(θi) =µi。
• 例2:µi とγ1,iの共分散は、h(θi) = (µiγ1,i, µi, γ1,i)として、
Hˆを推定し、E(µiγ1,i)−E(µi)E(γ1,i)の推定量を求める。
ハーフパネルジャックナイフ
Dhaene and Jochmans (2015)によるハーフパネルジャックナイフ
(HPJ)を使用して、バイアス修正を行う。
T が偶数の場合を考える。(奇数の場合は論文を参照)
1. まず、パネルデータを前半と後半の二つのパネルデータに分 ける。({{yit}T/2t=1}Ni=1と{{yit}Tt=T/2+1}Ni=1)
2. H(1)ˆ とH(2)ˆ を、それぞれ、{{yit}T/2t=1}Ni=1あるいは
{{yit}Tt=T/2+1}Ni=1を使った推定量とする。
3. HPJ推定量は、
H˜HPJ = 2 ˆH−1 2
H(1) + ˆˆ H(2) .
となる。この推定量は、バイアスの最大項を消すことがで きる。
Deconvolution 法
変量係数の分布を、Deconvolution法を用いて推定する方法が、近 年提唱されている。
• T → ∞の状況では、先に見たように直接的に分布を推定す ることができる。
• しかし、T が固定の場合は、変量係数の分布を推定するため
には、Deconvolution法、あるいはそれを一般化した線形作
用素の逆作用素を取る方法が必要になる。
Deconvolution 法の基本的なアイデア
Deconvolution法の基本的なアイデアを説明するために、次の簡
単な例を考える。
X1=u+e1 (40)
X2=u+e2 (41)
X1とX2の分布は分かっており、u,e1 ,e2は独立に分布しe1とe2 は同じ対称な分布を持つとする。
確率変数uの特性関数を
φu(τ) =E(exp(juτ)) (42) と定義する。ただしjは虚数単位である。
またe1とe2の特性関数を
φe(τ) =E(exp(je1τ)) =E(exp(je2τ)) (43) とする。
Deconvolution 法による識別
X1とX2の分布は分かっているので、その特性関数も分かる。
φX(τ) =E(exp(jX1τ)) =φu(τ)φe(τ) (44) またX1−X2=e1−e2 の特性関数からeの特性関数も分かる。
φe(τ) = (φe(τ)φe(τ))1/2 =E(exp(j(e1−e2)))1/2 (45) したがって、
φu(τ) = φX(τ)
φe(τ) (46)
として、uの特性関数も識別出来る。
• Deconvolution法はKotlarski (1967)が初期の重要な研究とし てあげられる。その後、数学的にも応用上も大きな進展を遂 げた。
Deconvolution 推定量
uやe1,e2の分布は、X1とX1−X2の特性関数を推定し、それを 逆フーリエ変換することで得られる。
たとえば、uの密度関数は、
fˆu(a) = 1 2π
Z ∞
−∞
K(τ) exp(−jaτ) ˆφX(τ)/φˆe(τ)dτ (47) ただし、K(τ)はトリミング関数であり、大きい値のτ を計算から 除く。
• K(τ)を入れないと、推定はうまく行かない。
• Deconvolution問題は、ill-posed inverse問題を起こす代表的 な例であり、トリミングなどといったregularizationがかなり 重要な役割を果たす。
経済学での応用
• Deconvolution法は、Horowitz and Markatou (1996)によって 経済学界で知られるようになったと思われる。かれらは、パ ネルデータへの応用を行っている。
• 近年、多くの分野で使用されるようになった。
• ファクターモデル: Cunha, Heckman and Schennach (2010) 測定誤差のある変数を含むモデルの分析: Schennach (2007) オークション: Krasnokutskaya (2011)
マッチング(ミクロ経済学の意味での。学校選択など):
Agarwal and Diamond (2014)
• ここでは、Deconvolution法を応用による、個人間の異質性 を分析する手法を紹介する。
Arellano and Bonhomme (2012)
先に見た一部の変数の係数が変量係数になっているモデルを考 える。
yit=wit′ai+xit′β+uit (48) 各aiの推定量は
ˆ
ai = (Wi′Wi)−1Wi′(Yi−Xiβ)ˆ (49) となる。
ˆ
ai =ai+ (Wi′Wi)−1Wi′Ui (50) という式から、(Wi′Wi)−1Wi′Uiの分布が分かると、aiの分布が分 かる。
• 実際の方法は論文を参照のこと。
Mavroedis, Sasaki and Welch (2015)
パネルAR(1)モデルで、変量係数になっている場合の識別と推定
を考察している。
yit =αi+βiyi,t−1+ǫit (51)
ただし、ǫit ∼N(0, σ2i) というモデルを考える。
• おそらく、ここで議論されている方法はDeconvolution法と は呼ばれないだろう。より一般的な線形作用素の逆変換の議 論を用いている。
変量係数からデータへの線形作用素
変量係数の分布F(α, β, σ2|y1)からデータの分布F(yT, . . . ,y2|Y1) は、次の線形作用素で表現できる。
L(ξ)(yT, . . . ,y2) (52)
= Z Z Z
ξ(a,b,s)
"
s1−T
T
Y
t=2
φ
yt−a−byt−1 s
#
da·db·ds
(53) データの分布F(yT, . . . ,y2|y1)は識別できるので、L作用素の逆 変換をとることができれば変量係数の分布の識別が出来る。
• この論文の本論では、F(α, β, σ2|y1)が正規分布と仮定し、
local maximum likelihoodでの推定を考えている。Sieve近似 を用いたnonparametericな方法はAppendixにある。
グループ化
個人を数個のグループにわけて、各グループ内では係数の値は同 じだが、グループが異なると係数の値も異なるというモデル。
• いわゆる構造推定の分野では、広く使われてきた。Keane and Wolpin (1997)など。
• 動学的離散選択モデルでは標準的な手法であり、計量経済学 での研究の蓄積も多い。Kasahara and Shimotsu (2009)など。
• ただし、これまではいわゆる有限混合モデルが中心である。
• ここでは、線型モデルで、機械学習的な手法を使ってグルー プ分けを行う方法を紹介する。
Bonhomme and Manresa (2015)
次の切片が個人ごとにも時間を通じても異なるモデルを考える。
yit =xit′β+αgit+vit (54) ただし、全ての個人が異なる切片をもつわけではなく、各個人は G 個あるグループのどれかに属し、グループ内では、同じ切片を 持つものとする。
• これをグループ固定効果(Grouped fixed effects)と呼ぶ。
• いわゆる“kmeans”と呼ばれる手法の拡張になる。
• N/Tν →0があるv>0に成り立つとよいという弱い条件の もとで正当化できる。ただしT → ∞は必要。
• 係数がグループ構造を持つモデルもOnline Appendixで議論 されている。
推定量
推定はOLSで可能(STATAコードも存在する)
( ˆβ,α,ˆ ˆγ) = arg min
N
X
i=1 T
X
t=1
(yit−xit′β−αgit)2 (55)
ただし、γはN個体をG 個のグループに配分するやり方である。
• N,T → ∞かつN/Tν → 0があるv >0に成り立つ、という 条件が必要。
• ただし、標準誤差はT が固定の元で求めた分散の推定量を使 用するとよい。
アルゴリズム
1. βとαの初期値を決める。(β(0), α(0))とする。s = 0とおく。
2. すべてのiをグループ分けする。
gi(s+1) = arg min
g∈{1,...,G} T
X
t=1
(yit−xit′β(s)−α(s)git)2 (56) 3. βとαの値を更新する。
(β(s+1), α(s+1)) = arg min
β,α T
X
t=1
(yit−xit′β−αg(s+1)
i t)2 (57)
• 論文によると、この方法はG = 3までうまくいく。
• しかし、kmeans法はより速く安定した手法が現在も開発さ れており、それらを応用することで、グループが多い場合も 計算が可能になる。
Su, Shi and Phillips (2014)
変量係数モデルを考える。
yit=xit′βi+αi +vit (58) ただし、βiは個体ごとに異なるが、個体はG個のグループのどれ かに属するし、グループ内では係数の値は同じとする。
• G 個の異なる係数を(θ1, . . . , θG)とする。
• αiは個人ごとに異なってもよい。
CLasso 推定
固定効果変換を行った変数に次のCLasso (classfier Lasso)を使用 する。
( ˆβ,θ) = arg minˆ
β,θ
1 NT
N
X
i=1 T
X
t=1
(¨yit−x¨it′βi)2+ λ N
G
Y
g=1
kβi −θgk (59)
• λはtuning parameter。
• L1罰則の性質により、βˆi = ˆθg があるg について漸近的に確 率1で成り立つ。
• N,T → ∞が必要。T の大きさの条件はλの大きさによる。
補足
Su, Shi and Phillips (2014)では他にも多くの分析がなされて いる。
• 動学パネルデータモデルのCLassoによるGMM推定
• グループの数を情報量基準から選択する方法
• グループの数を検定する方法はLu and Su (2014)で紹介され ている。