• 検索結果がありません。

大学院 計量経済分析 Masumi Kawade Site 08douji

N/A
N/A
Protected

Academic year: 2018

シェア "大学院 計量経済分析 Masumi Kawade Site 08douji"

Copied!
21
0
0

読み込み中.... (全文を見る)

全文

(1)

8 多変量回帰分析、そして誤差項と説明変数

複数の方程式を利用した推定を行いたいことがあるとき、一つずつの方程式を 通常通りに推定するだけではいろいろな問題が出てきてしまいます。それらの対 処についてここでは学ぶことになります。

8.1 多変量回帰分析

単一の方程式でモデルを分析することもありますが、複数の方程式が体系となっ ているようなモデルを推定することもあります。そこで、それらについての理論 的な骨格を学ぶことにしましょう。

8.1.1 多変量回帰分析とは

これまでの推定量は単一方程式を推定する方法を考えてきました。しかし、経 済理論は演繹的に導かれた単一方程式で議論される以外に、構造方程式をそのま ま推定する方法もあります。ここでいう構造方程式とは、

y1,t = β1,1+ β1,2x1,t+ β1,3x2,t+ · · · + β1,KxK−1,t+ γ1,1y1,t+ · · · + γ1,MyM,t+ ǫ1,t

y2,t = β2,1+ β2,2x1,t+ β2,3x2,t+ · · · + β2,KxK−1,t+ γ2,1y1,t+ · · · + γ2,MyM,t+ ǫ2,t

y3,t = β3,1+ β3,2x1,t+ β3,3x2,t+ · · · + β3,KxK−1,t+ γ3,1y1,t+ · · · + γ3,MyM,t+ ǫ3,t

...

yM,t = βM,1+ βM,2x1,t + βM,3x2,t + · · · + βM,KxK−1,t+ γM,1y1,t+ · · · + γM,MyM,t+ ǫM,t

(8.1) というものであり、各方程式が理論的な行動方程式を表現したものです。当然、経 済学の手続きではこれらは解析的な議論を通じて一つの関係式を導く必要がある のですが、それが難しい場合などはこのまま分析することが求められます。それ らの種類と推定方法を考えてゆきましょう。

8.2 Seemingly Unrelated Regressions モデルと回帰分析

多変量回帰分析における単純なケースであるSeemingly Unrelated Regressions (SUR) モデルを考えてみましょう。後に述べる同時方程式が多変量回帰分析の中 心的役割を担いますが、まずは最も簡単なSUR モデルで、たくさんの方程式を扱 う練習をしましょう。

(2)

8.2.1 Seemingly Unrelated Regressions (SUR) モデルとは

複数の単一方程式を推定する際に、それぞれの方程式に、他の方程式の被説明 変数が用いられていないのに、関係性があるということが考えられるでしょう。す なわち、

y1,t = β1,1+ β1,2x1,1,t+ β1,3x1,2,t+ · · · + β1,Kx1,K−1,t+ ǫ1,t y2,t = β2,1+ β2,2x2,1,t+ β2,3x2,2,t+ · · · + β2,Kx2,K−1,t+ ǫ2,t y3,t = β3,1+ β3,2x3,1,t+ β3,3x3,2,t+ · · · + β3,Kx3,K−1,t+ ǫ3,t

...

yM,t= βM,1+ βM,2xM,1,t+ βM,3xM,2,t+ · · · + βM,KxM,K−1,tǫM,t

(8.2)

の様に示されます。当然、個別に推定すればよいという話が最初に浮かびますが、 何かの関係があるということがそれでは議論できません。何かの関係とは何でしょ うか。それは誤差項間の関係です。すなわち、ショックが共有されるようなケース を考えればわかりやすいでしょう。個別企業の分析などでは経済全体へのショック は共有されやすいですし、産業へのショックは企業間のショックでも類似性が高い といえるでしょう。したがって、ショックに関係があると考える場合には個別に推 定するよりも、一括で推定した方が良さそうです。これを見かけ上関係のないモ デル(SUR Model: Seemingly Unrelated Regressions Model) と呼びます。

8.2.2 SUR モデルの推定法

SUR モデルは誤差項に特徴があるモデルだと言うことがわかりました。内生変 数を変数に持たない多変量回帰モデルは一般的に、

 y1 y2

... yM

=

X1 O

X2

. ..

O XM

 β1 β2

... βM

 +

 ǫ1 ǫ2

... ǫM

= Xβ + ǫ (8.3)

で書くことができます。なお、ここまではSUR モデルでなくとも、通常の線形モ デルを一括で推定していても同じです。SUR モデルがちがうのは次の誤差項に関

(3)

する仮定です。すなわち、

V ar[ǫ] =

σ11I σ12I · · · σ1MI σ21I σ22I ...

... . .. ... σM 1I σM 2I · · · σM MI

= Σ ⊗ I ≡ V, (8.4)

where Σ ≡

σ11 σ12 · · · σ1M

σ21 σ22 ... ... . .. ... σM 1 σM 2 · · · σM M

となります。したがって、もしΣ の構造が知れていれば、通常の GLS により、 βˆ= [XV1X]1XV1y (8.5)

= [X1⊗ I)X]1X1⊗ I)y (8.6) が得られます。もし、Σ の構造が知れていなければ、FGLS として、

ˆ σij = ˆǫ

iˆǫj

T (8.7)

で推定すれば、一致性の意味で、GLS を利用することができます。なお、最尤法 という手段もありますが、現在の条件の下で一致性で議論する場合には特に意義 があるわけでもなく、FGLS でよいでしょう。

データが共有できる場合 データがモデル間で同じ場合を考えてみましょう。す なわち、

 y1 y2

... yM

=

X1 O

X1

. ..

O X1

 β1 β2

... βM

 +

 ǫ1 ǫ2

... ǫM

(8.8)

と言うケースです。この時、

[XV1X]1 = [(I ⊗ X1)(Σ1⊗ I)(I ⊗ X1)]1 (8.9)

= [(I · Σ1⊗ X1I)(I ⊗ X1)]1 = [(Σ1· I ⊗ X1X1)]1 (8.10)

= [Σ1 ⊗ X1X1]1 = Σ ⊗ (X1X1)1 (8.11) XV1y= X1⊗ I)y = (I ⊗ X1)(Σ1⊗ I)y (8.12)

= (IΣ1 ⊗ X1I)y = (Σ1I ⊗ IX1)y = (Σ1⊗ I)Xy (8.13)

= (Σ1⊗ I)[XX][XX]1Xy= (Σ1⊗ I)[XX] ˆβols (8.14)

= (Σ1⊗ I)(I ⊗ X1X1) ˆβols = (Σ1⊗ X1X1) ˆβols (8.15)

(4)

であるので、

βˆ= [Σ ⊗ (X1X1)1](Σ1 ⊗ X1X1) ˆβols= ˆβols (8.16)

となり、誤差項に何らの仮定を持たないOLS 推定量と同じになります。したがっ て、GLS は不要で、OLS を行えばよいことがわかります。ただし、分散は

Est.AV ar[ ˆβ] = ˆΣ1⊗ (XX)1 (8.17) になり、その推定量が異なっていることから、注意は必要です。

8.3 同時方程式の構造

SUR モデルとは別に、説明変数自身を変数に持つ同時方程式というものがあり ます。これを同時方程式と呼び、こちらの方が一般的ともいえるでしょう。

8.3.1 同時方程式とは 通常の単一方程式は

yt= xtβ+ ǫt (8.18)

で示されます。しかし、同時方程式は複数の方程式で構成されます。そして、説明 変数に、それ自身を除く被説明変数が、当該方程式の説明変数に入っていること になります。したがって、m 番目の単一方程式は、

ym,t = ym,t,(−1) αm+ xm,tβm+ ǫm,t (8.19)

の様にかけます。ym,t,(−1)ym,tを含まない変数ベクトルです。

8.3.2 同時方程式の行列表記

同時方程式を行列で表記することを考えてみましょう。まず、データベクトル を方程式間で共用することを考えて、m 番目の方程式の係数ベクトル α, β に0 を 与えることで対応することにしましょう。すると、t 時点の同時方程式は、

xt =

 x1,t x2,t

... xK,t

 , yt=

 y1,t y2,t

... yM,t

 , ǫt=

 ǫ1,t ǫ2,t

... ǫM,t

(8.20)

(5)

、そして

A=

α11 α12 · · · α1M α21 α22

... ... . .. ... αM 1 αM 2 αM M

 , B =

β11 β12 · · · β1M β21 β22

... ... ... ... βK1 βK2 βKM

(8.21)

と定義すると、

ytA+ xtB = ǫt (8.22) の様に書くことができます。なお、データを行列として、

X =

 x1 x2 ... xT

 , Y =

 y1 y2 ... yT

 , E =

 ǫ1 ǫ2 ... ǫT

(8.23)

と置くと、

Y A+ XB = E (8.24)

が得られます。この時、同時方程式なので、解が得られるためには、A は逆行列 をとれて、

Y = EA1− XBA1 (≡ XΠ + EΛ) (8.25) として表記される必要があります。したがって、A は非特異であることが必要に なります。これを完全性の条件(Completeness Condition) といいます。なお、 Λ = A1,Π = −BA1とおくことにします。

8.3.3 同時方程式の識別性

同時方程式は、(8.19) 式で推定する場合と (8.25) 式のような形で推定する場合 が考えられるでしょう。定式化の上で考えると、両者は一致しなければいけない でしょう。では、それが必ず一致するように定式化できるでしょうか。たとえば、 X を定数項を外生変数として含む新しい外生変数行列として、Π をそのパラメーˇ タ行列とします。

A˜= AF, ˜B = BF, ˜E = EF (8.26) という行列を考えてみましょう。なお、F は非特異行列です。この時、構造形の同 時方程式モデルは

Y ˜A+ X ˜B = ˜E (8.27)

(6)

であるのに、誘導形は

Y = EA1− XBA1 (8.28) になってしまいます。当然、(8.28) 式から、(8.27) 式は作り出せません。したがっ て、(8.27) 式は (8.28) 式にとって、一意に対応する式ということにはなりません。 当然、(8.27) 式は F によって、モデルが多様に変わります。すなわち、構造形では 違う意味を持つモデルが誘導形で同じ式になってしまうということになるのです。 これは経済学的意味づけの異なる式が、別の表現で同じになってしまうことを意 味して、経済学的には都合が悪いといえるでしょう。したがって、構造形から誘導 形に書き直せて(すなわち、完全性の条件を満たして)、誘導形から構造形に書き 直したものがもとの構造形と一致する場合、許容的(Admissible) と呼びます1 したがって、誘導形と構造形が1 対 1 対応している式を採用しなければ、経済学的 な一貫性が保てないことになります。ここに識別性の重要な意味があるのです。つま り、誘導形から議論している構造形が一意に導ける場合を識別可能(identifiable) といいます。では、識別性を確認するための条件は何でしょうか。それは次数条 件と階数条件で表されます。

次数条件 まず、モデルに使われている変数を考えましょう。 内生変数の数 : M

外生変数の数: K

として、m 番目の方程式の中に、その方程式で説明される内生変数自身を除く内 生変数でその方程式に含まれる内生変数の数をMmin、その方程式で説明される内 生変数自身を除く内生変数でその方程式に含まれない内生変数の数をMmoutとしま す。外生変数も同様に、当該方程式に含まれる外生変数の数をKmin、含まれない数 をKmoutとします。したがって、

M = Mmin+ Mmout+ 1 (8.29) K = Kmin+ Kmout (8.30) となります。この時、

Kmout ≥ Mmin (8.31)

であれば、誘導形と構造形を一意に結びつけるための逆行列が存在することを保 証できます。これを識別性に関する次数条件(Order Condition) といいます。た だし、次数条件は逆行列が存在することだけを保証しているにとどまり、今回採

1

数理統計における決定原理に出てくる許容的、非許容的という概念とは異なりますが、意味合 いとしては同じです。すなわち、選ぶべきものが許容的であり、選ばれるべきではないものが非許 容的になります。ただ、ここでの議論では母数の範囲で許容性を議論することはありませんが。

(7)

用したモデルの関数の係数が多様な解釈を排除できる一意の逆行列になっている かを保証していません2。そこで必要になるのは階数条件になります。

階数条件 こちらは誘導形と構造形の情報を利用して考えます。誘導形の推定量は

 ym,t

ym,tin ym,tout

=

πmin πmout Πinin,m Πoutin,m Πinout,m Πoutout,m

 xint xoutt

 +

 em,t

einm,t eoutm,t

(8.32)

で考えましょう。この時、

rank[Πoutin,m ] = Mmin (8.33) となるとき、誘導形に逆行列がある時にその構造形が一意になることを保証する 必要十分条件となります。構造形だけで評価することも可能です。そのためには、 対象とするm 番目の式に含まれない内生変数の方程式を集めて作った内生変数の 係数行列をAoutm 、外生変数の係数行列をBmoutとすると、

rank

 Aoutm Bmout



= M − 1 (8.34)

であることが条件となります。この階数条件(Rank Condition) を満たすとき、 識別性を必要十分条件として満たしていることになります。

識別の判定 以上のことから、識別性は次のように分類することができます。 識別不能 次数条件をKmout < Mminで満たさず、階数条件も満たさない、または、

次数条件を満たすが階数条件を満たさない

丁度識別 次数条件をKmout = Mminで満たして、階数条件も満たされる 過剰識別 次数条件をKmout > Mminで満たして、階数条件も満たされる

識別不能ならば、誘導形から構造形が導けないことを意味します。丁度識別は誘 導形から構造形が正しく導けることを意味します。最後に、過剰識別は誘導形か ら構造形を導く際に、複数の構造形が可能性として出てきます3

ところで、なぜ次数条件が必要だったのでしょうか。必要十分条件が階数条件 なので、いらないように見えます。しかし、丁度識別か過剰識別かは次数条件で 分類できることになります。したがって、次数条件はそのためにあると考えても いいでしょう。

2

後に出てくる過剰識別の議論とは異なり、先に述べた多様な解釈が可能な定式化から作られて いるのではなく、一意の逆行列であるか否かをみるものです。

3

過剰識別は求めたいパラメーターの数より条件式が多いときなどもこれに当たります。

(8)

8.4 同時方程式の推定の問題

内生変数を説明変数とする同時方程式においては、方程式に加えられた内生変 数が誤差項と相関を持つという問題を起こします。これを同時方程式バイアスと 呼びます。説明変数と誤差項が相関を持つ問題はここまで述べられていませんか ら、ここで詳しく述べることになります。その前に、同時方程式を構成する内生 変数と外生変数のモデルにおける意味を考えてみましょう。

8.4.1 内生性と外生性

複数の方程式体系では体系というようにひとつのシステムを形成します。その システムでは連立方程式の結果として表される内生変数と外から与えられる外生 変数に分けることができます。実際に、連立方程式にする理由は複数の方程式を立 てることで、連立方程式として解かれる内生変数を計算することにあります。し たがって、その内生変数と外生変数は確率的な生成過程が違います。これらの変 数の役割は推定での扱いを変えることになり、注意が必要です。

8.4.2 内生性とは

内生性とは変数自身が一つのシステムの中で生成される変数という意味です。そ れは外側から与えられる外生変数とショックが複雑に関わり合う中で、生み出され た値という意味です。したがって、内生性を持った変数というのはその背景に様々 な要因が控えており、それらの構造を解明した上で、推定をすることになるので す。それらの構造を解明しないまま、そのまま推定することも可能ですが、そこ には注意が必要になるのです。内生変数は内生性を持った変数であり、その扱い は外生性を持った変数とは別にしなければいけないのです4

8.4.3 外生性の種類

では、内生性を持つ変数を構成する要因である外生性を持った変数、すなわち 外生変数、について、その種類を見てゆきましょう。外生変数はその性質の強さ によって分類することが可能です。

外生変数と外生性 外生変数とはシステムの外で決まったものだと述べました。し かも、先決変数には内生変数のラグが含まれますが外生変数ではそれを含みませ ん。ところで、外生変数とはどういう意味でしょう。内生変数には自身の方程式 以外の誤差項との関係があるということが示されました。ということは、外生変

4

内生変数でも、外生変数として分析していい場合もあります。それを判断するためには外生性 の検定が必要です。

(9)

数は自身の方程式以外の誤差項との関係がないということが言えることになりま す。ということは、同時点の誤差項と関係がないというのは条件になりそうです。 将来の誤差項との関係がないというのは当然といえるでしょう。そこで問題にな るのは過去の誤差項との関係です。自身の方程式以外の過去の誤差項とも関係が ないとなると本格的に外から与えられた変数といえそうですし、そうでなければ ある程度システムに組み込まれながら外生的な要素を持っているということにな ります。それらを詳しく見てみましょう。

グレンジャー因果性 経済学では因果性というのがあります。ただし、ここでいう 因果性は通常よりももっと広範な意味で使っていて、先行性に近いものです。理論 的な因果構造がなくても、少なくとも先行してある現象がおきることを示してい ます。たとえば、天気予報の内容と翌日の天気は結果に関係性が見られます。しか し、決して予報官が翌日の天候を左右しているわけではありません。このような予 報と天気の関係を含む、現象A が現象 B の前に起きるという関係をグレンジャー 因果性といい、A は B に対してグレンジャーの意味で原因となっているといいま す。したがって、xk,tytにグレンジャー因果性を持つということはxk,tytに 先んじる関係を持っているということです。グレンジャー因果性がなければ、xk,tytのモデルには不要です。

弱外生性 説明変数xt,mによって被説明変数ytの統計的構造を推測したい時、xt,m の統計的構造も知る必要があることが考えられるでしょう。しかし、xt,mの統計 的構造を知らなくとも、説明変数xt,mによって被説明変数ytの統計的構造を推測 できる場合があります。この時、説明変数xt,mは被説明変数ytにたいして弱外生 性(Weak Exogeneity) を持つといいます。xt, ytの確率変数についてそれぞれの 母数を含む同時確率で示せば、

f(xt, yt) = f (yt|xt)g(xt) (8.35) になります。ここではxtの確率を求めるg(xt) に xtの母数が含まれている一方、 f(yt|xt) には xtに関する母数が含まれていないのです。この場合、xt,m の統計的 性質を特定することはxt,mytの関係を推測するのには必要なく、変数間の関係 だけに着目した推定を行えば十分ということになるのです。この弱外生性という 考え方はシステム変数ytを推測するのに、弱外生性を持つ変数の統計的構造を(yt の要素とはなっているものの) モデルとしては定式化して考慮する必要がないとい う意味で、外側にあるということになります。

強外生性 時系列分析において、説明変数xk,tが弱外生性を持ち、かつ過去のytxk,tの値にグレンジャーの意味で原因となっていない場合には強外生性がある といいます。すなわち、システムの推定にxk,tの構造を明示的に組み込む必要が なく(弱外生性)、あたかも ytの時間が経過する以前に、すでに先決的にxk,tが与

(10)

えられている(グレンジャー因果性がない) 状況です。この場合、モデルが動き出 す前にすでに先に決められたように考えることができ、その値にのっとってモデ ルが動いていることを意味します。

超外生性 外生性がより極端になると、ある説明変数xt,mの統計的構造はモデル の変数ytに全く関係しないことも考えられるでしょう。すなわち、確率現象xt,m の期待値や分散がどのようなものであっても、yt,mにとってはxt,mとの相関関係 だけが重要であって、その相関関係が変化しなければ、xt,mの統計的構造はシス テムには関係がないという意味になります。弱外生性は統計的構造の情報が必要 ないだけであって、関係がないとはいっていません。すなわち、弱外生性ではxt,m の統計的構造が変われば、yt,mにとってはxt,mとの相関関係も変わりうるのに対 し、超外生性ではyt,mにとってはxt,mとの相関関係はそれ自身が変わらない限り 一定であることになるのです。その意味では、システムと変数の関係が限られて いることがわかるのです。

外生性と独立性や因果性の関係 グレンジャー因果性と外生性はどう違うのでしょ う。グレンジャーの意味の因果性があれば少なくともその変数には先行する変数 が存在してしまい、まったく外から与えた変数ということはいえません。しかし、 グレンジャー因果性がなければ、説明変数は先行する変数を持つことはいえませ ん。弱外生性はその変数のモデル化が必要なく、モデルとして同時点の相互的な 影響関係を議論する必要がなくなるのです。当然、将来の変数が現在に影響して いるとも言えないので、外生的といっていいことになるのです。では、お互いに まったく関係のない独立とは、グレンジャー因果性や外生性はどう違うのでしょ う。独立というのは変数間に関係がまったくないということです。ということは、 いうまでもなく、外生的なのですが、関係がまったくないということから説明変 数にも入れるまでもないということです。まったくシステムの外側の現象ですか ら、これは議論の対象になりません。

8.4.4 説明変数と誤差項の相関とは

誤差項と説明変数が相関を持つ場合、すなわち、

E[ǫxi] = γ = 0 (8.36)

の場合どのようなことが起きるでしょう。まず、最小二乗推定量では

βˆ= β+ (XX)1Xǫ−−→ βp + Ψγ = β (8.37) になります。この結果を見れば、明らかに一致性が崩れてしまっています。

たとえば、誤差項が正規分布にしたがう最尤法では誤差項は

ǫi|xi ∼ N[0, σ2] (8.38)

(11)

という分布にしたがうとされています。しかし、誤差項と説明変数に相関がある と、観測値で条件付き分布となってしまいます5。この時、平均値も分散も全てが 等しいという仮定が崩れ、最尤推定量の根本である分布の仮定が利用できなくな ります。

一般化モーメント法では

t

ǫtxi,t= γ (8.39)

を使うと、過剰識別の状況が解消しません。したがって、Hansen の識別性検定で 帰無仮説が棄却されることになります。

以上のように、全ての推定方法で、推定量は一致性を失い、問題を起こしてし まいます。最小二乗法では不偏性についても崩れ、推定量としては役に立たなく なっているといえるでしょう。

説明変数に別の内生変数がある場合の変数と誤差項の関係 同時方程式モデルの 中の一つの方程式、

ym,t = ym,t,(−1) α+ xm,tβ+ ǫm,t (8.40)

を考えてみましょう。この時、yn,tがm 番目の式の説明変数に含まれるとすれば、

yn,t= yn,t,(−1)α+ xn,tβ+ ǫn,t (8.41)

となります。この時、

E[ǫm,tǫn,t] = 0 (8.42)

であれば、

Cov[ǫm,t, yn,t] =

E[ǫm,tǫn,t] = 0 ym,tyn,tの方程式に含まれない V ar[ǫm,t] + E[ǫm,tǫn,t] = 0 yn,tym,tの方程式に含まれる

(8.43) となり、説明変数と誤差項が相関を持つことになります。

説明変数に含まれる誤差と誤差項の関係 説明変数に観測誤差が含まれる場合、説 明変数と誤差項が相関を持つことになります。

y = (X + E)β + ǫ (8.44)

5

補足を参照。

(12)

というモデルを考えて見ましょう。誤差を識別できずにそのまま推定すると、 βˆe = [(X + E)(X + E)]1(X + E)y (8.45)

= [(X + E)(X + E)]1(X + E)(Xβ+ ǫ) (8.46)

= β+ [(X + E)(X + E)]1(X + E)(−Eβ+ ǫ) (8.47) となり、 ˆβeがβ に必ず等しくなるということはいえません。なぜなら、本来は一ˆ 致性で消えるはずの(X + E)

(−Eβ+ ǫ) の性質は、よほどよい性質を持ち得な ければ、0 になるとはいえません6。したがって、観測誤差を識別せずにそのまま 推定することは危険です。

8.5 説明変数と誤差項の相関への対応

説明変数と誤差項が相関を持つ場合どのように対処したらいいのでしょうか。そ の方法は大きく2 つの道に分かれ、その後、推定量を選択することになります。

8.5.1 推定の方向性

多変量回帰分析においては単一方程式を推定する方法と全ての方程式を同時に 推定する同時推定(システム推定) という方法があります。単一方程式で推定する 方法はモデル全体の情報が使えない代わりに、簡便な推定が行えます。そのため 制限情報推定と呼ぶことがあります。その一方、全ての方程式を同時に推定する 場合にはモデル全体の情報が使え、強力である代わりに、複雑でかつナイーブな 問題を持ちます。それらの選択はモデルとデータの状況に依存します。

8.5.2 単一方程式としての対応 — 間接最小二乗法

同時方程式モデルは識別性の議論において、構造形と誘導形の議論がありまし た。もし丁度識別であれば、誘導形を推定して、構造形を計算することが可能で す。その場合、説明変数には内生変数がなくなるため計算が可能なのです。これを 間接最小二乗法(Indirect Least Squares : ILS) と言います。推定方法は (8.32) 式 において、

πmin − Πinin,m αm = βm (8.48) αm = (Πoutin,m )1πmout (8.49) を代入して計算することになります。推定可能な方程式は丁度識別可能なモデル に限り、過剰識別の場合には一般化逆行列を用いるものもありますが、原則的に は丁度識別に限ります。

6E = 0 と置けば、いつもの誤差項と説明変数の相関に関する条件になることが分かるでしょう。

(13)

8.5.3 単一方程式としての対応 — 操作変数法

これらの問題を解決する基本的な考え方として、操作変数法(Instrumental Vari- able : IV) があります。操作変数法では誤差項と相関のない変数、これを操作変数 という、を利用してその特性から推定を行おうというものです。操作変数のデー タ行列をZ と置きましょう。そして、その性質を

E[ZZ] = Ψzz (8.50)

E[ZX] = Ψzx (8.51)

E[Zǫ] = 0 (8.52)

のように定めます。この時、定義と大数の法則から、 plimZ

y

N = plim

Z(Xβ+ ǫ)

N (8.53)

= plim Z

N +

Zǫ N

(8.54)

= plim Z

N

= plim Z

X N

β (8.55)

なので、行列が正方行列であれば、 β =

plimZ

X N

1 plimZ

y N

(8.56)

であることがわかります。これは一致性の証明になりますが、それを逆に利用す れば、推定量として利用すると、

βˆIV = Z

X N

1

Zy N

= [ZX]1Zy (8.57)

になり、

βˆ= [ZX]1Zy= [ZX]1Z(Xβ+ ǫ) = β+ [ZX]1Zǫ (8.58)

なので、一致収束と分布収束から、

βˆ∼ N[0, σa 2Ψzz] (8.59)

が得られます。したがって、操作変数を用いれば問題を回避できることになりま す。ただ、そこで問題になるのは操作変数に何を用いるかと言うことになります。 まず注意しなければならないのは操作変数の数です。操作変数が少ない場合には 逆行列がとれず、分析ができなくなります。したがって、操作変数は説明変数の 数以上なければなりません。では、操作変数が説明変数よりも多いときはどうで

(14)

しょう。それは、あまりを捨てるという方法と説明変数を操作変数に読み替えさ せることを考えて、説明変数全てを操作変数で回帰した

Z˜ = ˆX = Z[ZZ]1ZX (8.60)

で、Z[Z

Z]1Z = Z[ZZ]1ZZ[ZZ]1Zであることに注意すると、 βˆIV = ˜ZX

1

y= ˆXX

1

y= ˆXXˆ

1

y (8.61)

を使うことを考えます。 ˆX は Z でできているものの変数の数は K なので、ランク は常にK となります。

説明変数と誤差項の相関に関する仮説検定 なお、操作変数の利用の可否を確認 するためにHausman の定式化検定を応用したものがあります。Hausman 検定は 推定値とその分散を利用して、ワルド原理を利用するものです。したがって、

d= ˆβIV − ˆβLS (8.62)

とするとき、

d(V ar[d])1d (8.63)

を考えることになります。

V ar[d] = V ar[ ˆβIV − ˆβLS] = V ar[ ˆβIV] + V ar[ ˆβLS] − 2Cov[ ˆβIV, ˆβLS] (8.64) となります。ここで、(一致性は両者にあって) 一方が効率性を持たない推定量の 差と効率性を持つ推定量は無相関であるというHausman による推定量に関する定 理を用いると、最小二乗法が一致性がある(そして、効率性を持つ) という帰無仮 説のもと(対立仮説は最小二乗法が一致性を持たない) では

Cov[ ˆβLS, ˆβIV − ˆβLS] = V ar[ ˆβLS] − Cov[ ˆβIV, ˆβLS] = 0 (8.65)

⇔ V ar[ ˆβLS] = Cov[ ˆβIV, ˆβLS] (8.66) なので、

V ar[d] = V ar[ ˆβIV − ˆβLS] = V ar[ ˆβIV] − V ar[ ˆβLS] (8.67) となり、

d(V ar[ ˆβIV − ˆβLS] = V ar[ ˆβIV] − V ar[ ˆβLS])1d∼ χ2(J) (8.68) を仮説検定すればよいことがわかります。自由度J は文脈に依存する K より小さ い値です。

(15)

8.5.4 単一方程式としての対応 — 二段階最小二乗法

説明変数と誤差項が相関している場合、その相関をはずすことを考えればいい という発想から出てきたのが二段階最小二乗法(2 Stage Least Squares: 2SLS) に なります。ILS は丁度識別を要請しますがこちらはそれがありません。まず、対象 となる説明変数に関係を持ち、誤差項とは(相関のない) モデル内の外生変数全て を利用します。その理論値を内生変数のデータとして利用するのです。推定した 理論値は

m= X ˆδ = X[(XX)1X] (8.69)

になります。

ym = Yˆm Xm 

 αm

βm



+ ǫm (8.70)

ゆえ、

 αˆm,2SLS βˆm,2SLS



= [XX]1Xy =

 Yˆ

m

Xm



Yˆm Xm 

1 Yˆm Xm

 ym

=

 Yˆ

mYˆm Yˆ

mXm

Xm Yˆm Xm Xm

1

mym

Xm ym



(8.71)

となります。この時、注意すべき点としては ˆYmがX の線形結合であるため、[ ˆYmXm] は列ランクがK を超えられません。もし、[ ˆYmXm] の列がこれを超えると逆行列 がとれなくなります。なお、

 Yˆ

mYˆm Yˆ

mXm

Xm Yˆm Xm Xm



=

 Ym(X[XX]1X)2Ym YˆmXm Xm [(X[XX]1X)Ym] Xm Xm



=

 Yˆ

mYm Yˆm Xm

Xm Ym Xm Xm



=

 Yˆm Xm



Ym Xm  (8.72)

になります。外生変数である説明変数の全てで内生変数も外生変数も回帰してい ると考えることもできます。すると、これは操作変数法の定式化ですから、操作 変数法の意味で一致性やその他の性質が保証されます。

8.5.5 単一方程式としての対応 — 一般化モーメント法

GMM 推定ではモーメントの条件、すなわち直交条件を利用して、推定を行い ました。こちらでも、説明変数と誤差項に相関があっても、

E[ziǫi] = 0 (8.73)

(16)

という形で、操作変数との直交条件を利用することで推定を行うことが可能にな ります。したがって、

E[xiǫi] = 0 (8.74)

なので、こちらは使わず、操作変数との直交条件から議論を進めることができま す。なお、誤差項が均一分散かつ自己相関がない場合、最適なウェイトを用いた GMM 推定量は 2SLS と同じになります。当然それらの仮定がゆるんでも、以前に 述べたウェイト行列の適した設定で効率的な推定を行うことが可能です。

8.5.6 単一方程式としての対応 — 制限情報最尤法

操作変数法を最尤法に応用したものとして、制限情報最尤法(Limited Information Most Likelihood : LIML) があります。まず、推定量の内生変数が誘導形として推 定されたとして、

˜

yt= ˜Πxt+ ˜vt (8.75) を考え、一方で、構造形のモデル

ym = ˜ytγ+ xtβm+ ǫm,t (8.76) を考えます。これを連立させると、

 1 −γ O I

  ym

˜ yt

 +

 βm

Π˜

 xt =

 ǫm,t

˜ vt



(8.77)

⇒ Γˇym,t+ ˇΠxt = ˇǫt (8.78) が得られます。こうすると、誤差項部分はモデルから切り離され、操作変数の形 式となります。操作変数であることから、誤差項に関する情報を利用して最尤法 を構築します。多変量正規分布は

f(x) = [2π]N/2|Σ|1/2exp

(x − µ)

Σ1(x − µ) 2

(8.79) なので、 ˇΣ = ˇǫtˇǫ

tとするとき、|Γ| = 1 ゆえ、|Γ1ΣΓˇ 1| = | ˇΣ| になるので、 ln L = −Mm

2 ln 2π − 1 2ln |Γ

1ˇ

ΣΓ1| − 1 2N

N

t=1

[Γˇym,t+ ˇΠxt]Σ[Γˇˇ ym,t+ ˇΠxt]

= −Mm

2 ln 2π − 1

2ln | ˇΣ| − 1 2N

N

t=1

[Γˇym,t+ ˇΠxt]Σ[Γˇˇ ym,t+ ˇΠxt] (8.80)

を最大化します。この分析では内在的に操作変数を用いながら、最尤法を行いま す。なお、考え方としては誘導形で推定された誤差の線形結合が構造形の誤差です から、誘導形の情報で推定を行い、補足的に構造形を推定する形を取っています。 また、操作変数が外生変数という意味において、2SLS に近い方法でもあります。

(17)

8.5.7 同時方程式としての対応 — 三段階最小二乗法 同時方程式を

 y1

y2 ... yM

=

 D1

D2 . ..

DM

 δ1

δ2 ... δM

 +

 ǫ1

ǫ2 ... ǫM

⇒ y = Dδ + ǫ (8.81)

で表現しましょう。なお、D は内生変数も外生変数も含む変数のデータ行列です。 単純に考えれば、最小二乗法推定量は

δˆ= [DD]1Dy (8.82)

ですが、当然のことながら一致性すらなく問題です。また、誤差項に関しても、均 一分散かつ系列相関がないと仮定します。そうしても、誤差項は、

V = Σ ⊗ I (8.83)

としましょう。この時、操作変数の考え方を利用して、内生および外生変数を問 わず、全てのモデル変数を、モデル内の全ての外生変数で回帰したものを

Dˆ = X[XX]1XD (8.84)

とし、誤差項の構造がSUR のそれと同じことから、その推定量を考慮した δˆ3SLS = [ ˆD(Σ1⊗ I) ˆD]1Dˆ1⊗ I)y (8.85)

が推定量になります。これを三段階最小二乗法(Three Stage Least Squares : 3SLS) と言います。

8.5.8 同時方程式としての対応 — 完全情報最尤法

よりモデル全体の情報を活用する方法として、完全情報最尤法(Full Information Most Likelihood : FIML) があります。LIML と考え方は似ていて、

yt= ˜Πxt+ ˜vt (8.86) を考え、一方で、構造形のモデル

yt= ΓMyt+ BMxt+ ǫt (8.87)

⇒ Γ+Myt+ BM+xt = ǫt (8.88)

(18)

を考えます。これを連立させると、

 −ΓM

I

 yt+

 BM+ Π˜

 xt=

 ǫt

˜ vt



(8.89)

⇒ Γˇyt+ ˇΠxt= ˇǫt (8.90) が得られます。LIML に比べて、モデル全体が利用されるため演算の扱いが変わっ ていることに注意してください。すなわち、 ˇΣ = ˇǫtˇǫ

tとすると、

ln L = −M

2 ln 2π − 1 2ln |Γ

1ˇ

ΣΓ1| − 1 2N

N

t=1

[Γˇyt+ ˇΠxt]Σ[Γˇˇ yt+ ˇΠxt]

= −M

2 ln 2π + ln |Γ| − 1

2ln | ˇΣ| − 1 2N

N

t=1

[Γˇyt+ ˇΠxt]Σ[Γˇˇ yt+ ˇΠxt] (8.91) を最大化します。誘導形で表現された誤差項の情報が全て構造形として表現され ていると考えればわかりやすいでしょう。

8.5.9 同時方程式としての対応 — 一般化モーメント法

GMM はここでも、本来の直交条件だけを使って、推定ができます。単一方程式 のGMM に比べ、非常に大きなウェイト行列を作る必要があります。とはいえ、

E[xtǫm,t] = 0 (8.92)

E[xtǫn,t] = 0 (8.93)

という直交条件に対し、

Cov[xtǫm,t, xtǫn,t] = E[(xtǫm,t)(xtǫn,t)] (8.94)

⇒ Σmn = 1 T

T

t=1

(xt[ym,t− dm,tδm])(xt[yn,t− dn,tδn]) (8.95)

として、

q =

X(y1− d1δ1) X(y2− d2δ2)

...

X(yM − dMδM)

Σ11 Σ12 · · · Σ1M

Σ21 . .. ... ... ... . .. ... ... ΣM 1 · · · ΣM M

1

X(y1− d1δ1) X(y2− d2δ2)

...

X(yM − dMδM)

 (8.96) として最小化計算を行えばよいことになります。

(19)

E 多変量回帰分析に関する補足

E.1 クロネッカー積 (Kronecker Product)

多くの式を扱う場合に、複数の式を書いて計算することが一番最初に浮かびま すが、それでは手間がかかります。そのため、複数の式までもひとつに扱えるク ロネッカー積を利用しましょう。まず、

 y1,t

... yM,t

=

β11 · · · β1K

... . .. ... βM 1 · · · βM K

 x1,t

... xK,t

+

 ǫ1,t

... ǫM,t

(E.1)

を考えます。これはt 時点の M 本のの推定式を行列で表記した形です。行の部分 が各方程式であると考えてください。では、時間t の変化の要素を入れてみましょ う。ただ、このままだと扱いにくいので、転置した上で方程式M 本 をベクトルに して、時間について行ベクトルにします。すなわち、

y1,1 · · · yM,1

... . .. ... y1,T · · · yM,T

=

 y1

... yT

= Y (E.2)

のように、時間的なデータの集まりの行ベクトルにします。M が消えていること に注意してください。この表記は、モデル全体を

Y = XB + E (E.3)

で表記することを可能にします。ところで、この誤差項間の共分散行列を求めて みましょう。まず、モデルをもとのベクトル毎の表記である

 ǫ1

... ǫT

=

 y1

... yT

 x1

... xT

β11 · · · β1M

... ... ... βK1 · · · βKM

(E.4)

に書き直します。その上で、

EE = ǫ1 . . . ǫT



 ǫ1

... ǫT

(E.5)

です。ところで、このように扱う時に、次のような計算の仕方もできます。 EE = ǫ1 . . . ǫT

E = ǫ1E . . . ǫTE  (E.6)

(20)

思い出してください。ǫ は単に行ベクトルを一つの文字にまとめた列ベクトルで す。したがって、t× M の行列です。ということは ǫM× t の行列です。t × M の行列を意識するために、行列E を詳しく書き直すと、

ǫ1,1E · · · ǫ1,TE ... . .. ... ǫM,1E · · · ǫM,TE

(E.7)

になります。そうです。実数である各要素に、行列が掛けられています。これはク ロネッカー積の定義と同じです。すなわち、行列E の転置行列を E

とすれば、複 数の式でできたモデルの分散共分散行列は

ǫ1,1E · · · ǫ1,TE ... . .. ... ǫM,1E · · · ǫM,TE

= E

⊗ E (E.8)

というように示されるのです。これをルールどおり運用すれば、非常に便利に計 算ができそうです。

E.1.1 クロネッカー積の公式

クロネッカー積に関する公式は次のよう。

(A ⊗ B) = (B ⊗ A) (E.9)

a(A ⊗ B) = (aA ⊗ B) = (A ⊗ aB) 実数倍 (E.10) (A + B) ⊗ C = A ⊗ C + B ⊗ C (E.11) A⊗ (B + C) = A ⊗ B + A ⊗ C (E.12) (A ⊗ B) ⊗ C = A ⊗ (B ⊗ C) (E.13) (A ⊗ B) = (A⊗ B) (E.14) (A ⊗ B)1 = (A1⊗ B1) 逆行列がとれることが条件 (E.15)

|Amm ⊗ Bnn| = |Amm|n|Bnn|m (E.16) tr(A ⊗ B) = tr(A)tr(B) (E.17) (A ⊗ B)t = (At⊗ Bt) (E.18) (A ⊗ B)(C ⊗ D) = (AC ⊗ BD) (E.19)

E.2 誤差項と変数の相関とその性質

説明変数と誤差項は説明変数が非確率的である場合には無条件で独立といえま す。しかし、確率変数となってしまうと、独立であるという仮定が必要になりま

参照

関連したドキュメント

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

自発的な文の生成の場合には、何らかの方法で numeration formation が 行われて、Lexicon の中の語彙から numeration

(自分で感じられ得る[もの])という用例は注目に値する(脚注 24 ).接頭辞の sam は「正しい」と

17‑4‑672  (香法 ' 9 8 ).. 例えば︑塾は教育︑ という性格のものではなく︑ )ット ~,..

られる。デブリ粒子径に係る係数は,ベースケースでは MAAP 推奨範囲( ~ )の うちおよそ中間となる

自然言語というのは、生得 な文法 があるということです。 生まれつき に、人 に わっている 力を って乳幼児が獲得できる言語だという え です。 語の それ自 も、 から

 学年進行による差異については「全てに出席」および「出席重視派」は数ポイント以内の変動で

た意味内容を与えられている概念」とし,また,「他の法分野では用いられ