『新しい計量経済学』鹿野研究室 slide18

(1)

計量経済学_#18

回帰分析の再構築 ₍₁₎

鹿野繁樹

大阪府立大学

2017 年 12 月更新

鹿野繁樹 _{(大阪府立大学)} 計量経済学_#18 2017 年 12 月更新 1 / 27

(2)

Outline

1 条件付き期待値関数

2 母回帰

テキスト：鹿野繁樹 [2015]、第 10.1 章・第 10.2 章。

前回の復習

1 _漸近理論

2 _{推定量の漸近的性質}

(3)

Section 1 条件付き期待値関数

(4)

条件付きの確率分布と期待値

今回以降の目的：新しい回帰分析。

経済学で使うデータ（= 非実験データ）は、古典的仮定と合わない。⇒OLS 推定がうまく機能しない可能性。

より現実的な、新しい前提条件のもとで、OLS の性質を検証。

(5)

「二つの確率変数X と Y の関係性をモデル化する」ことからスタート。

二次元確率変数(X, Y ) に確率を与える、結合確率分布 Pr(X = x, Y = y) = h(X, Y )。（講義ノート#03。）

X，Y 単体の確率は、それぞれの周辺分布Pr(X = x) = f (x)， Pr(Y = y) = g(y) が与える。

(6)

新たな確率概念:「X = x」が確定した（それを見た・知らされた）という前提のもとで、「_Y _{= y」が起こる確率}

Pr(Y = y|X = x) = g(y|x). ⁽¹⁾ を条件付き確率分布と呼ぶ。

縦棒“|” のあとは「○ ○ が起こったとき」という条件。（割り算ではない！）

条件付き確率は、X の結果に応じてアップデートされる Y の確率。⇒ X = x 次第で何通りも存在。

一方周辺分布Pr(Y = y) = g(y) は、X の結果を見ずに・知らずに考えた_Y = y の確率。∴ X が Y の予測に有益である限り、条件付き分布_{= 周辺分布。}

(7)

Remark 1

周辺分布（普通の確率分布）と条件付き分布の違い。

周辺分布Pr(Y = y) = g(y)：X = x を考慮せずに与えた Y = y の確率。

条件付き分布Pr(Y = y|X = x) = g(y|x)：X = x を考慮して与えた_Y = y の確率。∴ X = x に依存して、何通りも存在しうる。

(8)

Example 1

箱に100 枚のくじ、うち当たりが 40 枚。外れを Y = 0、当たりを Y = 1 と置く。いま、すでに 10 人がくじを引いている。彼らのうちX = 3, 5 人が当たりを引いたとき、Y = 1 の条件付き確率は

Pr(Y = 1|X = 3) = ^{40 − 3} 100 − 10 ⁼

37

90^, Pr(Y = 1|X = 5) = ⁷ 18^.

(2) 同様に、もし_X = 10 ならば Pr(Y = 1|X = 10) = ¹₃^。

(9)

Y の条件付き分布の数学的定義は、周辺分布と同時分布の比 g_{(y|x) =} ^{h(x, y)}

f(x) ^, ⁽³⁾

すなわち

Pr(Y = y|X = x) = Pr(X = x, Y = y)

Pr(X = x) ^. ⁽⁴⁾ 確率変数の独立性の定義（講義ノート_#03）は

h(x, y) = f (x)g(y). (5)

∴X と Y が独立ならば

g_{(y|x) =} ^f(x)g(y)

f_(x) ^{= g(y).} ⁽⁶⁾

「_X = x を見て決めた Y の確率」と「X = x を見ずに決めた Y の確率」が一致。

独立とは「Y の予測に関し X を見ても意味がない」状況。

(10)

通常の周辺分布_g(y) ではなく g(y|x) = Pr(Y = y|X = x) でウェイト付けした_{Y の期待値}

m(x) = E(Y |X = x) =^yg(y|x) ⁽⁷⁾ を、条件付き期待値と呼ぶ。

通常の_{E(Y ) =}_yg(y)：X を無視した、Y の^{無条件期待値。} 条件付き期待値：_X = x に応じて変化する Y の期待値。同様に、条件付き分散は

v(x) = Var(Y |X = x) = E(Y − E(Y |X = x))²|X = x

=_{(y − m(x))}²^g_(y|x). (8) m(x) = E(Y |X = x)、v(x) = Var(Y |X = x) ともに、X の結果_{x に依存。}

(11)

条件付き期待値関数

条件付き期待値_m(x) = E(Y |X = x) は、X = x を固定したもとでのY の期待値であり、定数。⇒ X が確定する事前の段階では、

m(X) = E(Y |X) ⁽⁹⁾ はX に依存して確率的に変動。これを^{条件付き期待値関数}

（conditional expectation function、CEF）と呼ぶ。

実現値_X = x が確定した m(x) は定数、X が未決定の m(X) は確率変数。

両者の区別は、中級レベルの計量経済学を理解する上で重要。

(12)

Example 2

サイコロを振って出た目の2 乗 ×100 円だけお金がもらえるゲームを考える。X をサイコロの目（実現値 x= {1, 2, 3, 4, 5, 6}）、もらえるお金をY と置けば、Y の_{CEF は}

m(X) = E(Y |X) = 100X²^. ⁽¹⁰⁾

X = 3 が出たなら、E(Y |X = 3) = m(3) = 100 · 3² ^{= 900 は明} らかに定数。

しかし_{X は事前に不確定}⇒ m(X) は X 次第で確率的に変動。

(13)

Remark 2

期待値のいろいろ。

通常の期待値E(Y )：確率変数 Y の代表値。X を見ていない。条件付き期待値_m(x) = E(Y |X = x)：特定の X = x を見たうえでの、Y の期待値。x に応じて多数存在するが、そのひとつひとつは定数。

条件付き期待値関数_m(X) = E(Y |X)：X を不定の確率変数ととらえた場合の、条件付き期待値。X が確率変数なので、 m_{(X) も確率変数。}

(14)

計量経済学でよく使われる_{CEF の性質。}

公式 _{1 (CEF} の演算公式 ₎

定数_{a, b について、}

E(a + bY |X) = a + bE(Y |X), ⁽¹¹⁾ E [s(X)Y |X] = s(X)E(Y |X). ⁽¹²⁾ ただしs(X) は X の関数。

証明：章末付録参照．

公式(11) は、通常の期待値 E(a + bX) = a + bE(X) と同様。公式(12)：Y = 1、s(X) = X ならば、E(1|X) = 1 なので

E(X|X) = X. ⁽¹³⁾ 常にX を確認できるならば、X の期待値として X そのもの

(15)

m(X) = E(Y |X) は確率変数、期待値は？⇒ m(X) の不確実性の源泉である、_{X の分布 f}(x) で期待値をとれば

EX[E(Y |X)] = E^X ^{[m(X)] =}

x

m(x)f (x). (14) f(x) をウェイトにした期待値なので、EX_{(·) と表記。}

m(x) = E(Y |X = x) の定義に注意して上式を展開すると

EX[E(Y |X)] =

x

=m(x)

y

y g_(y|x)

=h(x,y)/f (x)

f(x)

=

x

y

yh(x, y) =

y

x

h(x, y) (15)

x^h(x, y) = g(y) なので、結局上式は EX[E(Y |X)] =

y

yg(y) = E(Y ). (16)

(16)

この性質を繰り返し期待値の法則と呼ぶ。

公式 _{2 (} 繰り返し期待値の法則 ₎

条件付き期待値関数_m(X) = E(Y |X) に関し、f(x) をウェイトに期待値をとると、

E(Y ) = EX[E(Y |X)] . ⁽¹⁷⁾ 証明：前段で証明済み。

上式右辺：_X = x のすべての場合について、m(X) = E(Y |X) の加重平均をとる。

「（条件付き）期待値の期待値をとると、期待値になる」！_... 無条件のE(Y ) と条件付きの E(Y |X) を関係づける、重要な性質。

(17)

Example 3

サイコロのゲーム・再考：もらえるお金Y の条件付き期待値関数は_{(10) 式の通り。}

Y の分布 g(y) が不明なので、直接期待値 E(Y ) = yg(y)^を計算できない。

しかし繰り返し期待値の法則を使えば E(Y ) = EX[E(Y |X)] = E^X^(100X²⁾

= ¹⁰⁰ 6 ¹

2₊ ¹⁰⁰

6 ²

2 + · · · +¹⁰⁰₆ ⁶²

≈ 1516.17. ⁽¹⁸⁾ ただし等確率_{f(x) =} ¹

6 で各目がでることが前提。

(18)

Section 2 母回帰

(19)

条件付き期待値から回帰分析へ

いま、二次元の母集団分布h(x, y) から抽出されたサンプル数 n の標本_(X_i_{, Y}_i) があり、これに基づく Yi^のCEF

E(Yi_|Xi) (19) の推定を考える。このとき上式を母回帰関数と呼ぶ。

上式は抽象的なので、具体的な線形回帰モデルを仮定。 E(Yi_|Xi) = α + βXi (20) 多次元の母回帰関数として、線形の重回帰モデルでもよい。

E(Y_i_|X_1i, X_2i, . . . , X_ki) = α + β₁X_1i+ β₁X_1i+ · · · + βk^Xki

(21) 線形性の仮定_⇒母回帰係数の推定に目標が集約される。

(20)

(20) 式は E(Yi_|Xi) と Xi^の関係。^Yi^と^Xiの依存関係を直接表すものではない。

Y_i^とX_i^{の関係は、誤差項}u_i^{を用い次式で表す。}

Y_i = α + βXi+ ui^. (22) おなじみの回帰モデルが、ようやく登場。

注意：古典的仮定と異なり、説明変数_X_iは確率変数。∴ 上式右辺に、二つの確率変数_X_iと_u_iが存在。

(21)

(22) 式が (20) 式と矛盾しないためには、ui^と^Xi^{が外生性の仮定}

E(ui_|Xi) = 0. (23) を満たさなければならない。

この条件下で(22) 式の条件付き期待値をとれば E(Yi_|Xi) = E (α + βXi+ ui_|Xi)

= α + β E(Xi_|Xi)

=Xi

+ E(ui_|Xi)

=0

= α + βXi (24)

となり，_{(20) 式と同値。}

外生性が成立せず、例えば_E(u_i_|X_i_{) =}

√X_i _{= 0 ならば、}

E(Yi_|Xi) = α + βXi+X_i. (25) (20) 式と矛盾！

外生性は重要な仮定。⇒ 次回以降、詳しく議論。

(22)

ノンパラメトリック推定

少しだけ寄り道：線形回帰以外の方法による条件付き期待値関数の推定は？

事前に関数型（一次関数など）の仮定を置かずに、データだけを頼りに_E(Y_i_|X_i_{) の推定。}

このアプローチをノンパラメトリック推定と呼ぶ。

(23)

X_i^{が有限の実現値}x_{= {x}₁, x₂, . . . , x_p} しかとらず、各実現値について十分サンプル数が多いケース。

この場合、_Y_iの個々の条件付き期待値_m_(x_s_{) = E(Y}_i_|X_i _{= x}_s₎

（_s= 1, 2, . . . , p）を、グループの標本平均 ˆ

m(xs) = ¯Y_s= ¹ n_s

Xi=xs

Y_i, s= 1, 2, . . . , p (26)

で推定可能。（

Xⁱ=x^s ^は、^Xⁱ ^{= x}^sに該当する観測の和をとる、という意味。）

例：_X_i = 1, 2, 3, . . . が子どもの数、Yi^{が母親の労働時間。}_⇒

子どもの数毎に_Y_iの平均を求めればよい。

(24)

X_i^が区間x= [xmin^{, x}max] の任意の点を連続的にとるケース。グループが無数にできる⇒ グループに分けて平均をとるのは

（該当サンプルが少ないので）難しい。次の方法で_{m(X) を推定。}

1 _X_iの最大値・最小値の間に、適当な点

x_min < x₁ < x₂< . . . < x_p< x_max^{を定める。}

2 以下のように、_x_sの近傍の平均値を求める。 ˆ

m_h(xs) = ¹ n_s

Xi=x^s^±h

Y_i, s= 1, 2, . . . , p. (27)

定数h だけ幅を持たせてグループを作るので、厳密に X_i = xs

に該当する個体でグループ分けするよりも観測が増える！この_{h を}バンド幅（bandwidth）と呼ぶ。

(25)

ノンパラメトリック推定は重要なテクニックだが、線形回帰ほどの人気はない。

ノンパラメトリックの難点

最適なバンド幅_hの決定に、高度な技術。

重回帰に拡張すると、説明変数の実現値の組み合わせ（グループ）が大幅増_⇒グループあたりのサンプル数が激減。

得られた回帰関数をどう解釈すればよいのか？線形回帰のメリット

重回帰であっても、高々_{(k + 1)}のパラメータを推定するだけ。

（₂次関数モデルで曲線の描写も可能。）推定結果の解釈も明確。

∴ このコースでは、線形回帰モデルに集中。

(26)

今回の復習問題

次の設問に答えよ。各自用意した紙に解答し、退出時に提出せよ。講義名、日付、学籍番号、氏名を明記すること。

1 _{テキスト第}10 章復習問 10.1。

2 _{テキスト第}10 章復習問 10.2。

(27)

References

鹿野繁樹. 新しい計量経済学. 日本評論社, 2015.

『新しい計量経済学』 鹿野研究室 slide18

回帰分析の再構築 (1)

Outline

前回の復習

Section 1

条件付き期待値関数

条件付きの確率分布と期待値

Remark 1

Example 1

条件付き期待値関数

Example 2

Remark 2

公式 1 (CEF の演算公式 )

公式 2 ( 繰り返し期待値の法則 )

Example 3

Section 2

母回帰

条件付き期待値から回帰分析へ

ノンパラメトリック推定

今回の復習問題

References

『新しい計量経済学』鹿野研究室 slide18

回帰分析の再構築 ₍₁₎

公式 _{1 (CEF} の演算公式 ₎

公式 _{2 (} 繰り返し期待値の法則 ₎