回帰分析の再構築計量経済学鹿野研究室 note18

(1)

担当：鹿野（大阪府立大学）

2013 年度後期

はじめに

前回の復習

漸近理論の基礎：大数の法則と中心極限定理。

推定量の漸近的性質：一致性と漸近正規性、漸近有効性。

今回学ぶこと

条件付き期待値関数。

母回帰：中級レベルの計量経済学の出発点。

テキスト該当箇所：_p299∼300。東大出版会（₁₉₉₁）の₇章も参照。

1 条件付き期待値関数

1.1 「条件付き」の確率分布

同時確率分布（講義ノート_#03）の復習：二つの確率変数_{(X, Y)}に関し、

(X, Y)^{の同時分布}: Pr(X = x, Y = y) = h(x, y), ⁽¹⁾ X^{の周辺分布}: Pr(X = x) = f (x), ⁽²⁾ Y^{の周辺分布}: Pr(Y = y) = g(y). ⁽³⁾

⊲ ：二つの確率変数のペアに関する確率を並べたもの。

⊲ ：単一の確率変数の確率を並べたもの。

条件付き確率分布：いま、「_{X = x}」が確定したもとで、「_{Y = y}」が起こる確率を考える。

Pr(Y = y|X = x) = g(y|x). ⁽⁴⁾

これを_{X = x}のもとでの_Yのと呼ぶ。

⊲ ^注意^：^縦棒_“|^′′^{のあとに「○} ^○ が起こった」という条件を書き込む。（割り算ではない。）

⊲ ∴^{条件付き確率は、} ^に応じてYの確率が変わる状況をとらえている。

⊲ ^同様に、X^{の条件付き期待値も}Pr(X = x|Y = y) = f (x|y)^。 1

(2)

例：くじ引きで当たりを_{Y = 1}、外れを_{Y = 0}と置く。また、くじの総数を_A、当たりくじの総数を_{B ≤ A}、自分は_{C < B}番目にくじを引くとする。

⊲ 自分が引くより前にでた当たりくじの数を_Xと置けば、x = {1, 2, . . . , B}^。

⊲ X = x^{次第で、当たる（}Y = 1^{）確率が変わる。}^∴Pr(Y = 1|X = x) = g(1|x)^。⇒^今回の復習問題および宿題_#04参照。

_Remark：周辺分布と条件付き分布の違い

⊲ ^周辺分布Pr(Y = y) = g(y)^：X = x^を ^与えたY = y^の確率。

⊲ ^{条件付き分布}Pr(Y = y|X = x) = g(y|x)^：X = x^を ^与えたY = y^の確率。

X = xに依存して、何通りも存在しうる。

数学的な定義：_Yの条件付き分布は、周辺分布と同時分布の比

g_{(y|x) =} , (5)

つまり

Pr(Y = y|X = x) = Pr(X = x, Y = y)

Pr(X = x) ⁽⁶⁾

で与えられる。

⊲ ∴^{条件付き確率は、}^「_{X = x}^{が起こる」事象を}1としたとき、そこに占める「_{Y = y}が起こる」事象の割合で得られる。

独立な確率変数の条件付き確率：_(X_i_{, Y}_i₎がであるための条件は（講義ノート_#03）

h(x, y) = f (x)g(y). ⁽⁷⁾

⊲ このとき条件付き分布は

g_{(y|x) =} ^f^(x)g(y)

f(x) ⁼ ^. ⁽⁸⁾

⊲ ∴ (X_i, Y_i)^{が独立のとき、}^「_{X = x}^{」を見て決めた確率}g_(y|x)^と、^「_{X = x}^{」を無視して} 決めた確率_g(y)は一致する。

1.2 条件付き期待値関数とは？

条件付き期待値：通常の周辺分布_g(y)ではなく_g_(y|x)でウェイト付けした期待値

E(Y|X = x) =^yg(y|x) =^yPr(Y = y|X = x) ⁽⁹⁾ を、と呼ぶ。（_Yが連続型なら、足し算記号

ではなく積分

で。）

⊲ ^通常の_{E(Y) =} yg(y)^：X^{を無視した}Y^{の期待値。}

⊲ ^{条件付きの}_{E(Y|X = x)}^： ^、Y^{の期待値を変化。}

(3)

条件付き分散：_Yの分散も、条件付きのバージョンが定義できる。 Var(Y|X = x) = E(Y − E(Y|X = x))²|X = x

=

(y − m(x))²^g(y|x). ⁽¹⁰⁾

これをと呼ぶ。_Xの実現値を見て、_Yのバラつき具合をアップデート。

_Remark：条件付き期待値_{E(Y|X = x)}は、確率変数_Xの実現値_xの関数。_{⇒ x}を見るまでは、条件付き期待値は確率変数。これを

E(Y|X) = m(X) ⁽¹¹⁾

と表記し、（conditional expectation function^、 ^{）と呼ぶ。}

⊲ ^実現値_{X = x}^が確定⇒ E(Y|X = x) = m(x)^は ^。

⊲ X^{の実現値が未決定}⇒ E(Y|X) = m(X)^は ^。

⊲ ...^「CEF m(X)」と、その実現値としての「具体的な条件付き期待値_m(x)」の違いを

区別するのが、中級レベルの計量経済学を理解する上で重要。

例：サイコロを振って出た目の₂乗_×100円だけお金がもらえるゲームを考える。_Xをサイコロの目（実現値 x = 1, 2, 3, 4, 5, 6^）^{、もらえるお金を}^Y^{と置けば、}^Y^の^CEF^は

E(Y|X) = m(X) = 100X²^. ⁽¹²⁾

⊲ X = 3^{が出たなら、}E(Y|X = 3) = m(3) = 100 · 3²= 900^は ^。

⊲ ^しかしX^{は事前に不明}⇒ E(Y|X) = m(X)^は ^（^X^{次第で確率的に変化）}^。

条件付き期待値_E(·|X)の公式：（証明_⇒今回の補足資料。）定数_{a, b}について、

1. E(a + bX|X) = ^。

2. E [s(X)Y|X] = ^。ここで^s(X)^は^X^の関数。^S(X) = X^{でも良い。}

1.3 繰り返し期待値の法則

_CEFの期待値：CEF E(Y|X) = m(X)^は、^Xに左右される確率変数。_⇒その期待値は？

⊲ X^の分布 f(x)^{で期待値をとると}

E_X[E(Y|X)] = EX[m(X)] =^{m(x) f (x)}

=

m(x) f (X = x). ⁽¹³⁾

分布 _f_(x)をウェイトにしている点を強調するため、と表記。

⊲ 注意：確率的要素がもう無いので、_E_X[E(Y|X)] = E^X^[m(X)]^は定数。

繰り返し期待値の法則：_Yの通常の期待値_{E(Y) =} _yg(y)と、_CEFの期待値_E_X_[E(Y|X)] は等しい。

E(Y) = EX_{[E(Y|X)] .} (14)

これをと呼ぶ。

(4)

⊲ 「条件付き期待値の期待値は、期待値。」

⊲ ∴ Y^の分布g(y)^{が分からなくとも、}Y^のCEF m(X)^とX^の分布 f(x)^{が分かれば、}E(Y) が計算できる。

⊲ ^証明_⇒^{今回の補足資料参照。}

例：₍₁₂₎式の_CEFで、_E(Y)は？

⊲ Y^の分布g(y)^が不明_{⇒ E(Y)}^{は直接計算できない。}

⊲ Xが歪みのないサイコロならば、繰り返し期待値の法則から E(Y) = EX[E(Y|X)] = E^X^(100X²) = ¹⁰⁰

6 ¹

2+ ¹⁰⁰ 6 ²

2+· · · + ¹⁰⁰₆ ⁶²= 9100. ⁽¹⁵⁾

2 新しい回帰分析

2.1 回帰分析の本義

母回帰：二つの確率変数_{(X, Y)}の関数関係をモデル化する、自然な方法_⇒ を使う。

⊲ 2^{次元の母集団分布}h(x, y)^からn^個の標本(X_i, Y_i)^{を抽出し、}

E(Y_i_|X_i_{) = m(X}_i) (16)

に関する統計的推測を行うのが、回帰分析の本義。

⊲ ^{ここで改めて}X_i^を ^、Y_i^を ^と呼ぶ。

⊲ ^標本からm(X_i)^{を推定し、}X_i^がY_iの期待値に与える影響を評価・予測。∴分析の趣旨は、これまでと同様。

線形回帰：_m_(·)の形状は、一般にとても複雑_⇒ で近似。

E(Y_i_|X_i_{) = α + βX}_i. (17)

⊲ α^、β^は未知の ^。_⇒何らかの方法で、標本から推定。

⊲ ^注意^：線形回帰はあくまで近似。_CEFが本当に一次式になるか否かは、同時分布_{h(x, y)} の関数型で決まる。

⊲ 説明複数が複数ある場合は

E(Y_i_|X_1i, X_2i, . . . , X_Ki_{) = α + β}₁X1i+ β2X2i+_{· · · + β}KXKi^. ⁽¹⁸⁾

⊲ 2次関数モデルや対数線形モデル（講義ノート_#13）、ダミー変数（講義ノート_#14）を使っても良い。

後半の主題：古典的仮定が成立しないデータにおける、回帰分析。より先端的な計量経済学。

⊲ データがいかなる条件を満たせば、_OLSでうまく回帰係数を推定できるか？

⊲ ^もしOLSがうまく働かないならば、_OLSに代わる推定法は？

(5)

1.5 1.6 1.7 1.8 1.9 2.0

1.51.61.71.81.92.0

Xi Yi

45°

E(Y_i|X_i)

図_1:遺伝と中庸への回帰（父の身長_X_iと息子の身長_Y_i）

2.2 ゴールトンの「中庸への回帰」

そもそも、なぜ「回帰」分析と呼ぶのか？

回帰分析の創始者：。

⊲ 遺伝生物学者、チャールズ・ダーウィンのいとこ。

⊲ 「回帰」や「相関」という言葉を初めて使用。

⊲ ゴールトンの研究内容：「親の形質が、どれだけ子どもに受け継がれるか？」形質＝知能や才能、体格など_⇒父親と息子の身長のデータ_(X_i_{, Y}_i₎を集める。

図₁：ゴールトンの発見を要約。

⊲ ^横軸₌^親の身長X_i^、縦軸₌^子の身長Y_i^{。簡単化のため、}X = ¯Y = 1.75^¯ ^（^m^{）と置く。}

⊲ もし親と子の身長が完全に一致するなら_Y_i_{= X}_i _⇒図の。

⊲ ^{ゴールトンが推定した}CEF^{は、図の太線。}^∴45^{度線より傾きが} ^。

E(Y|Xi) = bXi^, ^{b <}^1. ⁽¹⁹⁾

図₁から読み取れる法則

⊲ 親の身長が平均以下のケース：親の身長が_X_i _{= 1.6}のとき、子どもが順当に引き継

げば_Y_i_{= 1.6}。_⇒実際はで、より平均_{Y = 1.75}¯ に近づく。

⊲ 親の身長が平均以上のケース：親の身長が_X_i _{= 1.9}のとき、子どもが順当に引き継

げば_Y_i_{= 1.9}。_⇒実際はで、より平均_{Y = 1.75}¯ に近づく。

_Remark：突出した親から生まれた子供は、やはり同世代の平均より優れるが、親ほどで

はない。

Y¯

平均

< Yi

子

< Xi

親

. (20)

逆もしかり。

(6)

⊲ ∴世代を重ねるたびに、人間の身長は平均値（平凡な値）に近づいてゆく。これを

（regression toward mediocrity^{）と呼ぶ。}

⊲ 身長が極端に低い・高い親で顕著。

∴今日では「ゴールトンの発見した法則」ではなく、「法則を示すために使った」

（条件付き期待値の推定）が「回帰」と呼ばれている。

_Remark：実は、中庸への回帰は、でも見られる一般的な確率現象。

⊲ 例：模擬試験で極端に得点が高かった（低かった）次の試験は、それよりも低い（高い）得点が出やすい。

⊲ 例：売り上げが極端に多かった（少なかった）翌月は、それよりも少ない（多い）売り上げになりやすい。

⊲ ^{これらの現象は} ^{と呼ばれる。}... ^{ゴールトンの分} 析結果は、本当に「遺伝法則」の発見と言えるのか？

まとめと復習問題

今回のまとめ

条件付き期待値。

確率的説明変数と回帰分析。

復習問題

出席確認用紙に解答し（用紙裏面を用いても良い）、退出時に提出せよ。

1. ^{二次元の確率変数}(X, Y)^ついて、Y^のCEF^が

E(Y|X) = ^√^X ⁽²¹⁾

で、一方_Xは等確率 ¹

3^でx = 4, 9, 16をとる確率変数であるとする。_Yの無条件の期待値 E(Y)^{を求めよ。}（ヒント：繰り返し期待値の法則。）

2. 10枚のくじがあり、そのうち₅枚が当たりである。また、自分は₄番目にくじを引くも

のとする。外れを_{Y = 0}、当たりを_{Y = 1}で表す。

(a) 自分の前までに当たりが_{X = 3}回出た時の条件付き確率、Pr(Y = 1|X = 3) = g(1|3) を求めよ。

(b) Pr(Y = 1|X = x) = f (1|x)^を^xの式で表し、一般化せよ。

(c) ^{条件付き期待値関数}_E(Y|X)を求め、それが線形回帰であることを示せ。（少し難しい問題です。）

回帰分析の再構築 計量経済学 鹿野研究室 note18