担当:鹿野(大阪府立大学)
2013 年度後期
はじめに
前回の復習
漸近理論の基礎:大数の法則と中心極限定理。
推定量の漸近的性質 :一致性と漸近正規性、 漸近有効性。
今回学ぶこと
条件付き期待値関数。
母回帰:中級レベルの計量経済学の出発点。
テキスト該当箇所 :p299∼300。東大出版会(1991)の7章も参照。
1 条件付き期待値関数
1.1 「条件付き」の確率分布
同時確率分布(講義ノート#03) の復習:二つの確率変数(X, Y)に関し、
(X, Y)の同時分布: Pr(X = x, Y = y) = h(x, y), (1) Xの周辺分布: Pr(X = x) = f (x), (2) Yの周辺分布: Pr(Y = y) = g(y). (3)
⊲ :二つの確率変数のペアに関する確率を並べたもの。
⊲ :単一の確率変数の確率を並べたもの。
条件付き確率分布 :いま、「X = x」が確定したもとで、「Y = y」が起こる確率を考える。
Pr(Y = y|X = x) = g(y|x). (4)
これをX = xのもとでのYの と呼ぶ。
⊲ 注意:縦棒“|′′のあとに「○ ○ が起こった」という条件を書き込む。(割り算ではない。)
⊲ ∴条件付き確率は、 に応じてYの確率が変わる状況をとらえている。
⊲ 同様に、Xの条件付き期待値もPr(X = x|Y = y) = f (x|y)。 1
例:くじ引きで当たりをY = 1、外れをY = 0と置く。また、くじの総数をA、当たりく じの総数をB ≤ A、自分はC < B番目にくじを引くとする。
⊲ 自分が引くより前にでた当たりくじの数をXと置けば、x = {1, 2, . . . , B}。
⊲ X = x次第で、当たる(Y = 1)確率が変わる。∴Pr(Y = 1|X = x) = g(1|x)。⇒今回 の復習問題および宿題#04参照。
Remark:周辺分布と条件付き分布の違い
⊲ 周辺分布Pr(Y = y) = g(y):X = xを 与えたY = yの確率。
⊲ 条件付き分布Pr(Y = y|X = x) = g(y|x):X = xを 与えたY = yの確率。
X = xに依存して、何通りも存在しうる。
数学的な定義:Yの条件付き分布は、 周辺分布と同時分布の比
g(y|x) = , (5)
つまり
Pr(Y = y|X = x) = Pr(X = x, Y = y)
Pr(X = x) (6)
で与えられる。
⊲ ∴条件付き確率は、「X = xが起こる」事象を1としたとき、そこに占める「Y = yが 起こる」事象の割合で得られる。
独立な確率変数の条件付き確率:(Xi, Yi)が であるための条件は(講義ノー ト#03)
h(x, y) = f (x)g(y). (7)
⊲ このとき条件付き分布は
g(y|x) = f(x)g(y)
f(x) = . (8)
⊲ ∴ (Xi, Yi)が独立のとき、「X = x」を見て決めた確率g(y|x)と、「X = x」を無視して 決めた確率g(y)は一致する。
1.2 条件付き期待値関数とは?
条件付き期待値:通常の周辺分布g(y)ではなくg(y|x)でウェイト付けした期待値
E(Y|X = x) =yg(y|x) =yPr(Y = y|X = x) (9) を、 と呼ぶ。(Yが連続型なら、足し算記号
ではなく積分
で。)
⊲ 通常のE(Y) = yg(y):Xを無視したYの期待値。
⊲ 条件付きのE(Y|X = x): 、Yの期待値を変化。
条件付き分散:Yの分散も、条件付きのバージョンが定義できる。 Var(Y|X = x) = E(Y − E(Y|X = x))2|X = x
=
(y − m(x))2g(y|x). (10)
これを と呼ぶ。Xの実現値を見て、Yのバラつき具合をアップデート。
Remark:条件付き期待値E(Y|X = x)は、確率変数Xの実現値xの関数。⇒ xを見るま では、条件付き期待値は確率変数。 これを
E(Y|X) = m(X) (11)
と表記し、 (conditional expectation function、 )と呼ぶ。
⊲ 実現値X = xが確定⇒ E(Y|X = x) = m(x)は 。
⊲ Xの実現値が未決定⇒ E(Y|X) = m(X)は 。
⊲ ...「CEF m(X)」と、その実現値としての「具体的な条件付き期待値m(x)」の違いを
区別するのが、 中級レベルの計量経済学を理解する上で重要。
例:サイコロを振って出た目の2乗×100円だけお金がもらえるゲームを考える。Xをサ イコロの目(実現値 x = 1, 2, 3, 4, 5, 6)、もらえるお金をYと置けば、YのCEFは
E(Y|X) = m(X) = 100X2. (12)
⊲ X = 3が出たなら、E(Y|X = 3) = m(3) = 100 · 32= 900は 。
⊲ しかしXは事前に不明⇒ E(Y|X) = m(X)は (X次第で確率的に変化)。
条件付き期待値E(·|X)の公式:(証明⇒今回の補足資料。)定数a, bについて、
1. E(a + bX|X) = 。
2. E [s(X)Y|X] = 。ここでs(X)はXの関数。S(X) = Xでも良い。
1.3 繰り返し期待値の法則
CEFの期待値:CEF E(Y|X) = m(X)は、Xに左右される確率変数。⇒その期待値は?
⊲ Xの分布 f(x)で期待値をとると
EX[E(Y|X)] = EX[m(X)] =m(x) f (x)
=
m(x) f (X = x). (13)
分布 f(x)をウェイトにしている点を強調するため、 と表記。
⊲ 注意:確率的要素がもう無いので、EX[E(Y|X)] = EX[m(X)]は定数。
繰り返し期待値の法則:Yの通常の期待値E(Y) = yg(y)と、CEFの期待値EX[E(Y|X)] は等しい。
E(Y) = EX[E(Y|X)] . (14)
これを と呼ぶ。
⊲ 「条件付き期待値の期待値は、 期待値。」
⊲ ∴ Yの分布g(y)が分からなくとも、YのCEF m(X)とXの分布 f(x)が分かれば、E(Y) が計算できる。
⊲ 証明⇒今回の補足資料参照。
例:(12)式のCEFで、E(Y)は?
⊲ Yの分布g(y)が不明⇒ E(Y)は直接計算できない。
⊲ Xが歪みのないサイコロならば、 繰り返し期待値の法則から E(Y) = EX[E(Y|X)] = EX(100X2) = 100
6 1
2+ 100 6 2
2+· · · + 1006 62= 9100. (15)
2 新しい回帰分析
2.1 回帰分析の本義
母回帰:二つの確率変数(X, Y)の関数関係をモデル化する、自然な方法⇒ を使う。
⊲ 2次元の母集団分布h(x, y)からn個の標本(Xi, Yi)を抽出し、
E(Yi|Xi) = m(Xi) (16)
に関する統計的推測を行うのが、 回帰分析の本義。
⊲ ここで改めてXiを 、Yiを と呼ぶ。
⊲ 標本からm(Xi)を推定し、XiがYiの期待値に与える影響を評価 ・予測。∴分析の趣 旨は、これまでと同様。
線形回帰:m(·)の形状は、一般にとても複雑⇒ で近似。
E(Yi|Xi) = α + βXi. (17)
⊲ α、βは未知の 。⇒何らかの方法で、 標本から推定。
⊲ 注意:線形回帰はあくまで近似。CEFが本当に一次式になるか否かは、同時分布h(x, y) の関数型で決まる。
⊲ 説明複数が複数ある場合は
E(Yi|X1i, X2i, . . . , XKi) = α + β1X1i+ β2X2i+· · · + βKXKi. (18)
⊲ 2次関数モデルや対数線形モデル (講義ノート#13)、 ダミー変数(講義ノート#14) を使っても良い。
後半の主題:古典的仮定が成立しないデータにおける、 回帰分析。より先端的な計量経 済学。
⊲ データがいかなる条件を満たせば、OLSでうまく回帰係数を推定できるか ?
⊲ もしOLSがうまく働かないならば、OLSに代わる推定法は ?
1.5 1.6 1.7 1.8 1.9 2.0
1.51.61.71.81.92.0
Xi Yi
45°
E(Yi|Xi)
図1:遺伝と中庸への回帰 (父の身長Xiと息子の身長Yi)
2.2 ゴールトンの「中庸への回帰」
そもそも、なぜ「回帰」分析と呼ぶのか ?
回帰分析の創始者 : 。
⊲ 遺伝生物学者、 チャールズ・ダーウィンのいとこ。
⊲ 「回帰」や「相関」という言葉を初めて使用。
⊲ ゴールトンの研究内容:「親の形質が、どれだけ子どもに受け継がれるか?」形質= 知能や才能、体格など⇒父親と息子の身長のデータ(Xi, Yi)を集める。
図1:ゴールトンの発見を要約。
⊲ 横軸=親の身長Xi、縦軸=子の身長Yi。簡単化のため、X = ¯Y = 1.75¯ (m)と置く。
⊲ もし親と子の身長が完全に一致するならYi= Xi ⇒図の 。
⊲ ゴールトンが推定したCEFは、図の太線。∴45度線より傾きが 。
E(Y|Xi) = bXi, b <1. (19)
図1から読み取れる法則
⊲ 親の身長が平均以下のケース :親の身長がXi = 1.6のとき、子どもが順当に引き継
げばYi= 1.6。⇒実際は で、より平均Y = 1.75¯ に近づく。
⊲ 親の身長が平均以上のケース :親の身長がXi = 1.9のとき、子どもが順当に引き継
げばYi= 1.9。⇒実際は で、より平均Y = 1.75¯ に近づく。
Remark:突出した親から生まれた子供は、やはり同世代の平均より優れるが、親ほどで
はない。
Y¯
平均
< Yi
子
< Xi
親
. (20)
逆もしかり。
⊲ ∴世代を重ねるたびに、人間の身長は平均値(平凡な値)に近づいてゆく。これを
(regression toward mediocrity)と呼ぶ。
⊲ 身長が極端に低い ・高い親で顕著。
∴今日では「ゴールトンの発見した法則」ではなく、「法則を示すために使った 」
(条件付き期待値の推定) が「回帰」と呼ばれている。
Remark:実は、中庸への回帰は、 でも見られる一般的な確率現象。
⊲ 例:模擬試験で極端に得点が高かった(低かった)次の試験は、それよりも低い(高 い)得点が出やすい。
⊲ 例:売り上げが極端に多かった(少なかった)翌月は、それよりも少ない(多い)売 り上げになりやすい。
⊲ これらの現象は と呼ばれる。... ゴールトンの分 析結果は、本当に「遺伝法則」の発見と言えるのか ?
まとめと復習問題
今回のまとめ
条件付き期待値。
確率的説明変数と回帰分析。
復習問題
出席確認用紙に解答し (用紙裏面を用いても良い)、 退出時に提出せよ。
1. 二次元の確率変数(X, Y)ついて、YのCEFが
E(Y|X) = √X (21)
で、一方Xは等確率 1
3でx = 4, 9, 16をとる確率変数であるとする。Yの無条件の期待値 E(Y)を求めよ。(ヒント:繰り返し期待値の法則。)
2. 10枚のくじがあり、そのうち5枚が当たりである。また、自分は4番目にくじを引くも
のとする。外れをY = 0、当たりをY = 1で表す。
(a) 自分の前までに当たりがX = 3回出た時の条件付き確率、Pr(Y = 1|X = 3) = g(1|3) を求めよ。
(b) Pr(Y = 1|X = x) = f (1|x)をxの式で表し、一般化せよ。
(c) 条件付き期待値関数E(Y|X)を求め、それが線形回帰であることを示せ。(少し難し い問題です。)