パネルデータ解析セミナー
第4日講義資料
2013年3月7日
今日の内容: 講義の狙い
• パネルデータ分析の補足
Fixed, Randomの話
モデルの選定( Pooled vs Fixed, Pooled vs Random, etc)
脱落サンプルへの対応
• イベント・ヒストリー分析
分析に応じたデータセットの構築
離散時間ロジットモデル
Coxの比例ハザードモデル
競合リスクハザードモデル
パネルデータ分析の補足
• Fixed, Randomの話
• Fixed のδi →時間不変⇒ダミー
• Randomのδi→確率変数μit=δi+εit E(μit)=0
E(μit, μis)=σδ2+ σε2 , t=s E(μit, μis)=σδ2 , t≠s
→攪乱項が相関し、OLS×
→攪乱項の相関を除去するために GLS Transformation
• ���� − ������ = �1 − ���� + ���� − ���̅��′� + (��� − �� )′ �
�� = 1 − ������2 + ���2 θ → 0: OLS, θ → 1: Fixed,
⇒時間不可変変数を推計できる
つづき
• モデルの選定1(Pooled vs Fixed)
帰無仮説:δ_1=δ_2=・・・=δ_N
→棄却された場合、Fixed を採択
検定方法:F検定 → outcome 最下段
• モデルの選定2(Pooled vs Random)
帰無仮説:Var(δ_i)=0
→棄却された場合、Randomを採択 検定方法:Breusch-PaganLM検定 xttest0
• 演習7.4
use z:¥completed¥chap8
xtreg logwage tenure age female high-other nonreg fmsz2-fmsz6 rg2-rg8 bigcity city year2005-year2009 if emp==1, re
xttest0
Test: Var(u) = 0
u .0980711 .313163 e .1372566 .3704815 logwage .35427 .5952059 Var sd = sqrt(Var) Estimated results:
logwage[hhid,t] = Xb + u[hhid] + e[hhid,t]
Breusch and Pagan Lagrangian multiplier test for random effects
• 演習7.5
xtreg logwage tenure nonreg fmsz2-fmsz6 rg2- rg8 bigcity city year2005-year2009 if emp==1, fe
F test that all u_i=0: F(2189, 5267) = 3.39 Prob > F = 0.0000
脱落サンプルへの対応
• 3つの脱落過程
①Missing Completely at Random(MCAR)ランダム
な脱落→推計に大きな問題なし
② Missing at Random(MAR)
(脱落以前の)観測可能な変数に依存した脱落→推計 に問題あり
③ Missing At No Random(MANR)
(脱落時点以降の)観測不可能な値に変数に依存した 脱落→推計に問題あり
3つの対処方法
①Complete Case Analysis法
分析に使用するすべての変数が揃った個体のみ 利用する
②Imputation 法(特定の値を補完)
Mean, Regression, HotDeck(似ている個体の値を 利用),
③ Available Case Analysis
Inverse Probability Weighting 法
①継続回答率の推定
被説明変数:t時点で回答するかどうか 説明変数:t-1時点の変数群
Probit推計
②推定値の逆数(inverprop)を求める predict prop
gen inverprop=1/prop
③②をweightとして、推定を行う
第6章: パネルデータ分析 (1)
イベント・ヒストリー分析
(サバイバル分析、生存時間分析)
• 分析対象
発生時点を特定することができる出来事(イベン ト)
人口学的イベント: 結婚、出産、死亡
労働経済学: 転職、昇進、失業、再就職
→対象イベントの発生リスク開始から発生までの期間
• 分析の目的
イベントの発生要因
タイミング
分析上の利点
• イベントが発生していないサンプル
通常の方法では分析から除外
結果に対する偏り?
• 具体例: 初婚タイミング
初婚年齢に関する回帰分析?(表9.1,9.2)
イベント・ヒストリー分析?
イベント・ヒストリー分析 (2)
年 齢 配 偶 関 係 初 婚 年 齢
67 既 婚 19
34 既 婚 31
24 未 婚 .
50 既 婚 22
47 既 婚 25
43 既 婚 29
27 未 婚 .
66 離 死 別 21
27 未 婚 .
48 既 婚 28
年 齢 配 偶 関 係 初 婚 年 齢
67 既 婚 19
34 既 婚 31
24 既 婚 34
50 既 婚 22
47 既 婚 25
43 既 婚 29
27 既 婚 32
66 離 死 別 21
27 既 婚 29
48 既 婚 28
平均: 25歳 平均: 27歳
データセットの構造 (1)
• 用語の解説
リスク期間: 当該イベントの発生を経験する可能性 のある期間
継続時間: リスク期間開始からの経過時間
打ち切り: いくつかの理由によって、リスク期間の観 察が不可能になること
Censoring(検閲?): 情報が観察不能
Truncation(切断?): 情報が観察可能
データセットの構造 (2)
△
○
?
観 察 さ れ な い リ ス ク 期 間
観 察 開 始 観 察 打 ち 切 り
(A) (B) (C) (D) (E) (F)
△
△ ×
△ ○
○
△
左 ト ラ ン ケ ー シ ョ ン
左 セ ン サ リ ン グ
右 セ ン サ リ ン グ
右 セ ン サ リ ン グ
観 察 さ れ る リ ス ク 期 間
○
イ ベ ン ト 発 生 観 察 打 ち 切 り
△
○
×
リ ス ク 期 間 開 始
分析モデル (1)
• 最終的な目的
イベントの発生時点 t の分布 f(t) を識別
各時点でのイベント発生確率
イベント発生までの平均時間
等が分かる
分析モデル (2)
• ハザード率とサバイバル確率
ハザード率:
イベントが t 時点より前に起こらなかったという条件の下 での t 時点での条件付発生確率
サバイバル確率:
t 時点より前にイベントが発生しない確率
分析モデル (3)
• ハザード率に関するモデル化
通常のイベント・ヒストリー分析では、ハザード率が 観察される属性に依存することを仮定してモデル 化
• ハザード率とサバイバル確率の関係
分析モデル (4)
• 具体例: 100人の主体のイベント発生
Et: 各時点でのイベント発生
Rt: 各時点でのリスク人口
t = 0 1 2 3 4
Et ― 40 30 20 10
Rt 100 60 30 10 0
h (t ) ― 0.4 0.5 1/3 1
S (t ) 1 0.6 0.3 0.1 0
リ ス ク 期 間 t
分析モデル (5)
• 最尤法
di: イベント発生を示すダミー変数
分析モデル (6)
• 最尤法
T 時点にイベントを経験する確率(尤度)
T 時点までイベントを経験しない確率
データセットの種類
• 2種類のデータ
通常のパネルデータ
回顧(パネル)データ
• それぞれに対応した分析例
離職の分析
初婚タイミングの分析
離散時間ロジットモデル
• ロジスティック関数による定式化
離散的な時間を扱うことが可能
パネルデータをプールして、ロジットモデルで推計 可能
λ(t) は基底ハザードと呼ばれ、個人属性とは独立 に、継続時間のみに依存する
β の解釈
• データの形式 1個体に1情報
1個体に複数情報(person-period data)
id wkstate start end
1 4 2007/4/1 2008/6/30
2 1 2007/4/1 .
3 1 2007/4/1 .
4 1 2007/4/1 .
5 6 2007/4/1 2009/3/30
id v48 year
1 1 2007
1 4 2008
2 1 2007
2 1 2008
3 1 2007
3 1 2008
4 1 2007
4 4 2008
5 1 2007
5 1 2008
Allison(1982)
Sociological Methodology vol.13
• 条件付きイベント発生確率 Pit=Pr[T=t|T≧t, xit]
ロジスティック回帰関数で表すと Pit=1/[1+exp(-α-βx)]
1-Pit=exp(-α-βx)/[1+exp(-α-βx)] Pit/(1-Pit)=exp(α+βx)
⇒log[P
it/(1-Pit)]=α+βx
Xが1単位増えるごとにオッズ比(イベント発生確率 と比較率との比)がexp(β)倍となる
Cox の比例ハザードモデル
• 基底ハザードと個人属性に依存する部分が、 積の形で分解可
λ0(t) の部分を特定化することなしに推計可能
個体間のハザード率の比は一定
stcoxコマンドによって推計可能
事前にイベント・ヒストリーデータとしての指定が必要
β の解釈
• h ��� = ℎ0(�) × exp(���)
相対的ハザード比は一定と仮定 ℎ(�1,�)
ℎ(�2,�) =
ℎ0(�) × exp(��1) ℎ0(�) × exp(��2) =
exp(��1) exp(��2)
= exp[�(�1 − �2)]
⇒ 時間と変数とが独立
例題10.6 duration (リスク開始期*~初婚 経験までの年数)の作成
• *男性18歳、女性16歳 V462=1:未婚、2:離死別、8:既婚 gen duration=.
//既婚サンプル
replace duration=v462-18 if female==0&(v461==2|v461==8)&v462~=99 replace duration=v462-16 if female==1&(v461==2|v461==8)&v462~=99
//未婚サンプル
replace duration=age-18 if female==0&v461==1 replace duration=age-16 if female==1&v461==1 label var duration "継続期間"
ミニ情報
• データにリスク開始時間(start)、イベント発生時間 (end)が記載されている場合
ex. s_y, s_m, s_d, e_y, e_m, e_d, gen start=mdy(s_m s_d s_y)
gen end=mdy(e_m e_d e_y)
→ 1960年1月1日の日数計算 年月のみの場合は ym()
gen duration_=end-start
→ 生存期間が計算
例題10.7 evermarr(初婚経験の有無)作成
例題10.8 bc40,bc50,bc60,bc70(出生コーホート) の作成
例題10.9 イベント・ヒストリーデータの指定 stset duration, failure(evermarr)
⇒_d = evermarr, _t = duration
_t0 = “0”[分析対象]、” . ”[分析対象外]
• stsum(記述統計)
イベント発生確率、生存期間(第1,2,3四分位ごと)
end of do-file .
total 34080 .0787265 3256 7 9 13 time at risk rate subjects 25% 50% 75% incidence no. of Survival time analysis time _t: duration
failure _d: evermarr . stsum
• Kaplan-Meierの生存率曲線 h t = ��
�� S t = 1 − h t S(t − 1)
⇒ S t = ∏��=1 1 − ℎ � = ∏ [1 −
��
��]
��=1
sts graph
sts graph, by(female) sts graph, by(bc)
• 表形式での比較
sts list, by(female) compare at(0 1 to 20) sts list, by(bc) compare at(0 1 to 20)
* compare( ):期間を指定できる
• グループ間の差は統計的に有意か?
①ログランク検定 sts test bc
生存期間の後半の差を検出しやすい
②ウィルコクソン検定 sts test bc, wilcoxon
生存期間の前半の差を検出しやすい
⇒棄却された場合、差は統計的に有意
例題10.12 coxハザード
bc70 .5630134 .0357482 -9.05 0.000 .4971326 .6376248 bc60 .737341 .039892 -5.63 0.000 .6631568 .8198238 bc50 .8612146 .0440423 -2.92 0.003 .7790783 .9520103 other .7198403 .0829499 -2.85 0.004 .5743135 .9022426 col .6346607 .0469275 -6.15 0.000 .5490386 .7336355 jrcol .7757194 .0644571 -3.06 0.002 .6591367 .9129223 high .8792491 .0559464 -2.02 0.043 .7761581 .9960329 female 1.079712 .0444299 1.86 0.062 .9960503 1.170401 _t Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = -19536.851 Prob > chi2 = 0.0000 LR chi2(8) = 206.21 Time at risk = 33836
No. of failures = 2669
No. of subjects = 3239 Number of obs = 3239 Cox regression -- Breslow method for ties
1より大きい→初婚タイミングを早める 1より小さい→初婚タイミングを遅める
続き
bc70 -.5744519 .0634944 -9.05 0.000 -.6988986 -.4500053 bc60 -.3047048 .0541025 -5.63 0.000 -.4107438 -.1986658 bc50 -.1494116 .0511398 -2.92 0.003 -.2496437 -.0491794 other -.3287259 .1152338 -2.85 0.004 -.5545799 -.1028718 col -.4546648 .073941 -6.15 0.000 -.5995865 -.309743 jrcol -.2539644 .0830933 -3.06 0.002 -.4168244 -.0911045 high -.128687 .0636298 -2.02 0.043 -.2533991 -.003975 female .0766946 .0411498 1.86 0.062 -.0039575 .1573466 _t Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = -19536.851 Prob > chi2 = 0.0000 LR chi2(8) = 206.21 Time at risk = 33836
No. of failures = 2669
No. of subjects = 3239 Number of obs = 3239 Cox regression -- Breslow method for ties
femaleの係数を dis exp(.0766946) オプションnohrを用いると係数で表記される
競合リスクハザードモデル
• イベントは2つの状態だけではない
• 演習10.1~5では、転職と離職を統合していたが、 分けて考えることもできる
就業継続(イベント発生なし)、転職(あり)、離職(あ り)
• データが、パーソンピリオドデータである限 り、”mlogit”を用いて推計可能
KHPS の利用について
• 研究目的の一般利用
http://www.gcoe-econbus.keio.ac.jp/
[公開データ][慶應義塾家計パネル調査]
[慶應義塾家計パネル調査の利用]
• 利用資格
非営利・学術目的での利用
大学または国公立・民間研究機関に所属する研 究者・大学院生等
KHPS の利用について
KHPS の利用について
• データの公開
現在、2010年調査までの結果を一般公開
• 提供データの秘匿処理
地域符号は全国8地域
都道府県、市区町村の符号は削除
• 利用にかかる費用
データの配送費のみ
•
KHPS の利用について
• セミナーデータの貸出し
利用目的はセミナーの内容の復習に限定
これを用いた研究活動・成果の報告は不可
• 申請方法
必要事項を記入の上、グローバルCOE事務局に郵 送
詳細に関してはホームページ上で公開予定
• 申請書・誓約書・推薦書
日本家計パネル調査 (JHPS)
• 日本家計パネル調査
調査主体:パネル調査共同研究拠点
2009年1月に調査開始、現在第4回調査まで実施 済み
調査結果の公表
http://www.pdrc.keio.ac.jp/
KHPSを補完する質問項目
教育・社会保障・医療...
事後アンケート
• 以下のサイトからご回答をお願いします
https://sites.google.com/site/pdrckeiouni/
ホームページにもリンクがあります
次回実施の参考にします
講義の進め方
追加すべきトピック・分析手法
など