• 検索結果がありません。

day4 Recent site activity 慶應義塾大学パネルデータ解析セミナー

N/A
N/A
Protected

Academic year: 2018

シェア "day4 Recent site activity 慶應義塾大学パネルデータ解析セミナー"

Copied!
43
0
0

読み込み中.... (全文を見る)

全文

(1)

パネルデータ解析セミナー

第4日講義資料

201337

(2)

今日の内容: 講義の狙い

• パネルデータ分析の補足

Fixed, Randomの話

モデルの選定( Pooled vs Fixed, Pooled vs Random, etc)

脱落サンプルへの対応

• イベント・ヒストリー分析

分析に応じたデータセットの構築

離散時間ロジットモデル

Coxの比例ハザードモデル

競合リスクハザードモデル

(3)

パネルデータ分析の補足

Fixed, Randomの話

Fixed δi 時間不変⇒ダミー

Randomδi確率変数μit=δiit E(μit)=0

E(μit, μis)=σδ2+ σε2 , t=s E(μit, μis)=σδ2 , t≠s

攪乱項が相関し、OLS×

攪乱項の相関を除去するために GLS Transformation

(4)

���� − ����� = �1 − ���� + ���� − ���̅� + (��� − �� )′

�� = 1 − ���2 + ��2 θ → 0: OLS, θ → 1: Fixed,

⇒時間不可変変数を推計できる

(5)

つづき

モデルの選定1Pooled vs Fixed

帰無仮説:δ_1=δ_2=・・・=δ_N

棄却された場合、Fixed を採択

検定方法:F検定 outcome 最下段

モデルの選定2Pooled vs Random

帰無仮説:Var(δ_i)=0

棄却された場合、Randomを採択 検定方法:Breusch-PaganLM検定 xttest0

(6)

演習7.4

use z:¥completed¥chap8

xtreg logwage tenure age female high-other nonreg fmsz2-fmsz6 rg2-rg8 bigcity city year2005-year2009 if emp==1, re

xttest0

Test: Var(u) = 0

u .0980711 .313163 e .1372566 .3704815 logwage .35427 .5952059 Var sd = sqrt(Var) Estimated results:

logwage[hhid,t] = Xb + u[hhid] + e[hhid,t]

Breusch and Pagan Lagrangian multiplier test for random effects

(7)

演習7.5

xtreg logwage tenure nonreg fmsz2-fmsz6 rg2- rg8 bigcity city year2005-year2009 if emp==1, fe

F test that all u_i=0: F(2189, 5267) = 3.39 Prob > F = 0.0000

(8)

脱落サンプルへの対応

3つの脱落過程

①Missing Completely at Random(MCAR)ランダム

な脱落推計に大きな問題なし

② Missing at Random(MAR)

(脱落以前の)観測可能な変数に依存した脱落推計 に問題あり

③ Missing At No Random(MANR)

脱落時点以降の)観測不可能な値に変数に依存した 脱落推計に問題あり

(9)

3つの対処方法

①Complete Case Analysis

分析に使用するすべての変数が揃った個体のみ 利用する

②Imputation 法(特定の値を補完)

Mean, Regression, HotDeck(似ている個体の値を 利用),

③ Available Case Analysis

(10)

Inverse Probability Weighting

①継続回答率の推定

被説明変数:t時点で回答するかどうか 説明変数:t-1時点の変数群

Probit推計

②推定値の逆数(inverprop)を求める predict prop

gen inverprop=1/prop

③②をweightとして、推定を行う

(11)

第6章: パネルデータ分析 (1)

イベント・ヒストリー分析

(サバイバル分析、生存時間分析)

分析対象

発生時点を特定することができる出来事(イベン ト)

人口学的イベント: 結婚、出産、死亡

労働経済学: 転職、昇進、失業、再就職

対象イベントの発生リスク開始から発生までの期間

分析の目的

イベントの発生要因

タイミング

(12)

分析上の利点

• イベントが発生していないサンプル

通常の方法では分析から除外

結果に対する偏り?

具体例: 初婚タイミング

初婚年齢に関する回帰分析?(表9.1,9.2

イベント・ヒストリー分析?

(13)

イベント・ヒストリー分析 (2)

年 齢 配 偶 関 係 初 婚 年 齢

67 既 婚 19

34 既 婚 31

24 未 婚 .

50 既 婚 22

47 既 婚 25

43 既 婚 29

27 未 婚 .

66 離 死 別 21

27 未 婚 .

48 既 婚 28

年 齢 配 偶 関 係 初 婚 年 齢

67 既 婚 19

34 既 婚 31

24 既 婚 34

50 既 婚 22

47 既 婚 25

43 既 婚 29

27 既 婚 32

66 離 死 別 21

27 既 婚 29

48 既 婚 28

平均: 25 平均: 27

(14)

データセットの構造 (1)

用語の解説

リスク期間: 当該イベントの発生を経験する可能性 のある期間

継続時間: リスク期間開始からの経過時間

打ち切り: いくつかの理由によって、リスク期間の観 察が不可能になること

Censoring(検閲?): 情報が観察不能

Truncation(切断?): 情報が観察可能

(15)

データセットの構造 (2)

観 察 さ れ な い リ ス ク 期 間

観 察 開 始 観 察 打 ち 切 り

(A) (B) (C) (D) (E) (F)

×

左 ト ラ ン ケ ー シ ョ ン

左 セ ン サ リ ン グ

右 セ ン サ リ ン グ

右 セ ン サ リ ン グ

観 察 さ れ る リ ス ク 期 間

イ ベ ン ト 発 生 観 察 打 ち 切 り

×

リ ス ク 期 間 開 始

(16)

分析モデル (1)

最終的な目的

イベントの発生時点 t の分布 f(t) を識別

各時点でのイベント発生確率

イベント発生までの平均時間

等が分かる

(17)

分析モデル (2)

• ハザード率とサバイバル確率

ハザード率:

イベントが t 時点より前に起こらなかったという条件の下 での t 時点での条件付発生確率

サバイバル確率:

t 時点より前にイベントが発生しない確率

(18)

分析モデル (3)

• ハザード率に関するモデル化

通常のイベント・ヒストリー分析では、ハザード率が 観察される属性に依存することを仮定してモデル

• ハザード率とサバイバル確率の関係

(19)

分析モデル (4)

具体例: 100人の主体のイベント発生

Et: 各時点でのイベント発生

Rt: 各時点でのリスク人口

t = 0 1 2 3 4

Et 40 30 20 10

Rt 100 60 30 10 0

h (t ) 0.4 0.5 1/3 1

S (t ) 1 0.6 0.3 0.1 0

リ ス ク 期 間 t

(20)

分析モデル (5)

最尤法

di: イベント発生を示すダミー変数

(21)

分析モデル (6)

最尤法

T 時点にイベントを経験する確率(尤度)

T 時点までイベントを経験しない確率

(22)

データセットの種類

2種類のデータ

通常のパネルデータ

回顧(パネル)データ

• それぞれに対応した分析例

離職の分析

初婚タイミングの分析

(23)

離散時間ロジットモデル

• ロジスティック関数による定式化

離散的な時間を扱うことが可能

パネルデータをプールして、ロジットモデルで推計 可能

λ(t) は基底ハザードと呼ばれ、個人属性とは独立 に、継続時間のみに依存する

β の解釈

(24)

データの形式 1個体に1情報

1個体に複数情報(person-period data)

id wkstate start end

1 4 2007/4/1 2008/6/30

2 1 2007/4/1 .

3 1 2007/4/1 .

4 1 2007/4/1 .

5 6 2007/4/1 2009/3/30

id v48 year

1 1 2007

1 4 2008

2 1 2007

2 1 2008

3 1 2007

3 1 2008

4 1 2007

4 4 2008

5 1 2007

5 1 2008

(25)

Allison(1982)

Sociological Methodology vol.13

条件付きイベント発生確率 Pit=Pr[T=t|Tt, xit]

ロジスティック回帰関数で表すと Pit=1/[1+exp(-α-βx)]

1-Pit=exp(-α-βx)/[1+exp(-α-βx)] Pit/(1-Pit)=exp(α+βx)

log[P

it/(1-Pit)]=α+βx

X1単位増えるごとにオッズ比(イベント発生確率 と比較率との比)exp(β)倍となる

(26)

Cox の比例ハザードモデル

• 基底ハザードと個人属性に依存する部分が、 積の形で分解可

λ0(t) の部分を特定化することなしに推計可能

個体間のハザード率の比は一定

stcoxコマンドによって推計可能

事前にイベント・ヒストリーデータとしての指定が必要

β の解釈

(27)

• h �� = 0(�) × exp(��)

相対的ハザード比は一定と仮定 ℎ(�1,�)

ℎ(�2,�) =

0(�) × exp(��1)0(�) × exp(��2) =

exp(��1) exp(��2)

= exp[�(�1 − �2)]

⇒ 時間と変数とが独立

(28)

例題10.6 duration (リスク開始期*~初婚 経験までの年数)の作成

*男性18歳、女性16 V462=1:未婚、2:離死別、8:既婚 gen duration=.

//既婚サンプル

replace duration=v462-18 if female==0&(v461==2|v461==8)&v462~=99 replace duration=v462-16 if female==1&(v461==2|v461==8)&v462~=99

//未婚サンプル

replace duration=age-18 if female==0&v461==1 replace duration=age-16 if female==1&v461==1 label var duration "継続期間"

(29)

ミニ情報

データにリスク開始時間(start)、イベント発生時間 (end)が記載されている場合

ex. s_y, s_m, s_d, e_y, e_m, e_d, gen start=mdy(s_m s_d s_y)

gen end=mdy(e_m e_d e_y)

→ 196011日の日数計算 年月のみの場合は ym()

gen duration_=end-start

生存期間が計算

(30)

例題10.7 evermarr(初婚経験の有無)作成

例題10.8 bc40,bc50,bc60,bc70(出生コーホート) の作成

例題10.9 イベント・ヒストリーデータの指定 stset duration, failure(evermarr)

⇒_d = evermarr, _t = duration

_t0 = “0”[分析対象]” . ”[分析対象外]

(31)

stsum(記述統計)

イベント発生確率、生存期間(1,2,3四分位ごと)

end of do-file .

total 34080 .0787265 3256 7 9 13 time at risk rate subjects 25% 50% 75% incidence no. of Survival time analysis time _t: duration

failure _d: evermarr . stsum

(32)

• Kaplan-Meierの生存率曲線 h t =

   S t = 1 − h t S(t − 1)

S t = �=1 1 − ℎ � = [1

]

�=1

sts graph

sts graph, by(female) sts graph, by(bc)

(33)

表形式での比較

sts list, by(female) compare at(0 1 to 20) sts list, by(bc) compare at(0 1 to 20)

compare( ):期間を指定できる

(34)

• グループ間の差は統計的に有意か?

①ログランク検定 sts test bc

生存期間の後半の差を検出しやすい

②ウィルコクソン検定 sts test bc, wilcoxon

生存期間の前半の差を検出しやすい

⇒棄却された場合、差は統計的に有意

(35)

例題10.12 coxハザード

bc70 .5630134 .0357482 -9.05 0.000 .4971326 .6376248 bc60 .737341 .039892 -5.63 0.000 .6631568 .8198238 bc50 .8612146 .0440423 -2.92 0.003 .7790783 .9520103 other .7198403 .0829499 -2.85 0.004 .5743135 .9022426 col .6346607 .0469275 -6.15 0.000 .5490386 .7336355 jrcol .7757194 .0644571 -3.06 0.002 .6591367 .9129223 high .8792491 .0559464 -2.02 0.043 .7761581 .9960329 female 1.079712 .0444299 1.86 0.062 .9960503 1.170401 _t Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = -19536.851 Prob > chi2 = 0.0000 LR chi2(8) = 206.21 Time at risk = 33836

No. of failures = 2669

No. of subjects = 3239 Number of obs = 3239 Cox regression -- Breslow method for ties

1より大きい初婚タイミングを早める 1より小さい初婚タイミングを遅める

(36)

続き

bc70 -.5744519 .0634944 -9.05 0.000 -.6988986 -.4500053 bc60 -.3047048 .0541025 -5.63 0.000 -.4107438 -.1986658 bc50 -.1494116 .0511398 -2.92 0.003 -.2496437 -.0491794 other -.3287259 .1152338 -2.85 0.004 -.5545799 -.1028718 col -.4546648 .073941 -6.15 0.000 -.5995865 -.309743 jrcol -.2539644 .0830933 -3.06 0.002 -.4168244 -.0911045 high -.128687 .0636298 -2.02 0.043 -.2533991 -.003975 female .0766946 .0411498 1.86 0.062 -.0039575 .1573466 _t Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = -19536.851 Prob > chi2 = 0.0000 LR chi2(8) = 206.21 Time at risk = 33836

No. of failures = 2669

No. of subjects = 3239 Number of obs = 3239 Cox regression -- Breslow method for ties

femaleの係数を dis exp(.0766946) オプションnohrを用いると係数で表記される

(37)

競合リスクハザードモデル

イベントは2つの状態だけではない

演習10.15では、転職と離職を統合していたが、 分けて考えることもできる

就業継続(イベント発生なし)、転職(あり)、離職(あ り)

データが、パーソンピリオドデータである限 り、”mlogit”を用いて推計可能

(38)

KHPS の利用について

研究目的の一般利用

http://www.gcoe-econbus.keio.ac.jp/

[公開データ][慶應義塾家計パネル調査]

[慶應義塾家計パネル調査の利用]

利用資格

非営利・学術目的での利用

大学または国公立・民間研究機関に所属する研 究者・大学院生等

(39)

KHPS の利用について

(40)

KHPS の利用について

データの公開

現在、2010年調査までの結果を一般公開

提供データの秘匿処理

地域符号は全国8地域

都道府県、市区町村の符号は削除

利用にかかる費用

データの配送費のみ

(41)

KHPS の利用について

• セミナーデータの貸出し

利用目的はセミナーの内容の復習に限定

これを用いた研究活動・成果の報告は不可

申請方法

必要事項を記入の上、グローバルCOE事務局に郵

詳細に関してはホームページ上で公開予定

• 申請書・誓約書・推薦書

(42)

日本家計パネル調査 (JHPS)

日本家計パネル調査

調査主体:パネル調査共同研究拠点

20091月に調査開始、現在第4回調査まで実施 済み

調査結果の公表

http://www.pdrc.keio.ac.jp/

KHPSを補完する質問項目

教育・社会保障・医療...

(43)

事後アンケート

• 以下のサイトからご回答をお願いします

https://sites.google.com/site/pdrckeiouni/

ホームページにもリンクがあります

次回実施の参考にします

講義の進め方

追加すべきトピック・分析手法

など

参照

関連したドキュメント

Current Status of Unapproved Drug Transactions via Internet Auction in Japan.. Hisakazu Ohtani * , Honomi Fujii, Ayuko Imaoka and Takeshi Akiyoshi Division of

鈴木 則宏 慶應義塾大学医学部内科(神経) 教授 祖父江 元 名古屋大学大学院神経内科学 教授 高橋 良輔 京都大学大学院臨床神経学 教授 辻 省次 東京大学大学院神経内科学

解析の教科書にある Lagrange の未定乗数法の証明では,

22 日本財団主催セミナー 「memento mori 広島− 死 をみつめ, 今 を生きる−」 を広島エリザベト音楽大

・逆解析は,GA(遺伝的アルゴリズム)を用い,パラメータは,個体数 20,世 代数 100,交叉確率 0.75,突然変異率は

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

(Please note that, because Japanese language proficiency is not required for admission to the Program, the letter of recommendation does not need to be written by a teacher of

1978年兵庫県西宮市生まれ。2001年慶應義塾大学総合政策学部卒業、