内容
• パネル・データとは
• pooled cross section dataの分析
– パネルデータの分析
– DID (Difference in Differences)モデル
• パネル・データの分析
– 階差モデル (first difference model)
– fixed effects model
– random effects model
• パネル分析の実際
– データ・セットの作成
– 推定
パネル・データとは
• クロスセクション・データ
• 時系列データ
• パネル・データ
– クロスセクション・データ ×時系列
• 同一の家計(企業…)を時系列的に追ったデータ
• 都道府県別データ(県民所得,物価,地価等のデータ)を数年分
あつめたデータ
– 疑似パネルデータ– 注意)
• pooled cross section data 複数時点のクロスセクション・データ
– 各時点でランダムなサンプリング
– 調査対象は異なる時点では同一ではない – パネル・データではない
パネル・データとは(2)
nr year black exper hisp hours lwage married
13 1980 0 1 0 2672 1.19754 0 13 1981 0 2 0 2320 1.85306 0 13 1982 0 3 0 2940 1.344462 0 13 1983 0 4 0 2960 1.433213 0 13 1984 0 5 0 3071 1.568125 0 13 1985 0 6 0 2864 1.699891 0 13 1986 0 7 0 2994 -0.72026 0 13 1987 0 8 0 2640 1.669188 0 17 1980 0 4 0 2484 1.675962 0 17 1981 0 5 0 2804 1.518398 0 17 1982 0 6 0 2530 1.559191 0 17 1983 0 7 0 2340 1.72541 0 17 1984 0 8 0 2486 1.622022 0 17 1985 0 9 0 2164 1.608588 0 17 1986 0 10 0 2749 1.572385 0 17 1987 0 11 0 2476 1.820334 0 18 1980 0 4 0 2332 1.515963 1 18 1981 0 5 0 2116 1.735379 1 18 1982 0 6 0 2500 1.631744 1 18 1983 0 7 0 2474 1.998229 1 wagepan.raw 賃金や労働時 間についてのパ ネル・データ 個人の識別 番号 特定の個人に ついての複数 年のデータ: 人種ダミー,経 験年数,労働 時間,賃金,結 婚ダミー 時間を通じて変 化しない変数も ある(人種ダ ミー等)。 労働時間,賃 金は年によって 異なる値。
パネル・データ利用の利点
• サンプル数の増加,変数の変動性が大きくなる
– 推計値の信頼度が高まる
• クロスセクション・データやマクロ時系列データでは
個々の主体の異質性をうまく捉えられない。
– パネル・データを利用することで克服できる場合もある
• 動学的効果を捉えることができるかもしれない
– マクロ時系列データ
• 集計された経済主体の行動(個々の主体の意思決定がうまく捉
えられない)
– 社会資本整備の効果地価に反映される社会資本整
備計画のアナウンスの前後のデータがあれば
Pooled cross section data の分析
• cps78-85.raw
• 教育の収益率の推計
– 1978年と1985年の2時点のデータ
– 2時点で調査対象は異なる
– 教育の収益率は2時点間で変化したか
• 複数時点のデータを単純にプールして分析?
– 78年と85年を単純に比較できない
– 全般的な賃金変化,マクロ経済ショックの存在
• 時点ダミー(定数項ダミー)を用いる
– 教育の収益率の違い
• 年次ダミーと教育年数(EDUC)の交差項
Dependent Variable: LWAGE Method: Least Squares
ncluded observations: 1084
Variable Coefficient Std. Error t-Statistic Prob. C 0.458933 0.093449 4.911078 0.0000 Y85 0.117806 0.123782 0.951725 0.3415 EDUC 0.074721 0.006676 11.19174 0.0000 Y85EDUC 0.018461 0.009354 1.973509 0.0487 EXPER 0.029584 0.003567 8.293165 0.0000 EXPERSQ -0.000399 7.75E-05 -5.151307 0.0000 UNION 0.202132 0.030294 6.672233 0.0000 FEMALE -0.316709 0.036621 -8.648173 0.0000 Y85FEM 0.085052 0.051309 1.657644 0.0977
R-squared 0.426186 Mean dependent var 1.867301 Adjusted R-squared0.421915 S.D. dependent var 0.542804 S.E. of regression 0.412704 Akaike info criterion 1.076097 Sum squared resid 183.0991 Schwarz criterion 1.117513 Log likelihood -574.2443 Hannan-Quinn criter. 1.091776 F-statistic 99.80353 Durbin-Watson stat 1.918367 Prob(F-statistic) 0.000000 • Y85:85年なら1 EDUC : 教育年数 Y85EDUC = Y85*EDUC EXPER: 経験年数 EXPERSQ = EXPER^2 UNION: 組合加入なら1 FEMALE:女性なら1 Y85FEM=Y85*FEMALE
教育の収益率の推計:poold cross
section data 78年と85年
DID estimator
(difference in differences estimator)
• kielmc.raw
• ゴミ焼却場の建設が住宅価格に与える影響
• 1978年,81年の2時点のデータ(同一の住宅を追跡したものではない)
• 1978年時点では焼却場の建設の噂なし,81年時点ではあり(実際には
85年に建設)
– 2時点間の間にあるeventが生じた – 焼却場から離れた地域はeventの影響を受けない – 焼却場の近くの住宅はeventの影響を受ける• 一種の自然実験
– control group 焼却場から離れた地域 – treatment group 焼却場の近くの地域 – eventの実施の前後で両者の反応の違いをみる– 完全な実験であれば,control group とtreatment groupは同質な集団でない といけない。このケースでは,一般にゴミ焼却場は中心部から離れた地域に 建設されるので,ゴミ焼却場が建設されようがされまいが,住宅価格は安く なることに注意。ここでは,その効果をダミー変数(ゴミの焼却場の近く=辺鄙 な場所)等で処理すれば,両グループはほぼ同質とみなせるとして分析する。
問題
• kielmc.raw
• 住宅価格方程式の推計せよ
被説明変数: 住宅価格(rprice: 1978年実質)
説明変数: nearinc(住宅がゴミ焼却場の近くなら1),
y81(81年なら1), y81* nearinc,
住宅の質を表す変
数(広さ,築年数等),周辺環境
• 比較のため,次の方程式を推計
– 時点ダミーを用いずに単純にプールしたデータで
回帰分析
パネル・データの分析
• crime2.raw
– 46市の失業率(unem)と犯罪発生率(crmrte),
1982年と1987年の2時点
– 同一の市を追跡したパネル・データ
– 犯罪発生率と失業率の関係を分析
• 他の条件が一定なら,失業率の上昇は犯罪発生率を
高める?
– crmrte を被説明変数,unemを説明変数にして
OLSを,各年ごと,およびプールしたデータで行う
と,失業率と犯罪発生率の間に予想した関係は
見いだせるだろうか。
パネル・データの分析
階差モデル
• 各都市の犯罪発生率に結び付く,各都市固有の観察不
可能な変数があるかもしれない。
– この変数は観察不可能だが,2時点間で変化しないとする。
– この変数の影響を考慮して失業率と犯罪発生率の関係を推
定するにはどうすれば良いか?
– 𝑦
𝑖,𝑡= 𝛼
𝑖+ 𝛽𝑥
𝑖,𝑡+ 𝛾𝐷
𝑡+ 𝑢
𝑖,𝑡というモデルを考える。
•
a
i: 都市iの固有の性質(観察不可能)
• x
i,t, y
i,t: 都市
i
, 時点tの説明変数と被説明変数
• D
t:時点ダミー(1987年なら1)
– マクロ経済ショックがあるかもしれない– 階差をとると問題は解決
• ∆𝑦
𝑖,𝑡= 𝛾 + 𝛽∆𝑥
𝑖,𝑡+ ∆𝑢
𝑖,𝑡• 階差モデルで犯罪発生率と失業率の関係を分析せよ。
Rでの分析
• crime2.raw
欠損値が . importの際注意
• サブセットでの回帰
– d87: 87年なら1,82年なら0というダミー変数
– crime2がattachされているとして
– 87年だけの回帰
• lm(y ~ x1 + x2 + x3, subset = (d87 == 1))
– 82年だけの回帰
• lm(y ~ x1 + x2 + x3, subset = (d87 == 0))
パネル・データの分析方法
• 次のモデルを考える。
– i : 個人i
– t : 時点t
– y
it: 被説明変数 個人i,時点t
– x
j,it: 説明変数x
j(j=1,2,...,k) 個人i,時点t
– u
it: 誤差項 個人i,時点t
it
it
k
k
it
it
it
x
x
x
u
y
0
1
1
,
2
2
,
,
u
itの想定
pooling dataでのOLS,
固定効果モデル fixed effects model
,
0
cov
0
,
cov
but
0
,
cov
,
var
,
0
E
effect
individual
:
, , , 2 , , 2 2 , 1 1 0
it j it kt i i it j it it it i it i it it it k k it it itx
u
x
x
v
v
v
v
u
u
x
x
x
y
a
a
a
個人i のindividual effectと説明変数の間に相関があると,誤差項
u
itと説明変数が独立だという最小二乗法の前提が満たされない
例) 賃金方程式の推計で,個人の生来の資質(individual effect)
は観察できない。しかし,個人の生来の資質は学歴と相関がある
かもしれない。
変量効果モデル
random effects model
fixed effects model random effects model は現在では,ミスリー
ディングな用語
もともとは,文字通りの意味:fixed effects は非確率変数(固定値),
random effectsは確率変数という想定だった。
𝑦
𝑖𝑡
= 𝛽
0
+ 𝛽
1
𝑥
1,𝑖𝑡
+ ⋯ + 𝛽
𝑘
𝑥
𝑘,𝑖𝑡
+ 𝑢
𝑖𝑡
𝑢
𝑖𝑡
= 𝛼
𝑖
+ 𝑣
𝑖𝑡
cov 𝛼
𝑖
, 𝑥
𝑗,𝑖𝑡
= 0
a
i
: individual effect
パネル分析 その他
• 一般的には,individual effects は個々の主体(ク
ロスセクション)に関連
• 場合によっては,時点特有のショックをコント
ロールするために,時点に関連させる場合もあ
る
• unobserved effects model
– 個々の主体に特徴的な,観察されない変数の影響を
うまく処理するための手法
FE(fixed effects) modelの推定方法
it i it k k it it itx
x
x
v
y
0
1 1,
2 2,
,
a
1 , , , 1 , , 2 2 , 1 1,
where
it j it j it j it it it it it k k it it itx
x
x
y
y
y
v
x
x
x
y
各変数のtに関しての平均を求め,平均からの乖離をとる (within estimatorともよばれる) こうした変形で,individual effectを表す項は消去され,他のパラメータを推定 できる。 i t i it i t i it it it k k it it itx
x
x
y
y
y
v
x
x
x
y
, , , , 2 2 , 1 1,
あるいは,1階の階差モデルを考える FD(first differenced) estimatorFE modelの推定方法(2)
• 自由度
– N個のクロスセクション,T時点のデータ,k個の説明変数
– N*(T-1)-k の自由度になることに注意
• 一階の階差をとると初期時点の階差データはない。平均からの乖離をとると, T時点の観測のうち独立なのはT-1個になる• 説明変数
– 時間を通じて一定の値をとる変数の効果は分析できない
– 例)教育の収益率
• 学歴や性別,人種は一定の値 教育の収益率,性・人種の違いが賃金に与 える影響は,FEモデルでは推定できない• FD estimator (階差モデルの推定量)か within estimatorか
– 誤差項の性質が異なる
– 時点の数が少ないときはあまり大きな問題ではない
– v
itの系列相関が高い時
FD estimator
RE (random effects) model
誤差項の想定
𝑢
𝑖𝑡= 𝛼
𝑖+ 𝑣
𝑖𝑡cov 𝑥
𝑗,𝑖𝑡, 𝛼
𝑖= 0
E 𝛼
𝑖= 0, E 𝑣
𝑖𝑡= 0
var 𝛼
𝑖= 𝜎
𝛼2, var 𝑣
𝑖𝑡= 𝜎
𝑣2cov 𝛼
𝑖, 𝑣
𝑗𝑡= 0 (for all 𝑖, 𝑗, 𝑡)
cov 𝑣
𝑖𝑡, 𝑣
𝑗𝑠= 0 (if 𝑖 ≠ 𝑗, 𝑡 ≠ 𝑠)
cov 𝛼
𝑖, 𝛼
𝑗= 0 (if 𝑖 ≠ 𝑗)
Pooled dataでOLSを行うと,誤差項の均一分散の前提が崩れ
る
RE model :誤差項の想定からGLS
(詳しい説明は上級のeconometircsの教科書を参照すること)
誤差項の分散共分散行列
パネル分析の実際
• wagepan.raw をEviews に読み込む
• 賃金と教育等の関係についてのパネル・データ
– クロスセクションデータでimport,その後,パネル・
データに変換する方法
– パネル・データとしてimportする方法
• 回帰式の推定
– 単純な回帰(プールされたデータで)
– fixed effects model
• ダミー変数を用いる
• 1階の階差方程式
wagepan.rawファイルを
開いて,先頭行に変数名
を挿入したファイルを作
成しておく
wagepan.des
4360 obs.
=545 obs. x 8年
27 variables
ファイルのimport
クロスセクションデータ
としてimportするので
Unstructured/Undated
を選択
observation数
を記入
最初に空のデータセッ
トを作成
Eviewsを起動し,クロス
セクションデータとして
読み込むための準備
を行う
menuから
File/New/Workfile
右の画面
メニューから
File/Import/Import
from file..
で目的のファイル
を選択する
ファイルのimport(2)
ファイルのimport(3)
先頭行(1行)に変
数名の入ったファ
イルなのでHeader
lines は1
後はメニューに
従っていけば
importが完成
nr: 個人の識別番
号
year: 年次
うまく読み込むことがで
きれば左のようになる
データセットができたら
適当な名前をつけて保
存する
クロスセクションデータ
をパネルデータに変換
するためには,このあ
たり(Range)をクリック
するか,menuからProc
Structute/ Resize
Current Page を選択
クロスセクションデータからパネル
データへの変換
workfile structure
type として Dated
Panel を選択
Cross section ID, 時
点を表す変数を指
定
ここではnrとyear
Frequency や Start
date , End dateも入力
した方がいい場合もあ
る(このデータでは自
動的に判別された)
workfile structure で Dated Panelを 選択 個人を識別す る変数を入力 時点を表 す変数を 入力 Frequency や Start date , End dateも入 力した方がいい場合 もある(このデータで は自動的に判別さ れた)
Panel data として識別
された
1980-1987 x 545 obs.
で合計4360 obs.
パネルデータから通
常のundated cross
sectionデータへの変
換もできる
Proc/Structure/Resize
..とたどるか,左の赤
で囲った部分(Range
あたり)をクリック
最初からパネルデータとしてimportする方法
空のデータセットを作る
メニューから
File/Workfile/New
と進んで,
• Workfile structure type
Balanced Panel
• Frequencyは年次デー
タなので
Annual
• Start date, End dateを
指定し,
• Number of cross
最初からパネルデータとしてimportする方法(2)
画面に従って進
んでいく
左がimportの
最終段階
Cross section ID
とDate Seriesが
正しいことを確
認してFinishを
押す
パネル分析
左のような回帰式を 推計する パネル分析のオプ ションはこのタブか ら選択できるパネル分析のオプション
cross section None Fixed Effects Random Effects Period None Fixed Effects Random Effects が選択できるRでのパネル分析
• パッケージplmが必要
• データをクロスセクションデータとして読み込
み,plm.data( )でパネルデータに変換
• plm.data(データファイル,index=c(ID,period))
• 回帰分析は
• plm(モデル式,データ名,index=c(ID,period))
library(plm)でパッケージplmをロード
wagepan1 <- plm.data(wagepan, index = c("nr", "year"))
# plm.data( ) でパネルデータへ変換
# index はクロスセクションIDと時点を表す変数の指定
wage1_fe <- plm(lwage ~ exper , data=wagepan1, model="within" )
# plm(モデル式,データの指定,分析方法の指定)
# model : 固定効果“within”,ランダム効果”random”, プール”pooling”
# plm の結果をwage1_fe に保存
summary(wage1_fe) # 結果の要約
fixef(wage1_fe)
# 固定効果の出力(クロスセクションごとの定数項)
#ランダム効果,プーリングデータでの推定
wage1_re <- plm(lwage ~ educ + exper , data=wagepan1, model="random" )
wage1_pool <- plm(lwage ~ educ + exper , data=wagepan1, model="pooling" )
Rでwagepanというデータファイルをパネルデータに
変換し,パネル分析を行う
次の方程式を推計
• wagepan.raw
• lwage = f( educ, black, hisp, exper, married,
union)
– educ(教育年数), black(黒人ダミー), hisp(ヒスパ
ニックダミー)は一定の値
– exper(labor market experience)
• labor market から撤退していなければ(出産等?),基本的
にはyearと同じく,1年ずつ増えていく
• Pooled OLS
• RE model
• FE model
Pooled OLS とRE model
Dependent Variable: LWAGE
Method: Panel EGLS (Cross-section random effects) Date: 03/21/18 Time: 14:59
Sample: 1980 1987 Periods included: 8
Cross-sections included: 545
Total panel (balanced) observations: 4360
Swamy and Arora estimator of component variances
Variable Coefficient Std. Error t-Statistic Prob.
C -0.107464 0.110411 -0.973312 0.3305 EDUC 0.101225 0.008890 11.38692 0.0000 BLACK -0.144131 0.047488 -3.035096 0.0024 HISP 0.020151 0.042488 0.474280 0.6353 EXPER 0.112119 0.008239 13.60860 0.0000 EXPERSQ -0.004069 0.000590 -6.893449 0.0000 MARRIED 0.062795 0.016728 3.753851 0.0002 UNION 0.107379 0.017783 6.038446 0.0000 Effects Specification S.D. Rho Cross-section random 0.324567 0.4606 Idiosyncratic random 0.351255 0.5394 Weighted Statistics
R-squared 0.178240 Mean dependent var 0.589338
Adjusted R-squared 0.176918 S.D. dependent var 0.388204
S.E. of regression 0.352193 Sum squared resid 539.8226
F-statistic 134.8502 Durbin-Watson stat 1.588405
Prob(F-statistic) 0.000000
Unweighted Statistics
R-squared 0.180806 Mean dependent var 1.649147
FE model
Dependent Variable: LWAGEMethod: Panel Least Squares Date: 03/21/18 Time: 15:02 Sample: 1980 1987
Periods included: 8
Cross-sections included: 545
Total panel (balanced) observations: 4360
Variable Coefficient Std. Error t-Statistic Prob.
C 1.395302 0.012294 113.4964 0.0000
EXPERSQ 0.003699 0.000189 19.56038 0.0000
MARRIED 0.107343 0.018196 5.899163 0.0000
UNION 0.082762 0.019770 4.186372 0.0000
Effects Specification
Cross-section fixed (dummy variables)
R-squared 0.600523 Mean dependent var 1.649147
Adjusted R-squared 0.543201 S.D. dependent var 0.532609
S.E. of regression 0.359974 Akaike info criterion 0.911490
Sum squared resid 493.9646 Schwarz criterion 1.713408
Log likelihood -1439.048 Hannan-Quinn criter. 1.194508
F-statistic 10.47621 Durbin-Watson stat 1.750265
Prob(F-statistic) 0.000000