パネル・データの分析

(1)

(2)

内容

• パネル・データとは

• pooled cross section dataの分析

– パネルデータの分析

– DID (Difference in Differences)モデル

• パネル・データの分析

– 階差モデル (first difference model)

– fixed effects model

– random effects model

• パネル分析の実際

– データ・セットの作成

– 推定

(3)

パネル・データとは

• クロスセクション・データ

• 時系列データ

• パネル・データ

– クロスセクション・データ ×時系列

• 同一の家計（企業…）を時系列的に追ったデータ

• 都道府県別データ（県民所得，物価，地価等のデータ）を数年分

あつめたデータ

– 疑似パネルデータ

– 注意）

• pooled cross section data 複数時点のクロスセクション・データ

– 各時点でランダムなサンプリング

– 調査対象は異なる時点では同一ではない – パネル・データではない

(4)

パネル・データとは(2)

nr year black exper hisp hours lwage married

13 1980 0 1 0 2672 1.19754 0 13 1981 0 2 0 2320 1.85306 0 13 1982 0 3 0 2940 1.344462 0 13 1983 0 4 0 2960 1.433213 0 13 1984 0 5 0 3071 1.568125 0 13 1985 0 6 0 2864 1.699891 0 13 1986 0 7 0 2994 -0.72026 0 13 1987 0 8 0 2640 1.669188 0 17 1980 0 4 0 2484 1.675962 0 17 1981 0 5 0 2804 1.518398 0 17 1982 0 6 0 2530 1.559191 0 17 1983 0 7 0 2340 1.72541 0 17 1984 0 8 0 2486 1.622022 0 17 1985 0 9 0 2164 1.608588 0 17 1986 0 10 0 2749 1.572385 0 17 1987 0 11 0 2476 1.820334 0 18 1980 0 4 0 2332 1.515963 1 18 1981 0 5 0 2116 1.735379 1 18 1982 0 6 0 2500 1.631744 1 18 1983 0 7 0 2474 1.998229 1 wagepan.raw 賃金や労働時間についてのパネル・データ個人の識別番号特定の個人についての複数年のデータ：人種ダミー，経験年数，労働時間，賃金，結婚ダミー時間を通じて変化しない変数もある（人種ダミー等）。労働時間，賃金は年によって異なる値。

(5)

パネル・データ利用の利点

• サンプル数の増加，変数の変動性が大きくなる

– 推計値の信頼度が高まる

• クロスセクション・データやマクロ時系列データでは

個々の主体の異質性をうまく捉えられない。

– パネル・データを利用することで克服できる場合もある

• 動学的効果を捉えることができるかもしれない

– マクロ時系列データ

• 集計された経済主体の行動（個々の主体の意思決定がうまく捉

えられない）

– 社会資本整備の効果地価に反映される社会資本整

備計画のアナウンスの前後のデータがあれば

(6)

Pooled cross section data の分析

• cps78-85.raw

• 教育の収益率の推計

– 1978年と1985年の2時点のデータ

– 2時点で調査対象は異なる

– 教育の収益率は2時点間で変化したか

• 複数時点のデータを単純にプールして分析?

– 78年と85年を単純に比較できない

– 全般的な賃金変化，マクロ経済ショックの存在

• 時点ダミー（定数項ダミー）を用いる

– 教育の収益率の違い

• 年次ダミーと教育年数(EDUC)の交差項

(7)

Dependent Variable: LWAGE Method: Least Squares

ncluded observations: 1084

Variable Coefficient Std. Error t-Statistic Prob. C 0.458933 0.093449 4.911078 0.0000 Y85 0.117806 0.123782 0.951725 0.3415 EDUC 0.074721 0.006676 11.19174 0.0000 Y85EDUC 0.018461 0.009354 1.973509 0.0487 EXPER 0.029584 0.003567 8.293165 0.0000 EXPERSQ -0.000399 7.75E-05 -5.151307 0.0000 UNION 0.202132 0.030294 6.672233 0.0000 FEMALE -0.316709 0.036621 -8.648173 0.0000 Y85FEM 0.085052 0.051309 1.657644 0.0977

R-squared 0.426186 Mean dependent var 1.867301 Adjusted R-squared0.421915 S.D. dependent var 0.542804 S.E. of regression 0.412704 Akaike info criterion 1.076097 Sum squared resid 183.0991 Schwarz criterion 1.117513 Log likelihood -574.2443 Hannan-Quinn criter. 1.091776 F-statistic 99.80353 Durbin-Watson stat 1.918367 Prob(F-statistic) 0.000000 • Y85：85年なら1 EDUC : 教育年数 Y85EDUC = Y85*EDUC EXPER: 経験年数 EXPERSQ = EXPER^2 UNION: 組合加入なら1 FEMALE:女性なら1 Y85FEM=Y85*FEMALE

教育の収益率の推計:poold cross

section data 78年と85年

(8)

DID estimator

(difference in differences estimator)

• kielmc.raw

• ゴミ焼却場の建設が住宅価格に与える影響

• 1978年，81年の2時点のデータ（同一の住宅を追跡したものではない）

• 1978年時点では焼却場の建設の噂なし，81年時点ではあり（実際には

85年に建設）

– 2時点間の間にあるeventが生じた – 焼却場から離れた地域はeventの影響を受けない – 焼却場の近くの住宅はeventの影響を受ける

• 一種の自然実験

– control group 焼却場から離れた地域 – treatment group 焼却場の近くの地域 – eventの実施の前後で両者の反応の違いをみる

– 完全な実験であれば，control group とtreatment groupは同質な集団でないといけない。このケースでは，一般にゴミ焼却場は中心部から離れた地域に建設されるので，ゴミ焼却場が建設されようがされまいが，住宅価格は安くなることに注意。ここでは，その効果をダミー変数（ゴミの焼却場の近く=辺鄙な場所）等で処理すれば，両グループはほぼ同質とみなせるとして分析する。

(9)

問題

• kielmc.raw

• 住宅価格方程式の推計せよ

被説明変数：住宅価格（rprice: 1978年実質）

説明変数： nearinc（住宅がゴミ焼却場の近くなら1）,

y81(81年なら1）， y81* nearinc,

住宅の質を表す変

数（広さ，築年数等），周辺環境

• 比較のため，次の方程式を推計

– 時点ダミーを用いずに単純にプールしたデータで

回帰分析

(10)

パネル・データの分析

• crime2.raw

– 46市の失業率(unem)と犯罪発生率(crmrte)，

1982年と1987年の2時点

– 同一の市を追跡したパネル・データ

– 犯罪発生率と失業率の関係を分析

• 他の条件が一定なら，失業率の上昇は犯罪発生率を

高める？

– crmrte を被説明変数，unemを説明変数にして

OLSを，各年ごと，およびプールしたデータで行う

と，失業率と犯罪発生率の間に予想した関係は

見いだせるだろうか。

(11)

パネル・データの分析

階差モデル

• 各都市の犯罪発生率に結び付く，各都市固有の観察不

可能な変数があるかもしれない。

– この変数は観察不可能だが，2時点間で変化しないとする。

– この変数の影響を考慮して失業率と犯罪発生率の関係を推

定するにはどうすれば良いか？

– 𝑦

_𝑖,𝑡

= 𝛼

_𝑖

+ 𝛽𝑥

_𝑖,𝑡

+ 𝛾𝐷

_𝑡

+ 𝑢

_𝑖,𝑡

というモデルを考える。

• a

_i

: 都市iの固有の性質（観察不可能）

• x

_i,t

, y

_i,t

: 都市

ｉ

, 時点tの説明変数と被説明変数

• D

_t

:時点ダミー（1987年なら1）

– マクロ経済ショックがあるかもしれない

– 階差をとると問題は解決

• ∆𝑦

_𝑖,𝑡

= 𝛾 + 𝛽∆𝑥

_𝑖,𝑡

+ ∆𝑢

_𝑖,𝑡

• 階差モデルで犯罪発生率と失業率の関係を分析せよ。

(12)

Rでの分析

• crime2.raw

欠損値が .  importの際注意

• サブセットでの回帰

– d87: 87年なら1，82年なら0というダミー変数

– crime2がattachされているとして

– 87年だけの回帰

• lm(y ~ x1 + x2 + x3, subset = (d87 == 1))

– 82年だけの回帰

• lm(y ~ x1 + x2 + x3, subset = (d87 == 0))

(13)

パネル・データの分析方法

• 次のモデルを考える。

– i : 個人i

– t : 時点t

– y

_it

: 被説明変数個人i，時点t

– x

_j,it

: 説明変数x

_j

(j=1,2,...,k) 個人i，時点t

– u

_it

: 誤差項個人i，時点t

it

k

it

x

u

y





₀





₁

_,





₂

_,









_,



u

_it

の想定

 pooling dataでのOLS，

(14)

固定効果モデル fixed effects model

 











,



0 cov

0 ,

cov

but

0 ,

cov

,

var

,

0 E

effect

individual

:

, , , 2 , , 2 2 , 1 1 0

















it j it kt i i it j it it it i it i it it it k k it it it

x

u

x

v

u

x

y

a



a





個人i のindividual effectと説明変数の間に相関があると，誤差項

u

_it

と説明変数が独立だという最小二乗法の前提が満たされない

例）賃金方程式の推計で，個人の生来の資質（individual effect）

は観察できない。しかし，個人の生来の資質は学歴と相関がある

かもしれない。

(15)

変量効果モデル

random effects model

fixed effects model random effects model は現在では，ミスリー

ディングな用語

もともとは，文字通りの意味：fixed effects は非確率変数（固定値），

random effectsは確率変数という想定だった。

𝑦

_𝑖𝑡

= 𝛽

₀

+ 𝛽

₁

𝑥

_1,𝑖𝑡

+ ⋯ + 𝛽

_𝑘

𝑥

_{𝑘,𝑖𝑡}

+ 𝑢

_𝑖𝑡

𝑢

_𝑖𝑡

= 𝛼

_𝑖

+ 𝑣

_𝑖𝑡

cov 𝛼

_𝑖

, 𝑥

_{𝑗,𝑖𝑡}

= 0

a

_i

: individual effect

(16)

パネル分析その他

• 一般的には，individual effects は個々の主体（ク

ロスセクション）に関連

• 場合によっては，時点特有のショックをコント

ロールするために，時点に関連させる場合もあ

る

• unobserved effects model

– 個々の主体に特徴的な，観察されない変数の影響を

うまく処理するための手法

(17)

FE(fixed effects) modelの推定方法

it i it k k it it it

x

v

y





₀





₁ ₁_,





₂ ₂_,









_,



a



1 , , , 1 , , 2 2 , 1 1

,

where







_







_



















it j it j it j it it it it it k k it it it

x

y

v

x

y







各変数のtに関しての平均を求め，平均からの乖離をとる (within estimatorともよばれる) こうした変形で，individual effectを表す項は消去され，他のパラメータを推定できる。 i t i it i t i it it it k k it it it

x

y

v

x

y













, , , , 2 2 , 1 1

, 









あるいは，1階の階差モデルを考える FD(first differenced) estimator

(18)

FE modelの推定方法(2)

• 自由度

– N個のクロスセクション，T時点のデータ，k個の説明変数

– N*(T-1)-k の自由度になることに注意

• 一階の階差をとると初期時点の階差データはない。平均からの乖離をとると， T時点の観測のうち独立なのはT-1個になる

• 説明変数

– 時間を通じて一定の値をとる変数の効果は分析できない

– 例）教育の収益率

• 学歴や性別，人種は一定の値 教育の収益率，性・人種の違いが賃金に与える影響は，FEモデルでは推定できない

• FD estimator （階差モデルの推定量）か within estimatorか

– 誤差項の性質が異なる

– 時点の数が少ないときはあまり大きな問題ではない

– v

_it

の系列相関が高い時

_{ FD estimator}

(19)

RE (random effects) model

誤差項の想定

𝑢

_𝑖𝑡

= 𝛼

_𝑖

+ 𝑣

_𝑖𝑡

cov 𝑥

_{𝑗,𝑖𝑡}

, 𝛼

_𝑖

= 0

E 𝛼

_𝑖

= 0, E 𝑣

_𝑖𝑡

= 0

var 𝛼

_𝑖

= 𝜎

_𝛼2

, var 𝑣

_𝑖𝑡

= 𝜎

_𝑣2

cov 𝛼

_𝑖

, 𝑣

_𝑗𝑡

= 0 (for all 𝑖, 𝑗, 𝑡)

cov 𝑣

_𝑖𝑡

, 𝑣

_𝑗𝑠

= 0 (if 𝑖 ≠ 𝑗, 𝑡 ≠ 𝑠)

cov 𝛼

_𝑖

, 𝛼

_𝑗

= 0 (if 𝑖 ≠ 𝑗)

Pooled dataでOLSを行うと，誤差項の均一分散の前提が崩れ

る

_{ RE model ：誤差項の想定からGLS}

（詳しい説明は上級のeconometircsの教科書を参照すること）

誤差項の分散共分散行列

(20)

パネル分析の実際

• wagepan.raw をEviews に読み込む

• 賃金と教育等の関係についてのパネル・データ

– クロスセクションデータでimport，その後，パネル・

データに変換する方法

– パネル・データとしてimportする方法

• 回帰式の推定

– 単純な回帰（プールされたデータで）

– fixed effects model

• ダミー変数を用いる

• 1階の階差方程式

(21)

wagepan.rawファイルを

開いて，先頭行に変数名

を挿入したファイルを作

成しておく

wagepan.des

4360 obs.

=545 obs. x 8年

27 variables

(22)

ファイルのimport

クロスセクションデータ

としてimportするので

Unstructured/Undated

を選択

observation数

を記入

最初に空のデータセッ

トを作成

Eviewsを起動し，クロス

セクションデータとして

読み込むための準備

を行う

menuから

File/New/Workfile

右の画面

(23)

メニューから

File/Import/Import

from file..

で目的のファイル

を選択する

ファイルのimport(2)

(24)

ファイルのimport(3)

先頭行（1行）に変

数名の入ったファ

イルなのでHeader

lines は1

後はメニューに

従っていけば

importが完成

nr: 個人の識別番

号

year: 年次

(25)

うまく読み込むことがで

きれば左のようになる

データセットができたら

適当な名前をつけて保

存する

クロスセクションデータ

をパネルデータに変換

するためには，このあ

たり（Range)をクリック

するか，menuからProc

 Structute/ Resize

Current Page を選択

(26)

クロスセクションデータからパネル

データへの変換

workfile structure

type として Dated

Panel を選択

Cross section ID, 時

点を表す変数を指

定

ここではnrとyear

Frequency や Start

date , End dateも入力

した方がいい場合もあ

る（このデータでは自

動的に判別された）

(27)

workfile structure で Dated Panelを選択個人を識別する変数を入力時点を表す変数を入力 Frequency や Start date , End dateも入力した方がいい場合もある（このデータでは自動的に判別された）

(28)

Panel data として識別

された

1980-1987 x 545 obs.

で合計4360 obs.

パネルデータから通

常のundated cross

sectionデータへの変

換もできる

Proc/Structure/Resize

..とたどるか，左の赤

で囲った部分（Range

あたり）をクリック

(29)

最初からパネルデータとしてimportする方法

空のデータセットを作る

メニューから

File/Workfile/New

と進んで，

• Workfile structure type

Balanced Panel

• Frequencyは年次デー

タなので

_{ Annual}

• Start date, End dateを

指定し，

• Number of cross

(30)

最初からパネルデータとしてimportする方法（２）

画面に従って進

んでいく

左がimportの

最終段階

Cross section ID

とDate Seriesが

正しいことを確

認してFinishを

押す

(31)

パネル分析

左のような回帰式を推計するパネル分析のオプションはこのタブから選択できる

(32)

パネル分析のオプション

cross section None Fixed Effects Random Effects Period None Fixed Effects Random Effects が選択できる

(33)

Rでのパネル分析

• パッケージplmが必要

• データをクロスセクションデータとして読み込

み，plm.data( )でパネルデータに変換

• plm.data(データファイル，index=c(ID,period))

• 回帰分析は

• plm(モデル式，データ名，index=c(ID,period))

(34)

library(plm)でパッケージplmをロード

wagepan1 <- plm.data(wagepan, index = c("nr", "year"))

# plm.data( ) でパネルデータへ変換

# index はクロスセクションIDと時点を表す変数の指定

wage1_fe <- plm(lwage ~ exper , data=wagepan1, model="within" )

# plm(モデル式，データの指定，分析方法の指定）

# model : 固定効果“within”，ランダム効果”random”, プール”pooling”

# plm の結果をwage1_fe に保存

summary(wage1_fe) # 結果の要約

fixef(wage1_fe)

# 固定効果の出力（クロスセクションごとの定数項）

#ランダム効果，プーリングデータでの推定

wage1_re <- plm(lwage ~ educ + exper , data=wagepan1, model="random" )

wage1_pool <- plm(lwage ~ educ + exper , data=wagepan1, model="pooling" )

Rでwagepanというデータファイルをパネルデータに

変換し，パネル分析を行う

(35)

次の方程式を推計

• wagepan.raw

• lwage = f( educ, black, hisp, exper, married,

union)

– educ（教育年数）, black（黒人ダミー）, hisp（ヒスパ

ニックダミー）は一定の値

– exper(labor market experience)

• labor market から撤退していなければ（出産等？），基本的

にはyearと同じく，１年ずつ増えていく

• Pooled OLS

• RE model

• FE model

(36)

Pooled OLS とRE model

Dependent Variable: LWAGE

Method: Panel EGLS (Cross-section random effects) Date: 03/21/18 Time: 14:59

Sample: 1980 1987 Periods included: 8

Cross-sections included: 545

Total panel (balanced) observations: 4360

Swamy and Arora estimator of component variances

Variable Coefficient Std. Error t-Statistic Prob.

C -0.107464 0.110411 -0.973312 0.3305 EDUC 0.101225 0.008890 11.38692 0.0000 BLACK -0.144131 0.047488 -3.035096 0.0024 HISP 0.020151 0.042488 0.474280 0.6353 EXPER 0.112119 0.008239 13.60860 0.0000 EXPERSQ -0.004069 0.000590 -6.893449 0.0000 MARRIED 0.062795 0.016728 3.753851 0.0002 UNION 0.107379 0.017783 6.038446 0.0000 Effects Specification S.D. Rho Cross-section random 0.324567 0.4606 Idiosyncratic random 0.351255 0.5394 Weighted Statistics

R-squared 0.178240 Mean dependent var 0.589338

Adjusted R-squared 0.176918 S.D. dependent var 0.388204

S.E. of regression 0.352193 Sum squared resid 539.8226

F-statistic 134.8502 Durbin-Watson stat 1.588405

Prob(F-statistic) 0.000000

Unweighted Statistics

(37)

FE model

Dependent Variable: LWAGE

Method: Panel Least Squares Date: 03/21/18 Time: 15:02 Sample: 1980 1987

Periods included: 8

Cross-sections included: 545

Total panel (balanced) observations: 4360

Variable Coefficient Std. Error t-Statistic Prob.

C 1.395302 0.012294 113.4964 0.0000

EXPERSQ 0.003699 0.000189 19.56038 0.0000

MARRIED 0.107343 0.018196 5.899163 0.0000

UNION 0.082762 0.019770 4.186372 0.0000

Effects Specification

Cross-section fixed (dummy variables)

Adjusted R-squared 0.543201 S.D. dependent var 0.532609

S.E. of regression 0.359974 Akaike info criterion 0.911490

Sum squared resid 493.9646 Schwarz criterion 1.713408

Log likelihood -1439.048 Hannan-Quinn criter. 1.194508

F-statistic 10.47621 Durbin-Watson stat 1.750265

Prob(F-statistic) 0.000000

estimation outputの画面から

View/ Fixed/ Random Effects

を選択するindividual effects

を確認することができる

(38)

問題

• wagepan.raw

• 1980年から87年の8時点のデータ

• 賃金，教育年数，経験年数，人種ダミー，結婚ダミー，...

1. 次のモデルをpooled OLSで推定せよ

1. 被説明変数 lwage (賃金の対数値）

2. 説明変数 educ（教育年数）, exper（経験年数）,black

（黒人ダミー）, hisp（ヒスパニック・ダミー），結婚ダミー，

パネル・データの分析

内容

• パネル・データとは

• pooled cross section dataの分析

– パネルデータの分析

– DID (Difference in Differences)モデル

• パネル・データの分析

– 階差モデル (first difference model)

– fixed effects model

– random effects model

• パネル分析の実際

– データ・セットの作成

– 推定

パネル・データとは

• クロスセクション・データ

• 時系列データ

• パネル・データ

– クロスセクション・データ ×時系列

• 同一の家計（企業…）を時系列的に追ったデータ

• 都道府県別データ（県民所得，物価，地価等のデータ）を数年分

あつめたデータ

– 注意）

• pooled cross section data 複数時点のクロスセクション・データ

パネル・データとは(2)

パネル・データ利用の利点

• サンプル数の増加，変数の変動性が大きくなる

– 推計値の信頼度が高まる

• クロスセクション・データやマクロ時系列データでは

個々の主体の異質性をうまく捉えられない。

– パネル・データを利用することで克服できる場合もある

• 動学的効果を捉えることができるかもしれない

– マクロ時系列データ

• 集計された経済主体の行動（個々の主体の意思決定がうまく捉

えられない）

– 社会資本整備の効果地価に反映される社会資本整

備計画のアナウンスの前後のデータがあれば

Pooled cross section data の分析

• cps78-85.raw

• 教育の収益率の推計

– 1978年と1985年の2時点のデータ

– 2時点で調査対象は異なる

– 教育の収益率は2時点間で変化したか

• 複数時点のデータを単純にプールして分析?

– 78年と85年を単純に比較できない

– 全般的な賃金変化，マクロ経済ショックの存在

• 時点ダミー（定数項ダミー）を用いる

– 教育の収益率の違い

• 年次ダミーと教育年数(EDUC)の交差項

教育の収益率の推計:poold cross

section data 78年と85年

DID estimator

(difference in differences estimator)

• kielmc.raw

• ゴミ焼却場の建設が住宅価格に与える影響

• 1978年，81年の2時点のデータ（同一の住宅を追跡したものではない）

• 1978年時点では焼却場の建設の噂なし，81年時点ではあり（実際には

85年に建設）

• 一種の自然実験

問題

• kielmc.raw

• 住宅価格方程式の推計せよ

被説明変数： 住宅価格（rprice: 1978年実質）

説明変数： nearinc（住宅がゴミ焼却場の近くなら1）,

y81(81年なら1）， y81* nearinc,

住宅の質を表す変

数（広さ，築年数等），周辺環境

• 比較のため，次の方程式を推計

– 時点ダミーを用いずに単純にプールしたデータで

回帰分析

パネル・データの分析

• crime2.raw

– 46市の失業率(unem)と犯罪発生率(crmrte)，

1982年と1987年の2時点

– 同一の市を追跡したパネル・データ

– 犯罪発生率と失業率の関係を分析

• 他の条件が一定なら，失業率の上昇は犯罪発生率を

高める？

– crmrte を被説明変数，unemを説明変数にして

OLSを，各年ごと，およびプールしたデータで行う

と，失業率と犯罪発生率の間に予想した関係は

被説明変数：住宅価格（rprice: 1978年実質）

: 被説明変数個人i，時点t

: 誤差項個人i，時点t

₀

₁

₁

_,