SEM による
パネルデータ分析入門
藤原翔
sho.fujihara@iss.u-tokyo.ac.jp
2013 年 11 月 8 日
パネル調査の特性を生かした分析の研究会( 3 )
1
本研究会の目的
1. SEM という視点から、従来のパネルデータ分析手
法を考える
• 前回の三輪先生の報告をすこし異なる視点からとらえる
2. 2 変数の因果関係について考える
• SEM によるパネルデータ分析の醍醐味
• みなさんのパネルデータ分析の手助けとなれば幸
い
2
目次
1. SEM とは
2. Mplus で SEM
3. SEM によるパネルデータ分析 1 :固定効果とラン
ダム効果
4. SEM によるパネルデータ分析 2 :因果の方向を検
証する
5. SEM によるパネルデータ分析 3 :異質性を考慮し
た上で、因果の方向を検証する
6. まとめ
3
SEM とは
4
1 . SEM とは
• Structural Equation Modeling (構造方程式モデリング)
• 「構成概念や観測変数の性質を調べるために集めた多くの
観測変数を同時に分析するための統計的方法」(豊田
1998 : 1 )
• 「直接観測できない潜在変数を導入し、その潜在変数と観
測変数との間の因果関係を同定することにより社会現象や
自然現象を理解するための統計的アプローチ.因子分析と
多重回帰分析(パス解析)の拡張」(狩野・市川 1999 : 1 )
• 柔軟なモデリングにより、多くの多変量解析手法を下位モ
デルとして実行可能
• かつては共分散構造分析などと呼ばれた
5
SEM による分析が可能なソフトウェア
• SEM 専用
• AMOS
• Mplus
• 他にも LISREL, EQS など
• 汎用
• SAS (CALIS)
• R (sem, lavaan)
• Stata (sem, gllamm)
• まだ使用したことがないが lavaan は結構強力らしい
6
Mplus とは
• L. K. Muthén and B. O. Muthén
• Muthén ( 1984 )は共分散構造分析でカテゴリカルデータを利用可能にした
( LISCOMP )
• その後 Mplus の開発・販売
• サポート
• http://www.statmodel.com/
• Papers Using Special Mplus Features に適用例あり
( http://www.statmodel.com/papers.shtml )
• だいたいのことはこのページに書いてある
• バージョン
• Mplus Version 7.11 ( 2013 年 10 月 17 日時点)
• 入手方法
• エンドユーザーにのみ販売
Muthen & Muthen accepts orders only from end users. We are not affiliated
with any reseller and do not work with resellers.
• クレジット立て替え払い(会計には嫌がられるが)
• ダウンロード or 郵送
7Mplus の解説本
1. Muthén, L. K. and B. O. Muthén. 1998–2010. Mplus User's Guide, 6.
2. Byrne, Barbara M. 2011. Structural Equation Modeling with Mplus:
Basic Concepts, Applications, and Programming. New York:
Routledge Academic.
3. Wang, Jichuan, and Xiaoqian Wang. 2012. Structural Equation
Modeling: Applications using Mplus. Wiley. com.
4. Geiser, Christian. 2013. Data Analysis with Mplus. Guilford Press.
1 2 3 4
8唯一の日本語の Mplus 解説本
• 小杉孝司・清水裕士編. 2013 .『 M-plus ・ R による今すぐ出来る多変
量解析(仮題) 』北大路書房.
• 「カテゴリカル・制限従属変数に対する回帰モデル」を執筆
他には、
• 豊田秀樹編. 2007 .『共分散構造方程式[ Amos 編]:構造方程式モ
デリング』東京図書.
の第 14 章
9
Mplus で SEM
10
基本
TITLE: タイトルの指定
DATA: データの指定
VARIABLE: 変数の指定
DEFINE: 変数の定義、交互作用項の作成、変換、センタリング
など
ANALYSIS: 推定方法の指定
MODEL: 分析モデルの指定
OUTPUT: 追加のアウトプットを表示
SAVEDATA: データを保存する(推定量など)
PLOT: 分析結果を図示
MONTECARLO: モンテカルロ・シミュレーションの指定
11
基本 MODEL 部分
ON 回帰分析 y1 ON x1-x3
BY 因子分析( 1 つ目の変数のパスが自動的に 1 に固定)
f BY x1-x10
WITH 共分散 y1 with y2
@ 値の固定 y1 ON x1@.5
f BY x1
x2@1
x3@1;
*n 初期値を n に(潜在クラス分析の際に役立つ)
(n) 等値制約(括弧内の数字が同じパスは同じ値をとる)
f1 BY x1 f2 BY x4
x2(1) x5(1)
x3(2); x6(2);
12データファイル
• SEM によるパネルデータ分析の場合は
ロング形式ではなくワイド形式(ロングで
も Mplus 内でワイドに変換して分析可能)
• 一行目に変数名は含めない
• 欠損値は「 . 」、 「 * 」 、「 999 」、「 -
99999 」などとする
• Stata からデータを Export すると欠損が空
白となるので、例えば
recode var1-varX (. = 999)
とリコードする。
• 拡張子
dat 、 txt 、 csv が使える
13
SPSS 、 Stata からデータを作成
1. 使用する変数の欠損値をリコードする
2. 使用する変数を絞る
3. 変数の順序を並び替える
4. データを txt, dat, csv のいずれかの形式で保存する
*SPSS の場合 .
SAVE TRANSLATE OUTFILE='C:¥Mplus¥data1.txt’
/TYPE=TAB /MAP /REPLACE /
/CELLS=VALUES
KEEP= women age eduy linc edu2 marry2007 jobc he2008.
///Stata の場合
recode women age eduy linc edu2 marry2007 jobc he2008 (. = 999)
keep women age eduy linc edu2 marry2007 jobc he2008
order women age eduy linc edu2 marry2007 jobc he2008
outsheet using "C:¥Mplus¥data1.txt", nonames nolabel replace
14
基本となるプログラム( inp )
TITLE:
DATA:
FILE IS C:¥Mplus¥file.txt;
!LISTWISE = ON;
VARIABLE:
NAMES ARE x1 x2 x3 x4 x5 x6;
USEVARIABLES ARE x1 x2 x3 x4 x5;
MISSING IS ALL (999);
MODEL:
! ここでモデルを指定
OUTPUT: SAMPSTAT STDYX MODINDICES(4);
inp ファイルと同じフォルダにデータ
ファイルがあればパスは
「 FILE IS file.txt 」
のように省略可能
いちいち作成するのは面倒くさいので、メモ帳などに保存しておく。
NAMES で指定した全ての変数を用
いるのであれば省略可能
コメントアウトをとるとリストワイズ、
つけたままだと FIML による欠損値を
ふくめた分析
欠損値はすべて 999 と
入力されている
15
Language Generator を使う
• メニューバーの「 Mplus 」 → 「 Language Generator 」 で大まか
なモデルを指定してやる(「 SEM with Missing Data 」など)
• タイトル名
• データファイルの読み込み
• データの型や欠損値の有無
• 変数名
• 使用する変数
• 欠損値のフラグ
• その他いろいろ
16
単回帰分析
y
x1
e
DATA: FILE IS data1.dat;
VARIABLE: NAMES ARE x1 x2 x3 y z u m o;
USEVARIABLES ARE x1 y;
MODEL: y ON x1;
OUTPUT: SAMPSTAT STDYX
x1: 女性ダミー
y: 年収(対数)
【 ex1 】
17
Mplus の Output
18
Stata の Output
_cons 5.677183 .0202142 280.85 0.000 .
women -.7411612 .0296983 -24.96 0.000 -.3708013
linc Coef. Std. Err. t P>|t| Beta
Total 3883.30139 3908 .993679987 Root MSE = .92589
Adj R-squared = 0.1373
Residual 3349.37221 3907 .85727469 R-squared = 0.1375
Model 533.929176 1 533.929176 Prob > F = 0.0000
F( 1, 3907) = 622.82
Source SS df MS Number of obs = 3909
. reg linc women, beta
19
重回帰分析
y
x2
e
DATA: FILE IS data1.dat;
VARIABLE: NAMES ARE x1 x2 x3 y z u m o;
USEVARIABLES ARE x1-x3 y;
MODEL: y ON x1-x3;
OUTPUT: SAMPSTAT STDYX
x1
x3
x1: 女性ダミー
x2: 年齢
x3: 教育年数
y: 年収
【 ex2 】
20
Mplus の Output
21
Stata の Output
_cons 3.379656 .144368 23.41 0.000 .
eduy .0485496 .0076619 6.34 0.000 .0904311
age .0503567 .002429 20.73 0.000 .2955147
women -.7057675 .0282726 -24.96 0.000 -.3529979
linc Coef. Std. Err. t P>|t| Beta
Total 3880.24291 3903 .994169334 Root MSE = .87785
Adj R-squared = 0.2249
Residual 3005.4012 3900 .770615692 R-squared = 0.2255
Model 874.841709 3 291.613903 Prob > F = 0.0000
F( 3, 3900) = 378.42
Source SS df MS Number of obs = 3904
. reg linc women age eduy, beta
22
2 項/順序ロジスティック回帰分析
u
x2
DATA: FILE IS data1.dat;
VARIABLE: NAMES ARE x1 x2 x3 y z u m o;
USEVARIABLES ARE x1-x3 u;
CATEGORICAL IS u;
ANALYSIS: ESTIMATOR = MLR;
MODEL: u ON x1-x3;
OUTPUT: SAMPSTAT STDYX
x1
x3 デフォルトだと となりプロビット WLSMV
x1: 女性ダミー
x2: 年齢
x3: 教育年数
u: 婚姻状態
【 ex3 】
23
Mplus の Output
24
Stata の Output
_cons -5.431993 .3516485 -15.45 0.000 -6.121211 -4.742775
eduy -.0983407 .0181439 -5.42 0.000 -.1339021 -.0627794
age .2055625 .0067374 30.51 0.000 .1923574 .2187675
women .2946613 .0676661 4.35 0.000 .1620381 .4272845
marry2007 Coef. Std. Err. z P>|z| [95% Conf. Interval]
Log likelihood = -2628.0894 Pseudo R2 = 0.2056
Prob > chi2 = 0.0000
LR chi2(3) = 1360.02
Logistic regression Number of obs = 4785
. logit marry2007 women age eduy, nolog
BIC: -35254.388 BIC': -1334.596
AIC: 1.100 AIC*n: 5264.179
Count R2: 0.715 Adj Count R2: 0.394
Variance of y*: 4.877 Variance of error: 3.290
McKelvey and Zavoina's R2: 0.325 Efron's R2: 0.252
Maximum Likelihood R2: 0.247 Cragg & Uhler's R2: 0.247
McFadden's R2: 0.206 McFadden's Adj R2: 0.204
Prob > LR: 0.000
D(4781): 5256.179 LR(3): 1360.015
Log-Lik Intercept Only: -3308.097 Log-Lik Full Model: -2628.089
Measures of Fit for logit of marry2007
. fitstat
25
多項ロジスティック回帰分析
m
x2
DATA: FILE IS data1.dat;
VARIABLE: NAMES ARE x1 x2 x3 y z u m o;
USEVARIABLES ARE x1-x3 m;
NOMINAL IS m;
MODEL: m ON x1-x3;
OUTPUT: SAMPSTAT STDYX
x1
x3 最大値が基準カテゴリ
x1: 女性ダミー
x2: 年齢
x3: 教育年数
m: 職業カテゴリ
【 ex4_1 】
26
Mplus の Output
Pseudo-R2 は手計算の必要
27
Stata の Output
5 (base outcome)
_cons .1908801 .7752973 0.25 0.806 -1.328675 1.710435 eduy -.1870529 .041037 -4.56 0.000 -.2674839 -.1066219 age .0656088 .01327 4.94 0.000 .0396001 .0916175 women -1.900599 .1551126 -12.25 0.000 -2.204614 -1.596584 4
_cons 6.086828 .5176064 11.76 0.000 5.072338 7.101318 eduy -.3397229 .0284256 -11.95 0.000 -.3954361 -.2840097 age -.0062485 .008313 -0.75 0.452 -.0225416 .0100446 women -2.089712 .1040985 -20.07 0.000 -2.293742 -1.885683 3
_cons .0550113 .4694197 0.12 0.907 -.8650344 .975057 eduy .089409 .0252459 3.54 0.000 .0399279 .1388902 age -.0074202 .0071409 -1.04 0.299 -.0214161 .0065757 women -.7527835 .0916856 -8.21 0.000 -.932484 -.5730829 2
_cons -6.955914 .60039 -11.59 0.000 -8.132657 -5.779172 eduy .4332423 .0319482 13.56 0.000 .370625 .4958597 age .0332019 .008599 3.86 0.000 .0163481 .0500556 women -.8647334 .107051 -8.08 0.000 -1.074549 -.6549173 1
jobc Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = -6430.7812 Pseudo R2 = 0.0949 Prob > chi2 = 0.0000 LR chi2(12) = 1348.48 Multinomial logistic regression Number of obs = 4785 . mlogit jobc women age eduy, base(5) nolog
BIC: -27513.432 BIC': -1246.798 AIC: 2.696 AIC*n: 12901.562 Count R2: 0.368 Adj Count R2: 0.029 Maximum Likelihood R2: 0.246 Cragg & Uhler's R2: 0.246 McFadden's R2: 0.095 McFadden's Adj R2: 0.092 Prob > LR: 0.000 D(4765): 12861.562 LR(12): 1348.477 Log-Lik Intercept Only: -7105.020 Log-Lik Full Model: -6430.781 Measures of Fit for mlogit of jobc
. fitstat
28
多項ロジスティック回帰分析
m
x2
DATA: FILE IS data1.dat;
VARIABLE: NAMES ARE x1 x2 x3 y z u m o;
USEVARIABLES ARE x1-x3 m;
NOMINAL IS m;
MODEL: m#1 ON x1 x2 x3;
m#2 ON x1 x3;
m#3 ON x1 x3;
m#4 ON x1 x2 x3;
OUTPUT: SAMPSTAT STDYX
x1
x3 カテゴリ間の比較ごと
に変数の指定も可能
【 ex4_2 】
29
その他の回帰分析
USEVARIABLES ARE x1-x3 u1;
COUNT IS u1;
Model: u1 ON x1-x3;
Output: SAMPSTAT STDYX
USEVARIABLES ARE x1-x3 u1;
COUNT IS u1 (i);
Model: u1 ON x1-x3;
u1#1 ON x1 x2;
Output: SAMPSTAT STDYX
USEVARIABLES ARE x1-x3 u1;
COUNT IS u1 (nb);
Model: u1 ON x1-x3;
Output: SAMPSTAT STDYX
ポワソン回帰
負の 2 項回帰
ゼロ過剰
ポワソン回帰
詳しくは藤原( 2013 ) in 小杉孝司・清水裕士編『 M-plus ・ R による今すぐ
出来る多変量解析(仮題) 』北大路書房.で
30
パス解析
y
x2
DATA: FILE IS data1.dat;
VARIABLE: NAMES ARE x1 x2 x3 y z u m o;
USEVARIABLES ARE x1-x3 y;
MODEL: x3 ON x1 x2;
y ON x2 x3;
OUTPUT: SAMPSTAT STDXY MODINDICES(ALL);
x1
x3
e1
e2
【 ex5_1 】
31
Mplus の Output
Stata の Output
_cons 2.760173 .1531407 18.02 0.000 . eduy .0621485 .0082294 7.55 0.000 .115761 age .0535004 .002612 20.48 0.000 .3139637 linc Coef. Std. Err. t P>|t| Beta Total 3880.24291 3903 .994169334 Root MSE = .94526 Adj R-squared = 0.1012 Residual 3485.61085 3901 .893517265 R-squared = 0.1017 Model 394.632057 2 197.316028 Prob > F = 0.0000 F( 2, 3901) = 220.83 Source SS df MS Number of obs = 3904 . reg linc age eduy, beta
_cons 15.7823 .1648028 95.76 0.000 . women -.2623593 .0589304 -4.45 0.000 -.070449 age -.0457901 .0050226 -9.12 0.000 -.1442654 eduy Coef. Std. Err. t P>|t| Beta Total 13462.4075 3903 3.4492461 Root MSE = 1.8344 Adj R-squared = 0.0244 Residual 13126.9333 3901 3.3650175 R-squared = 0.0249 Model 335.474249 2 167.737124 Prob > F = 0.0000 F( 2, 3901) = 49.85 Source SS df MS Number of obs = 3904 . reg eduy age women if linc < ., beta
33
間接効果の推定
• X1 -> X3 -> Y
• X2 -> X3 -> Y
• Bootstrap 法で標準誤差を
求める事も可能
ANALYSIS: BOOTSTRAP = 10000
DATA: FILE IS data1.dat;
VARIABLE: NAMES ARE x1 x2 x3 y z u m o;
USEVARIABLES ARE x1-x3 y;
MODEL: x3 ON x1 x2;
y ON x2 x3;
MODEL INDIRECT:
y IND x3 x1;
y IND x3 x2;
OUTPUT: SAMPSTAT STDXY MODINDICES(ALL);
【 ex5_2 】
34
因子分析
DATA: FILE IS data2.dat;
VARIABLE: NAMES ARE x1 x2 x3 y z u m o a b c d;
USEVARIABLES ARE a b c d;
MODEL: f BY a b c d;
OUTPUT: SAMPSTAT STDXY MODINDICES(ALL);
a b c
e1 e2 e3
d
e4
f
a: 自分の考えを人に説明する
b: よく知らない人と自然に会話する
c: まわりの人をまとめてひっぱっていく
d: 面白いことを言って人を楽しませる
f: コミュニケーション能力?
【 ex6 】
35
適合度の指標
• χ2 統計量
サンプルサイズに依存
• CFI ( Comparative Fit Index )
0.90~0.95 < CIF
• TLI ( Tucker-Lewis Index )
0.90 < TLI
• RMSEA ( Root Mean Square Error Approximation )
RMSEA < 0.05
• RMR ( Root Mean Square Residual )
RMR < 1.0
• SRMR ( Standardized Root Mean Square Residual )
SRMR < 0.08
• WRMR ( Weight Root Mean Square Residual )
WRMR < 1.0
• AIC, BIC, ABIC
値が小さいほど倹約的なモデル
36
適合度をみる
十分にあてはまりはよい
37
Mplus の Output と
Diagram
38
因子分析と重回帰分析
(MIMIC Model)
DATA: FILE IS data2.dat;
VARIABLE: NAMES ARE x1 x2 x3 y z u m o a b c d;
USEVARIABLES ARE x1-x3 a b c d;
MODEL: f BY a b c d;
f ON x1-x3
OUTPUT: SAMPSTAT STDXY MODINDICES(ALL);
x2
x1
x3
b
a c
e1 e2 e3
d
e4
f
x1: 女性ダミー
x2: 年齢
x3: 教育年数
【 ex7 】
39
適合度をみる
十分にあてはまりはよい( RMSEA は改善できそうだが・・・)
40
Mplus の Output と
Diagram
x1: 女性ダミー
x2: 年齢
x3: 教育年数
41
因子分析と
重回帰分析
DATA: FILE IS data2.dat;
VARIABLE: NAMES ARE x1 x2 x3 y z u m o a b c d;
USEVARIABLES ARE x1-x6;
MODEL: f BY a b c d ;
f ON x1-x3;
y ON f x3;
OUTPUT: SAMPSTAT STDXY MODINDICES(ALL);
x2
y
x3
x1
b
a c
e1 e2 e3
d
e3
f
x1: 女性ダミー
x2: 年齢
x3: 教育年数
f: コミュ力
y: 年収(対数)
【 ex8_1 】
42
適合度をみる
• かなり悪い
43
修正指標 ( Modification
Indices, MI )をみる
y ON x1
y ON x2
があったほうがよさそう
44
因子分析と
重回帰分析(修正)
DATA: FILE IS data2.dat;
VARIABLE: NAMES ARE x1 x2 x3 y z u m o a b c d;
USEVARIABLES ARE x1-x6;
MODEL: f BY a b c d ;
f ON x1-x3;
y ON f x1-x3;
OUTPUT: SAMPSTAT STDXY MODINDICES(ALL);
x2
y
x3
x1
a b c
e1 e2 e3
d
e4
f
【 ex8_2 】
45
再び、適合度をみる
46
修正指標 ( Modification Indices, MI )をみる
47
Mplus の Output
• 男性の方がコミュニケーション
能力が高い
• 年齢が高いほうがコミュニケー
ション能力が高い
• 学歴が高いほうがコミュニケー
ション能力が高い
• 男性の方が年収が高い
• 年齢が高いほうが年収が高い
• 学歴が高いほうが年収が高い
• コミュニケーション能力は個人
年収に影響
48
SEM によるパネルデータ分析 1
固定効果とランダム効果
49
SEM による固定効果モデルとランダム効果
モデル
• 固定効果モデル( Fixed Effects Model )とランダム効果モデル
( Random Effects Model )
• 経済学や社会学で最もよく用いられるパネルデータ分析モデル
• Halaby (2004: 520) の指摘
“Many studies…ignore the issue of unobserved unit effects
altogether, or they recognize such effects but fail to assess and take
steps to deal with their correlation with measured covariates.”
• Bollen and Brand (2010: 23) の指摘
“Too often researchers apply FEM and REM without careful
consideration as to why they should prefer one model over
another.”
• モデルがフィットしているのかどうか
• FEM や REM ではモデル自体の適合度については触れられない
• 先行研究においていったいどれほどの論文の FEM や REM が良い適合度な
のでしょう?( Bollen and Brand 2011 )
50
ランダム効果モデルの復習
y it = α t + βx it + γz i + u i + ε it
• α t :時点、x
itは時間とともに変化する変数、 z
iは時点とともに変化しない
変数、 u
iは観察されない異質性、 ε
itは誤差
• 観察されない異質性 u i は平均 0 で一定の分散を持ち、他の変数全ての
変数と独立
• 特に、異質性 u i と x it との相関が無いという仮定があるため、個人の異質性をコント
ロールしたうえでの x it の効果が得られない可能性が大きい
• 時間不変の変数の効果をよほどみたいのでない限り、使用する必要はないか
もしれない
• 他の要因をコントロールした上での、個人の異質性を取り出す上では有効(社
会科学の関心ではない?)
51
SEM によるランダム効果モデル
x2
x1
x3
y2
y1
y3
u
e1
e2
e3
Cov (ui, x it ) = 0
[5] 誤差は
全て等しい
[1]u からのパスは
すべて 1 に固定
[3] Xt からのパス
は全て等しい
z [2] Z からのパス
は全て等しい
[4]u と他の変数
との相関は 0
[5] 平均と分散
は全て等しい
Cov (ui, z i ) = 0
52
DATA:
FILE IS data3; LISTWISE = ON; VARIABLE:
NAMES ARE women eduy k1-k7 m1-m7 inc1-inc7;
USEVARIABLES ARE women eduy k1-k7 m1-m7 inc1-inc7; MISSING IS ALL (999);
ANALYSIS: ESTIMATOR = ML; MODEL:
u BY k1-k7@1; k1 ON women(1)
eduy(2) m1(3) inc1(4); k2 ON women(1) eduy(2) m2(3) inc2(4); k3 ON women(1) eduy(2) m3(3) inc3(4); k4 ON women(1) eduy(2) m4(3) inc4(4); k5 ON women(1) eduy(2) m5(3) inc5(4); k6 ON women(1) eduy(2) m6(3) inc6(4); k7 ON women(1) eduy(2) m7(3) inc7(4); u with women@0 eduy@0;
u with m1-m7@0 inc1-inc7@0 k1-k7@0; !コメントアウトすればFixed Effect、コメントアウトしなければRandom Effect k1-k7(5); m1-m7(6); inc1-inc7(7) ; [m1-m7](8); [inc1-inc7](9)
OUTPUT: SAMPSTAT STDYX;
[1] U からのパスは全て 1 に固定
[3] Xt からのパスは全て等しい
[2] Z からのパスは全て等しい
[4]u と他の変数との相関は 0
[5] 従属変数の誤差分散、時点とと
もに変化する変数の分散と平均は
それぞれ時点間で等しい
【 ex9 】
53
適合度を
みる( REM )
悪い
54Mplus の Output
②
③
④
①
①
55
Stata の Output
Likelihood-ratio test of sigma_u=0: chibar2(01)= 2109.07 Prob>=chibar2 = 0.000 rho .478703 .0149898 .4494078 .5081137 /sigma_e .9703458 .0091815 .9525162 .9885092 /sigma_u .9298588 .0257781 .8806827 .9817808 _cons -1.250455 .3404657 -3.67 0.000 -1.917755 -.583154 lhinc .4448161 .0362619 12.27 0.000 .3737441 .515888 satis .2619765 .0204502 12.81 0.000 .2218949 .3020582 eduy .1918945 .0183065 10.48 0.000 .1560145 .2277745 women -.0043399 .0662209 -0.07 0.948 -.1341304 .1254506
2013 -.0872664 .0447157 -1.95 0.051 -.1749076 .0003747 2012 -.0196511 .0447502 -0.44 0.661 -.10736 .0680577 2011 -.083846 .0447648 -1.87 0.061 -.1715833 .0038914 2010 -.0725175 .0447353 -1.62 0.105 -.1601972 .0151621 2009 -.0139601 .0447728 -0.31 0.755 -.1017132 .073793 2008 -.2600632 .044712 -5.82 0.000 -.3476972 -.1724292 survey
kk Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = -10113.186 Prob > chi2 = 0.0000 LR chi2(10) = 502.66 max = 7 avg = 7.0 Random effects u_i ~ Gaussian Obs per group: min = 7 Group vari able: PanelID Number of groups = 943 Random-effects ML regression Number of obs = 6601
①
②
③ = 0.930^2
④ = 0.970^2
②
56
補足
• 時点との交互作用のモデリングは等値制約を外すだけで
OK . (1), (2) などを消す
• 時点の主効果は Intercepts をみればよい( [k1-k7] につい
てはフリーにする)
• 潜在変数のモデリングが可能
• 測定誤差を考慮したモデルとなるため、変数間の相関が高くなる
• バランスデータである必要はない
• FIML で欠損のあるケースも含めて分析可能
57
固定効果モデルの復習
y it = α t + βx it + γz i + u i + ε it
• α t :時点ダミー、 x it は時間とともに変化する変数、 z i は時点とと
もに変化しない変数、 u i は観察されない異質性、 ε it は誤差
• ランダム効果モデルとは異なり、観察されない異質性 u i は
時間とともに変化する変数と相関を持つ
• 通常、時点とともに変化しない変数については推定されな
い
• xの変化が y の変化に与える影響を推定
58
x2
x1
x3
y2
y1
y3
e1
e2
e3
Cov (ui, x it ) ≠ 0
59[5] 誤差は
全て等しい
[2] Z からのパス
は全て等しい
[3] Xt からのパス
は全て等しい
SEM による固定効果
の推定
u
※ u と時間とともに変化しない変数 z の相関は仮定しない
[5] 平均と分散
は全て等しい
z
[1]u からのパスは
すべて 1 に固定
Cov (ui, z i ) = 0
59
DATA:
FILE IS data3; LISTWISE = ON; VARIABLE:
NAMES ARE women eduy k1-k7 m1-m7 inc1-inc7;
USEVARIABLES ARE women eduy k1-k7 m1-m7 inc1-inc7; MISSING IS ALL (999);
ANALYSIS: ESTIMATOR = ML; MODEL:
u BY k1-k7@1; k1 ON women(1)
eduy(2) m1(3) inc1(4); k2 ON women(1) eduy(2) m2(3) inc2(4); k3 ON women(1) eduy(2) m3(3) inc3(4); k4 ON women(1) eduy(2) m4(3) inc4(4); k5 ON women(1) eduy(2) m5(3) inc5(4); k6 ON women(1) eduy(2) m6(3) inc6(4); k7 ON women(1) eduy(2) m7(3) inc7(4); u with women@0 eduy@0;
!u with m1-m7@0 inc1-inc7@0 k1-k7@0; !コメントアウトすればFixed Effect、コメントアウトしなければRandom Effect k1-k7(5); m1-m7(6); inc1-inc7(7) ; [m1-m7](8); [inc1-inc7](9)
OUTPUT: SAMPSTAT STDYX;
[1] U からのパスは全て 1 に固定
[3] Xt からのパスは全て等しい
[2] Z からのパスは全て等しい
[4]u と時間とともに変化する変数 Xt
との相関を認める
[5] 従属変数の誤差分散、時点とと
もに変化する変数の分散と平均は
それぞれ時点間で等しい
【 ex10 】
60
適合度を
みる( FEM )
悪い
61Mplus の Output
②
①
①
• 特殊なハイブリッドモデル?
• Within 効果の推定値については通常
の固定効果モデルのものと一致
• 推定値の解釈については調査中
62
Stata の Output
F test that all u_i=0: F(942, 5650) = 7.58 Prob > F = 0.0000 rho .57223426 (fraction of variance due to u_i)
sigma_e .96717864 sigma_u 1.1186407
_cons 3.110639 .2680078 11.61 0.000 2.58524 3.636037 lhinc .2461867 .0407609 6.04 0.000 .1662796 .3260938 satis .1690972 .021899 7.72 0.000 .1261666 .2120277 eduy 0 (omitted)
women 0 (omitted)
2013 -.0842115 .0445767 -1.89 0.059 -.1715988 .0031759 2012 -.0047578 .0446208 -0.11 0.915 -.0922317 .0827161 2011 -.0644991 .0446353 -1.45 0.149 -.1520014 .0230032 2010 -.0581284 .0446012 -1.30 0.193 -.1455639 .0293071 2009 .0049863 .0446412 0.11 0.911 -.0825276 .0925002 2008 -.2635482 .0445705 -5.91 0.000 -.3509235 -.1761729 survey
kk Coef. Std. Err. t P>|t| [95% Conf. Interval] corr(u_i, Xb) = 0.3969 Prob > F = 0.0000 F(8,5650) = 21.07 overall = 0.2016 max = 7 between = 0.3895 avg = 7.0 R-sq: within = 0.0290 Obs per group: min = 7 Group variable: PanelID Number of groups = 943 Fixed-effects (within) regression Number of obs = 6601
63
応用編:一般パネルモデル( General Panel
Model )への拡張
• Bollen and Brand (2010)
y it = B t x it + B t z i + λ t η i + ε it
x it : 時間とともに変化する変数
z i : 時間とともに変化しない変数
η i : 観察されない異質性(時間とともに変化しない)
観察されない異質性の効果が時点とともに変化する
x と z の効果については時点との交互作用を考えればいいのかもし
れない
64
一般パネルモデルからみた REM と FEM
• ランダム効果モデル
y it = B yx x it + B y z z i + η i + ε it
z i と η i の両方がモデルに含まれる場合は相関は 0 とする(ランダム効果、 Cov ( z i,
η i ) = 0 )
• 固定効果モデル
y it = B yx x it + η i + ε it
z i がモデルに含まれないか、あるは B y z が 0 のときに固定効果モデル
Ejrnaes and Holm (2006) は固定効果モデルと SEM による推定量が一致し
ないことを示したが、 Allison (2009) はそんなことはなく、両方法は常に同
一の結果を示すと主張する。
65
補足
• REM と FEM の違いは Cov (ui, xit) = 0 とするかしないかの違
い。つまり 2 つのモデルは入れ子の関係。
• Hausman ( 1978 )はこのような相関の有無を、 βfe – βre を利
用して検定している( Halaby 2004: 527 )。
• SEM では、この仮定が正しいのかどうかをモデルの適合度
によって判断可能(結果は Hausman 検定に近似)
• u と X で相関がない所があれば、相関がないとした倹約的な
モデルを作り再度推定し、適合度を改善する
66
おすすめの方法
• SEM による変数の指定はややこしい
• ミスが生じる可能性もある
1. Stata などで FEM による推定
2. Mplus でも FEM による推定を行い同一の結果を得る
3. 理論的あるいは MI を参考にして探索的に仮定を緩める
67
なぜ SEM でわざわざ推定するのか?
• 潜在変数を用いることが出来る
• 測定の誤差による変化と真の変化を分離可能
e9
対応する変数の
パスは等値
b1
a1 c1
e1 e2 e3
d1
e4
f1
b7
a7 c7
e5 E6 e7
d7
e8
f7
68
弱測定不変モデル( 2 時点)
DATA: FILE IS data4.dat;
VARIABLE: NAMES ARE a1 b1 c1 d1 a7 b7 c7 d7;
USEVARIABLES ARE a1 b1 c1 d1 a7 b7 c7 d7;
ANALYSIS: ESTIMATOR = MLR;
MODEL: f1 BY a1
b1 (1)
c1 (2)
d1 (3);
f7 BY a7
b7 (1)
c7 (2)
d7 (3);
a1 b1 c1 d1 PWITH a7 b7 c7 d7;
f7 ON f1;
OUTPUT: SAMPSTAT STDYX MODINDICES(ALL) ;
自動的に @1 に固定される
【 ex11 】
69
Mplus のアウトプットと単回帰モデルの結果
STDYX
A7 ON A1 0.514
B7 ON B1 0.504
C7 ON C1 0.559
D7 ON D1 0.283
70
y2
y1
y3
u
e1
e2
e3
Cov (ui, x it ) = 0
[5] 誤差は
全て等しい
[1]u からのパスは
すべて 1 に固定
[3] Xt からのパス
は全て等しい
z [2] Z からのパス
は全て等しい
[4]u と他の変数
との相関は 0
[5] 平均と分散
は全て等しい
Cov (ui, z i ) = 0
【 ex12_1 】
潜在変数を用いた
ランダム効果モデル
f1
f2
f3
71
y2
y1
y3
e1
e2
e3
Cov (ui, x it ) ≠ 0
72[5] 誤差は
全て等しい
[2] Z からのパス
は全て等しい
[3] Xt からのパス
は全て等しい
潜在変数を用いた
固定効果モデル
u
※ u と時間とともに変化しない変数 z の相関は仮定しない
[5] 平均と分散
は全て等しい
z
[1]u からのパスは
すべて 1 に固定
Cov (ui, z i ) = 0
【 ex12_2 】
f1
f2
f3
72
MODEL:
a BY inc1-inc4@1; f1 BY ca1 (1)
cb1 (2) cc1 (3) cd1 (4); f2 BY ca2 (1) cb2 (2) cc2 (3) cd2 (4); f3 BY ca3 (1) cb3 (2) cc3 (3) cd3 (4); f4 BY ca4 (1) cb4 (2) cc4 (3) cd4 (4); ca1 with ca2-ca4;
cb1 with cb2-cb4; cc1 with cc2-cc4; cd1 with cd2-cd4;
inc1 ON f1 (5) women (6) age (7) eduy (8); inc2 ON f2 (5)
women (6) age (7) eduy (8); inc3 ON f3 (5)
women (6) age (7) eduy (8); inc4 ON f4 (5)
women (6) age (7) eduy (8); a with women@0 age@0 eduy@0;
a with f1-f4@0; !コメントアウトがあれば固定効果、コメントアウトがなければラン ダム効果
inc1-inc4 (9); f1-f4 (10); OUTPUT: SAMPSTAT STDYX MOD;
ランダム効果モデル
固定効果モデル
73
SEM によるパネルデータ分析 2
因果の方向を検証する
74
変数 X と変数 Y の因果に関する問い
1. X は Y に影響を与え、 Y は X に影響を与える
2. X は Y に影響を与えるが、 Y は X に影響を与えない
3. X は Y に影響を与えないが、 Y は X に影響を与える
4. X は Y に影響を与えず、また Y は X に影響を与えない
例 1 :階層帰属意識と生活満足度(前田 1998 )
例 2 :階層帰属意識と主観的健康
例 3 :職業期待と教育期待
例 4 :女性の従業上の地位と性別役割態度(ただしカテゴリカル変数の場合
は LEM のカテゴリカルパスモデルを用いる必要がある、山口 2004 )
例 5 :職業の女性比率と平均賃金( Allison 2009 )
• 以上のような仮説を検証する上で用いられてきたモデルが Cross-Lagged
Effects Model と Synchronous Effects Model
75
Cross-Lagged Effects Model (Two waves)
y1 y2
x1 x2
e1
e2
76
Synchronous Effects Model (Two waves)
y1 y2
x1 x2
e1
e2
推定に時間がかかる
77
識別されないモデル
y1 y2
x1 x2
e1
e2
78
Cross-Lagged Effects Model (Three waves)
y1 y2
x1 x2
e3
e4
y3
x3
e1
e2
79
例 1 :階層帰属意識と生活満足度
• 友枝( 1988 )、吉川( 1999 )
• 階層帰属意識を説明する上で、生活満足度を独立変数
として投入
• 前田( 1998 )
• 「生活満足度が階層帰属意識を高める方向に働きうる仮
説、あるいは他の仮説との間で、実証的な観点から優劣
を検討することが望まれよう」
• SEM を用いた双方向因果モデル(ただしパネルではな
い)から生活満足度から階層帰属意識への影響は見ら
れるが、階層帰属意識から生活満足度への影響は見ら
れないことを示した
80
JLPS を用いた追試
• 階層帰属意識( ZQ35 AQ43 BQ29 CQ24 DQ26 EQ24 FQ28 )
• 生活満足度( ZQ30D AQ32D BQ23F CQ20F DQ18F EQ18F FQ21F )
• 値を反転して欠損値を 999 とした
[1] 対応するパスについては等値制約をおく
[2] 図では省略してあるが、 k2 と m2 や k3 と m3 の誤差共分散を仮定
[3] 誤差分散は各時点で同じと仮定
m2
m1
k1 k2
m3
k3
m4
k4
m5
k5
m6
k6
m7
k7
81
DATA:
FILE IS data6.txt; LISTWISE = ON; VARIABLE:
NAMES ARE k1-k7 m1-m7;
USEVARIABLES ARE k1-k7 m1-m7; MISSING IS ALL (999);
DEFINE:
ANALYSIS: ESTIMATOR = MLR; MODEL:
k2 ON k1(1) m1(2); k3 ON k2(1)
m2(2); k4 ON k3(1)
m3(2); k5 ON k4(1)
m4(2); k6 ON k5(1)
m5(2); k7 ON k6(1)
m6(2); m2 ON k1(3)
m1(4); m3 ON k2(3)
m2(4); m4 ON k3(3)
m3(4); m5 ON k4(3)
m4(4); m6 ON k5(3)
m5(4); m7 ON k6(3)
m6(4);
k2-k7 pwith m2-m7 (5); k2-k7 (6);
m2-m7 (7);
OUTPUT: SAMPSTAT STDYX MODINDICES(ALL) ;
[1] 対応するパスについては等値制
約をおく
[2] k2 と m2 や k3 と m3 の誤差共分散を
仮定
【 ex13_1 】
82
RMSEA (Root Mean Square Error Of Approximation) Estimate 0.113
90 Percent C.I. 0.109 0.116 Probability RMSEA <= .05 0.000
CFI/TLI
CFI 0.770 TLI 0.782 Chi-Square Test of Model Fit for the Baseline Model
Value 12049.339 Degrees of Freedom 90 P-Value 0.0000 SRMR (Standardized Root Mean Square Residual)
Value 0.173
どの指標でみても、適合度は良くない
考えられる原因:
1. 誤差についてのモデリングが不十分
2. 一時点以上前の状態の影響を受けている
3. 等値制約の仮定が強い
83
MODEL RESULTS
Two-Tailed Estimate S.E. Est./S.E. P-Value K2 ON
K1 0.553 0.012 47.333 0.000 M1 0.201 0.014 14.541 0.000 K3 ON
K2 0.553 0.012 47.333 0.000 M2 0.201 0.014 14.541 0.000
・・・(略)・・・
M2 ON
K1 0.069 0.005 14.203 0.000 M1 0.559 0.011 52.609 0.000 M3 ON
K2 0.069 0.005 14.203 0.000 M2 0.559 0.011 52.609 0.000
非標準化係数から、生活満足度( M )から階層帰属意
識( K )への効果も、階層帰属意識( K )から生活満足度
( M )への効果も有意であることがわかる
84
STDYX Standardization
Two-Tailed Estimate S.E. Est./S.E. P-Value K2 ON
K1 0.582 0.012 47.849 0.000 M1 0.122 0.009 14.330 0.000 K3 ON
K2 0.563 0.012 47.664 0.000 M2 0.121 0.008 14.340 0.000
・・・(略)・・・
M2 ON
K1 0.124 0.009 14.085 0.000 M1 0.577 0.011 54.309 0.000 M3 ON
K2 0.119 0.008 14.200 0.000 M2 0.566 0.010 55.019 0.000
標準化係数から影響力は同程度とみなせる
STDYX
M to K K to M
Wave 2 0.122 0.124
Wave 3 0.121 0.119
Wave 4 0.120 0.117
Wave 5 0.120 0.117
Wave 6 0.120 0.117
Wave 7 0.120 0.116
Average 0.121 0.118
85
DATA:
FILE IS data6.txt; LISTWISE = ON; VARIABLE:
NAMES ARE k1-k7 m1-m7;
USEVARIABLES ARE k1-k7 m1-m7; MISSING IS ALL (999);
DEFINE:
ANALYSIS: ESTIMATOR = MLR; MODEL:
k2 ON k1 m1; k3 ON k2
m2; k4 ON k3
m3; k5 ON k4
m4; k6 ON k5
m5; k7 ON k6
m6; m2 ON k1
m1; m3 ON k2
m2; m4 ON k3
m3; m5 ON k4
m4; m6 ON k5
m5; m7 ON k6
m6;
k2-k7 pwith m2-m7; k2-k7 (6);
m2-m7 (7);
OUTPUT: SAMPSTAT STDYX MODINDICES(ALL) ;
[1] 対応するパスについての等値制
約の仮定を緩める
【 ex13_2 】
86
RMSEA (Root Mean Square Error Of Approximation) Estimate 0.126
90 Percent C.I. 0.122 0.130 Probability RMSEA <= .05 0.000
CFI/TLI
CFI 0.788 TLI 0.727 Chi-Square Test of Model Fit for the Baseline Model
Value 12049.339 Degrees of Freedom 90 P-Value 0.0000 SRMR (Standardized Root Mean Square Residual)
Value 0.187
等値制約をなくしても、適合度は良くない
考えられる原因:
1. 誤差についてのモデリングが不十分
2. 一時点以上前の状態の影響を受けている
87
MODEL RESULTS
Two-Tailed Estimate S.E. Est./S.E. P-Value K2 ON
K1 0.441 0.024 18.367 0.000 M1 0.173 0.037 4.687 0.000 K3 ON
K2 0.472 0.021 22.014 0.000 M2 0.304 0.037 8.229 0.000 K4 ON
K3 0.588 0.021 27.404 0.000 M3 0.109 0.033 3.298 0.001
・・・(略)・・・
M2 ON
K1 0.054 0.011 5.111 0.000 M1 0.522 0.021 25.336 0.000 M3 ON
K2 0.051 0.011 4.595 0.000 M2 0.561 0.021 26.725 0.000 M4 ON
K3 0.089 0.012 7.512 0.000 M3 0.529 0.021 24.886 0.000
非標準化係数から、生活満足度( M )から階層帰属意識( K )への効
果も、階層帰属意識( K )から生活満足度( M )への効果も有意である
ことがわかる
88
STDYX Standardization
Two-Tailed Estimate S.E. Est./S.E. P-Value K2 ON
K1 0.504 0.023 21.468 0.000 M1 0.114 0.024 4.703 0.000 K3 ON
K2 0.470 0.020 23.169 0.000 M2 0.188 0.023 8.290 0.000 K4 ON
K3 0.570 0.017 33.282 0.000 M3 0.065 0.020 3.296 0.001
・・・(略)・・・
M2 ON
K1 0.100 0.020 5.121 0.000 M1 0.557 0.017 32.038 0.000 M3 ON
K2 0.083 0.018 4.575 0.000 M2 0.564 0.017 33.646 0.000 M4 ON
K3 0.144 0.019 7.538 0.000 M3 0.529 0.018 30.181 0.000
標準化係数に若干のばらつきはあるが、平均的
に見れば効果は同程度といえる
STDYX
M to K K to M
Wave 2 0.114 0.100
Wave 3 0.188 0.083
Wave 4 0.065 0.144
Wave 5 0.135 0.111
Wave 6 0.100 0.111
Wave 7 0.109 0.161
Average 0.119 0.118
89
適合度が悪い!
• 解決策
• 時点を減らして再分析(本末転倒)
• 2 時点前までの影響をモデルに反映させる
k2 ON k1(1) m1(2); k3 ON k2(1)
m2(2) k1(3); k4 ON k3(1)
m3(2) k2(3) k1(4); k5 ON k4(1)
m4(2) k3(3) k2(4);
RMSEA (Root Mean Square Error Of Approximation) Estimate 0.061
90 Percent C.I. 0.058 0.065 Probability RMSEA <= .05 0.000
CFI/TLI
CFI 0.935 TLI 0.935 Chi-Square Test of Model Fit for the Baseline Model
Value 12049.339 Degrees of Freedom 90 P-Value 0.0000 SRMR (Standardized Root Mean Square Residual)
Value 0.125
STDYX
M to K K to M
Wave 2 0.102 0.102
Wave 3 0.082 0.080
Wave 4 0.081 0.080
Wave 5 0.084 0.083
Wave 6 0.084 0.083
Wave 7 0.087 0.084
Average 0.087 0.085
【 ex13_3 】
90
以上の結果から
• 生活満足度は階層帰属意識に、そして階層帰属意識は生活満足度
に影響を与えていると考えられる
• 生活満足度が階層帰属意識に先行するモデルは用いないほうがよ
いかもしれない
• 回避策としての MIMIC ( Kikkawa and Fujihara 2012 )
91
階層帰属意識と健康
• Subjective Social Status が健康に与える影響が注目を集めている
• JLPS であれば、これら 2 変数の因果関係を見ることが可能
• 分析の結果、双方向の因果関係が見られた
【 ex14 】
STDYX Standardization
Two-Tailed Estimate S.E. Est./S.E. P-Value K2 ON
K1 0.601 0.011 53.389 0.000 H1 0.086 0.008 11.055 0.000 K3 ON
K2 0.582 0.011 51.129 0.000 H2 0.087 0.008 11.180 0.000
・・・(略)・・・
H2 ON
K1 0.092 0.008 10.849 0.000 H1 0.543 0.011 50.949 0.000 H3 ON
K2 0.088 0.008 10.890 0.000 H2 0.544 0.010 53.740 0.000
92
SEM によるパネルデータ分析 3
異質性を考慮した上で、因果の方向を検証する
93
高学歴志向と学校外教育志向
• 子どもにはできるだけ高い教育を受けさせたい
• 子どもには学校教育のほかに家庭教師をつけたり、塾に通わせた
い
【 ex15 】
DATA:
FILE IS data8.txt; LISTWISE = ON; VARIABLE:
NAMES ARE women eduy h1-h3 s1-s3 inc1-inc3;
USEVARIABLES ARE h1-h3 s1-s3; ! h・・・子どもにはできるだけ高い教育を受けさせたい
! s・・・子どもには,学校教育のほかに家庭教師をつけたり,塾に通わせたい
MISSING IS ALL (999); ANALYSIS: ESTIMATOR = MLR; MODEL:
h2 ON h1(1) s1(2); h3 ON h2(1)
s2(2); s2 ON h1(3)
s1(4); s3 ON h2(3)
s2(4);
h2-h3 pwith s2-s3; h2 h3 (5);
s2 s3 (6);
OUTPUT: SAMPSTAT STDYX MODINDICES(ALL) ;
94
Mplus のアウトプット
• 双方向因果関係がありそう
• 因果というよりも観測されな
い異質性(高学歴志向にも
学校外教育投資志向にも影
響を与える何か)が問題なの
では?
95