• 検索結果がありません。

Mplus SHO FUJIHARA'S PAGE

N/A
N/A
Protected

Academic year: 2018

シェア "Mplus SHO FUJIHARA'S PAGE"

Copied!
100
0
0

読み込み中.... (全文を見る)

全文

(1)

SEM による

パネルデータ分析入門

藤原翔

sho.fujihara@iss.u-tokyo.ac.jp

2013 11 8

パネル調査の特性を生かした分析の研究会( 3

1

(2)

本研究会の目的

1. SEM という視点から、従来のパネルデータ分析手

法を考える

• 前回の三輪先生の報告をすこし異なる視点からとらえる

2. 2 変数の因果関係について考える

• SEM によるパネルデータ分析の醍醐味

• みなさんのパネルデータ分析の手助けとなれば幸

2

(3)

目次

1. SEM とは

2. Mplus SEM

3. SEM によるパネルデータ分析 1 :固定効果とラン

ダム効果

4. SEM によるパネルデータ分析 2 :因果の方向を検

証する

5. SEM によるパネルデータ分析 3 :異質性を考慮し

た上で、因果の方向を検証する

6. まとめ

3

(4)

SEM とは

4

(5)

1 SEM とは

• Structural Equation Modeling (構造方程式モデリング)

• 「構成概念や観測変数の性質を調べるために集めた多くの

観測変数を同時に分析するための統計的方法」(豊田

1998 1

• 「直接観測できない潜在変数を導入し、その潜在変数と観

測変数との間の因果関係を同定することにより社会現象や

自然現象を理解するための統計的アプローチ.因子分析と

多重回帰分析(パス解析)の拡張」(狩野・市川 19991

• 柔軟なモデリングにより、多くの多変量解析手法を下位モ

デルとして実行可能

• かつては共分散構造分析などと呼ばれた

5

(6)

SEM による分析が可能なソフトウェア

• SEM 専用

• AMOS

• Mplus

他にも LISREL, EQS など

汎用

• SAS (CALIS)

• R (sem, lavaan)

• Stata (sem, gllamm)

• まだ使用したことがないが lavaan は結構強力らしい

6

(7)

Mplus とは

• L. K. Muthén and B. O. Muthén

• Muthén 1984 )は共分散構造分析でカテゴリカルデータを利用可能にした

LISCOMP

その後 Mplus の開発・販売

サポート

• http://www.statmodel.com/

• Papers Using Special Mplus Features に適用例あり

( http://www.statmodel.com/papers.shtml

• だいたいのことはこのページに書いてある

バージョン

• Mplus Version 7.11 2013 10 17 日時点)

入手方法

• エンドユーザーにのみ販売

Muthen & Muthen accepts orders only from end users. We are not affiliated

with any reseller and do not work with resellers.

• クレジット立て替え払い(会計には嫌がられるが)

ダウンロード or 郵送

7

(8)

Mplus の解説本

1. Muthén, L. K. and B. O. Muthén. 1998–2010. Mplus User's Guide, 6.

2. Byrne, Barbara M. 2011. Structural Equation Modeling with Mplus:

Basic Concepts, Applications, and Programming. New York:

Routledge Academic.

3. Wang, Jichuan, and Xiaoqian Wang. 2012. Structural Equation

Modeling: Applications using Mplus. Wiley. com.

4. Geiser, Christian. 2013. Data Analysis with Mplus. Guilford Press.

1 2 3 4

8

(9)

唯一の日本語の Mplus 解説本

• 小杉孝司・清水裕士編. 2013 .『 M-plusR による今すぐ出来る多変

量解析(仮題) 』北大路書房.

• 「カテゴリカル・制限従属変数に対する回帰モデル」を執筆

他には、

豊田秀樹編. 2007 .『共分散構造方程式[ Amos 編]:構造方程式モ

デリング』東京図書.

の第 14

9

(10)

Mplus SEM

10

(11)

基本

TITLE: タイトルの指定

DATA: データの指定

VARIABLE: 変数の指定

DEFINE: 変数の定義、交互作用項の作成、変換、センタリング

など

ANALYSIS: 推定方法の指定

MODEL: 分析モデルの指定

OUTPUT: 追加のアウトプットを表示

SAVEDATA: データを保存する(推定量など)

PLOT: 分析結果を図示

MONTECARLO: モンテカルロ・シミュレーションの指定

11

(12)

基本 MODEL 部分

ON 回帰分析 y1 ON x1-x3

BY 因子分析( 1 つ目の変数のパスが自動的に 1 に固定)

f BY x1-x10

WITH 共分散 y1 with y2

@ 値の固定 y1 ON x1@.5

f BY x1

x2@1

x3@1;

*n 初期値を n に(潜在クラス分析の際に役立つ)

(n) 等値制約(括弧内の数字が同じパスは同じ値をとる)

f1 BY x1 f2 BY x4

x2(1) x5(1)

x3(2); x6(2);

12

(13)

データファイル

• SEM によるパネルデータ分析の場合は

ロング形式ではなくワイド形式(ロングで

Mplus 内でワイドに変換して分析可能)

• 一行目に変数名は含めない

欠損値は「 . 」、 「 * 」 、「 999 」、「 -

99999 」などとする

• Stata からデータを Export すると欠損が空

白となるので、例えば

recode var1-varX (. = 999)

とリコードする。

拡張子

dat txt csv が使える

13

(14)

SPSS Stata からデータを作成

1. 使用する変数の欠損値をリコードする

2. 使用する変数を絞る

3. 変数の順序を並び替える

4. データを txt, dat, csv のいずれかの形式で保存する

*SPSS の場合 .

SAVE TRANSLATE OUTFILE='C:¥Mplus¥data1.txt’

/TYPE=TAB /MAP /REPLACE /

/CELLS=VALUES

KEEP= women age eduy linc edu2 marry2007 jobc he2008.

///Stata の場合

recode women age eduy linc edu2 marry2007 jobc he2008 (. = 999)

keep women age eduy linc edu2 marry2007 jobc he2008

order women age eduy linc edu2 marry2007 jobc he2008

outsheet using "C:¥Mplus¥data1.txt", nonames nolabel replace

14

(15)

基本となるプログラム( inp

TITLE:

DATA:

FILE IS C:¥Mplus¥file.txt;

!LISTWISE = ON;

VARIABLE:

NAMES ARE x1 x2 x3 x4 x5 x6;

USEVARIABLES ARE x1 x2 x3 x4 x5;

MISSING IS ALL (999);

MODEL:

! ここでモデルを指定

OUTPUT: SAMPSTAT STDYX MODINDICES(4);

inp ファイルと同じフォルダにデータ

ファイルがあればパスは

FILE IS file.txt

のように省略可能

いちいち作成するのは面倒くさいので、メモ帳などに保存しておく。

NAMES で指定した全ての変数を用

いるのであれば省略可能

コメントアウトをとるとリストワイズ、

つけたままだと FIML による欠損値を

ふくめた分析

欠損値はすべて 999

入力されている

15

(16)

Language Generator を使う

メニューバーの「 Mplus Language Generator 」 で大まか

なモデルを指定してやる(「 SEM with Missing Data 」など)

タイトル名

• データファイルの読み込み

• データの型や欠損値の有無

変数名

使用する変数

欠損値のフラグ

その他いろいろ

16

(17)

単回帰分析

y

x1

e

DATA: FILE IS data1.dat;

VARIABLE: NAMES ARE x1 x2 x3 y z u m o;

USEVARIABLES ARE x1 y;

MODEL: y ON x1;

OUTPUT: SAMPSTAT STDYX

x1: 女性ダミー

y: 年収(対数)

ex1

17

(18)

Mplus Output

18

(19)

Stata Output

_cons 5.677183 .0202142 280.85 0.000 .

women -.7411612 .0296983 -24.96 0.000 -.3708013

linc Coef. Std. Err. t P>|t| Beta

Total 3883.30139 3908 .993679987 Root MSE = .92589

Adj R-squared = 0.1373

Residual 3349.37221 3907 .85727469 R-squared = 0.1375

Model 533.929176 1 533.929176 Prob > F = 0.0000

F( 1, 3907) = 622.82

Source SS df MS Number of obs = 3909

. reg linc women, beta

19

(20)

重回帰分析

y

x2

e

DATA: FILE IS data1.dat;

VARIABLE: NAMES ARE x1 x2 x3 y z u m o;

USEVARIABLES ARE x1-x3 y;

MODEL: y ON x1-x3;

OUTPUT: SAMPSTAT STDYX

x1

x3

x1: 女性ダミー

x2: 年齢

x3: 教育年数

y: 年収

ex2

20

(21)

Mplus Output

21

(22)

Stata Output

_cons 3.379656 .144368 23.41 0.000 .

eduy .0485496 .0076619 6.34 0.000 .0904311

age .0503567 .002429 20.73 0.000 .2955147

women -.7057675 .0282726 -24.96 0.000 -.3529979

linc Coef. Std. Err. t P>|t| Beta

Total 3880.24291 3903 .994169334 Root MSE = .87785

Adj R-squared = 0.2249

Residual 3005.4012 3900 .770615692 R-squared = 0.2255

Model 874.841709 3 291.613903 Prob > F = 0.0000

F( 3, 3900) = 378.42

Source SS df MS Number of obs = 3904

. reg linc women age eduy, beta

22

(23)

2 項/順序ロジスティック回帰分析

u

x2

DATA: FILE IS data1.dat;

VARIABLE: NAMES ARE x1 x2 x3 y z u m o;

USEVARIABLES ARE x1-x3 u;

CATEGORICAL IS u;

ANALYSIS: ESTIMATOR = MLR;

MODEL: u ON x1-x3;

OUTPUT: SAMPSTAT STDYX

x1

x3 デフォルトだと となりプロビット WLSMV

x1: 女性ダミー

x2: 年齢

x3: 教育年数

u: 婚姻状態

ex3

23

(24)

Mplus Output

24

(25)

Stata Output

_cons -5.431993 .3516485 -15.45 0.000 -6.121211 -4.742775

eduy -.0983407 .0181439 -5.42 0.000 -.1339021 -.0627794

age .2055625 .0067374 30.51 0.000 .1923574 .2187675

women .2946613 .0676661 4.35 0.000 .1620381 .4272845

marry2007 Coef. Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -2628.0894 Pseudo R2 = 0.2056

Prob > chi2 = 0.0000

LR chi2(3) = 1360.02

Logistic regression Number of obs = 4785

. logit marry2007 women age eduy, nolog

BIC: -35254.388 BIC': -1334.596

AIC: 1.100 AIC*n: 5264.179

Count R2: 0.715 Adj Count R2: 0.394

Variance of y*: 4.877 Variance of error: 3.290

McKelvey and Zavoina's R2: 0.325 Efron's R2: 0.252

Maximum Likelihood R2: 0.247 Cragg & Uhler's R2: 0.247

McFadden's R2: 0.206 McFadden's Adj R2: 0.204

Prob > LR: 0.000

D(4781): 5256.179 LR(3): 1360.015

Log-Lik Intercept Only: -3308.097 Log-Lik Full Model: -2628.089

Measures of Fit for logit of marry2007

. fitstat

25

(26)

多項ロジスティック回帰分析

m

x2

DATA: FILE IS data1.dat;

VARIABLE: NAMES ARE x1 x2 x3 y z u m o;

USEVARIABLES ARE x1-x3 m;

NOMINAL IS m;

MODEL: m ON x1-x3;

OUTPUT: SAMPSTAT STDYX

x1

x3 最大値が基準カテゴリ

x1: 女性ダミー

x2: 年齢

x3: 教育年数

m: 職業カテゴリ

ex4_1

26

(27)

Mplus Output

Pseudo-R2 は手計算の必要

27

(28)

Stata Output

5 (base outcome)

_cons .1908801 .7752973 0.25 0.806 -1.328675 1.710435 eduy -.1870529 .041037 -4.56 0.000 -.2674839 -.1066219 age .0656088 .01327 4.94 0.000 .0396001 .0916175 women -1.900599 .1551126 -12.25 0.000 -2.204614 -1.596584 4

_cons 6.086828 .5176064 11.76 0.000 5.072338 7.101318 eduy -.3397229 .0284256 -11.95 0.000 -.3954361 -.2840097 age -.0062485 .008313 -0.75 0.452 -.0225416 .0100446 women -2.089712 .1040985 -20.07 0.000 -2.293742 -1.885683 3

_cons .0550113 .4694197 0.12 0.907 -.8650344 .975057 eduy .089409 .0252459 3.54 0.000 .0399279 .1388902 age -.0074202 .0071409 -1.04 0.299 -.0214161 .0065757 women -.7527835 .0916856 -8.21 0.000 -.932484 -.5730829 2

_cons -6.955914 .60039 -11.59 0.000 -8.132657 -5.779172 eduy .4332423 .0319482 13.56 0.000 .370625 .4958597 age .0332019 .008599 3.86 0.000 .0163481 .0500556 women -.8647334 .107051 -8.08 0.000 -1.074549 -.6549173 1

jobc Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = -6430.7812 Pseudo R2 = 0.0949 Prob > chi2 = 0.0000 LR chi2(12) = 1348.48 Multinomial logistic regression Number of obs = 4785 . mlogit jobc women age eduy, base(5) nolog

BIC: -27513.432 BIC': -1246.798 AIC: 2.696 AIC*n: 12901.562 Count R2: 0.368 Adj Count R2: 0.029 Maximum Likelihood R2: 0.246 Cragg & Uhler's R2: 0.246 McFadden's R2: 0.095 McFadden's Adj R2: 0.092 Prob > LR: 0.000 D(4765): 12861.562 LR(12): 1348.477 Log-Lik Intercept Only: -7105.020 Log-Lik Full Model: -6430.781 Measures of Fit for mlogit of jobc

. fitstat

28

(29)

多項ロジスティック回帰分析

m

x2

DATA: FILE IS data1.dat;

VARIABLE: NAMES ARE x1 x2 x3 y z u m o;

USEVARIABLES ARE x1-x3 m;

NOMINAL IS m;

MODEL: m#1 ON x1 x2 x3;

m#2 ON x1 x3;

m#3 ON x1 x3;

m#4 ON x1 x2 x3;

OUTPUT: SAMPSTAT STDYX

x1

x3 カテゴリ間の比較ごと

に変数の指定も可能

ex4_2

29

(30)

その他の回帰分析

USEVARIABLES ARE x1-x3 u1;

COUNT IS u1;

Model: u1 ON x1-x3;

Output: SAMPSTAT STDYX

USEVARIABLES ARE x1-x3 u1;

COUNT IS u1 (i);

Model: u1 ON x1-x3;

u1#1 ON x1 x2;

Output: SAMPSTAT STDYX

USEVARIABLES ARE x1-x3 u1;

COUNT IS u1 (nb);

Model: u1 ON x1-x3;

Output: SAMPSTAT STDYX

ポワソン回帰

負の 2 項回帰

ゼロ過剰

ポワソン回帰

詳しくは藤原( 2013in 小杉孝司・清水裕士編『 M-plusR による今すぐ

出来る多変量解析(仮題) 』北大路書房.で

30

(31)

パス解析

y

x2

DATA: FILE IS data1.dat;

VARIABLE: NAMES ARE x1 x2 x3 y z u m o;

USEVARIABLES ARE x1-x3 y;

MODEL: x3 ON x1 x2;

y ON x2 x3;

OUTPUT: SAMPSTAT STDXY MODINDICES(ALL);

x1

x3

e1

e2

ex5_1

31

(32)

Mplus Output

(33)

Stata Output

_cons 2.760173 .1531407 18.02 0.000 . eduy .0621485 .0082294 7.55 0.000 .115761 age .0535004 .002612 20.48 0.000 .3139637 linc Coef. Std. Err. t P>|t| Beta Total 3880.24291 3903 .994169334 Root MSE = .94526 Adj R-squared = 0.1012 Residual 3485.61085 3901 .893517265 R-squared = 0.1017 Model 394.632057 2 197.316028 Prob > F = 0.0000 F( 2, 3901) = 220.83 Source SS df MS Number of obs = 3904 . reg linc age eduy, beta

_cons 15.7823 .1648028 95.76 0.000 . women -.2623593 .0589304 -4.45 0.000 -.070449 age -.0457901 .0050226 -9.12 0.000 -.1442654 eduy Coef. Std. Err. t P>|t| Beta Total 13462.4075 3903 3.4492461 Root MSE = 1.8344 Adj R-squared = 0.0244 Residual 13126.9333 3901 3.3650175 R-squared = 0.0249 Model 335.474249 2 167.737124 Prob > F = 0.0000 F( 2, 3901) = 49.85 Source SS df MS Number of obs = 3904 . reg eduy age women if linc < ., beta

33

(34)

間接効果の推定

• X1 -> X3 -> Y

• X2 -> X3 -> Y

• Bootstrap 法で標準誤差を

求める事も可能

ANALYSIS: BOOTSTRAP = 10000

DATA: FILE IS data1.dat;

VARIABLE: NAMES ARE x1 x2 x3 y z u m o;

USEVARIABLES ARE x1-x3 y;

MODEL: x3 ON x1 x2;

y ON x2 x3;

MODEL INDIRECT:

y IND x3 x1;

y IND x3 x2;

OUTPUT: SAMPSTAT STDXY MODINDICES(ALL);

ex5_2

34

(35)

因子分析

DATA: FILE IS data2.dat;

VARIABLE: NAMES ARE x1 x2 x3 y z u m o a b c d;

USEVARIABLES ARE a b c d;

MODEL: f BY a b c d;

OUTPUT: SAMPSTAT STDXY MODINDICES(ALL);

a b c

e1 e2 e3

d

e4

f

a: 自分の考えを人に説明する

b: よく知らない人と自然に会話する

c: まわりの人をまとめてひっぱっていく

d: 面白いことを言って人を楽しませる

f: コミュニケーション能力?

ex6

35

(36)

適合度の指標

χ2 統計量

サンプルサイズに依存

• CFI Comparative Fit Index

0.90~0.95 < CIF

• TLI Tucker-Lewis Index

0.90 < TLI

• RMSEA Root Mean Square Error Approximation

RMSEA < 0.05

• RMR Root Mean Square Residual

RMR < 1.0

• SRMR Standardized Root Mean Square Residual

SRMR < 0.08

• WRMR Weight Root Mean Square Residual

WRMR < 1.0

• AIC, BIC, ABIC

値が小さいほど倹約的なモデル

36

(37)

適合度をみる

十分にあてはまりはよい

37

(38)

Mplus Output

Diagram

38

(39)

因子分析と重回帰分析

(MIMIC Model)

DATA: FILE IS data2.dat;

VARIABLE: NAMES ARE x1 x2 x3 y z u m o a b c d;

USEVARIABLES ARE x1-x3 a b c d;

MODEL: f BY a b c d;

f ON x1-x3

OUTPUT: SAMPSTAT STDXY MODINDICES(ALL);

x2

x1

x3

b

a c

e1 e2 e3

d

e4

f

x1: 女性ダミー

x2: 年齢

x3: 教育年数

ex7

39

(40)

適合度をみる

十分にあてはまりはよい( RMSEA は改善できそうだが・・・)

40

(41)

Mplus Output

Diagram

x1: 女性ダミー

x2: 年齢

x3: 教育年数

41

(42)

因子分析と

重回帰分析

DATA: FILE IS data2.dat;

VARIABLE: NAMES ARE x1 x2 x3 y z u m o a b c d;

USEVARIABLES ARE x1-x6;

MODEL: f BY a b c d ;

f ON x1-x3;

y ON f x3;

OUTPUT: SAMPSTAT STDXY MODINDICES(ALL);

x2

y

x3

x1

b

a c

e1 e2 e3

d

e3

f

x1: 女性ダミー

x2: 年齢

x3: 教育年数

f: コミュ力

y: 年収(対数)

ex8_1

42

(43)

適合度をみる

かなり悪い

43

(44)

修正指標 ( Modification

Indices, MI )をみる

y ON x1

y ON x2

があったほうがよさそう

44

(45)

因子分析と

重回帰分析(修正)

DATA: FILE IS data2.dat;

VARIABLE: NAMES ARE x1 x2 x3 y z u m o a b c d;

USEVARIABLES ARE x1-x6;

MODEL: f BY a b c d ;

f ON x1-x3;

y ON f x1-x3;

OUTPUT: SAMPSTAT STDXY MODINDICES(ALL);

x2

y

x3

x1

a b c

e1 e2 e3

d

e4

f

ex8_2

45

(46)

再び、適合度をみる

46

(47)

修正指標 ( Modification Indices, MI )をみる

47

(48)

Mplus Output

• 男性の方がコミュニケーション

能力が高い

• 年齢が高いほうがコミュニケー

ション能力が高い

• 学歴が高いほうがコミュニケー

ション能力が高い

男性の方が年収が高い

• 年齢が高いほうが年収が高い

• 学歴が高いほうが年収が高い

• コミュニケーション能力は個人

年収に影響

48

(49)

SEM によるパネルデータ分析 1

固定効果とランダム効果

49

(50)

SEM による固定効果モデルとランダム効果

モデル

固定効果モデル( Fixed Effects Model )とランダム効果モデル

( Random Effects Model

• 経済学や社会学で最もよく用いられるパネルデータ分析モデル

• Halaby (2004: 520) の指摘

“Many studies…ignore the issue of unobserved unit effects

altogether, or they recognize such effects but fail to assess and take

steps to deal with their correlation with measured covariates.”

• Bollen and Brand (2010: 23) の指摘

“Too often researchers apply FEM and REM without careful

consideration as to why they should prefer one model over

another.”

• モデルがフィットしているのかどうか

• FEM REM ではモデル自体の適合度については触れられない

• 先行研究においていったいどれほどの論文の FEMREM が良い適合度な

のでしょう?( Bollen and Brand 2011

50

(51)

ランダム効果モデルの復習

y it = α t + βx it + γz i + u i + ε it

α t :時点、x

it

は時間とともに変化する変数、 z

i

は時点とともに変化しない

変数、 u

i

は観察されない異質性、 ε

it

は誤差

観察されない異質性 u i は平均 0 で一定の分散を持ち、他の変数全ての

変数と独立

特に、異質性 u i x it との相関が無いという仮定があるため、個人の異質性をコント

ロールしたうえでの x it の効果が得られない可能性が大きい

• 時間不変の変数の効果をよほどみたいのでない限り、使用する必要はないか

もしれない

• 他の要因をコントロールした上での、個人の異質性を取り出す上では有効(社

会科学の関心ではない?)

51

(52)

SEM によるランダム効果モデル

x2

x1

x3

y2

y1

y3

u

e1

e2

e3

Cov (ui, x it ) = 0

[5] 誤差は

全て等しい

[1]u からのパスは

すべて 1 に固定

[3] Xt からのパス

は全て等しい

z [2] Z からのパス

は全て等しい

[4]u と他の変数

との相関は 0

[5] 平均と分散

は全て等しい

Cov (ui, z i ) = 0

52

(53)

DATA:

FILE IS data3; LISTWISE = ON; VARIABLE:

NAMES ARE women eduy k1-k7 m1-m7 inc1-inc7;

USEVARIABLES ARE women eduy k1-k7 m1-m7 inc1-inc7; MISSING IS ALL (999);

ANALYSIS: ESTIMATOR = ML; MODEL:

u BY k1-k7@1; k1 ON women(1)

eduy(2) m1(3) inc1(4); k2 ON women(1) eduy(2) m2(3) inc2(4); k3 ON women(1) eduy(2) m3(3) inc3(4); k4 ON women(1) eduy(2) m4(3) inc4(4); k5 ON women(1) eduy(2) m5(3) inc5(4); k6 ON women(1) eduy(2) m6(3) inc6(4); k7 ON women(1) eduy(2) m7(3) inc7(4); u with women@0 eduy@0;

u with m1-m7@0 inc1-inc7@0 k1-k7@0; !コメントアウトすればFixed Effect、コメントアウトしなければRandom Effect k1-k7(5); m1-m7(6); inc1-inc7(7) ; [m1-m7](8); [inc1-inc7](9)

OUTPUT: SAMPSTAT STDYX;

[1] U からのパスは全て 1 に固定

[3] Xt からのパスは全て等しい

[2] Z からのパスは全て等しい

[4]u と他の変数との相関は 0

[5] 従属変数の誤差分散、時点とと

もに変化する変数の分散と平均は

それぞれ時点間で等しい

ex9

53

(54)

適合度を

みる( REM

悪い

54

(55)

Mplus Output

55

(56)

Stata Output

Likelihood-ratio test of sigma_u=0: chibar2(01)= 2109.07 Prob>=chibar2 = 0.000 rho .478703 .0149898 .4494078 .5081137 /sigma_e .9703458 .0091815 .9525162 .9885092 /sigma_u .9298588 .0257781 .8806827 .9817808 _cons -1.250455 .3404657 -3.67 0.000 -1.917755 -.583154 lhinc .4448161 .0362619 12.27 0.000 .3737441 .515888 satis .2619765 .0204502 12.81 0.000 .2218949 .3020582 eduy .1918945 .0183065 10.48 0.000 .1560145 .2277745 women -.0043399 .0662209 -0.07 0.948 -.1341304 .1254506

2013 -.0872664 .0447157 -1.95 0.051 -.1749076 .0003747 2012 -.0196511 .0447502 -0.44 0.661 -.10736 .0680577 2011 -.083846 .0447648 -1.87 0.061 -.1715833 .0038914 2010 -.0725175 .0447353 -1.62 0.105 -.1601972 .0151621 2009 -.0139601 .0447728 -0.31 0.755 -.1017132 .073793 2008 -.2600632 .044712 -5.82 0.000 -.3476972 -.1724292 survey

kk Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = -10113.186 Prob > chi2 = 0.0000 LR chi2(10) = 502.66 max = 7 avg = 7.0 Random effects u_i ~ Gaussian Obs per group: min = 7 Group vari able: PanelID Number of groups = 943 Random-effects ML regression Number of obs = 6601

= 0.930^2

= 0.970^2

56

(57)

補足

• 時点との交互作用のモデリングは等値制約を外すだけで

OK (1), (2) などを消す

時点の主効果は Intercepts をみればよい( [k1-k7] につい

てはフリーにする)

• 潜在変数のモデリングが可能

• 測定誤差を考慮したモデルとなるため、変数間の相関が高くなる

• バランスデータである必要はない

• FIML で欠損のあるケースも含めて分析可能

57

(58)

固定効果モデルの復習

y it = α t + βx it + γz i + u i + ε it

α t :時点ダミー、 x it は時間とともに変化する変数、 z i は時点とと

もに変化しない変数、 u i は観察されない異質性、 ε it は誤差

• ランダム効果モデルとは異なり、観察されない異質性 u i

時間とともに変化する変数と相関を持つ

• 通常、時点とともに変化しない変数については推定されな

xの変化が y の変化に与える影響を推定

58

(59)

x2

x1

x3

y2

y1

y3

e1

e2

e3

Cov (ui, x it ) ≠ 0

59

[5] 誤差は

全て等しい

[2] Z からのパス

は全て等しい

[3] Xt からのパス

は全て等しい

SEM による固定効果

の推定

u

u と時間とともに変化しない変数 z の相関は仮定しない

[5] 平均と分散

は全て等しい

z

[1]u からのパスは

すべて 1 に固定

Cov (ui, z i ) = 0

59

(60)

DATA:

FILE IS data3; LISTWISE = ON; VARIABLE:

NAMES ARE women eduy k1-k7 m1-m7 inc1-inc7;

USEVARIABLES ARE women eduy k1-k7 m1-m7 inc1-inc7; MISSING IS ALL (999);

ANALYSIS: ESTIMATOR = ML; MODEL:

u BY k1-k7@1; k1 ON women(1)

eduy(2) m1(3) inc1(4); k2 ON women(1) eduy(2) m2(3) inc2(4); k3 ON women(1) eduy(2) m3(3) inc3(4); k4 ON women(1) eduy(2) m4(3) inc4(4); k5 ON women(1) eduy(2) m5(3) inc5(4); k6 ON women(1) eduy(2) m6(3) inc6(4); k7 ON women(1) eduy(2) m7(3) inc7(4); u with women@0 eduy@0;

!u with m1-m7@0 inc1-inc7@0 k1-k7@0; !コメントアウトすればFixed Effect、コメントアウトしなければRandom Effect k1-k7(5); m1-m7(6); inc1-inc7(7) ; [m1-m7](8); [inc1-inc7](9)

OUTPUT: SAMPSTAT STDYX;

[1] U からのパスは全て 1 に固定

[3] Xt からのパスは全て等しい

[2] Z からのパスは全て等しい

[4]u と時間とともに変化する変数 Xt

との相関を認める

[5] 従属変数の誤差分散、時点とと

もに変化する変数の分散と平均は

それぞれ時点間で等しい

ex10

60

(61)

適合度を

みる( FEM

悪い

61

(62)

Mplus Output

• 特殊なハイブリッドモデル?

• Within 効果の推定値については通常

の固定効果モデルのものと一致

• 推定値の解釈については調査中

62

(63)

Stata Output

F test that all u_i=0: F(942, 5650) = 7.58 Prob > F = 0.0000 rho .57223426 (fraction of variance due to u_i)

sigma_e .96717864 sigma_u 1.1186407

_cons 3.110639 .2680078 11.61 0.000 2.58524 3.636037 lhinc .2461867 .0407609 6.04 0.000 .1662796 .3260938 satis .1690972 .021899 7.72 0.000 .1261666 .2120277 eduy 0 (omitted)

women 0 (omitted)

2013 -.0842115 .0445767 -1.89 0.059 -.1715988 .0031759 2012 -.0047578 .0446208 -0.11 0.915 -.0922317 .0827161 2011 -.0644991 .0446353 -1.45 0.149 -.1520014 .0230032 2010 -.0581284 .0446012 -1.30 0.193 -.1455639 .0293071 2009 .0049863 .0446412 0.11 0.911 -.0825276 .0925002 2008 -.2635482 .0445705 -5.91 0.000 -.3509235 -.1761729 survey

kk Coef. Std. Err. t P>|t| [95% Conf. Interval] corr(u_i, Xb) = 0.3969 Prob > F = 0.0000 F(8,5650) = 21.07 overall = 0.2016 max = 7 between = 0.3895 avg = 7.0 R-sq: within = 0.0290 Obs per group: min = 7 Group variable: PanelID Number of groups = 943 Fixed-effects (within) regression Number of obs = 6601

63

(64)

応用編:一般パネルモデル( General Panel

Model )への拡張

• Bollen and Brand (2010)

y it = B t x it + B t z i + λ t η i + ε it

x it : 時間とともに変化する変数

z i 時間とともに変化しない変数

η i 観察されない異質性(時間とともに変化しない)

観察されない異質性の効果が時点とともに変化する

x z の効果については時点との交互作用を考えればいいのかもし

れない

64

(65)

一般パネルモデルからみた REMFEM

ランダム効果モデル

y it = B yx x it + B y z z i + η i + ε it

z i η i の両方がモデルに含まれる場合は相関は 0 とする(ランダム効果、 Covz i,

η i = 0

固定効果モデル

y it = B yx x it + η i + ε it

z i がモデルに含まれないか、あるは B y z0 のときに固定効果モデル

Ejrnaes and Holm (2006) は固定効果モデルと SEM による推定量が一致し

ないことを示したが、 Allison (2009) はそんなことはなく、両方法は常に同

一の結果を示すと主張する。

65

(66)

補足

• REM FEM の違いは Cov (ui, xit) = 0 とするかしないかの違

い。つまり 2 つのモデルは入れ子の関係。

• Hausman 1978 )はこのような相関の有無を、 βfe – βre を利

用して検定している( Halaby 2004: 527 )。

• SEM では、この仮定が正しいのかどうかをモデルの適合度

によって判断可能(結果は Hausman 検定に近似)

• u X で相関がない所があれば、相関がないとした倹約的な

モデルを作り再度推定し、適合度を改善する

66

(67)

おすすめの方法

• SEM による変数の指定はややこしい

• ミスが生じる可能性もある

1. Stata などで FEM による推定

2. Mplus でも FEM による推定を行い同一の結果を得る

3. 理論的あるいは MI を参考にして探索的に仮定を緩める

67

(68)

なぜ SEM でわざわざ推定するのか?

• 潜在変数を用いることが出来る

• 測定の誤差による変化と真の変化を分離可能

e9

対応する変数の

パスは等値

b1

a1 c1

e1 e2 e3

d1

e4

f1

b7

a7 c7

e5 E6 e7

d7

e8

f7

68

(69)

弱測定不変モデル( 2 時点)

DATA: FILE IS data4.dat;

VARIABLE: NAMES ARE a1 b1 c1 d1 a7 b7 c7 d7;

USEVARIABLES ARE a1 b1 c1 d1 a7 b7 c7 d7;

ANALYSIS: ESTIMATOR = MLR;

MODEL: f1 BY a1

b1 (1)

c1 (2)

d1 (3);

f7 BY a7

b7 (1)

c7 (2)

d7 (3);

a1 b1 c1 d1 PWITH a7 b7 c7 d7;

f7 ON f1;

OUTPUT: SAMPSTAT STDYX MODINDICES(ALL) ;

自動的に @1 に固定される

ex11

69

(70)

Mplus のアウトプットと単回帰モデルの結果

STDYX

A7 ON A1 0.514

B7 ON B1 0.504

C7 ON C1 0.559

D7 ON D1 0.283

70

(71)

y2

y1

y3

u

e1

e2

e3

Cov (ui, x it ) = 0

[5] 誤差は

全て等しい

[1]u からのパスは

すべて 1 に固定

[3] Xt からのパス

は全て等しい

z [2] Z からのパス

は全て等しい

[4]u と他の変数

との相関は 0

[5] 平均と分散

は全て等しい

Cov (ui, z i ) = 0

ex12_1

潜在変数を用いた

ランダム効果モデル

f1

f2

f3

71

(72)

y2

y1

y3

e1

e2

e3

Cov (ui, x it ) ≠ 0

72

[5] 誤差は

全て等しい

[2] Z からのパス

は全て等しい

[3] Xt からのパス

は全て等しい

潜在変数を用いた

固定効果モデル

u

u と時間とともに変化しない変数 z の相関は仮定しない

[5] 平均と分散

は全て等しい

z

[1]u からのパスは

すべて 1 に固定

Cov (ui, z i ) = 0

ex12_2

f1

f2

f3

72

(73)

MODEL:

a BY inc1-inc4@1; f1 BY ca1 (1)

cb1 (2) cc1 (3) cd1 (4); f2 BY ca2 (1) cb2 (2) cc2 (3) cd2 (4); f3 BY ca3 (1) cb3 (2) cc3 (3) cd3 (4); f4 BY ca4 (1) cb4 (2) cc4 (3) cd4 (4); ca1 with ca2-ca4;

cb1 with cb2-cb4; cc1 with cc2-cc4; cd1 with cd2-cd4;

inc1 ON f1 (5) women (6) age (7) eduy (8); inc2 ON f2 (5)

women (6) age (7) eduy (8); inc3 ON f3 (5)

women (6) age (7) eduy (8); inc4 ON f4 (5)

women (6) age (7) eduy (8); a with women@0 age@0 eduy@0;

a with f1-f4@0; !コメントアウトがあれば固定効果、コメントアウトがなければラン ダム効果

inc1-inc4 (9); f1-f4 (10); OUTPUT: SAMPSTAT STDYX MOD;

ランダム効果モデル

固定効果モデル

73

(74)

SEM によるパネルデータ分析 2

因果の方向を検証する

74

(75)

変数 X と変数 Y の因果に関する問い

1. X Y に影響を与え、 Y X に影響を与える

2. X Y に影響を与えるが、 Y X に影響を与えない

3. X Y に影響を与えないが、 Y X に影響を与える

4. X Y に影響を与えず、また Y X に影響を与えない

1 :階層帰属意識と生活満足度(前田 1998

2 :階層帰属意識と主観的健康

3 :職業期待と教育期待

4 :女性の従業上の地位と性別役割態度(ただしカテゴリカル変数の場合

LEM のカテゴリカルパスモデルを用いる必要がある、山口 2004

5 :職業の女性比率と平均賃金( Allison 2009

• 以上のような仮説を検証する上で用いられてきたモデルが Cross-Lagged

Effects Model Synchronous Effects Model

75

(76)

Cross-Lagged Effects Model (Two waves)

y1 y2

x1 x2

e1

e2

76

(77)

Synchronous Effects Model (Two waves)

y1 y2

x1 x2

e1

e2

推定に時間がかかる

77

(78)

識別されないモデル

y1 y2

x1 x2

e1

e2

78

(79)

Cross-Lagged Effects Model (Three waves)

y1 y2

x1 x2

e3

e4

y3

x3

e1

e2

79

(80)

1 :階層帰属意識と生活満足度

友枝( 1988 )、吉川( 1999

• 階層帰属意識を説明する上で、生活満足度を独立変数

として投入

前田( 1998

• 「生活満足度が階層帰属意識を高める方向に働きうる仮

説、あるいは他の仮説との間で、実証的な観点から優劣

を検討することが望まれよう」

• SEM を用いた双方向因果モデル(ただしパネルではな

い)から生活満足度から階層帰属意識への影響は見ら

れるが、階層帰属意識から生活満足度への影響は見ら

れないことを示した

80

(81)

JLPS を用いた追試

階層帰属意識( ZQ35 AQ43 BQ29 CQ24 DQ26 EQ24 FQ28

生活満足度( ZQ30D AQ32D BQ23F CQ20F DQ18F EQ18F FQ21F

値を反転して欠損値を 999 とした

[1] 対応するパスについては等値制約をおく

[2] 図では省略してあるが、 k2m2k3m3 の誤差共分散を仮定

[3] 誤差分散は各時点で同じと仮定

m2

m1

k1 k2

m3

k3

m4

k4

m5

k5

m6

k6

m7

k7

81

(82)

DATA:

FILE IS data6.txt; LISTWISE = ON; VARIABLE:

NAMES ARE k1-k7 m1-m7;

USEVARIABLES ARE k1-k7 m1-m7; MISSING IS ALL (999);

DEFINE:

ANALYSIS: ESTIMATOR = MLR; MODEL:

k2 ON k1(1) m1(2); k3 ON k2(1)

m2(2); k4 ON k3(1)

m3(2); k5 ON k4(1)

m4(2); k6 ON k5(1)

m5(2); k7 ON k6(1)

m6(2); m2 ON k1(3)

m1(4); m3 ON k2(3)

m2(4); m4 ON k3(3)

m3(4); m5 ON k4(3)

m4(4); m6 ON k5(3)

m5(4); m7 ON k6(3)

m6(4);

k2-k7 pwith m2-m7 (5); k2-k7 (6);

m2-m7 (7);

OUTPUT: SAMPSTAT STDYX MODINDICES(ALL) ;

[1] 対応するパスについては等値制

約をおく

[2] k2 m2 k3 m3 の誤差共分散を

仮定

ex13_1

82

(83)

RMSEA (Root Mean Square Error Of Approximation) Estimate 0.113

90 Percent C.I. 0.109 0.116 Probability RMSEA <= .05 0.000

CFI/TLI

CFI 0.770 TLI 0.782 Chi-Square Test of Model Fit for the Baseline Model

Value 12049.339 Degrees of Freedom 90 P-Value 0.0000 SRMR (Standardized Root Mean Square Residual)

Value 0.173

どの指標でみても、適合度は良くない

考えられる原因:

1. 誤差についてのモデリングが不十分

2. 一時点以上前の状態の影響を受けている

3. 等値制約の仮定が強い

83

(84)

MODEL RESULTS

Two-Tailed Estimate S.E. Est./S.E. P-Value K2 ON

K1 0.553 0.012 47.333 0.000 M1 0.201 0.014 14.541 0.000 K3 ON

K2 0.553 0.012 47.333 0.000 M2 0.201 0.014 14.541 0.000

・・・(略)・・・

M2 ON

K1 0.069 0.005 14.203 0.000 M1 0.559 0.011 52.609 0.000 M3 ON

K2 0.069 0.005 14.203 0.000 M2 0.559 0.011 52.609 0.000

非標準化係数から、生活満足度( M )から階層帰属意

識( K )への効果も、階層帰属意識( K )から生活満足度

M )への効果も有意であることがわかる

84

(85)

STDYX Standardization

Two-Tailed Estimate S.E. Est./S.E. P-Value K2 ON

K1 0.582 0.012 47.849 0.000 M1 0.122 0.009 14.330 0.000 K3 ON

K2 0.563 0.012 47.664 0.000 M2 0.121 0.008 14.340 0.000

・・・(略)・・・

M2 ON

K1 0.124 0.009 14.085 0.000 M1 0.577 0.011 54.309 0.000 M3 ON

K2 0.119 0.008 14.200 0.000 M2 0.566 0.010 55.019 0.000

標準化係数から影響力は同程度とみなせる

STDYX

M to K K to M

Wave 2 0.122 0.124

Wave 3 0.121 0.119

Wave 4 0.120 0.117

Wave 5 0.120 0.117

Wave 6 0.120 0.117

Wave 7 0.120 0.116

Average 0.121 0.118

85

(86)

DATA:

FILE IS data6.txt; LISTWISE = ON; VARIABLE:

NAMES ARE k1-k7 m1-m7;

USEVARIABLES ARE k1-k7 m1-m7; MISSING IS ALL (999);

DEFINE:

ANALYSIS: ESTIMATOR = MLR; MODEL:

k2 ON k1 m1; k3 ON k2

m2; k4 ON k3

m3; k5 ON k4

m4; k6 ON k5

m5; k7 ON k6

m6; m2 ON k1

m1; m3 ON k2

m2; m4 ON k3

m3; m5 ON k4

m4; m6 ON k5

m5; m7 ON k6

m6;

k2-k7 pwith m2-m7; k2-k7 (6);

m2-m7 (7);

OUTPUT: SAMPSTAT STDYX MODINDICES(ALL) ;

[1] 対応するパスについての等値制

約の仮定を緩める

ex13_2

86

(87)

RMSEA (Root Mean Square Error Of Approximation) Estimate 0.126

90 Percent C.I. 0.122 0.130 Probability RMSEA <= .05 0.000

CFI/TLI

CFI 0.788 TLI 0.727 Chi-Square Test of Model Fit for the Baseline Model

Value 12049.339 Degrees of Freedom 90 P-Value 0.0000 SRMR (Standardized Root Mean Square Residual)

Value 0.187

等値制約をなくしても、適合度は良くない

考えられる原因:

1. 誤差についてのモデリングが不十分

2. 一時点以上前の状態の影響を受けている

87

(88)

MODEL RESULTS

Two-Tailed Estimate S.E. Est./S.E. P-Value K2 ON

K1 0.441 0.024 18.367 0.000 M1 0.173 0.037 4.687 0.000 K3 ON

K2 0.472 0.021 22.014 0.000 M2 0.304 0.037 8.229 0.000 K4 ON

K3 0.588 0.021 27.404 0.000 M3 0.109 0.033 3.298 0.001

・・・(略)・・・

M2 ON

K1 0.054 0.011 5.111 0.000 M1 0.522 0.021 25.336 0.000 M3 ON

K2 0.051 0.011 4.595 0.000 M2 0.561 0.021 26.725 0.000 M4 ON

K3 0.089 0.012 7.512 0.000 M3 0.529 0.021 24.886 0.000

非標準化係数から、生活満足度( M )から階層帰属意識( K )への効

果も、階層帰属意識( K )から生活満足度( M )への効果も有意である

ことがわかる

88

(89)

STDYX Standardization

Two-Tailed Estimate S.E. Est./S.E. P-Value K2 ON

K1 0.504 0.023 21.468 0.000 M1 0.114 0.024 4.703 0.000 K3 ON

K2 0.470 0.020 23.169 0.000 M2 0.188 0.023 8.290 0.000 K4 ON

K3 0.570 0.017 33.282 0.000 M3 0.065 0.020 3.296 0.001

・・・(略)・・・

M2 ON

K1 0.100 0.020 5.121 0.000 M1 0.557 0.017 32.038 0.000 M3 ON

K2 0.083 0.018 4.575 0.000 M2 0.564 0.017 33.646 0.000 M4 ON

K3 0.144 0.019 7.538 0.000 M3 0.529 0.018 30.181 0.000

標準化係数に若干のばらつきはあるが、平均的

に見れば効果は同程度といえる

STDYX

M to K K to M

Wave 2 0.114 0.100

Wave 3 0.188 0.083

Wave 4 0.065 0.144

Wave 5 0.135 0.111

Wave 6 0.100 0.111

Wave 7 0.109 0.161

Average 0.119 0.118

89

(90)

適合度が悪い!

解決策

• 時点を減らして再分析(本末転倒)

• 2 時点前までの影響をモデルに反映させる

k2 ON k1(1) m1(2); k3 ON k2(1)

m2(2) k1(3); k4 ON k3(1)

m3(2) k2(3) k1(4); k5 ON k4(1)

m4(2) k3(3) k2(4);

RMSEA (Root Mean Square Error Of Approximation) Estimate 0.061

90 Percent C.I. 0.058 0.065 Probability RMSEA <= .05 0.000

CFI/TLI

CFI 0.935 TLI 0.935 Chi-Square Test of Model Fit for the Baseline Model

Value 12049.339 Degrees of Freedom 90 P-Value 0.0000 SRMR (Standardized Root Mean Square Residual)

Value 0.125

STDYX

M to K K to M

Wave 2 0.102 0.102

Wave 3 0.082 0.080

Wave 4 0.081 0.080

Wave 5 0.084 0.083

Wave 6 0.084 0.083

Wave 7 0.087 0.084

Average 0.087 0.085

ex13_3

90

(91)

以上の結果から

• 生活満足度は階層帰属意識に、そして階層帰属意識は生活満足度

に影響を与えていると考えられる

• 生活満足度が階層帰属意識に先行するモデルは用いないほうがよ

いかもしれない

回避策としての MIMIC Kikkawa and Fujihara 2012

91

(92)

階層帰属意識と健康

• Subjective Social Status が健康に与える影響が注目を集めている

• JLPS であれば、これら 2 変数の因果関係を見ることが可能

• 分析の結果、双方向の因果関係が見られた

ex14

STDYX Standardization

Two-Tailed Estimate S.E. Est./S.E. P-Value K2 ON

K1 0.601 0.011 53.389 0.000 H1 0.086 0.008 11.055 0.000 K3 ON

K2 0.582 0.011 51.129 0.000 H2 0.087 0.008 11.180 0.000

・・・(略)・・・

H2 ON

K1 0.092 0.008 10.849 0.000 H1 0.543 0.011 50.949 0.000 H3 ON

K2 0.088 0.008 10.890 0.000 H2 0.544 0.010 53.740 0.000

92

(93)

SEM によるパネルデータ分析 3

異質性を考慮した上で、因果の方向を検証する

93

(94)

高学歴志向と学校外教育志向

• 子どもにはできるだけ高い教育を受けさせたい

• 子どもには学校教育のほかに家庭教師をつけたり、塾に通わせた

ex15

DATA:

FILE IS data8.txt; LISTWISE = ON; VARIABLE:

NAMES ARE women eduy h1-h3 s1-s3 inc1-inc3;

USEVARIABLES ARE h1-h3 s1-s3; ! h・・・子どもにはできるだけ高い教育を受けさせたい

! s・・・子どもには,学校教育のほかに家庭教師をつけたり,塾に通わせたい

MISSING IS ALL (999); ANALYSIS: ESTIMATOR = MLR; MODEL:

h2 ON h1(1) s1(2); h3 ON h2(1)

s2(2); s2 ON h1(3)

s1(4); s3 ON h2(3)

s2(4);

h2-h3 pwith s2-s3; h2 h3 (5);

s2 s3 (6);

OUTPUT: SAMPSTAT STDYX MODINDICES(ALL) ;

94

(95)

Mplus のアウトプット

• 双方向因果関係がありそう

• 因果というよりも観測されな

い異質性(高学歴志向にも

学校外教育投資志向にも影

響を与える何か)が問題なの

では?

95

参照

関連したドキュメント

When S satisfies the Type II condition, N is closed under both ordinary matrix product and Hadamard (entry-wise) product, and N becomes a commutative algebra (with unity element)

We obtained the condition for ergodicity of the system, steady state system size probabilities, expected length of the busy period of the system, expected inventory level,

Our approach is based on special growth lemmas, and it works for both divergence and nondivergence, elliptic and parabolic equations, in domains satisfying a general “exterior

In the language of category theory, Stone’s representation theorem means that there is a duality between the category of Boolean algebras (with homomorphisms) and the category of

We introduce a new general iterative scheme for finding a common element of the set of solutions of variational inequality problem for an inverse-strongly monotone mapping and the

We find the criteria for the solvability of the operator equation AX − XB = C, where A, B , and C are unbounded operators, and use the result to show existence and regularity

Recently, Arino and Pituk [1] considered a very general equation with finite delay along the same lines, asking only a type of global Lipschitz condition, and used fixed point theory

As application of our coarea inequality we answer this question in the case of real valued Lipschitz maps on the Heisenberg group (Theorem 3.11), considering the Q − 1