公益社団法人日本心理学会 第4回「心理・医学系研究者のためのRによる統計学の研究会」 第4回 心理 医学系研究者のためのRによる統計学の研究会」
初心者による初心者のための
探索的
分析
探索的因子分析
東京医科歯科大学医歯学総合研究科
東京医科歯科大学医歯学総合研究科
博士課程1年 市倉加奈子
(ichikura lppm@tmd ac jp) ([email protected])本日のMENU
本日のMENU
1. 探索的因子分析とは
2. 探索的因子分析の原理
3. 探索的因子分析の手順
4. 「データ解析環境R」による探索的
因子分析の手順
順
本日のMENU
本日のMENU
1. 探索的因子分析とは
2. 探索的因子分析の原理
3. 探索的因子分析の手順
4. 「データ解析環境R」による探索的
因子分析の手順
順
探索的因子分析とは
探索
分析
観測される一連の変数から直接観察すること
観測
連
変数
直接観察す
のできない因子(潜在変数)を見出す方法
探索的因子分析 Exploratory Factor Analysis
⇒直交解では因子パターン 独自性 斜交解
⇒直交解では因子パタ ン、独自性、斜交解
では因子パターン、独自性、因子間相関を
自由
母数
として行う因子分析
母数
として行う因子分析
確認的因子分析 Confirmatory Factor Analysis
実質科学的知見をもと
子パタ
⇒実質科学的知見をもとに、因子パターン、
独自性、因子間相関を
固定母数または制約母
数
とし 行う分析
数
として行う分析
探索的因子分析とは
探索
分析
観測される一連の変数から直接観察すること
自由に値を取りうる未知な母数(母集団に固有観測
連
変数
直接観察す
のできない因子(潜在変数)を見出す方法
自由に値を取りうる未知な母数(母集団に固有の定数)のことで、自分の仮定したモデルにお いて どのような値をとるか全く分からない場合探索的因子分析 Exploratory Factor Analysis
⇒直交解では因子パターン 独自性 斜交解
いて、どのような値をとるか全く分からない場合 に用いる。⇒直交解では因子パタ ン、独自性、斜交解
では因子パターン、独自性、因子間相関を
自由
母数
として行う因子分析
母数
として行う因子分析
確認的因子分析 Confirmatory Factor Analysis
実質科学的知見をもと
子パタ
⇒実質科学的知見をもとに、因子パターン、
独自性、因子間相関を
固定母数または制約母
数
とし 行う分析
数
として行う分析
探索的因子分析とは
探索
分析
探索的因子分析では・・・
説明変数 1 説明変数 2 説明変数 1 目的変数 1 目的変数 2 目的変数 3 目的変数 1 目的変数 2 目的変数 3 独自因子 1 独自因子 1 独自因子 1 独自因子 1 独自因子 1 独自因子 1 1 1 1 1 1 1 何個の共通因子を持 た 何個の共通因子を持った モデルが適切かを検討探索的因子分析とは
探索
分析
確認的因子分析では・・・
説明変数 1 説明変数 2 説明変数 1 説明変数 2 目的変数 1 目的変数 2 目的変数 3 目的変数 1 目的変数 2 目的変数 3 独自因子 1 独自因子 1 独自因子 1 独自因子 1 独自因子 1 独自因子 1 1 1 1 1 1 1 どのような共通因子の影響性を持 た どのような共通因子の影響性を持った モデルが適切かを検討本日のMENU
本日のMENU
1. 探索的因子分析とは
2. 探索的因子分析の原理
3. 探索的因子分析の手順
4. 「データ解析環境R」による探索的
因子分析の手順
順
探索的因子分析の原理
探索
分析
原
目的:「共通因子」を見つけだすこと
目的:「共通因子」を見つけだすこと
説明変数 1 説明変数 2 目的変数 目的変数 目的変数 目的変数 目的変数 1 2 3 4 5 独自因子 1 独自因子 2 独自因子 3 独自因子 4 独自因子 5探索的因子分析の原理
探索
分析
原
共通因子 説明変数 1 説明変数 2 a11 a21 a31 a41 a51 a12 a22 a 32 a42 a52 因子負荷量 観測値 目的変数 1 目的変数 2 目的変数 3 目的変数 4 目的変数 5 a41 a51 a32 1 2 3 4 5 独自因子 1 独自因子 2 独自因子 3 独自因子 4 独自因子 5 独自因子探索的因子分析の原理
探索
分析
原
f1 文系能力 f2 理系能力 例) 因子負荷量: 共通因子の目的変数への影響性 f1 文系能力 f2 理系能力 a a31 a a 共通因子の目的変数への影響性 ※例)「理科」と「数学」にも多少は「文系能力」が影響 a11 a21 a31 a41 a51 a12 a22 a 32 a42 a52 u1 国語 u2 英語 u3 社会 u4 理科 u5 数学e
1e
2e
3e
4e
5 独自性 個別の独自因子の目的変数 の影響性 独自性:個別の独自因子の目的変数への影響性 ※例)「国語」「英語」「社会」の違いを規定探索的因子分析の原理
探索
分析
原
f1 文系能力 f2 理系能力 f1 文系能力 f2 理系能力 a11 a21 a31 a42 a52 a11 a41 a51 a12 a22 a 32 u1 国語 u2 英語 u3 社会 u4 理科 u5 数学e
e
e
e
e
e
1e
2e
3e
4e
5u
= a f + a f + e
u
1= a
11f
1+
a
12f
2+
e
1 目的変数1 共通因子1の影響性 共通因子2の影響性 独自因子1探索的因子分析の原理
探索
分析
原
u
= a f + a f + e
u
1= a
11f
1+
a
12f
2+
e
1 目的変数1 共通因子1の影響性 共通因子2の影響性 独自因子1u
2= a
21f
1+
a
22f
2+
e
2u
3= a
31f
1+
a
32f
2+
e
3u
4= a
41f
1+
a
42f
2+
e
4u
5= a
51f
1+
a
52f
2+
e
5探索的因子分析の原理
探索
分析
原
≪注意①≫主成分分析との違い
説明変数 1 説明変数 2 説明変数 1 説明変数 2 説明変数 3 1 2 3 目的変数 1 目的変数 2 目的変数 3 目的変数 主成分分析:観測値が独立変数 因子分析:観測値が従属変数f =
u
1a
1+
u
2a
2+
u
3a
3u
1= a
11f
1+ a
12f
2+ e
1u
2= a
21f
1+ a
22f
2+ e
2u
2a
21f
1+ a
22f
2+ e
2u
3= a
31f
1+ a
32f
2+ e
3探索的因子分析の原理
探索
分析
原
≪注意②≫納得いくモデルが2つ得られたら・・・
説明変数 1 説明変数 2 目的変数 目的変数 目的変数 目的変数 目的変数 目的変数 1 目的変数 2 目的変数 3 目的変数 4 目的変数 5 研究者の主観(仮説)を重要視して選択する 説明変数 2 説明変数 1 説明変数 3 研究者の主観(仮説)を重要視して選択する 目的変数 目的変数 目的変数 目的変数 目的変数 目的変数 1 目的変数 2 目的変数 3 目的変数 4 目的変数 5本日のMENU
本日のMENU
1. 探索的因子分析とは
2. 探索的因子分析の原理
3. 探索的因子分析の手続き
4. 「データ解析環境R」による探索的
因子分析の手順
順
探索的因子分析の手続き
探索
分析
続
① 因子の抽出
② 共通因子数の選定
③ 因子の回転
④ 各共通因子の意味の解釈
⑤
析結
精度
確
⑤ 分析結果の精度の確認
①因子の抽出
①
抽
因子の抽出
とは:因子負荷量と独自因子の分散を推定 反復 収束 の速さ 推定誤差 の大きさ 計算 の容易さ の速さ の大きさ の容易さ 主因子法 × ‐ 大 易 ○ 遅 大 易 反復主因子法 ○ 遅 大 易 最小2乗法 ○ 速 大 難 最尤法 ○ 速 小 難 ※推定誤差の大きさは「正規分布」仮定時 ※推定誤差の大きさは「正規分布」仮定時手計算 → 反復主因子法
ソフト
→ 最尤法
が好まれる①因子の抽出
①
抽
これらの抽出方法はどのようなことをしているのか? (1) 目的変数の標準化 f1 文系能力 f2 理系能力 (1) 目的変数の標準化 f1 文系能力 f2 理系能力 a11 a21 a31 a42 a52 「標準化」: 平均 = 0、標準偏差 = 1 になるように置換a11 a41 a51 a12 a22 a 32 u1 国語 u2 英語 u3 社会 u4 理科 u5 数学e
e
e
e
e
e
1e
2e
3e
4e
5①因子の抽出
①
抽
国語 英語 社会 理科 数学 あ 10 10 20 80 90 あ 10 10 20 80 90 い 20 40 10 100 80 う 30 20 10 90 100 う 30 20 10 90 100 え 90 80 70 20 30 お 70 90 90 10 30 か 100 100 80 20 20 さ 20 10 10 30 20 し 30 20 10 10 30 す 90 90 80 90 90 せ 80 90 100 70 90標準化 :
u
1= (x
1‐ M) / SD
①因子の抽出
①
抽
国語 英語 社会 理科 数学 あ 1 26 1 18 0 72 0 74 0 93 あ -1.26 -1.18 -0.72 0.74 0.93 い -0.97 -0.39 -0.98 1.26 0.64 う 0 69 0 92 0 98 1 00 1 23 う -0.69 -0.92 -0.98 1.00 1.23 え 1.03 0.66 0.57 -0.84 -0.82 お 0.46 0.92 1.08 -1.10 -0.82 か 1.31 1.18 0.82 -0.84 -1.11 さ -0.97 -1.18 -0.98 -0.58 -1.11 し -0.69 -0.92 -0.98 -1.10 -0.82 す 1.03 0.92 0.82 1.00 0.93 せ 0.74 0.92 1.34 0.47 0.93①因子の抽出
①
抽
u1国語 u5数学 あ -1.26 ・・・ 0.93 ・ ・ ・ ・ ・ ・ ・ ・ せ 0.74=
・・・ 0.93 u1国語 u5数学=
u1国語 u5数学 あ a11fあ1 + a12 fあ2 + e1 ・・・ a51fあ1 + a52 fあ2 + e1 ・ ・ ・・ ・・ ・・ ・ ・ ・ ・ せ a11fせ1 + a12 fせ2 + e1 ・・・ a51fせ1 + a52 fせ2 + e1 この等式が成り立つはず!!①因子の抽出
①
抽
(2) 各変数の平均と標準偏差を仮定 f1 文系能力 f2 理系能力 a11 a21 a31 a12 a22 a a42 a52 平均 = 0 標準偏差 = 1 であると仮定 u1 国語 u2 英語 u3 社会 u4 理科 u5 数学 a41 a51 a12 a22 a 32 平均 = 0、標準偏差 = 1 であると仮定 u1 国語 u2 英語 u3 社会 u4 理科 u5 数学 平均 = 0、標準偏差 = d2 であると仮定e
1e
2e
3e
4e
5①因子の抽出
①
抽
(2) 各変数の平均と標準偏差を仮定 f1 文系能力 f2 理系能力つまり
「因子の抽出」
とは
a11 a21 a31 a12 a22 a a42 a52 平均 = 0 標準偏差 = 1 であると仮定「因子の抽出」
とは・・・
u1 国語 u2 英語 u3 社会 u4 理科 u5 数学 a41 a51 a12 a22 a 32 平均 = 0、標準偏差 = 1 であると仮定①因子負荷量
a
n
d
u1 国語 u2 英語 u3 社会 u4 理科 u5 数学 平均 =②独自因子の分散
0、標準偏差 = d2 であると仮定d
n
e
1e
2e
3を求めること
e
4e
5①因子の抽出
①
抽
(3) 変数間の相関を仮定 f1 文系能力 f2 理系能力 共通因子と独自因子は相関なしと仮定 a11 a21 a31 a12 a22 a a42 a52 u1 国語 u2 英語 u3 社会 u4 理科 u5 数学 a41 a51 a12 a22 a 32 u1 国語 u2 英語 u3 社会 u4 理科 u5 数学 独自因子同士は相関なしと仮定e
1e
2e
3e
4e
5①因子の抽出
①
抽
(3) 変数間の相関を仮定 f1 文系能力 f2 理系能力 a11 a21 a31 a12 a22 a a42 a52 共通因子同士が相関なしと仮定:直交回転モデル u1 国語 u2 英語 u3 社会 u4 理科 u5 数学 a41 a51 a12 a22 a 32 共通因子同士が相関なしと仮定:直交回転モデル 共通因子同士が相関ありと仮定:斜交回転モデル u1 国語 u2 英語 u3 社会 u4 理科 u5 数学 ※研究者の「主観(仮説)」が重要! ※一般的には、共通因子同士が全く相関なしとは考えにくいe
1e
2e
3e
4e
5①因子の抽出
①
抽
(4) 因子負荷量・独自因子の分散の算出 1 r12 r13 r14 r15 r21 1 r23 r24 r25R = AA’ + D
r31 r32 1 r34 r35 r41 r42 r43 1 r45 ※R:相関行列 ※A:因子負荷行列 r51 r52 r53 r54 1 a a ※A:因子負荷行列 ※D:分散の対角行列 d21 0 0 0 0 0 d22 0 0 0 2 a11 a12 a21 a22 a11 a21 a31 a41 a51+
=
0 0 d23 0 0 0 0 0 d24 0 0 0 0 0 d2 a31 a32 a41 a42 11 21 31 41 51 a12 a22 a32 a42 a52+
0 0 0 0 d25 a51 a52①因子の抽出
①
抽
(4) 因子負荷量・独自因子の分散の算出 国語 英語 社会 理科 数学 国語 1 95 91 30 22 国語 1 .95 .91 -.30 -.22 英語 .95 1 .95 -.21 -.15 91 95 1 23 10 社会 .91 .95 1 -.23 -.10 理科 -.30 -.21 -.23 1 .93 数学 -.22 -.15 -.10 .93 1 目的変数間の相関を求める①因子の抽出
①
抽
(4) 因子負荷量・独自因子の分散の算出 1 0.95 0.91 -0.3 -0.2 0 95 1 0 95 0 2 0 2 0.95 1 0.95 -0.2 -0.2 0.91 0.95 1 -0.2 -0.1 -0.3 -0.2 -0.2 1 0.93 a a -0.2 -0.2 -0.1 0.93 1 d21 0 0 0 0 0 d22 0 0 0 2 a11 a12 a21 a22 a11 a21 a31 a41 a51+
=
0 0 d23 0 0 0 0 0 d24 0 0 0 0 0 d2 a31 a32 a41 a42 11 21 31 41 51 a12 a22 a32 a42 a52+
0 0 0 0 d25 a51 a52 計算していくと・・・①因子の抽出
①
抽
(4) 因子負荷量・独自因子の分散の算出 a11 a12 a21 a22 .932 .222 .938 .328=
a31 a32 a41 a42 .898 .321 -.520 .813 a51 a52 -.440 .864異なる抽出方法で再分析
・異なる抽出方法で再分析
・共通因子数の変更 観測変数の減少
共通因子数の変更、観測変数の減少
・異常値の削除
異常値
削除
などの方法でエラーが出なくなるまでモデルを模索②共通因子数の推定
②
通
数
推定
•ガッドマン・ルール(カイザーガットマン基準) 相関行列 固有値が 固 相関行列の1より大きなものの個数固有値が を 子数とする 固 有値 を因子数とする 因子の番号②共通因子数の推定
②
通
数
推定
•スクリー法(スクリープロット基準) 相関行列の固有値の 固 相関行列の固有値の 大きさの変化がなだらか になる直前の固有値番号 固 有値 になる直前の固有値番号 を因子数とする 因子の番号③因子の回転
③
回転
≪回転の種類≫
≪回転の種類≫
直交回転
斜交回転
直交回転
バリマ クス法斜交回転
プロマ クス法 • バリマックス法 • コーティマックス法 • プロマックス法 • コーティミン法 コ ティマックス法 • バイティコーティマックス法 コ ティミン法 • バイコーティミン法 • コバリミン法③因子の回転
③
回転
1.000 国語 .800 .900 英語 社会 .600 .700 理科 数学 .400 .500 .200 .300 .000 .100 ‐ 600.600 ‐ 400.400 ‐ 200.200 .000000 .200200 .400400 .600600 .800800 1 0001.000 1 2001.200③因子の回転
③
回転
1.000 国語 共通因子の意味を解釈しやすく .800 .900 英語 社会 するために軸を回転させる .600 .700 理科 数学 .400 .500 .200 .300 .000 .100 ‐ 600.600 ‐ 400.400 ‐ 200.200 .000000 .200200 .400400 .600600 .800800 1 0001.000 1 2001.200③因子の回転
③
回転
国語バリマックス回転で見てみると・・・
国語 英語 社会 1.000 1.200 社会 理科 数学 .800 1.000 数学 400 .600 .200 .400 200 .000 ‐.400 ‐.200 .000 .200 .400 .600 .800 1.000 1.200 ‐.400 ‐.200③因子の回転
③
回転
第1共通因子 第2共通因子 国語 932 222 国語 .932 .222 英語 .938 .328 社会 898 321回転
社会 .898 .321 理科 -.520 .813 数学回転
数学 -.440 .864 第1共通因子 第2共通因子 第1共通因子 第2共通因子 国語 .943 -.170 英語 991 - 076 英語 .991 -.076 社会 .952 -.066 理科 150 954 理科 -.150 .954 数学 -.056 .968④各共通因子の意味の解釈
④各
通
味
解釈
第1共通因子 第2共通因子 国語 943 170 国語 .943 -.170 英語 .991 -.076 社会 .952 -.066 理科 -.150 .954 数学 -.056 .968 f1 文系能力 f2 理系能力 .943 .991 .952 -.150 -.056 -.170 -.076 -.066 .954 .968 u1 国語 u2 英語 u3 社会 u4 理科 u5 数学⑤分析結果の精度の確認
⑤分析結果
精度
確認
第1共通因子 第2共通因子 国語 943 170 国語 .943 -.170 英語 .991 -.076 社会 .952 -.066 理科 -.150 .954 数学 -.056 .968 第1共通因子の寄与率 = (b2 11+ b221 + b231 + b241 + b251) ×100 / 5 = 56.065 第2共通因子の寄与率 = (b2 12+ b222 + b232 + b242 + b252) ×100 / 5 = 37.723 累積寄与率 = 56.056 + 37.723 = 93.779 (%)本日のMENU
本日のMENU
1. 探索的因子分析とは
2. 探索的因子分析の原理
3. 探索的因子分析の手続き
4. 「データ解析環境R」による探索的
因子分析の手順
順
「R」による探索的因子分析の手順
国語 英語 社会 理科 数学」
探索
分析
順
あ 10 10 20 80 90 い 20 40 10 100 80 う 30 20 10 90 100 え 90 80 70 20 30 え 90 80 70 20 30 お 70 90 90 10 30 か 100 100 80 20 20 か 100 100 80 20 20 さ 20 10 10 30 20 し 30 20 10 10 30 し 30 20 10 10 30 す 90 90 80 90 90 せ 80 90 100 70 90 せ 80 90 100 70 90「R」による探索的因子分析の手順
」
探索
分析
順
データの読み込み
setwd("G:/r_toukei")
dat <- read table("exercise r toukei csv" sep=" " header=T dat < read.table( exercise_r_toukei.csv , sep , , header T, na=".") library(psych) library(psych) ①ハ ドディスク「G」の中にある ①ハードディスク「G」の中にある フォルダ「r_toukei」にアクセス ② イ 「 ②csvファイル「exercise_r_tou kei」のデータを行列datと置く ③パッケージ「psych」を呼び出す
「R」による探索的因子分析の手順
」
探索
分析
順
因子分析の実行 (2因子と仮定) factanal(x=dat,factors=2) ※何も指定しなければ、最尤法・バリマックス回転 ← 独自性 ④各目的変数の「独自性」「R」による探索的因子分析の手順
」
探索
分析
順
因子分析の実行 (2因子と仮定) factanal(x=dat,factors=2) ⑤共通因子1と共通因子2 のそれぞれの因子負荷量 を算出 ← 因子負荷量 因子負荷量が0に近すぎる 因子負荷量 近すぎる と表示されない!「R」による探索的因子分析の手順
」
探索
分析
順
因子分析の実行 (2因子と仮定) factanal(x=dat,factors=2) ← 因子寄与率 ← 累積因子寄与率 ⑥因子寄与率、累積因子寄与率を算出 ← 適合度検定のp値 ⑥因 寄 率、累積因 寄 率を算 ⑦適合度の検定「R」による探索的因子分析の手順
」
探索
分析
順
因子負荷量をすべて表示 print(factanal(x=dat,factors=2),cutoff=0) 因子負荷量が0以上の値は 因子負荷量 すべて表示 ← 因子負荷量「R」による探索的因子分析の手順
」
探索
分析
順
共通性の算出 communality <- 1-factanal(x=dat,factors=2)$uniquenesses ← 共通性 ⑧共通性を算出 (共通性が高い=共通因子で説明できる部分が大きい)「R」による探索的因子分析の手順
」
探索
分析
順
共通因子数の推定 evres <- eigen(cor(dat)) evres$value $ ↑ 固有値の算出 plot(evres$value, type="b") スクリープロット → ⑨固有値を算出 ⑩スクリ プロ トを ⑩スクリープロットを 作図「R」による探索的因子分析の手順
」
探索
分析
順
ちなみに・・・
factanal(x=dat,factors=2, rotation="promax")
「私の」参考文献
私
」参考
献
①マンガでわかる統計学【因子分析編】
(オーム社) →統計や因子分析に対する抵抗感を下げる →統計や因子分析に対する抵抗感を下げる →行列の計算方法や専門用語を勉強②共分散構造分析【疑問編】
(朝倉書店)②共分散構造分析【疑問編】
(朝倉書店) →探索的因子分析と確認的因子分析の違いを勉強 因子分析に関連した専門用語を勉強 →因子分析に関連した専門用語を勉強③
SPSSで学ぶ医療系多変量データ解析
(東京図書) 因子分析 根本的な原理と基本方程式 理解 →因子分析の根本的な原理と基本方程式の理解④心理統計学の基礎
(有斐閣アルマ) →因子分析の手順と数式の理解⑤
SASによる統計解析【基礎統計編】
(科学技術出版) →因子抽出法と因子数の決定に関する原理の理解 http://www.sigmath.es.osaka-u.ac.jp/~kano/old/lecture/u_graduate/multivariate/factor.pdf「私の」参考文献
私
」参考
献
⑥
Using Multivariate Statistics
(Pearson International Edition)→良く分からない・・・作った資料と相違がないか確認 →良く分からない・・・作った資料と相違がないか確認