(1)主成分分析の落とし穴
JMPer’s Meeting
2003.9.9(東京)
(2)2/30
ウォーミングアップ
• ポイント
*各変量の分布の様子
*散布図行列→モザイク図のチェック
*因子負荷量,主成分得点,からの解釈
鉄則:解釈は記述的に
因果推論的な解釈は危険
•ケーススタディの内容
–出典:
「グラフィカルモデリングの実際」日本品質管理学会
テクノメトリックス研究会編(1999),日科技連
(3)3/30
ウォーミングアップ
• ケーススタディの内容
– 「部下の上司評価」
上司が部下の仕事内容をどの程度理解しているかについて101人の社
員に5段階評点尺度―そう思わない(1点)からそう思う(5点)―
でアンケートした結果
・業務指示:上司が部下に業務指示を与えているかを部下の目で回答
・進捗管理:上司が仕事の進捗管理を行っているかを部下の目で回答
・業務内容:上司が仕事の内容を把握しているかを部下の目で回答
・部下対話:上司が部下と気楽に対話を行っているかを部下の目で回答
・雰囲気 :上司は職場の雰囲気に気を使っているかを部下の目で回答
(4)4/30
ウォーミングアップ
表 4.1 従業員満足度の基本統計量
変量
業務指示
進捗管理 業務内容
部下対話
雰囲気
平均
3.257
3.485
3.297
3.535
3.574
標準偏差 1.1971 1.2216 1.1962 1.0823 0.9934
0
1
2
3
4
5
6
平均
標準偏差
平均の標準誤差
平均の上側95%信頼限界
平均の下側95%信頼限界
N
3.2574257
1.1971087
0.1191168
3.49375
3.0211015
101
モーメント
業 務 指 示
0
1
2
3
4
5
6
平均
標準偏差
平均の標準誤差
平均の上側95%信頼限界
平均の下側95%信頼限界
N
3.4851485
1.221588
0.1215525
3.7263053
3.2439917
101
モーメント
進 捗 管 理
0
1
2
3
4
5
6
平均
標準偏差
平均の標準誤差
平均の上側95%信頼限界
平均の下側95%信頼限界
N
3.2970297
1.1961986
0.1190262
3.5331743
3.0608851
101
モーメント
業 務 内 容
0
1
2
3
4
5
6
平均
標準偏差
平均の標準誤差
平均の上側95%信頼限界
平均の下側95%信頼限界
N
3.5346535
1.0822602
0.1076889
3.7483052
3.3210017
101
モーメント
部 下 対 話
0
1
2
3
4
5
6
平均
標準偏差
平均の標準誤差
平均の上側95%信頼限界
平均の下側95%信頼限界
N
3.5742574
0.9934439
0.0988514
3.7703757
3.3781391
101
モーメント
雰 囲 気
一 変 量 の 分 布
各変量の値は1,2,3,4,5のいずれかしか取らない
(5)5/30
ウォーミングアップ
業務指示
進捗管理
業務内容
部下対話
雰囲気
1.0000
0.5634
0.4209
0.4253
0.2697
0.5634
1.0000
0.5711
0.2935
0.1801
0.4209
0.5711
1.0000
0.1696
0.1580
0.4253
0.2935
0.1696
1.0000
0.5394
0.2697
0.1801
0.1580
0.5394
1.0000
業務指示 進捗管理 業務内容 部下対話 雰囲気
相関
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
業務指示
1
39
61
69
97
1
39
61
6997
1
39 61
69
97
1
39
61
69
97
1 2 3 4 5
1
39
61
69
97
進捗管理
1
39
61
69
97
1
39
61
69
97
1
39
61
69
97
1 2 3 4 5
1
39
61
69
97
1
39
61
69
97
業務内容
1
39
61
69
97
1
39
61
69
97
1 2 3 4 5
1
39
61
69
97
1
39
61
69
97
1
39
61
69
97
部下対話
1
39
61
69
97
1 2 3 4 5
1
39
61
69
97
1
39
61
69
97
1
39
61
69
97
1
39
61 69
97
雰囲気
1 2 3 4 5
進捗管理
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
業務指示
1
2
3
4
5
業務内容
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
業務指示
1
2
3
4
5
業務内容
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
進捗管理
1
2
3
4
5
部下対話
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
業務指示
1
2
3
4
5
部下対話
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
進捗管理
1
2
3
4
5
部下対話
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
業務内容
1
2
3
4
5
雰囲気
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
1
2
3
4
5
雰囲気
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
1
2
3
4
5
雰囲気
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
1
2
3
4
5
雰囲気
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
1
2
3
4
5
業務指示
0.00
0.25
0.50
0.75
1.00
12 3 4 5
進捗管理
1
2
3
4
5
業務指示
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
業務内容
1
2
3
4
5
業務指示
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
部下対話
1
2
3
4
5
業務指示
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
雰囲気
1
2
3
4
5
進捗管理
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
業務内容
1
2
3
4
5
進捗管理
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
部下対話
1
2
3
4
5
進捗管理
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
雰囲気
1
2
3
4
5
業務内容
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
部下対話
1
2
3
4
5
業務内容
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
雰囲気
1
2
3
4
5
部下対話
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
雰囲気
1
2
3
4
5
業務指示
進捗管理
業務内容
部下対話
雰囲気
進捗管理
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
業務指示
1
2
3
4
5
業務内容
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
業務指示
1
2
3
4
5
業務内容
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
進捗管理
1
2
3
4
5
部下対話
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
業務指示
1
2
3
4
5
部下対話
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
進捗管理
1
2
3
4
5
部下対話
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
業務内容
1
2
3
4
5
雰囲気
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
1
2
3
4
5
雰囲気
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
1
2
3
4
5
雰囲気
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
1
2
3
4
5
雰囲気
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
1
2
3
4
5
業務指示
0.00
0.25
0.50
0.75
1.00
12 3 4 5
進捗管理
1
2
3
4
5
業務指示
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
業務内容
1
2
3
4
5
業務指示
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
部下対話
1
2
3
4
5
業務指示
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
雰囲気
1
2
3
4
5
進捗管理
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
業務内容
1
2
3
4
5
進捗管理
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
部下対話
1
2
3
4
5
進捗管理
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
雰囲気
1
2
3
4
5
業務内容
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
部下対話
1
2
3
4
5
業務内容
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
雰囲気
1
2
3
4
5
部下対話
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
雰囲気
1
2
3
4
5
業務指示
0.00
0.25
0.50
0.75
1.00
12 3 4 5
進捗管理
1
2
3
4
5
業務指示
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
業務内容
1
2
3
4
5
業務指示
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
部下対話
1
2
3
4
5
業務指示
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
雰囲気
1
2
3
4
5
進捗管理
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
業務内容
1
2
3
4
5
進捗管理
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
部下対話
1
2
3
4
5
進捗管理
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
雰囲気
1
2
3
4
5
業務内容
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
部下対話
1
2
3
4
5
業務内容
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
雰囲気
1
2
3
4
5
部下対話
0.00
0.25
0.50
0.75
1.00
1 2 3 4 5
雰囲気
1
2
3
4
5
業務指示
進捗管理
業務内容
部下対話
雰囲気
相関係数行列,本当は順序尺度のデータ
(6)6/30
ウォーミングアップ
• 主成分を保存して,元の変量と主成分との相関
=因子負荷量で解釈する
固有値
寄与率
累積寄与率
業務指示
進捗管理
業務内容
部下対話
雰囲気
固有ベクトル
2.4589
49.1778
49.1778
0.50669
0.49453
0.42880
0.43022
0.36020
1.1755
23.5107
72.6885
-0.11712
-0.37569
-0.45700
0.51589
0.60841
0.5842
11.6838
84.3723
-0.58316
-0.06619
0.59147
-0.24260
0.49685
0.4045
8.0901
92.4624
0.50859
-0.10473
-0.18909
-0.68618
0.47304
0.3769
7.5376
100.0000
0.36168
-0.77391
0.47085
0.13809
-0.17168
主成分分析: 相関係数行列から
主成分/因子分析
JMPでは,固有値,
固有ベクトルの表示
固有ベクトルの
解釈は難しい
-1
-0.5
0
0.5
1
主成分2 業務指示
進捗管理
業務内容
部下対話雰囲気
-1 -0.75 -0.25 0 .25 .5 .75 1
主成分1
因子1
因子2
因子3?
(7)7/30
ウォーミングアップ
• 元の変量と主成分との関係
散布図→ダイアモンド図で確認(元々順序尺度のはず)
主成分1
-5
-4
-3
-2
-1
0
1
2
3
4
1
39
61
69
97
1 2 3 4 5
業務指示
業務指示による主成分1の一元配置分析
主成分1
-5
-4
-3
-2
-1
0
1
2
3
4
1
39
61
69
97
1 2 3 4 5
進捗管理
進捗管理による主成分1の一元配置分析
主成分1
-5
-4
-3
-2
-1
0
1
2
3
4
1
39
61
69
97
1 2 3 4 5
業務内容
業務内容による主成分1の一元配置分析
主成分1
-5
-4
-3
-2
-1
0
1
2
3
4
1
39
61 69
97
1 2 3 4 5
部下対話
部下対話による主成分1の一元配置分析
主成分1
-5
-4
-3
-2
-1
0
1
2
3
4
1
39
61 69
97
1 2 3 4 5
雰囲気
雰囲気による主成分1の一元配置分析
二 変 量 の 関 係
主成分2
-3
-2
-1
0
1
2
1
39
61
69
97
1 2 3 4 5
業務指示
業務指示による主成分2の一元配置分析
主成分2
-3
-2
-1
0
1
2
1
39
61
69
97
1 2 3 4 5
進捗管理
進捗管理による主成分2の一元配置分析
主成分2
-3
-2
-1
0
1
2
1
39
61
69
97
1 2 3 4 5
業務内容
業務内容による主成分2の一元配置分析
主成分2
-3
-2
-1
0
1
2
1
39
61
69
97
1 2 3 4 5
部下対話
部下対話による主成分2の一元配置分析
主成分2
-3
-2
-1
0
1
2
1
39
61
69
97
1 2 3 4 5
雰囲気
雰囲気による主成分2の一元配置分析
二 変 量 の 関 係
(8)8/30
ウォーミングアップ
• 2因子モデル ・
3因子モデル
業務指示
進捗管理
業務内容
部下対話
雰囲気
0.264485
0.647264
0.933057
-0.051891
0.156653
-0.166008
-0.052744
-0.084091
-0.736242
-0.934792
-0.865192
-0.590002
-0.155939
-0.507551
0.001008
回転因子のパターン
0.56649
-0.58292
0.58249
-0.51000
-0.80321
-0.30782
-0.64730
0.12270
0.75230
回転行列
業務指示
進捗管理
業務内容
部下対話
雰囲気
0.84607
0.76983
0.90198
0.80235
0.89838
共通性
指示
進捗
内容
対話
雰囲気
GM
教科書的には2因子モデルで十分
GMの構造から3因子が示唆される
(9)9/30
ウォーミングアップ
• 主成分の基本は対立概念
• 因子の概念は個別能力(
変数分類)
• 布置の解釈は記述に徹する
– 問題解決やアクションを持ち込むべきではない
「集団維持能力,実行計画能力共に評価の高い上司もいれ
ば,一方が高い上司,共に低い上司もいる」
(10)10/30
理想の恋人の重要度
• 鉄則1
– PCAは1組の相関のある変量を無相関な変量の
新しい組に変換する.
– つまり,元の変量がほぼ無相関であればPCAを使
うご利益はない.
• 鉄則2
– PCAは相関構造を分解し解釈可能な成分を提供
してくれるが,相関構造は平均に関する情報は
取り除かれる.
– つまり,PCAは平均からの変動が他の変量と同一
あるいは逆方向に向かう力を分解している.
(11)11/30
理想の恋人の重要度
• 問題の背景
– ある大学で理想の恋人の重要度を調査することになっ
た
– アンケート設計では,重要度の項目を決めるにあたり,
互いに関連が強いものを選ぶのは冗長であるから,出
来る限り関連が薄い異なる評価項目を幾つか用意する
ことが合理的であるとした.
– これは,鉄則1に抵触する.PCAを使う意義がない.
調査目的,調査設計,データ分析は三位一体
強く意識しないと,上手く主成分,因子が抽出できない
分析スタイル:
単純集計か,変量間の構造抽出か
(12)12/30
理想の恋人の重要度
• 設問検討
– 5段階評定尺度で調査
– 設問内容
・容姿:相手の容姿
・距離:自分と相手との居住地間の距離
・性格:相手の性格
・趣味:自分と相手との趣味の一致度
・年齢:自分と相手との年齢の差
・相性:自分と相手との相性の良さ
・経済力:相手の所得や金銭的余裕度
「性格を重要視すれば経済力は重要視しないから負の相関があり,
PCAの結果,対立概念が構成される」
「性格と相性は共により重要な項目であるから正の相関が生じ,
1つの主成分か1つの因子を構成する」
予想
性格,相性,趣味
経済力,年齢,距離
総合評価
(13)13/30
理想の恋人の重要度
• 第1回分析結果
疑問噴出
「
何故,第1主成分に総合評価が出ない?」
「
何故,経済力と性格が同じ成分になるのか?」
PCAは使えない
(14)14/30
理想の恋人の重要度
• 鉄則2から,PCAには平均に関する情報は反映されない.
• 平均位置による重視の程度はPCAの外にある
変量
経済力
容姿
性格
年齢
趣味
相性
距離
平均
2.15
3.80
4.60
3.00
3.05
4.10
2.55
標準偏差
0.933
0.951
0.598
1.026
1.234
1.021
1.191
目的に合う分析にするには
行列の転置を使う→回答者の重要視度の
傾向を調べる
・
主成分1:回答者の共通性
・
主成分2以降:回答パターンの違い
(15)15/30
理想の恋人の重要度
• 第2回分析結果
-2.5
0
2.5
5
-2
0
2
4
-1
0
1
2
3
4
主成分1
経済力
容姿性格
年齢
趣味
相性
距離
経済力
容姿
性格
年齢
趣味 相性
距離
-2.5 0 2.5 5
経済力
容姿
性格
年齢
趣味
相性
距離
主成分2
経済力
容姿
性格
年齢
趣味相性 距離
-2 0 2 4
経済力
容姿
性格
年齢
趣味
相性
距離
経済力
容姿
性格 年齢
趣味
相性
距離
主成分3
-1 0 1 2 3 4
散布図行列
固有値
寄与率
累積寄与率
9.7246
48.6228
48.6228
3.9569
19.7846
68.4074
2.3120
11.5601
79.9675
1.7027
8.5133
88.4808
1.2427
6.2137
94.6945
1.0611
5.3055
100.0000
0.0000
0.0000
100.0000
-4
-2
0
2
4
主成分2 経済力
容姿 性格
年齢
趣味
相性
距離
-5 -2.5 0 2.5 5
主成分1
主成分1と主成分2の二変量の関係
今度は上手くいった.
学生達が欲しかった布置
(16)16/30
食べ物の好みに関する調査
• 鉄則3
– 互いに強い相関を持つ同質な変量群にPCAを実行すると,第1固有値
だけが大きくなり,解釈可能な主成分は総合指標(主成分1)のみと
いう,結果が得られることが多い
.
• 鉄則4
– 小規模データセットにPCAを実行する場合には,主成分座標での外れ
値に注意する.外れ値は2種類あり,
– 大きい固有値に対する外れ値は主成分の解釈を困難にする.
– 小さい固有値に対する外れ値は無意味な主成分を抽出する.
• 道標:
行標準化
–
①分散を1に調整する :個体の評点のばらつかせ方を考慮しない
– ②分散を1に調整しない:個体の評点のばらつかせ方に意味がある
(17)17/30
食べ物の好みに関する調査
• ある研修施設の食堂のメニューの好みについて,
調査したデータがある
• 分析者は,食の好みに年齢や地域差があるとし
て,それらで層別して,平均を計算した
食
べ
物
地域-東
地域-西
20 30 40
20 30 40
食べ物の好みの
平均
年代
狙い
・
地域,年代で好みが
分かれるはず
5段階評点尺度
(18)18/30
食べ物の好みに関する調査
• 第1回の分析
固有値
寄与率
累積寄与率
東日本20代
東日本30代
東日本40代
西日本20代
西日本30代
西日本40代
固有ベクトル
4.5234
75.3899
75.3899
0.41391
0.41771
0.39540
0.37322
0.43109
0.41560
0.5467
9.1124
84.5023
0.23655
0.04110
-0.58784
0.66191
0.07613
-0.39100
0.3724
6.2074
90.7098
-0.58445
-0.46237
0.02727
0.49348
0.15055
0.42154
0.2408
4.0129
94.7226
0.36355
-0.58150
0.57309
0.21243
-0.13835
-0.37011
0.2167
3.6120
98.3347
-0.21750
0.43009
0.25579
0.36361
-0.75503
-0.00238
0.0999
1.6653
100.0000
0.50165
-0.29482
-0.32171
-0.04141
-0.44328
0.59976
主成分分析: 相関係数行列から
第2主成分以降の寄与率が1よりもあまりにも小さい
・
慣例からいうと第1主成分のみ解釈
・
第1主成分は,総合的な好み
・
地域や年代の差がでない→分析の失敗?
鉄則3から,このままではいけないことが分かる
6つの変量ともに好みを聞いているので
第1主成分が圧倒的になるのは,むしろ自然
(19)19/30
食べ物の好みに関する調査
• 第2回の分析
道標から,行方向の標準化-中心化-を行う
今回は行方向分散の調整はしない:
平均0
・
食べ物で,ばらつきの絶対的な差の大きさが
地域差や年代差に意味があるから...
固有値
寄与率
累積寄与率
東日本20代1
東日本30代1
東日本40代1
西日本20代1
西日本30代1
西日本40代1
固有ベクトル
2.0922
34.8707
34.8707
0.49799
0.36324
-0.43356
0.16443
0.26328
-0.57943
1.5452
25.7525
60.6233
0.25396
0.41187
0.43249
-0.75431
0.09772
-0.01682
1.0664
17.7733
78.3966
-0.34033
0.04271
-0.33557
-0.18616
0.80397
0.29786
0.8006
13.3441
91.7407
0.33074
-0.73514
0.34119
-0.03582
0.40823
-0.25657
0.4956
8.2593
100.0000
0.58637
-0.23424
-0.45898
-0.23025
-0.18793
0.54982
-0.0000
-0.0000
100.0000
0.34419
0.31827
0.43045
0.56127
0.26981
0.45512
主成分分析: 相関係数行列から
(
:
:
)
ij
ij
i
y
=
x
−
x i
個体番号
j
変量番号
総合評価は興味がない
(20)20/30
食べ物の好みに関する調査
• 布置の検討
-0.1
0.1
0.4
-0.2
0
0.2
0.4
-0.2
0.2
0.6
-0.5
0
0.5
-0.3
-0.1
0.1
0.3
-0.6
-0.2
0.2
東日本20代1
納豆
納豆
納豆
納豆
納豆
-0.1 .2 .4 .6
納豆
東日本30代1
納豆
納豆
納豆
納豆
-0.2 0 .1 .3
納豆
納豆
東日本40代1
納豆
納豆
納豆
-0.2 .2 .4 .6
納豆
納豆
納豆
西日本20代1
納豆
納豆
-0.5 0 .5
納豆
納豆
納豆
納豆
西日本30代1
納豆
-0.3 0 .2
納豆
納豆
納豆
納豆
納豆
西日本40代1
-0.6 0 .2
散布図行列
-5
-4
-3
-2
-1
0
1
2
3
4
5
主成分2
納豆
-5 -4 -3 -2 -1 0
1
2
3
4
5
主成分1
主成分1と主成分2の二変量の関係
主成分での大きな外れ値
元の散布図行列では,発見するのが
難しい
(21)21/30
食べ物の好みに関する調査
• 寄り道
外れ値A
外れ値B
第1主成分
第2主成分
第3主成分
全体の相関構造を
不当に歪める
主成分平面から
外れた空間にあり
無意味な主成分を
作る
少数サンプルの場合の主成分分析では,
外れ値に注意して主成分の解釈を行ってみよう
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
主成分5
1
22
25
-0.5 0 .5 1 1.5 2 2.5
主成分4
固有値
寄与率
累積寄与率
色差A
色差B
色差C
色差D
固有ベクトル
2.7255
54.5098
54.5098
0.15478
0.17759
0.54326
0.59027
1.1166
22.3323
76.8420
0.50988
0.77638
0.10686
-0.18343
0.9025
18.0494
94.8915
0.84467
-0.48041
-0.20026
-0.00858
0.2442
4.8832
99.7746
-0.04612
0.36595
-0.77346
0.15775
0.0113
0.2254
100.0000
-0.02167
0.03151
0.23475
-0.77005
主成分分析: 相関係数行列から
小さい固有値での外れ値例
(22)22/30
食べ物の好みに関する調査
• 第3回の分析
固有値
寄与率
累積寄与率
東日本20代1
東日本30代1
東日本40代1
西日本20代1
西日本30代1
西日本40代1
固有ベクトル
2.3759
39.5977
39.5977
0.39349
0.10189
-0.50089
0.53158
0.10359
-0.53906
1.2500
20.8337
60.4314
-0.29703
0.53701
-0.40589
-0.23548
0.61743
0.14827
1.0489
17.4822
77.9136
0.07042
0.75211
0.00411
-0.09713
-0.64730
-0.03042
0.7799
12.9976
90.9112
0.81201
-0.04778
-0.12890
-0.51589
0.09936
0.21382
0.5453
9.0888
100.0000
0.06697
0.19023
0.58247
-0.27706
0.30512
-0.67096
-0.0000
-0.0000
100.0000
0.29687
0.31162
0.47798
0.55644
0.29339
0.43657
主成分分析: 相関係数行列から
-3
-2
-1
0
1
2
3
主成分2 白米
うどん
すき焼き(牛肉)
生姜焼き(豚肉)
つくね(鳥肉)
刺身(魚)パン
卵 炒飯
ラーメン
天蕎麦
カレー
肉フライ
魚フライ
コロッケ
ハンバ―グ
天ぷら
シュウマ
餃子
煮魚
焼魚
野菜煮つけ
野菜サラダ
酢の物豆腐
オロシ
-4 -3 -2 -1 0 1 2 3 4
主成分1 と主成分2 の二変量の関係
20代
30代
40代
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
主成分4
白米
うどんすき焼き(牛肉)
生姜焼き(豚肉)
つくね(鳥肉)
刺身(魚)
パン
卵
炒飯
ラーメン
天蕎麦
カレー
肉フライ
魚フライ
コロッケ
ハンバ―グ
天ぷら
シュウマ
餃子
煮魚
焼魚
野菜煮つけ
野菜サラダ
酢の物
豆腐
オロシ
-3 -2 -1 0 1 2 3
主成分3と主成分4の二変量の関係
東日本30代
西日本30代
東日本20代
西日本20代
-3
-2
-1
0
1
2
3
主成分2 白米
うどん
すき焼き(牛肉)
生姜焼き(豚肉)
つくね(鳥肉)
刺身(魚)パン
卵 炒飯
ラーメン
天蕎麦
カレー
肉フライ
魚フライ
コロッケ
ハンバ―グ
天ぷら
シュウマ
餃子
煮魚
焼魚
野菜煮つけ
野菜サラダ
酢の物豆腐
オロシ
-4 -3 -2 -1 0 1 2 3 4
主成分1 と主成分2 の二変量の関係
20代
30代
40代
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
主成分4
白米
うどんすき焼き(牛肉)
生姜焼き(豚肉)
つくね(鳥肉)
刺身(魚)
パン
卵
炒飯
ラーメン
天蕎麦
カレー
肉フライ
魚フライ
コロッケ
ハンバ―グ
天ぷら
シュウマ
餃子
煮魚
焼魚
野菜煮つけ
野菜サラダ
酢の物
豆腐
オロシ
-3 -2 -1 0 1 2 3
主成分3と主成分4の二変量の関係
東日本30代
西日本30代
東日本20代
西日本20代
安住の地を発見
年代差
食の好みが
異なる
常識的な解を出す
にも苦労する場合
がある!!
(23)23/30
選挙データ2001
• 鉄則5
– 元々規模が大きく異なる個体が含まれるような
データの場合には,個体の規模を規定する要素
と分析目的である要素が,交絡して好ましい結
果が得られない.
• 鉄則6
– 分散共分散行列を分解するPCAは,測定単位に
依存し,分散共分散の大きい変量のウエイトが
大きくなる.特別な場合でない限り相関係数行
列を分解するPCAを使うのが安全である.
(24)24/30
選挙データ2001
• 2000,2001年の選挙の各県の比例区のデータ
• 2回の選挙での投票行動の変化
– 2000年野党躍進から2001年小泉旋風で保守奪還
– 国民の意識は変化していない:
野党からカリスマ小泉に乗った
2000年衆議院
2001年参議院
県 民主 自由 共産・・・ 自民
北海道
青森
岩手
秋田
・
・
・
鹿児島
沖縄
3元データ
2000年衆議院
2001年参議院
県 民主 自由 共産・・・ 自民
北海道
青森
岩手
秋田
・
・
・
鹿児島
沖縄
県 民主 自由 共産・・・ 自民
北海道
青森
岩手
秋田
・
・
・
鹿児島
沖縄
(25)25/30
選挙データ2001
• 第1回分析
– 投票数で分析する
固有値
寄与率
累積寄与率
自由党
民主党
社民党
共産党
公明党
自民党
固有ベクトル
5.2874
88.1235
88.1235
0.40564
0.41429
0.40581
0.42019
0.41426
0.38854
0.3381
5.6350
93.7585
-0.37362
-0.31179
-0.24751
-0.15404
0.40248
0.71848
0.1437
2.3946
96.1531
-0.50380
-0.15595
0.83231
-0.12539
0.05610
-0.10125
0.1195
1.9923
98.1454
0.50088
-0.10761
0.26290
-0.61383
-0.37878
0.38491
0.0875
1.4575
99.6030
-0.43020
0.77470
-0.08402
-0.15036
-0.35144
0.24817
0.0238
0.3970
100.0000
-0.07805
-0.30836
0.07169
0.62016
-0.62950
0.33589
主成分分析: 相関係数行列から
・
選挙人の大小が大きく主成分に寄与するが,ここでの問題ではない.
・
首都圏周辺での与野党の支持の変化の数量が大きくなる
のは当然---選挙人が多いため
(26)26/30
選挙データ2001
• 人口(
選挙人)の影響が交絡している
• 一見,都市部の保守回帰が大きいように見える
• 地方は小泉旋風は吹かなかったは,本当?
-4
-2
0
2
4
主成分2
東京
神奈川
大阪
東京
神奈川
大阪
-8 -4 0 4 8
主成分1
二変量正規楕円 P=0.950 選挙年=="2000衆議院"
二変量正規楕円 P=0.950 選挙年=="2001参議員"
主成分1と主成分2の二変量の関係
野党支持
与党支持
得票数→
(27)27/30
選挙データ2001
• 第2回の分析
固有値
寄与率
累積寄与率
自由得票率
民主得票率
社民得票率
共産得票率
公明得票率
自民得票率
固有ベクトル
2.5750
42.9161
42.9161
0.35929
0.50640
0.24180
0.43523
-0.18475
-0.57658
1.4989
24.9813
67.8973
-0.39134
0.04570
-0.40431
0.45184
0.64780
-0.23976
0.8527
14.2109
82.1082
-0.06733
-0.43214
0.79670
0.07009
0.38030
-0.15634
0.6706
11.1760
93.2842
0.79962
-0.30150
-0.29003
-0.15219
0.38292
-0.12573
0.3783
6.3043
99.5886
-0.10127
0.54470
0.12314
-0.69791
0.39502
-0.18646
0.0247
0.4114
100.0000
0.25218
0.40881
0.20989
0.30209
0.31451
0.73147
主成分分析: 相関係数行列から
得票率で分析する
-4
-3
-2
-1
0
1
2
3
4
主成分2 2
東京
神奈川
京都
大阪
長野
島根
岡山
鹿児島
-4 -3 -2 -1 0 1 2 3 4
主成分1 2と主成分2 2の二変量の関係
野党寄り
与党寄り
1年で,どの都道府県も
同程度,保守よりに変化した
(28)28/30
選挙データ2001
• 第3回の分析:
分散共分散スタート
固有値
寄与率
累積寄与率
自由得票率
民主得票率
社民得票率
共産得票率
公明得票率
自民得票率
固有ベクトル
0.0088
68.5486
68.5486
0.14008
0.48343
0.08043
0.26667
-0.02284
-0.81766
0.0017
13.3103
81.8589
0.20659
0.59180
0.07183
-0.29924
-0.64388
0.31274
0.0012
9.1948
91.0537
0.53631
-0.49563
0.59123
-0.16285
-0.23390
-0.18957
0.0006
4.7450
95.7987
-0.68064
0.03751
0.65679
0.24781
-0.19835
0.05654
0.0005
3.7886
99.5874
0.14806
-0.23686
-0.28120
0.76223
-0.49746
0.12015
0.0001
0.4126
100.0000
0.40604
0.33602
0.35830
0.41281
0.49334
0.42432
主成分分析: 共分散行列から
-0.1
-0.05
0
0.05
0.1
主成分2 3
東京
神奈川
長野
京都
大阪
石川
長野
島根
岡山
鹿児島
-0.25 -0.15 -0.1 -0.05 0 .05 .1 .15 .2 .25
主成分1 3
主成分1 3と主成分2 3の二変量の関係
民主党
共産党
自民党
公明党
(29)29/30
適用の問題
• 固有ベクトル怖い
-2
0
2
-2
0
2
-2
0
2
-3
-1
1
3
C1
-2 0 1 2 3
C2
-2 0 1 2 3
C3
-2 0 1 2 3
C4
-3 -1 1 2 3
散 布 図 行 列 R *
-2
0
2
-2
0
2
-2
0
2
-2
0
2
D1
-2 0 1 2 3
D2
-2 0 1 2 3
D3
-2 0 1 2 3
D4
-2 0 1 2 3
散布図行列R
.420
.204
.145
.120
-.288
.780
.162
-.060
.031
.025
.042
.088
-2
0
2
-2
0
2
-2
0
2
-3
-1
1
3
C1
-2 0 1 2 3
C2
-2 0 1 2 3
C3
-2 0 1 2 3
C4
-3 -1 1 2 3
散 布 図 行 列 R *
-2
0
2
-2
0
2
-2
0
2
-2
0
2
D1
-2 0 1 2 3
D2
-2 0 1 2 3
D3
-2 0 1 2 3
D4
-2 0 1 2 3
散布図行列R
.420
.204
.145
.120
-.288
.780
.162
-.060
.031
.025
.042
.088
固有値
寄与率
累積寄与率
固有ベクトル
C1
C2
C3
C4
1.8429
46.0728
46.0728
0.27681
0.02837
0.69005
0.66813
1.4586
36.4640
82.5367
0.60568
0.74042
0.00865
-0.29130
0.5956
14.8907
97.4275
-0.73538
0.55632
0.37273
-0.10391
0.1029
2.5725
100.0000
-0.12549
0.37614
-0.62035
0.67672
主成分分析: 相関係数行列から
主成分/因子分析C
固有値
寄与率
累積寄与率
固有ベクトル
D1
D2
D3
D4
1.1753
29.3831
29.3831
0.27859
0.03211
0.69006
0.66721
1.0959
27.3964
56.7795
0.60447
0.74028
0.00599
-0.29422
0.9157
22.8934
79.6729
-0.73518
0.55465
0.37468
-0.10723
0.8131
20.3271
100.0000
-0.12853
0.37857
-0.61919
0.67585
主成分分析: 相関係数行列から
主成分/因子分析D
固有値
寄与率
累積寄与率
固有ベクトル
C1
C2
C3
C4
1.8429
46.0728
46.0728
0.27681
0.02837
0.69005
0.66813
1.4586
36.4640
82.5367
0.60568
0.74042
0.00865
-0.29130
0.5956
14.8907
97.4275
-0.73538
0.55632
0.37273
-0.10391
0.1029
2.5725
100.0000
-0.12549
0.37614
-0.62035
0.67672
主成分分析: 相関係数行列から
主成分/因子分析C
固有値
寄与率
累積寄与率
固有ベクトル
D1
D2
D3
D4
1.1753
29.3831
29.3831
0.27859
0.03211
0.69006
0.66721
1.0959
27.3964
56.7795
0.60447
0.74028
0.00599
-0.29422
0.9157
22.8934
79.6729
-0.73518
0.55465
0.37468
-0.10723
0.8131
20.3271
100.0000
-0.12853
0.37857
-0.61919
0.67585
主成分分析: 相関係数行列から
主成分/因子分析D
相関行列が違っても同じ固有ベクトルが得られる
(30)30/30
適用の問題
・鉄則4.7
2組の相関行列R,R*があるとき,Rの非対角要素がR*の定数倍に
なっている関係にあれば,
両者の固有ベクトルは一致することが知られている.
つまり,p変量間の相関の強さ以外に
固有ベクトルの値が決まる.