• 検索結果がありません。

主成分分析の落とし穴.PDF

N/A
N/A
Protected

Academic year: 2021

シェア "主成分分析の落とし穴.PDF"

Copied!
30
0
0

読み込み中.... (全文を見る)

全文

(1)

主成分分析の落とし穴

JMPer’s Meeting

2003.9.9(東京)

(2)

2/30

ウォーミングアップ

• ポイント

*各変量の分布の様子

*散布図行列→モザイク図のチェック

*因子負荷量,主成分得点,からの解釈

鉄則:解釈は記述的に

因果推論的な解釈は危険

•ケーススタディの内容

–出典:

「グラフィカルモデリングの実際」日本品質管理学会

    テクノメトリックス研究会編(1999),日科技連

(3)

3/30

ウォーミングアップ

• ケーススタディの内容

– 「部下の上司評価」

 上司が部下の仕事内容をどの程度理解しているかについて101人の社

員に5段階評点尺度―そう思わない(1点)からそう思う(5点)―

でアンケートした結果

・業務指示:上司が部下に業務指示を与えているかを部下の目で回答

・進捗管理:上司が仕事の進捗管理を行っているかを部下の目で回答

・業務内容:上司が仕事の内容を把握しているかを部下の目で回答

・部下対話:上司が部下と気楽に対話を行っているかを部下の目で回答

・雰囲気 :上司は職場の雰囲気に気を使っているかを部下の目で回答

(4)

4/30

ウォーミングアップ

表 4.1 従業員満足度の基本統計量

変量

業務指示

進捗管理 業務内容

部下対話

雰囲気

平均

3.257

3.485

3.297

3.535

3.574

標準偏差 1.1971 1.2216 1.1962 1.0823 0.9934

0 1 2 3 4 5 6 平均 標準偏差 平均の標準誤差 平均の上側95%信頼限界 平均の下側95%信頼限界 N 3.2574257 1.1971087 0.1191168 3.49375 3.0211015 101 モーメント 業 務 指 示 0 1 2 3 4 5 6 平均 標準偏差 平均の標準誤差 平均の上側95%信頼限界 平均の下側95%信頼限界 N 3.4851485 1.221588 0.1215525 3.7263053 3.2439917 101 モーメント 進 捗 管 理 0 1 2 3 4 5 6 平均 標準偏差 平均の標準誤差 平均の上側95%信頼限界 平均の下側95%信頼限界 N 3.2970297 1.1961986 0.1190262 3.5331743 3.0608851 101 モーメント 業 務 内 容 0 1 2 3 4 5 6 平均 標準偏差 平均の標準誤差 平均の上側95%信頼限界 平均の下側95%信頼限界 N 3.5346535 1.0822602 0.1076889 3.7483052 3.3210017 101 モーメント 部 下 対 話 0 1 2 3 4 5 6 平均 標準偏差 平均の標準誤差 平均の上側95%信頼限界 平均の下側95%信頼限界 N 3.5742574 0.9934439 0.0988514 3.7703757 3.3781391 101 モーメント 雰 囲 気 一 変 量 の 分 布

各変量の値は1,2,3,4,5のいずれかしか取らない

(5)

5/30

ウォーミングアップ

業務指示 進捗管理 業務内容 部下対話 雰囲気 1.0000 0.5634 0.4209 0.4253 0.2697 0.5634 1.0000 0.5711 0.2935 0.1801 0.4209 0.5711 1.0000 0.1696 0.1580 0.4253 0.2935 0.1696 1.0000 0.5394 0.2697 0.1801 0.1580 0.5394 1.0000 業務指示 進捗管理 業務内容 部下対話 雰囲気 相関 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 業務指示 1 39 61 69 97 1 39 61 6997 1 39 61 69 97 1 39 61 69 97 1 2 3 4 5 1 39 61 69 97 進捗管理 1 39 61 69 97 1 39 61 69 97 1 39 61 69 97 1 2 3 4 5 1 39 61 69 97 1 39 61 69 97 業務内容 1 39 61 69 97 1 39 61 69 97 1 2 3 4 5 1 39 61 69 97 1 39 6169 97 1 39 61 69 97 部下対話 1 39 61 69 97 1 2 3 4 5 1 39 61 69 97 1 39 61 69 97 1 39 61 69 97 1 39 61 69 97 雰囲気 1 2 3 4 5 進捗管理 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 業務指示 1 2 3 4 5 業務内容 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 業務指示 1 2 3 4 5 業務内容 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 進捗管理 1 2 3 4 5 部下対話 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 業務指示 1 2 3 4 5 部下対話 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 進捗管理 1 2 3 4 5 部下対話 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 業務内容 1 2 3 4 5 雰囲気 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 1 2 3 4 5 雰囲気 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 1 2 3 4 5 雰囲気 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 1 2 3 4 5 雰囲気 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 1 2 3 4 5 業務指示 0.00 0.25 0.50 0.75 1.00 12 3 4 5 進捗管理 1 2 3 4 5 業務指示 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 業務内容 1 2 3 4 5 業務指示 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 部下対話 1 2 3 4 5 業務指示 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 雰囲気 1 2 3 4 5 進捗管理 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 業務内容 1 2 3 4 5 進捗管理 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 部下対話 1 2 3 4 5 進捗管理 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 雰囲気 1 2 3 4 5 業務内容 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 部下対話 1 2 3 4 5 業務内容 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 雰囲気 1 2 3 4 5 部下対話 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 雰囲気 1 2 3 4 5 業務指示 進捗管理 業務内容 部下対話 雰囲気  進捗管理 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 業務指示 1 2 3 4 5 業務内容 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 業務指示 1 2 3 4 5 業務内容 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 進捗管理 1 2 3 4 5 部下対話 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 業務指示 1 2 3 4 5 部下対話 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 進捗管理 1 2 3 4 5 部下対話 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 業務内容 1 2 3 4 5 雰囲気 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 1 2 3 4 5 雰囲気 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 1 2 3 4 5 雰囲気 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 1 2 3 4 5 雰囲気 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 1 2 3 4 5 業務指示 0.00 0.25 0.50 0.75 1.00 12 3 4 5 進捗管理 1 2 3 4 5 業務指示 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 業務内容 1 2 3 4 5 業務指示 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 部下対話 1 2 3 4 5 業務指示 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 雰囲気 1 2 3 4 5 進捗管理 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 業務内容 1 2 3 4 5 進捗管理 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 部下対話 1 2 3 4 5 進捗管理 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 雰囲気 1 2 3 4 5 業務内容 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 部下対話 1 2 3 4 5 業務内容 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 雰囲気 1 2 3 4 5 部下対話 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 雰囲気 1 2 3 4 5 業務指示 0.00 0.25 0.50 0.75 1.00 12 3 4 5 進捗管理 1 2 3 4 5 業務指示 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 業務内容 1 2 3 4 5 業務指示 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 部下対話 1 2 3 4 5 業務指示 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 雰囲気 1 2 3 4 5 進捗管理 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 業務内容 1 2 3 4 5 進捗管理 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 部下対話 1 2 3 4 5 進捗管理 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 雰囲気 1 2 3 4 5 業務内容 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 部下対話 1 2 3 4 5 業務内容 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 雰囲気 1 2 3 4 5 部下対話 0.00 0.25 0.50 0.75 1.00 1 2 3 4 5 雰囲気 1 2 3 4 5 業務指示 進捗管理 業務内容 部下対話 雰囲気 

相関係数行列,本当は順序尺度のデータ

(6)

6/30

ウォーミングアップ

• 主成分を保存して,元の変量と主成分との相関

=因子負荷量で解釈する

固有値 寄与率 累積寄与率 業務指示 進捗管理 業務内容 部下対話 雰囲気 固有ベクトル 2.4589 49.1778 49.1778 0.50669 0.49453 0.42880 0.43022 0.36020 1.1755 23.5107 72.6885 -0.11712 -0.37569 -0.45700 0.51589 0.60841 0.5842 11.6838 84.3723 -0.58316 -0.06619 0.59147 -0.24260 0.49685 0.4045 8.0901 92.4624 0.50859 -0.10473 -0.18909 -0.68618 0.47304 0.3769 7.5376 100.0000 0.36168 -0.77391 0.47085 0.13809 -0.17168 主成分分析: 相関係数行列から 主成分/因子分析

JMPでは,固有値,

 固有ベクトルの表示

固有ベクトルの

 解釈は難しい

-1 -0.5 0 0.5 1 主成分2 業務指示 進捗管理 業務内容 部下対話雰囲気 -1 -0.75 -0.25 0 .25 .5 .75 1 主成分1 因子1 因子2 因子3?

(7)

7/30

ウォーミングアップ

• 元の変量と主成分との関係

  散布図→ダイアモンド図で確認(元々順序尺度のはず)

主成分1 -5 -4 -3 -2 -1 0 1 2 3 4 1 39 61 69 97 1 2 3 4 5 業務指示 業務指示による主成分1の一元配置分析 主成分1 -5 -4 -3 -2 -1 0 1 2 3 4 1 39 61 69 97 1 2 3 4 5 進捗管理 進捗管理による主成分1の一元配置分析 主成分1 -5 -4 -3 -2 -1 0 1 2 3 4 1 39 61 69 97 1 2 3 4 5 業務内容 業務内容による主成分1の一元配置分析 主成分1 -5 -4 -3 -2 -1 0 1 2 3 4 1 39 61 69 97 1 2 3 4 5 部下対話 部下対話による主成分1の一元配置分析 主成分1 -5 -4 -3 -2 -1 0 1 2 3 4 1 39 61 69 97 1 2 3 4 5 雰囲気 雰囲気による主成分1の一元配置分析 二 変 量 の 関 係 主成分2 -3 -2 -1 0 1 2 1 39 61 69 97 1 2 3 4 5 業務指示 業務指示による主成分2の一元配置分析 主成分2 -3 -2 -1 0 1 2 1 39 61 69 97 1 2 3 4 5 進捗管理 進捗管理による主成分2の一元配置分析 主成分2 -3 -2 -1 0 1 2 1 39 61 69 97 1 2 3 4 5 業務内容 業務内容による主成分2の一元配置分析 主成分2 -3 -2 -1 0 1 2 1 39 61 69 97 1 2 3 4 5 部下対話 部下対話による主成分2の一元配置分析 主成分2 -3 -2 -1 0 1 2 1 39 61 69 97 1 2 3 4 5 雰囲気 雰囲気による主成分2の一元配置分析 二 変 量 の 関 係

(8)

8/30

ウォーミングアップ

• 2因子モデル        ・

3因子モデル  

業務指示 進捗管理 業務内容 部下対話 雰囲気 0.264485 0.647264 0.933057 -0.051891 0.156653 -0.166008 -0.052744 -0.084091 -0.736242 -0.934792 -0.865192 -0.590002 -0.155939 -0.507551 0.001008 回転因子のパターン 0.56649 -0.58292 0.58249 -0.51000 -0.80321 -0.30782 -0.64730 0.12270 0.75230 回転行列

業務指示

進捗管理

業務内容

部下対話

雰囲気

0.84607

0.76983

0.90198

0.80235

0.89838

共通性

指示

進捗

内容

対話

雰囲気

GM

教科書的には2因子モデルで十分

GMの構造から3因子が示唆される

(9)

9/30

ウォーミングアップ

• 主成分の基本は対立概念

• 因子の概念は個別能力(

変数分類)

• 布置の解釈は記述に徹する

– 問題解決やアクションを持ち込むべきではない

 「集団維持能力,実行計画能力共に評価の高い上司もいれ

ば,一方が高い上司,共に低い上司もいる」

(10)

10/30

理想の恋人の重要度

• 鉄則1

– PCAは1組の相関のある変量を無相関な変量の

新しい組に変換する.

– つまり,元の変量がほぼ無相関であればPCAを使

うご利益はない.

• 鉄則2

– PCAは相関構造を分解し解釈可能な成分を提供

してくれるが,相関構造は平均に関する情報は

取り除かれる.

– つまり,PCAは平均からの変動が他の変量と同一

あるいは逆方向に向かう力を分解している.

(11)

11/30

理想の恋人の重要度

• 問題の背景

– ある大学で理想の恋人の重要度を調査することになっ

– アンケート設計では,重要度の項目を決めるにあたり,

互いに関連が強いものを選ぶのは冗長であるから,出

来る限り関連が薄い異なる評価項目を幾つか用意する

ことが合理的であるとした.

– これは,鉄則1に抵触する.PCAを使う意義がない.

調査目的,調査設計,データ分析は三位一体

強く意識しないと,上手く主成分,因子が抽出できない

分析スタイル:

単純集計か,変量間の構造抽出か

(12)

12/30

理想の恋人の重要度

• 設問検討

– 5段階評定尺度で調査

– 設問内容

・容姿:相手の容姿

 ・距離:自分と相手との居住地間の距離

 ・性格:相手の性格

 ・趣味:自分と相手との趣味の一致度

 ・年齢:自分と相手との年齢の差

 ・相性:自分と相手との相性の良さ

・経済力:相手の所得や金銭的余裕度

「性格を重要視すれば経済力は重要視しないから負の相関があり,

 PCAの結果,対立概念が構成される」

「性格と相性は共により重要な項目であるから正の相関が生じ,

 1つの主成分か1つの因子を構成する」

予想

性格,相性,趣味

経済力,年齢,距離

総合評価

(13)

13/30

理想の恋人の重要度

• 第1回分析結果

疑問噴出

何故,第1主成分に総合評価が出ない?」

何故,経済力と性格が同じ成分になるのか?」

PCAは使えない

(14)

14/30

理想の恋人の重要度

• 鉄則2から,PCAには平均に関する情報は反映されない.

• 平均位置による重視の程度はPCAの外にある

変量

経済力

容姿

性格

年齢

趣味

相性

距離

平均

2.15

3.80

4.60

3.00

3.05

4.10

2.55

標準偏差

0.933

0.951

0.598

1.026

1.234

1.021

1.191

目的に合う分析にするには

行列の転置を使う→回答者の重要視度の

       傾向を調べる

主成分1:回答者の共通性

主成分2以降:回答パターンの違い

(15)

15/30

理想の恋人の重要度

• 第2回分析結果

-2.5 0 2.5 5 -2 0 2 4 -1 0 1 2 3 4 主成分1 経済力 容姿性格 年齢 趣味 相性 距離 経済力 容姿 性格 年齢 趣味 相性 距離 -2.5 0 2.5 5 経済力 容姿 性格 年齢 趣味 相性 距離 主成分2 経済力 容姿 性格 年齢 趣味相性 距離 -2 0 2 4 経済力 容姿 性格 年齢 趣味 相性 距離 経済力 容姿 性格 年齢 趣味 相性 距離 主成分3 -1 0 1 2 3 4 散布図行列

固有値

寄与率

累積寄与率

9.7246

48.6228

48.6228

3.9569

19.7846

68.4074

2.3120

11.5601

79.9675

1.7027

8.5133

88.4808

1.2427

6.2137

94.6945

1.0611

5.3055

100.0000

0.0000

0.0000

100.0000

-4 -2 0 2 4 主成分2 経済力 容姿 性格 年齢 趣味 相性 距離 -5 -2.5 0 2.5 5 主成分1 主成分1と主成分2の二変量の関係

今度は上手くいった.

学生達が欲しかった布置

(16)

16/30

食べ物の好みに関する調査

• 鉄則3

– 互いに強い相関を持つ同質な変量群にPCAを実行すると,第1固有値

だけが大きくなり,解釈可能な主成分は総合指標(主成分1)のみと

いう,結果が得られることが多い

• 鉄則4

– 小規模データセットにPCAを実行する場合には,主成分座標での外れ

値に注意する.外れ値は2種類あり,

– 大きい固有値に対する外れ値は主成分の解釈を困難にする.

– 小さい固有値に対する外れ値は無意味な主成分を抽出する.

• 道標:

行標準化

①分散を1に調整する :個体の評点のばらつかせ方を考慮しない

– ②分散を1に調整しない:個体の評点のばらつかせ方に意味がある

(17)

17/30

食べ物の好みに関する調査

• ある研修施設の食堂のメニューの好みについて,

 調査したデータがある

• 分析者は,食の好みに年齢や地域差があるとし

て,それらで層別して,平均を計算した

地域-東

地域-西

20 30 40

20 30 40

食べ物の好みの

平均

年代

狙い

地域,年代で好みが

 分かれるはず

5段階評点尺度

(18)

18/30

食べ物の好みに関する調査

• 第1回の分析

固有値 寄与率 累積寄与率 東日本20代 東日本30代 東日本40代 西日本20代 西日本30代 西日本40代 固有ベクトル 4.5234 75.3899 75.3899 0.41391 0.41771 0.39540 0.37322 0.43109 0.41560 0.5467 9.1124 84.5023 0.23655 0.04110 -0.58784 0.66191 0.07613 -0.39100 0.3724 6.2074 90.7098 -0.58445 -0.46237 0.02727 0.49348 0.15055 0.42154 0.2408 4.0129 94.7226 0.36355 -0.58150 0.57309 0.21243 -0.13835 -0.37011 0.2167 3.6120 98.3347 -0.21750 0.43009 0.25579 0.36361 -0.75503 -0.00238 0.0999 1.6653 100.0000 0.50165 -0.29482 -0.32171 -0.04141 -0.44328 0.59976 主成分分析: 相関係数行列から

第2主成分以降の寄与率が1よりもあまりにも小さい

慣例からいうと第1主成分のみ解釈

第1主成分は,総合的な好み

地域や年代の差がでない→分析の失敗?

鉄則3から,このままではいけないことが分かる

6つの変量ともに好みを聞いているので

第1主成分が圧倒的になるのは,むしろ自然

(19)

19/30

食べ物の好みに関する調査

• 第2回の分析

道標から,行方向の標準化-中心化-を行う

      今回は行方向分散の調整はしない:

平均0

食べ物で,ばらつきの絶対的な差の大きさが

        地域差や年代差に意味があるから...

固有値 寄与率 累積寄与率 東日本20代1 東日本30代1 東日本40代1 西日本20代1 西日本30代1 西日本40代1 固有ベクトル 2.0922 34.8707 34.8707 0.49799 0.36324 -0.43356 0.16443 0.26328 -0.57943 1.5452 25.7525 60.6233 0.25396 0.41187 0.43249 -0.75431 0.09772 -0.01682 1.0664 17.7733 78.3966 -0.34033 0.04271 -0.33557 -0.18616 0.80397 0.29786 0.8006 13.3441 91.7407 0.33074 -0.73514 0.34119 -0.03582 0.40823 -0.25657 0.4956 8.2593 100.0000 0.58637 -0.23424 -0.45898 -0.23025 -0.18793 0.54982 -0.0000 -0.0000 100.0000 0.34419 0.31827 0.43045 0.56127 0.26981 0.45512

主成分分析: 相関係数行列から

(

:

:

)

ij

ij

i

y

=

x

x i

個体番号

j

変量番号

総合評価は興味がない

(20)

20/30

食べ物の好みに関する調査

• 布置の検討

-0.1 0.1 0.4 -0.2 0 0.2 0.4 -0.2 0.2 0.6 -0.5 0 0.5 -0.3 -0.1 0.1 0.3 -0.6 -0.2 0.2 東日本20代1 納豆 納豆 納豆 納豆 納豆 -0.1 .2 .4 .6 納豆 東日本30代1 納豆 納豆 納豆 納豆 -0.2 0 .1 .3 納豆 納豆 東日本40代1 納豆 納豆 納豆 -0.2 .2 .4 .6 納豆 納豆 納豆 西日本20代1 納豆 納豆 -0.5 0 .5 納豆 納豆 納豆 納豆 西日本30代1 納豆 -0.3 0 .2 納豆 納豆 納豆 納豆 納豆 西日本40代1 -0.6 0 .2 散布図行列

-5

-4

-3

-2

-1

0

1

2

3

4

5

主成分2

納豆

-5 -4 -3 -2 -1 0

1

2

3

4

5

主成分1

主成分1と主成分2の二変量の関係

主成分での大きな外れ値

元の散布図行列では,発見するのが

難しい

(21)

21/30

食べ物の好みに関する調査

• 寄り道

外れ値A

外れ値B

第1主成分

第2主成分

第3主成分

全体の相関構造を

不当に歪める

主成分平面から

外れた空間にあり

無意味な主成分を

作る

少数サンプルの場合の主成分分析では,

外れ値に注意して主成分の解釈を行ってみよう

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 主成分5 1 22 25 -0.5 0 .5 1 1.5 2 2.5 主成分4 固有値 寄与率 累積寄与率 色差A 色差B 色差C 色差D 固有ベクトル 2.7255 54.5098 54.5098 0.15478 0.17759 0.54326 0.59027 1.1166 22.3323 76.8420 0.50988 0.77638 0.10686 -0.18343 0.9025 18.0494 94.8915 0.84467 -0.48041 -0.20026 -0.00858 0.2442 4.8832 99.7746 -0.04612 0.36595 -0.77346 0.15775 0.0113 0.2254 100.0000 -0.02167 0.03151 0.23475 -0.77005 主成分分析: 相関係数行列から

小さい固有値での外れ値例

(22)

22/30

食べ物の好みに関する調査

• 第3回の分析

固有値 寄与率 累積寄与率 東日本20代1 東日本30代1 東日本40代1 西日本20代1 西日本30代1 西日本40代1 固有ベクトル 2.3759 39.5977 39.5977 0.39349 0.10189 -0.50089 0.53158 0.10359 -0.53906 1.2500 20.8337 60.4314 -0.29703 0.53701 -0.40589 -0.23548 0.61743 0.14827 1.0489 17.4822 77.9136 0.07042 0.75211 0.00411 -0.09713 -0.64730 -0.03042 0.7799 12.9976 90.9112 0.81201 -0.04778 -0.12890 -0.51589 0.09936 0.21382 0.5453 9.0888 100.0000 0.06697 0.19023 0.58247 -0.27706 0.30512 -0.67096 -0.0000 -0.0000 100.0000 0.29687 0.31162 0.47798 0.55644 0.29339 0.43657 主成分分析: 相関係数行列から -3 -2 -1 0 1 2 3 主成分2 白米 うどん すき焼き(牛肉) 生姜焼き(豚肉) つくね(鳥肉) 刺身(魚)パン 卵  炒飯 ラーメン 天蕎麦 カレー  肉フライ 魚フライ コロッケ ハンバ―グ 天ぷら シュウマ 餃子 煮魚 焼魚 野菜煮つけ 野菜サラダ 酢の物豆腐 オロシ -4 -3 -2 -1 0 1 2 3 4 主成分1 と主成分2 の二変量の関係 20代  30代 40代 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 主成分4 白米 うどんすき焼き(牛肉) 生姜焼き(豚肉) つくね(鳥肉) 刺身(魚) パン 卵  炒飯 ラーメン 天蕎麦 カレー  肉フライ 魚フライ コロッケ ハンバ―グ 天ぷら シュウマ 餃子 煮魚 焼魚 野菜煮つけ 野菜サラダ 酢の物 豆腐 オロシ -3 -2 -1 0 1 2 3 主成分3と主成分4の二変量の関係 東日本30代 西日本30代 東日本20代 西日本20代 -3 -2 -1 0 1 2 3 主成分2 白米 うどん すき焼き(牛肉) 生姜焼き(豚肉) つくね(鳥肉) 刺身(魚)パン 卵  炒飯 ラーメン 天蕎麦 カレー  肉フライ 魚フライ コロッケ ハンバ―グ 天ぷら シュウマ 餃子 煮魚 焼魚 野菜煮つけ 野菜サラダ 酢の物豆腐 オロシ -4 -3 -2 -1 0 1 2 3 4 主成分1 と主成分2 の二変量の関係 20代  30代 40代 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 主成分4 白米 うどんすき焼き(牛肉) 生姜焼き(豚肉) つくね(鳥肉) 刺身(魚) パン 卵  炒飯 ラーメン 天蕎麦 カレー  肉フライ 魚フライ コロッケ ハンバ―グ 天ぷら シュウマ 餃子 煮魚 焼魚 野菜煮つけ 野菜サラダ 酢の物 豆腐 オロシ -3 -2 -1 0 1 2 3 主成分3と主成分4の二変量の関係 東日本30代 西日本30代 東日本20代 西日本20代

安住の地を発見

年代差

食の好みが

異なる

常識的な解を出す

にも苦労する場合

がある!!

(23)

23/30

選挙データ2001

• 鉄則5

– 元々規模が大きく異なる個体が含まれるような

データの場合には,個体の規模を規定する要素

と分析目的である要素が,交絡して好ましい結

果が得られない.

• 鉄則6

– 分散共分散行列を分解するPCAは,測定単位に

依存し,分散共分散の大きい変量のウエイトが

大きくなる.特別な場合でない限り相関係数行

列を分解するPCAを使うのが安全である.

(24)

24/30

選挙データ2001

• 2000,2001年の選挙の各県の比例区のデータ

• 2回の選挙での投票行動の変化

– 2000年野党躍進から2001年小泉旋風で保守奪還

– 国民の意識は変化していない:

野党からカリスマ小泉に乗った

2000年衆議院 2001年参議院 民主 自由 共産・・・ 自民 北海道 青森 岩手 秋田 鹿児島 沖縄

3元データ

2000年衆議院 2001年参議院 民主 自由 共産・・・ 自民 北海道 青森 岩手 秋田 鹿児島 沖縄 民主 自由 共産・・・ 自民 北海道 青森 岩手 秋田 鹿児島 沖縄

(25)

25/30

選挙データ2001

• 第1回分析

– 投票数で分析する

固有値 寄与率 累積寄与率 自由党 民主党 社民党 共産党 公明党 自民党 固有ベクトル 5.2874 88.1235 88.1235 0.40564 0.41429 0.40581 0.42019 0.41426 0.38854 0.3381 5.6350 93.7585 -0.37362 -0.31179 -0.24751 -0.15404 0.40248 0.71848 0.1437 2.3946 96.1531 -0.50380 -0.15595 0.83231 -0.12539 0.05610 -0.10125 0.1195 1.9923 98.1454 0.50088 -0.10761 0.26290 -0.61383 -0.37878 0.38491 0.0875 1.4575 99.6030 -0.43020 0.77470 -0.08402 -0.15036 -0.35144 0.24817 0.0238 0.3970 100.0000 -0.07805 -0.30836 0.07169 0.62016 -0.62950 0.33589 主成分分析: 相関係数行列から

選挙人の大小が大きく主成分に寄与するが,ここでの問題ではない.

首都圏周辺での与野党の支持の変化の数量が大きくなる

 のは当然---選挙人が多いため

(26)

26/30

選挙データ2001

• 人口(

選挙人)の影響が交絡している

• 一見,都市部の保守回帰が大きいように見える

• 地方は小泉旋風は吹かなかったは,本当?

-4 -2 0 2 4 主成分2 東京 神奈川 大阪 東京 神奈川 大阪 -8 -4 0 4 8 主成分1 二変量正規楕円 P=0.950 選挙年=="2000衆議院" 二変量正規楕円 P=0.950 選挙年=="2001参議員" 主成分1と主成分2の二変量の関係 野党支持 与党支持 得票数→

(27)

27/30

選挙データ2001

• 第2回の分析

固有値 寄与率 累積寄与率 自由得票率 民主得票率 社民得票率 共産得票率 公明得票率 自民得票率 固有ベクトル 2.5750 42.9161 42.9161 0.35929 0.50640 0.24180 0.43523 -0.18475 -0.57658 1.4989 24.9813 67.8973 -0.39134 0.04570 -0.40431 0.45184 0.64780 -0.23976 0.8527 14.2109 82.1082 -0.06733 -0.43214 0.79670 0.07009 0.38030 -0.15634 0.6706 11.1760 93.2842 0.79962 -0.30150 -0.29003 -0.15219 0.38292 -0.12573 0.3783 6.3043 99.5886 -0.10127 0.54470 0.12314 -0.69791 0.39502 -0.18646 0.0247 0.4114 100.0000 0.25218 0.40881 0.20989 0.30209 0.31451 0.73147 主成分分析: 相関係数行列から

得票率で分析する

-4 -3 -2 -1 0 1 2 3 4 主成分2 2 東京 神奈川 京都 大阪 長野 島根 岡山 鹿児島 -4 -3 -2 -1 0 1 2 3 4 主成分1 2と主成分2 2の二変量の関係 野党寄り 与党寄り

1年で,どの都道府県も

同程度,保守よりに変化した

(28)

28/30

選挙データ2001

• 第3回の分析:

分散共分散スタート

固有値 寄与率 累積寄与率 自由得票率 民主得票率 社民得票率 共産得票率 公明得票率 自民得票率 固有ベクトル 0.0088 68.5486 68.5486 0.14008 0.48343 0.08043 0.26667 -0.02284 -0.81766 0.0017 13.3103 81.8589 0.20659 0.59180 0.07183 -0.29924 -0.64388 0.31274 0.0012 9.1948 91.0537 0.53631 -0.49563 0.59123 -0.16285 -0.23390 -0.18957 0.0006 4.7450 95.7987 -0.68064 0.03751 0.65679 0.24781 -0.19835 0.05654 0.0005 3.7886 99.5874 0.14806 -0.23686 -0.28120 0.76223 -0.49746 0.12015 0.0001 0.4126 100.0000 0.40604 0.33602 0.35830 0.41281 0.49334 0.42432 主成分分析: 共分散行列から -0.1 -0.05 0 0.05 0.1 主成分2 3 東京 神奈川 長野 京都 大阪 石川 長野 島根 岡山 鹿児島 -0.25 -0.15 -0.1 -0.05 0 .05 .1 .15 .2 .25 主成分1 3 主成分1 3と主成分2 3の二変量の関係 民主党 共産党 自民党 公明党

(29)

29/30

適用の問題

• 固有ベクトル怖い

-2 0 2 -2 0 2 -2 0 2 -3 -1 1 3 C1 -2 0 1 2 3 C2 -2 0 1 2 3 C3 -2 0 1 2 3 C4 -3 -1 1 2 3 散 布 図 行 列 R * -2 0 2 -2 0 2 -2 0 2 -2 0 2 D1 -2 0 1 2 3 D2 -2 0 1 2 3 D3 -2 0 1 2 3 D4 -2 0 1 2 3 散布図行列R

.420

.204

.145

.120

-.288

.780

.162

-.060

.031

.025

.042

.088

-2 0 2 -2 0 2 -2 0 2 -3 -1 1 3 C1 -2 0 1 2 3 C2 -2 0 1 2 3 C3 -2 0 1 2 3 C4 -3 -1 1 2 3 散 布 図 行 列 R * -2 0 2 -2 0 2 -2 0 2 -2 0 2 D1 -2 0 1 2 3 D2 -2 0 1 2 3 D3 -2 0 1 2 3 D4 -2 0 1 2 3 散布図行列R

.420

.204

.145

.120

-.288

.780

.162

-.060

.031

.025

.042

.088

固有値 寄与率 累積寄与率 固有ベクトル C1 C2 C3 C4 1.8429 46.0728 46.0728 0.27681 0.02837 0.69005 0.66813 1.4586 36.4640 82.5367 0.60568 0.74042 0.00865 -0.29130 0.5956 14.8907 97.4275 -0.73538 0.55632 0.37273 -0.10391 0.1029 2.5725 100.0000 -0.12549 0.37614 -0.62035 0.67672 主成分分析: 相関係数行列から 主成分/因子分析C 固有値 寄与率 累積寄与率 固有ベクトル D1 D2 D3 D4 1.1753 29.3831 29.3831 0.27859 0.03211 0.69006 0.66721 1.0959 27.3964 56.7795 0.60447 0.74028 0.00599 -0.29422 0.9157 22.8934 79.6729 -0.73518 0.55465 0.37468 -0.10723 0.8131 20.3271 100.0000 -0.12853 0.37857 -0.61919 0.67585 主成分分析: 相関係数行列から 主成分/因子分析D 固有値 寄与率 累積寄与率 固有ベクトル C1 C2 C3 C4 1.8429 46.0728 46.0728 0.27681 0.02837 0.69005 0.66813 1.4586 36.4640 82.5367 0.60568 0.74042 0.00865 -0.29130 0.5956 14.8907 97.4275 -0.73538 0.55632 0.37273 -0.10391 0.1029 2.5725 100.0000 -0.12549 0.37614 -0.62035 0.67672 主成分分析: 相関係数行列から 主成分/因子分析C 固有値 寄与率 累積寄与率 固有ベクトル D1 D2 D3 D4 1.1753 29.3831 29.3831 0.27859 0.03211 0.69006 0.66721 1.0959 27.3964 56.7795 0.60447 0.74028 0.00599 -0.29422 0.9157 22.8934 79.6729 -0.73518 0.55465 0.37468 -0.10723 0.8131 20.3271 100.0000 -0.12853 0.37857 -0.61919 0.67585 主成分分析: 相関係数行列から 主成分/因子分析D

相関行列が違っても同じ固有ベクトルが得られる

(30)

30/30

適用の問題

・鉄則4.7

 2組の相関行列R,R*があるとき,Rの非対角要素がR*の定数倍に

 なっている関係にあれば,

 両者の固有ベクトルは一致することが知られている.

 つまり,p変量間の相関の強さ以外に

 固有ベクトルの値が決まる.

参照

関連したドキュメント

カウンセラーの相互作用のビデオ分析から,「マ

例えば,立証責任分配問題については,配分的正義の概念説明,立証責任分配が原・被告 間での手続負担公正配分の問題であること,配分的正義に関する

例えば,立証責任分配問題については,配分的正義の概念説明,立証責任分配が原・被告 間での手続負担公正配分の問題であること,配分的正義に関する

 調査の対象とした小学校は,金沢市の中心部 の1校と,金沢市から車で約60分の距離にある

○本時のねらい これまでの学習を基に、ユニットテーマについて話し合い、自分の考えをまとめる 学習活動 時間 主な発問、予想される生徒の姿

この項目の内容と「4環境の把 握」、「6コミュニケーション」等 の区分に示されている項目の

水平方向設計震度 機器重量 重力加速度 据付面から重心までの距離 転倒支点から機器重心までの距離 (X軸側)

現時点の航続距離は、EVと比べると格段に 長く、今後も水素タンクの高圧化等の技術開