• 検索結果がありません。

〈研究ノート〉探索的多変量解析によるデータ解析 : 主成分分析法

N/A
N/A
Protected

Academic year: 2021

シェア "〈研究ノート〉探索的多変量解析によるデータ解析 : 主成分分析法"

Copied!
14
0
0

読み込み中.... (全文を見る)

全文

(1)― 45 ―. October 2011. 〈研究ノート〉. 探索的多変量解析によるデータ解析. *. ──主成分分析法──. 中. 山. 慶 一 郎**. な理論を理解するには、その本質を幾何学的に考. Ⅰ.はじめに. えるのが最上であると思う。 出発点はデータであるが、X(n×p)の行列で. 多変量によるデータ解析は統計分析の主要分野. 与えられる。n 行は個体(individuals)であり、p. である。最近の理論の展開とその分析手法につい. 列は変数(variables)である。従来の多変量解析. て R を用いた具体的なデータ解析を行う。多変. では X のある列 y を従属変数とし残りの変数 X. 量解析では、多変量によるデータを出来るだけ少. との間に y=f(X)なる関数関係を設定するモデ. ない変数に縮約し、視覚化されるようになってい. ルを分析する。その代表的なものは、多重回帰モ. る。このような傾向は大量のデータ処理が可能と. デルのように、線形なモデルを設定する。これに. なる software の開発によるところが大である。. 対して探索的多変量解析の分野では、データは観. 多次元データを探索的に処理する考えは幾何学的. 測されたデータ行列 X とし、X を幾何学的に解. 視点による projection method による理論が、い. 釈するのが、その理論を理解するのに有益であ. ままで研究されてきた諸方法に統一的見方をあた. る。データは n 個の個体(individuals)の p 個の. えた。本稿では、まず、projection method による. 変数についての観測値である。. 考え方を述べ、次に、このような視点から principal component analysis の理論を説明する。R の. 理論の出発点をデータ行列 X(n×p)とする。 行(row)について、個々の観測値 xi は、. pacakge である FactoMineR を用いて具体的なデ ータ解析を実行し、package の利用の仕方を説明. xTi =(xi1, . . . . . , xip)∈Rp. i=1. . . . .n. する。最後に日本の地域別消費構造の分析を行っ た。. p 次元での n 個の点で、示される。また、列 (column)について、観測値 xj は、. Ⅱ.探索的多変量解析(Exploratory Multivariate Analysis)の基本的考え方 統計学における多変量解析の分野では、多変量 回帰分析、主成分分析、因子分析、正準相関分 析、判別分析、多次元尺度法など、比較的独立に. xj=(x1j, . . . . . , xnj)T∈Rn. j=1. . . . . , p. n 次元での p 個の点で示される。 分析の目的は、多次元のデータを低次元で視覚 化することにある。. 理論が展開され、また各自の応用分野をもってい. 図 1 からベクトル xT と F1 上のベクトル u1 と. る。その共通する点は多変量を処理する点にあ. の内積を考えると、xTu1=∑xkuk=‖x‖‖u‖cosθ と. り、できるだけ少ない変量に縮約して処理し、グ. なる。ここで、F1 上の x1 の射影(projection)Pxi. ラフに表示して、解釈することにある。このよう. を考える1)。. ───────────────────────────────────────────────────── * キーワード:主成分分析、R,FactoMineR ** 関西学院大学名誉教授 1)ベクトル間の角度について。. !.

(2) ― 46 ―. 社 会 学 部 紀 要 第113号 xi. tion)が得られる。. !1λ X v 1 v = ! Xu λ. F1 ui θ. T. uk=. (4). k. k. Pxi. k. (5). k. k. 0. すなわち、(2)から、 図1. Pxi=XiT. T T X(XX )vk= μ kXTvk. u1 =XiTu1 ‖u1‖. ‖u1‖=1. T or (XTX) (XTvk)= μ(X vk) k. (1). このことから、(XTX)と(XXT)の固有ベクト. となる。. ルは、同じ固有値 μ k をもつ。この関係を、. F1 の定義は、∑‖xi −Pxi‖2 =∑ [‖xi‖2 −‖px‖2 ]を、. uk=ckXTvk とする。また、(3)から、. ‖u1‖=1 の制約のもとで、上式を最小にする u1 を定めることにある。(逆に言うと、∑‖px‖2 を最. X (XTX)uk= λ kXuk. 大にする。). or (XXT) (Xuk)= λ k(Xuk). (1)を以下のように書き直して、. " pp "="X u"=X u x. T n. …. XT1u. …. 1. T. すなわち、(XXT )と(XTX)も同じ固有値 λ. (1′ ). 1. をもつ。従って、vk =dkXuk が得られる。これら から、. T T とすると、問題は、u1(XX )u1 を最大にする u1. を‖u1‖=1 の条件の下で、u1∈Rp を求めることで. uk=ckXTv=ckdkXTXuk=ckdkXTXuk=ckdk λ kuk. ある。この解は、XTX の最大固有値 λ 1 をもつ XTX の固有ベクトル u1 が解となる。. ckdk λ k=1. !. 1 c=d= λk. 固有方程式は、行と列について、それぞれ (XXT)vk=μ kvk . . . . . Rn. (2). となり、(4)と(5)が得られる。. (X X)uk=λ kuk . . . . . R. (3). また、p 変数の v 軸の射影は、. T. p. XTvk=. となる。 n. !1λ X Xu =!λ u T. k. k. k. (6). k. p. この 2 つの固有方程式から、R と R の 2 つの となる。. 部分空間(Subspace)に関する双対関係(dual rela-. ───────────────────────────────────────────────────── 2 次元空間に 2 点、x=(x1, x2) , y=(y1, y2)をとる。 x x2 図より、‖x‖cosθ 1=x1 ; ‖y‖cosθ 2=y1. !. ‖x‖sin θ 1=x2 ; ‖y‖sin θ 2=y2 である。また、. ‖x‖ y. ‖y‖ θ1. θ2. 0. x1. y1. cosθ =cos ( θ 1−θ 2) =cosθ 1cosθ 2+sin θ 1sin θ 2 から、 cosθ =. x1 y1 x y2 xT y + 2 = ‖x‖ ‖y‖ ‖x‖ ‖y‖ ‖x‖‖y‖. x. x の射影を px とすると、. ‖x‖ θ. px ‖px‖. |x T y| |x T y| ‖px‖=‖x‖|cosθ|=‖x‖・ = ‖x‖‖y‖ ‖y‖.

(3) ― 47 ―. October 2011. ここで、X について特異値分解 SVD を導入す る。U=|u1 u2, . . . . . , ur|, V=|v1 v2 . . . . . vr| で、Λ=diag( λ 1, . . . . . λ r)とすると、. ここで、xij は変数 j(variable)に対する個体 i (individual)の値である。 変数 j は n 個の要素をもつベクトル xj=(xj1, . . . . . , xjn)T であり、個体 i は p 個の要素をもつベ. χ =VΛ1/2UT. (7). クトル xi=(xi1, . . . . . , xip)と表される。データ 表 1 は地域別の消費支出を示すものである。. すなわち、. b.データの要約 データは通常単位の異なる変数であるので、中. xij=∑ λ vikujk r 1. 1/2 k. (8). とが多い。. !. 但し、r=rank( χχ )=rank( χ ) min( p, n)とな T. 心化 centroid され、標準化 standardized されるこ p 変数の算術平均を、. る。この展開式の、r=2, 3 の項までに近似しグ −. − x=(x, . . . . . , xp) −xj=∑ni=1pixij. ラフで表示する。 以上が、基礎的な理論の概略である。. pi は weight であるが、一般には pi =1/n であ. Ⅲ.主成分分析の理論について. る。 x の行列表示をすれば、x=XTDp1n となる。1n. 探索的多変量解析の代表的な分析手法として、. はその要素がすべて 1 である Rn 次元のベクトル. 主成分分析は数量データ(numerical)を取り扱. である。Dp はその要素が pi である対角行列であ. う。. る。X の中心化したデータ行列を Y とする。要 素別では、yij=xij −x−j となる。データセットの要. 1.データとその部分空間. 約は、R を用いると、. a.データ行列(data table). >summary(data). データ X は、(n×p)の観察値の行列である。 n はデータの個数であり、p は変数の数である。. #簡単な 1 次元の基本統計量、. 変数の平均、標準偏差、最大値、最小値を出力す る。 c.共分散行列 Covariance matrix と相関行列 cor-. …. …. x11 . . . . . x1p │ │ X=│ xi1 . . . . . xip │ │ │ xn1 . . . . . xnp. relation matrix. …. …. 次に、変数 j の分散 s2j (variance)と変数 k, l 間の共分散 skl(covariance)を求め、共分散行列、. 表1. 地方別家計消費支出額(総世帯、月平均、平成 21 年) 家具・ 家事用品. 被服 及び履物. 保健医療. 交通・ 通信. 教育. 教養 娯楽費. その他の 消費支出. 10,186. 28,643. 6,389. 23,131. 53,073. 食料費. 住居. 北海道. 51,997. 14,869. 8,001. 東北. 56,907. 15,787. 8,042. 8,828. 10,186. 31,482. 6,788. 23,655. 59,748. 関東. 63,247. 20,669. 8,287. 11,475. 11,308. 32,992. 10,433. 32,551. 55,315. 北陸. 62,739. 14,811. 8,977. 11,073. 10,740. 34,553. 8,888. 29,065. 73,077. 東海. 59,542. 19,380. 9,692. 10,951. 11,311. 36,828. 9,862. 29,370. 59,379. 近畿. 60,286. 17,814. 8,541. 10,776. 10,917. 31,603. 10,163. 28,530. 56,383. 中国. 55,909. 20,024. 8,685. 9,666. 11,332. 35,665. 7,341. 25,859. 59,057. 四国. 55,917. 13,601. 8,819. 9,984. 10,628. 35,144. 6,260. 24,830. 66,516. 九州. 51,686. 15,697. 7,888. 9,753. 10,147. 31,528. 7,040. 22,581. 55,080. 沖縄. 44,921. 20,641. 5,728. 5,162. 6,610. 23,907. 8,033. 13,072. 42,112. 8,935.

(4) ― 48 ―. 社 会 学 部 紀 要 第113号. 表2 交通・ 通信. 住居. 1. −0.03. 0.79. 0.91. 0.82. 0.74. −0.03. 1. −0.25. −0.17. −0.16. −0.13. 食料費 住居. 家具・ 被服 保健医療 家事用品 及び履物. 食料費. 教育. 教養 娯楽費. 0.6. 0.96. 0.59. 0. その他の 消費支出 0.7 −0.57. 家具・家事用品. 0.79. −0.25. 1. 0.89. 0.92. 0.94. 0.24. 0.84. 0.78. 被服及び履物. 0.91. −0.17. 0.89. 1. 0.94. 0.82. 0.45. 0.97. 0.69. 保健医療. 0.82. −0.16. 0.92. 0.94. 1. 0.88. 0.25. 0.92. 0.66. 交通・通信. 0.74. −0.13. 0.94. 0.82. 0.88. 1. 0.2. 0.78. 0.78 −0.01. 教育. 0.6. 0.59. 0.24. 0.45. 0.25. 0.2. 1. 0.57. 教養娯楽費. 0.96. 0. 0.84. 0.97. 0.92. 0.78. 0.57. 1. 0.62. その他の消費支出. 0.7. −0.57. 0.78. 0.69. 0.66. 0.78. −0.01. 0.62. 1. 相関行列を計算する。 n − 2 − s2j =∑ni=1p(x (x (xil−x−l), i ij−x), skl=∑i=1p i ik−xk). − T − − 2 Iq=∑ni=1p(x (xi−x) =∑p‖ i i−x)M i xi−x‖ =vkl,. これは、分散 variance である。 f.変数空間 variable space. k, l 間の相関係数は、rkl =skl /sksl で、zij =(xij −. 変数は n 次元で定義されるので、変数空間は n. xj )/sj とすると、Z=YD1/s で、D1/s は標準偏差の. 次元空間ベクトルである。変数間の距離を計算す. −. 逆数を対角要素とする対角行列である。相関行列. るには、2 つの変数 xk と xl のスカラー積は、. R は、R=D1/sSD1/s となり、p 個の変数の 1 次従. (xk)TDpxl=∑pixikxil で、x を平均からの偏差とすれ. 属する構造を示している。. ば、変数の平方距離は、‖xj‖2=s2j 、で分散となる。. >cor(data) で、変数間の相関行列が計算される. 標準偏差 sj は変数の長さ length である。. (表 2)。. また、2 つの変数間の角度を θ kl とすると、. d.距離の定義 主成分分析 PCA では、データ点間の距離は通 常のピタゴラスの距離で定義される。個体の点 xi と xj の距離 distance は、. cosθ kl=. 〈xk xl〉 skl =rkl = ‖xk‖‖xl‖ sk sl. 主成分分析では変数の分析結果は距離よりも角 度で検討することがある。従来の解析では点で変. 2 2 − d(x =(xi−x−i)TM (xj−x =d(i, j), i, xj) j). 数と個体が同じグラフで表示され、変数はベクト ルで表現される。このソフト(FactoMineR)で. M は大きさ p の positive definite symmetric ma-. は、変数の結果位置はベクトルで示される。. trix である。PCA においては、M=Ip となるが、 分散があまり相違なく、同じ測定単位で計測され. 2.主成分分析 Principal Component Analysis2). るときには、M=D21/s となる。. a.大規模な数量データを総合的に表示すること. e.Inertia(分散). を PCA は目的とする。大量のデータを低次元の. Inertia は PCA の基本概念の 1 つである。密集 したデータの Inertia の合計は各点と中心との平. 空間に縮約し最適な配置にグラフ化するには、次 の基準を最大にする射影空間 F を選択する。. 方距離の加重平均である。 2 j) ∑∑pipjd(i,. ───────────────────────────────────────────────────── 2)ここの記述は PCA の理論の中心的な部分であるので、理論的には数多くの統計書を参照されたい。ここでは、 参考文献[1]の記述をまとめたものである。.

(5) ― 49 ―. October 2011. 表3. すなわち、この基準は射影した点間の平方距離 の平均を最大にする、射影した点の inertia を最. 固有値 λ 1, λ 2. 大にすることになる。射影空間 F1 上の個体 i の. 固有値. 座標を pxi=ci とする。 x2. x1. c1 c2 x2. x1. 図2. ci=∑xiju(= χ Tu1)で、c=(c1, . . . . . , cn)T=∑xu= j. 68.3. 68.34. 2. 1.89. 21. 89.36. 3. 0.48. 5.29. 94.65. 4. 0.29. 3.26. 97.91. 5. 0.12. 1.38. 99.28. 6. 0.04. 0.49. 99.77. 7. 0.01. 0.14. 8. 0.01. 0.09. 100. 9. 0. 0. 100. 食料費 T. T. 住居. T. Var (c)=∑p c =c Dpc=u X DpXu=u Su 標準化した PCA の場合、標準化した共分散は 相関行列であるので、 max uTSu=max uTRu. 99.91. Dim 1. た点の分散(inertia)は、 T. %累積値. 6.15. 固有ベクトル. Xu は元の変数の線形結合である。F 上に射影し. 2 i i. %. 1. uTu=1. この 2 次の最大問題の解は最大の固有根 λ 1 を. 0.375 −0.07. Dim 2 0.153 0.658. 家具・家事用品. 0.382. 被服及び履物. 0.391. −0.1. 保健医療. 0.381. −0.03. 交通・通信. 0.366. −0.08. 教育. 0.162. 教養娯楽費. 0.385. その他の消費支出. 0.319. 0.045. 0.615 0.164 −0.34. もつ R の固有ベクトル u1 である。さらに u1 に 直交するベクトル u2 が F2 に射影する inertia が最. とすれば、c=Zu であり、Z のランクが p であ. 大になる 2 番目の最大固有値 λ 2 の R の固有ベク. る時、Ru= λ u の固有方程式が導かれる。. トル u2 が得られる。このようにして、R の q 個 の固有ベクトルを求めることになる。 ベクトル uj は主因子 principal factors といい、. 3.Xuj =cj に uTj を後ろから掛け j について合 計すると、X∑pj=1uj uTj =∑pj=1cjuTj 、で、∑pi=1ujuTj =Ip であるから、X=∑pj=1cjuTj となって、中心化したデ. 元の変数の線形結合で表される。c=Xu, cj =Xuj. ータ X は主因子で構成できる。最大固有値 q<=. は主成分 principal component という。. p 個を用いて X の最良の近似が得られることに. ここで、相関行列の固有値と固有ベクトルを計 算すると、 >eigen(cor(data)) #結果は表 3 のようになる。 b.主因子と主成分の性質 1.主成分の分散は固有値 λ に等しい。var(cj). なる。 c.PCA は変数 variables と個体 individuals 間の 関係を可視化したグラフで分析結果が表現され る。 1.これまで変数空間 Rn について説明したが、. (c)= λ , λ =( λ 1, . . . . . , λ p)で = λ j であり、var. 個体空間 Rp についても、双対理論 dual theory を. ある。. 用いれば、同様に説明できる3)。. 2 xj )を 2.主成分 c1 は、相関の 2 乗和∑pj=1r(c,. 最大にすることで xj と最大のリンクを有する。. 、変数 k の座標 s 軸上の個体 i の座標を F(i) s を G(k)とすると、 s. 元のデータの変数について標準化したデータを Z ───────────────────────────────────────────────────── 3)参考文献[3]を参照。.

(6) ― 50 ―. 社 会 学 部 紀 要 第113号. !1λ ∑ x G(k) 1 G(k)= ! ∑ (1/n)x F(i) λ p j=1. F(i) = s. ij. 表4. 変数の因子に対する相関係数、変数の 座標値. s. k. n i=1. s. ij. s. k. なる関係式が得られる。 2.変数空間を p 次元より少ない空間で個体 individual をグラフ化するには、どれだけの低次元 にするのが情報の損失が少なくてすむかという問 題がある。その指標として、必要とする次元(q 次元とする)の累積固有値の全体の固有値(p 次 元)の比率で示される(図 3)。. 食料費 住居. Dim 1. Dim 2. 0.93. 0.21. −0.18. 0.90. 家具・家事用品. 0.95. −0.14. 被服及び履物. 0.97. 0.06. 保健医療. 0.95. −0.04. 交通・通信. 0.91. −0.12. 教育. 0.40. 0.85. 教養娯楽費. 0.96. 0.22. その他の消費支出. 0.79. −0.47. ∑ λ ∑ λ = λ ∑ λ q j=1 p j=1. q j=1. 図4 図3. Eigenvalues. Variables factor map(PCA). 積 で 求 ま る 。 利 用 す る program package ( FactoMineR)では、行と列のウエイトが異なるの. 結果は、2 次元までで、89.36% 説明できるこ とになる(表 3)。 3.主成分 principal components は元の変数の線. で、結果の表示はグラフ(図 4 および図 5)のよ うになり、解釈し易い。他の program では、biplot (同一にまとめた図)で表現されることが多い。. 形結合から定義される新しい変数であり、この主. 計算結果とグラフから、第 1 主成分と各支出項. 成分の実質的意味を理解することが分析の成功の. 目との相関は住居費と教育費を除けば高く、この. !. 鍵となる。標準化したデータの PCA では、. 2 項目は逆に第 2 主成分との相関が高いことが見. (c, r xj)= λ uj であるから、変数空間において、. られる。. 変数は一組の第 1 主成分を示す横座標 (c r 1, xj)、. 4.個体値、観察値の座標とグラフ. 第 2 主成分を示す縦座標 (c r 2 , xj )を持つ点でグ. 個体値の主成分軸の値を表 5 に示す。. ラフ化されたベクトルで表現される相関を示して. これらのグラフから、第 1 主成分は消費水準の. いる(表 4,図 4)。 変数の座標値の計算は、元のデータの特異値分. 大きさを、第 2 主成分は住居費、教育費の水準を 示しているようである。. 解から得られる固有ベクトル V に固有値の平方. 5.利用する package では、グラフの解釈に役. 根の積から求められる。また、個体の座標値は、. 立つ幾つかの指標が計算されている。主成分 s. もう 1 つの固有ベクトル U に固有値の平方根の. (s=1, 2)について個体 i の表示の質を(表 7)、.

(7) ― 51 ―. October 2011. 図5. Individuals factor map(PCA). 表5. 表6 Dim.1. Dim.2. 北海道. −1.454. −1.21. 東北. −0.5. −1.03. cos2θ. Contrib. Dim.1. Dim.2. Dim.1. Dim.2. 食料費. 0.86. 0.04. 14.04. 2.34. 住居. 0.03. 0.82. 0.52. 43.33. 家具・家事用品. 0.9. 0.02. 14.58. 1.03. 関東. 1.8565. 北陸. 2.4579. 東海. 2.3106. 1.154. 被服及び履物. 0.94. 0. 15.3. 0.2. 近畿. 1.1263. 1.243. 保健医療. 0.89. 0. 14.52. 0.08. 中国. 0.6995. 0.195. 交通・通信. 0.82. 0.01. 13.38. 0.72. −2.24. 教育. 0.16. 0.72. 2.62. 37.87. −0.89. 教養娯楽費. 0.91. 0.05. 14.85. 2.67. その他の消費支出. 0.63. 0.22. 10.19. 11.77. 四国. 0.8632. 九州. −0.966. 沖縄. −6.394. 2.353 −0.8. 1.221. qlt (i)=cos2θ is. 表7 cos θ 2. 変数 k の表示の質について(表 6)、. Contrib. dist. Dim.1. Dim.2. Dim.1. Dim.2. 北海道. 0.45. 0.31. 3.44. 7.79. 2.17. 東北. 0.15. 0.65. 0.41. 5.58. 1.28. 関東. 0.36. 0.58. 5.6. 29.28. 3.09. 北陸. 0.69. 0.07. 9.82. 3.39. 2.95. また、データ中心から個体までの距離(dist). 東海. 0.68. 0.17. 8.68. 7.04. 2.79. が計算されており、異常値の発見に役立つ。他. 近畿. 0.36. 0.43. 2.06. 8.17. 1.89. に、主成分に貢献する影響度(Contrib)も計算. 中国. 0.16. 0.01. 0.8. 0.2. 1.75. されている。. qlt (k)=cos2θ ks が得られる。. 四国. 0.13. 0.85. 1.21. 26.52. 2.43. これらの指標については、文献[3]を参照さ. 九州. 0.41. 0.34. 1.52. 4.15. 1.51. れたいが、実際の解釈はグラフとデータから総合. 沖縄. 0.96. 0.03. 66.46. 7.88. 6.54. 的に判断するのがよい。 表 6、7 は package FactoMineR を用いたときの 結果である。Cos2θ は各成分(dim)に対する質. Ⅳ.地域別消費の分析. (cos θ が大きい程その項の質が高い)を表し、 2. Contirbution(貢献度)は各成分の(分散)inertia. ここでは、R の package である FactoMineR を. に対する説明の大きさを示す。また、dist は中心. 用いた主成分分析の分析例として、家計調査のデ. からの距離を示す。. ータを用いた日本の地域別消費構造を分析する。.

(8) ― 52 ―. 社 会 学 部 紀 要 第113号. るので、R の package に適合するように若干の処. 1.データについて 地域別消費構造の分析をするのに、総務省統計. 理 を 必 要 と す る 。 FactoMineR の 主 成 分 分 析 は. 局の家計調査から、平成 21 年総世帯の各都道府. PCA という関数であり、データは n×p の数値デ. 県県庁所在地の大分類の 1 世帯当たり 1 か月間の. ー タ で 、 補 完 的 変 数 ( categorical supplementary. 家計支出平均額を利用する。データは都市(n=. varibles)は文字データである。そのデータ形式. 47)と大分類の支出項目(p=10)の世帯の 1 か. は、R に読みこむ前に Excel 上で数値データ、文. 月の平均支出額である。更に、同じく、統計局の. 字データに変換した後(その結果は、付表 2 を参. 社会生活指標(2009)の都道府県別の消費項目か. 照されたい)、データを R 上に入力するのが簡単. ら 5 つを補完的な変数として選択し主成分の解釈. である。. に利用することにした。このデータは数値データ であるが、度数分布を作成しその分類基準を分類. 3.主成分分析結果の表示と program. 変数 categorical variables とした。これらのデータ. >library(FactoMineR). は〈付表 1〉を参照されたい。. #package を load する。 >data<−read.table(“clipboard”,header=TRUE,row. names=1) #Excel 上の data を R に読み込. 2.データの事前処理 データはファイルから Excel で download され. む。 >res.pca<−PCA(data,quali.sup=11 : 15) #data を PCA で分析する。 >plot(res.pca,invisible=”quali”,cex=0.7) #個体のみ data を表示。 a.分析結果は、変数と個体のグラフで別々に表 示される。 変数のグラフは、相関係数が円内の点でその位 置が示される(図 6)。各変数は第 1 主成分と正 の相関が高く、住居費は第 2 主成分との関連を示 している。個体のグラフでは、各個体は中心付近 に密集しているが、奈良、金沢、さいたま、東 京、福井、那覇市がやや離れて存在する(図 7)。 b.次に、図の解釈を裏つける数値を求める(表. 図6. Variables factor map(PCA). 図7. 9)。. Individuals factor map(PCA).

(9) ― 53 ―. October 2011. 1.>round(res.pca$eig,2). 3.補完的変数の処理について 補完的変数 supplementary elements は、主成分. #固有値を求める。 第 2 主成分までで、58.75%、第 3 主成分まで. の計算には影響しないが、量的 quantitative なも. で、68.79% の説明力がある。. のと、質的 qualitative(categorical)なものがあ. 2.>round(cbind(res.pca$var$coord[,1 : 3],res.pca$var. る。Supplementary Quantitative Variables k′は、k′ と主成分との相関係数に対応する座標をもち、図. $cos 2[,1 : 3], res.pca$var$contrib[,1 : 3]),2). 6 と同一画面上に示される。Supplementary Cate-. >round(cbind(res.pca$ind$coord[,1 : 3],res.pca$ind$ cos 2[,1 : 3], res.pca$ind$contrib[,1 : 3]),2). gorical Variables は個体の点の変動分布を説明す. データの出力が大部になるので結果の両端を表. るのに役立ち、主成分の解釈に役立つ情報を与え. 示する(付表 3)。その program は、. る。分析では、Demografic Variable と同様の役割. > head ( data. frame ( sort ( round ( res. pca $ ind $ coord. を果たし、Geometric Analysis の効果をもたらす。 Supplementary Qualitative Variable の効果を表示. [,1],2))). するには、. >tail(data.frame(sort(round(res.pca$ind$coord[,1],2))) #付表 3 参照. >plot(res.pca,choix=”ind”,invisible=”ind”). 都市、及び contribution の値が大きい都市の特. #Individuals factormap 上に qualitative vari-. 徴が観察される。. able のみ表示 この情報を表示するには、次の program を実行 表8. する。 >plotellipses(res.pca,keepvar=11 : 15). 固有値. %. 累積比率. comp.1. 4.32. 43.24. 43.24. 図 8 のグラフを見ると第 1 主成分(横軸)は食. comp.2. 1.55. 15.52. 58.75. 糧費、保険医療費、消費水準の大きさを表してい. comp.3. 1. 10.04. 68.79. ると理解され、第 2 主成分(縦軸)は家賃・地代. comp.4. 0.83. 8.26. 77.05. を含む住居費の度合いを示すものと解釈できよ. comp.5. 0.68. 6.83. 83.88. う。. comp.6. 0.52. 5.22. 89.11. comp.7. 0.45. 4.48. 93.58. を実行し、そのグラフを表示する。. comp.8. 0.26. 2.6. 96.19. >aa<−cbind.data.frame(data[,13],res.pca$ind$coord. comp.9. 0.22. 2.18. 98.36. comp.10. 0.16. 1.64. このような分析をまとめると、以下の program. [,1 : 2],cex=0.7). 100. >coord.ellipse<−coord.ellipse(aa,bary=TRUE) 表9 cosθ. coord 食料 住居. contrib. Dim.1. Dim.2. Dim.3. Dim.1. Dim.2. Dim.3. Dim.1. Dim.2. 0.86. 0.15. −0.08. 0.75. 0.02. 0.01. 17.28. 1.4. 0.68. −0.2. Dim.3. 0.6. 0.62. 0.06. 0.36. 0.39. 1.36. 23.28. 38.75. 光熱.水道. 0.54. −0.5. 0.42. 0.29. 0.23. 0.18. 6.67. 14.71. 17.76. 家具.家事用品. 0.64. −0.4. 0.03. 0.41. 0.12. 0. 9.44. 7.68. 0.11. 被服及び履物. 0.72. −0.25. 0.52. 0.21. 0.06. 11.94. 13.76. 6.03. 保健医療. 0.73. −0.2. −0.32. 0.53. 0.02. 0.1. 12.19. 1.36. 10.08. 交通.通信. 0.48. −0.2. 0.41. 0.24. 0.05. 0.17. 3. 16.55. 教育. 0.74. 0.4. 0.27. 0.54. 0.16. 0.07. 12.6. 10.35. 7.28. 教養娯楽. 0.78. 0.44. −0.12. 0.61. 0.2. 0.01. 14.11. 12.58. 1.32. その他の消費支出. 0.62. 0.12. 0.39. 0.18. 0.01. 8.97. 11.88. 1.44. 0.46. −0.4. 5.44.

(10) ― 54 ―. 社 会 学 部 紀 要 第113号. >plot. PCA(res. pca, habillage= 13, ellipse = coord. ellipse,axes=1 : 2,cex=0.7). >plot.PCA(res.pca,habillage=11,ellipse=ellipse.coord,axes=1 : 2,cex=0.7). 図 9 から、第 1 主成分は消費支出の低い都市か ら高い都市に、左から右へと並んでいることが観 察される。第 2 主成分の意味を考えるために、住. Dim 2, Dim 3 のグラフに対して、 >cc<−cbind.data.frame(data[,11],res.pca$ind$coord [,2 : 3]). 居費が影響していることが予想されるので、各府. >ellipse.coord<−coord.ellipse(cc,bary=TRUE). 県の家賃・地代を 3 つのクラスに分類し、supple-. >plot.PCA(res.pca,habillage=11,ellipse=ellipse.co-. mentary qualitative vriable としてグラフに表示す ると、第 2 主成分を説明する要因の 1 つとして地 価が考えられる。その program は、Dim 1, Dim 2. ord,axes=2 : 3,cex=0.7) となる。 図 10、11 から、第 2 主成分として、住居費、. のグラフに対して、. 特に地価が妥当な要因と考えられる。. >bb<−cbind.data.frame(data[,11],res.pca$ind$coord. 4.地域別消費の分析は以上であるが、幾つかの 問題点をのべる。補完的要素については、quanti-. [,1 : 2]) >ellipse.coord<−coord.ellipse(bb,bary=TRUE). tative variable を追加することもできるが、ここ では取り上げなかった。また、supplementary individual を追加も可能である。従来、R の program package では、princomp, prcomp が利用されてい るが、その output では、変数、個体の点を 1 つ として表示する Biplot が、この package では、 別々に図示されている。 印刷では、カラーが使用できぬので、参考のた めに、図 12 を作成した。 >x<−as.data.frame(res.pca$ind$coord[,1 : 2]) >plot.PCA(res.pca,habillage=13,ellipse=ellipse.coord,label=FALSE) >identify(x). #画面上をクリツクすると、デ. ータの番号のみが出力されるので、その番 号を >rownames(data)[[番号]]とすれば府県名が出力 図8. 支出項目の変動に対する Confedence ellipse. 図9. される。. Individuals factor map(PCA).

(11) ― 55 ―. October 2011. 図 10. Individuals factor map(PCA). 図 11. Individuals factor map(PCA). 図 12. Individuals factor map(PCA). この分析でグラフを描くとき、変数の Graph. は、. を描くときは、choix=”var”、個体を描くときは、. >plot(res.pca$var$coord,invisible=”quali”). choix=”ind”、とし、supplementary variable を省略. とすれば、この変数のみの状態が観察できる。. したいときは、invisible=”quali” とすればよい。 したがって、supplementary variable のみ描く場合.

(12) ― 56 ―. 社 会 学 部 紀 要 第113号. 文献. 3 . Francois Husson, Sebstien Le, Jerome Pages(2011),. 1 . Gerard Govacrt edit,(2009) , Data Analysis Wiley. Exploratory Multivariate Analysis by Exsample Using. 2 . Ludovic Lebart, Alain Morineau, Kenneth Warwick. R, CRC Press. (1984), Multivariate Descriptive Statistical Analysis, Wiley.

(13) ― 57 ―. October 2011. 付表 1. 札幌市 青森市 盛岡市 仙台市 秋田市 山形市 福島市 水戸市 宇都宮市 前橋市 さいたま市 千葉市 東京都区部 横浜市 新潟市 富山市 金沢市 福井市 甲府市 長野市 岐阜市 静岡市 名古屋市 津市 大津市 京都市 大阪市 神戸市 奈良市 和歌山市 鳥取市 松江市 岡山市 広島市 山口市 徳島市 高松市 松山市 高知市 福岡市 佐賀市 長崎市 熊本市 大分市 宮崎市 鹿児島市 那覇市. 食料. 住居. 53,574 56,841 57,556 59,464 57,349 53,629 58,279 57,398 63,261 58,115 62,645 57,581 68,886 64,132 57,792 64,035 65,514 58,921 57,679 59,788 67,394 57,612 60,426 57,958 63,063 63,539 55,936 58,922 68,523 57,236 49,787 49,187 55,994 59,472 50,520 48,940 57,228 51,779 54,700 54,383 45,653 53,654 56,775 51,080 47,752 54,670 44,240. 18,734 16,583 15,546 17,335 17,771 20,843 15,330 20,071 20,438 17,444 27,036 12,796 26,020 18,853 19,169 19,213 17,600 8,797 15,900 16,795 17,031 25,967 17,729 13,837 13,226 11,930 20,845 18,159 13,595 13,563 20,816 17,860 22,216 19,680 21,595 19,748 14,540 18,115 26,482 20,914 21,425 13,704 17,685 14,753 19,786 24,227 27,248. 家具・ 光熱・ 家事 水道 用品 19,557 6,384 23,139 7,732 21,182 7,515 16,937 7,845 19,660 7,995 21,501 7,136 21,700 8,317 18,819 9,254 19,589 8,621 16,276 7,599 18,396 7,496 14,169 5,880 17,253 8,260 16,319 8,384 20,084 7,153 22,806 10,422 21,348 9,526 20,037 9,539 17,856 6,874 20,385 9,441 20,973 8,945 18,736 6,646 16,462 7,988 17,556 9,620 19,608 8,449 17,882 8,584 15,230 6,070 15,428 6,904 20,512 10,036 17,433 7,969 15,070 5,841 17,592 7,629 19,422 8,974 17,567 8,137 17,232 7,678 15,036 7,587 17,715 8,946 17,589 13,000 17,813 9,141 16,535 7,793 16,735 6,874 18,366 7,618 19,193 8,688 14,503 6,911 15,765 6,804 17,165 8,717 14,967 4,692. 被服 及び 履物 11,109 9,225 10,138 12,668 8,698 8,617 10,613 12,170 11,380 10,405 13,438 11,803 14,119 12,260 10,191 9,657 12,080 8,925 10,246 10,623 11,829 9,008 12,727 11,555 11,606 9,181 11,338 10,884 11,916 10,083 6,688 8,585 12,038 11,439 8,918 9,299 10,421 9,944 8,658 11,531 9,945 9,867 12,560 11,396 6,417 12,650 5,430. 保健 交通・ 教育 医療 通信 11,173 9,711 11,258 11,067 9,985 8,798 10,729 11,841 12,089 10,950 10,016 10,109 12,602 11,815 10,041 9,968 12,719 13,103 8,401 11,681 9,757 11,292 9,742 10,158 12,552 11,214 9,087 10,152 13,577 10,666 8,736 10,024 11,584 10,124 8,384 10,983 13,163 9,639 9,117 9,814 9,936 8,014 10,596 8,883 10,581 10,290 7,170. 30,299 31,590 34,515 26,262 36,640 35,283 33,578 38,313 35,160 29,796 28,784 44,262 28,319 35,144 28,983 38,256 41,457 31,266 31,453 35,348 40,844 26,797 30,257 31,402 49,736 26,624 22,400 29,922 45,506 26,420 42,551 27,360 37,362 33,440 42,539 29,504 31,048 24,543 42,851 33,308 28,706 25,851 30,137 31,911 25,608 35,468 22,863. 8,371 8,234 6,277 6,223 8,696 8,045 7,357 9,032 8,203 5,792 16,494 6,218 11,832 11,289 7,984 7,982 14,850 8,543 7,195 8,036 15,443 6,087 10,561 8,809 9,234 10,467 7,341 7,420 12,299 6,077 4,632 4,078 10,063 9,025 5,966 6,873 7,894 7,002 8,613 7,631 5,038 5,264 10,942 5,427 5,476 12,709 6,456. その他 教養 家賃 消費 保険 の消費 教育費 食糧費 娯楽 地代 支出 医療費 支出 27,388 55,865 b b b b d 20,372 47,858 a b b c a 24,874 69,134 a a b c d 29,527 56,423 a b a d d 25,143 53,967 a c a c c 24,158 53,209 a d c c d 23,471 63,332 a b c d d 27,179 70,293 c c c c e 33,167 58,954 c b c c d 27,887 59,606 c a c c d 42,690 53,266 c e d e d 27,833 52,286 c c c d e 35,996 54,636 c e d e e 33,249 56,054 c d d d e 28,265 58,698 a b c d c 26,463 70,546 a b d d b 31,600 72,921 a e e e d 24,413 70,799 a c c d e 28,042 57,143 b b c d a 28,907 73,726 b b d c d 29,804 61,836 b e e e b 25,615 50,781 b b c d d 28,261 51,231 b d b d c 35,525 62,144 b b a c b 36,012 60,337 b c e d d 24,624 50,217 b d b e c 22,856 50,196 b c b c b 31,032 49,622 b c a d b 35,018 63,351 b d e e e 24,929 58,621 b a a b c 21,928 44,321 b a a b a 23,343 56,515 b a b c b 26,651 55,802 b c b b c 26,169 55,207 b d d d c 24,495 58,837 b b c c c 25,307 59,133 a b b b d 30,352 70,002 a b d b d 22,220 46,929 a b a b a 25,406 65,434 a c d c b 26,012 56,158 b c b c d 26,515 66,672 b b c c e 21,877 53,539 b a b c a 26,742 55,252 b c b c c 23,396 55,283 b b b b b 18,091 40,828 b b a a a 27,015 67,278 b e d b c 15,763 45,133 c b a a a. 付表 1 のデータは家計調査データ(2009 年)から都道府県庁所在地の消費支出項目(主成分分析の計算に利用する)のデータと補完的 変数として、各都道府県別の消費支出データを度数分布の階級で示したものである。.

(14) ― 58 ―. 社 会 学 部 紀 要 第113号. 付表 2 食料. int. 53,574. 56,841. 57,556. 59,464. 住居. int. 18,734. 16,583. 15,546. 17,335. 光熱・水道. int. 19,557. 23,139. 21,182. 16,937. 家具・家事用品. int. 6,384. 7,732. 7,515. 7,845. 被服及び履物. int. 11,109. 9,225. 10,138. 12,668. 保健医療. int. 11,173. 9,711. 11,258. 11,067. 交通・通信. int. 30,299. 31,590. 34,515. 26,262. 教育. int. 8,371. 8,234. 6,277. 6,223. 教養娯楽. int. 27,388. 20,372. 24,874. 29,527. その他の消費支出:. int. 55,865. 47,858. 69,134. 56,423. 家賃費. Factor w/3 levels a″ , b″ ,″ c″:. 2. 1. 教育費. Factor w/5 levels a″ , b″ ,″ c″:. 2. 2. 消費支出. Factor w/5 levels a″ , b″ ,″ c″:. 2. 2. 食糧費. Factor w/5 levels a″ , b″ ,″ c″:. 2. 3. 保健医療費. Factor w/5 levels a″ , b″ ,″ c″:. 4. 1. 付表 3 cos2θ. coord Dim 1. Dim 2. Dim 1. Dim 2 0.01 前橋市. Dim 1. −6.14 福井市. 宮崎市. −4.08 富山市. −1.99 京都市. 0.01 新潟市. 0. 仙台市. 0.01 新潟市. 0. 鳥取市. −3.7. −1.85 広島市. 0.01 甲府市. 0. 新潟市. 0.02 津市. 0. 0. 広島市. Dim 2. 那覇市. 盛岡市. −2.98 仙台市. contribution. 0. 前橋市. 0. 松江市. −2.34 福島市. −1.66 高知市. 0.01 津市. 0. 京都市. 0.02 鳥取市. 0. 大阪市. −2.29 長野市. −1.56 新潟市. 0.02 鳥取市. 0. 名古屋市. 0.05 徳島市. 0. 長崎市. −2.18 青森市. −1.26 名古屋市. 0.02 徳島市. 0. 札幌市. 0.06 甲府市. 0.02. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. ⋮. 0.65 東京都区部. 0.5. 大津市. 4.68 福島市. 3.78. 0.74 名古屋市. 0.52 鳥取市. 6.75 盛岡市. 4.69. さいたま市. 2.43 神戸市. 1.43 鳥取市. 東京都区部. 2.65 横浜市. 1.5. 岐阜市. 2.97 名古屋市. 1.52 宮崎市. 0.79 盛岡市. 0.59 宮崎市. 8.17 富山市. 5.42. 大津市. 3.08 大阪市. 1.65 金沢市. 0.88 福井市. 0.59 金沢市. 9.02 福井市. 12.19. 金沢市. 4.28 東京都区部. 3.15 奈良市. 0.88 福島市. 0.62 奈良市. 10.11 東京都区部 13.62. 奈良市. 4.53 さいたま市. 4.25 那覇市. 0.88 さいたま市. 0.64 那覇市. 18.58 さいたま市 24.73. 松江市.

(15)

図 4 Variables factor map(PCA)
図 5 Individuals factor map(PCA)
図 6 Variables factor map(PCA)
図 8 支出項目の変動に対する Confedence ellipse
+2

参照

関連したドキュメント

(2)主応力ベクトルに着目した解析の結果 図 10 に示すように,主鉄筋表面から距離 d だけ離れ たコンクリートの主応力に着目し、section1

重回帰分析,相関分析の結果を参考に,初期モデル

外声の前述した譜諺的なパセージをより効果的 に表出せんがための考えによるものと解釈でき

にしたいか考える機会が設けられているものである。 「②とさっ子タウン」 (小学校 4 年 生~中学校 3 年生) 、 「④なごや★こども City」 (小学校 5 年生~高校 3 年生)

 処分の違法を主張したとしても、処分の効力あるいは法効果を争うことに

名の下に、アプリオリとアポステリオリの対を分析性と綜合性の対に解消しようとする論理実証主義の  

3 軸の大型車における解析結果を図 -1 に示す. IRI

水平方向の地震応答解析モデルを図 3-5 及び図 3―6 に,鉛直方向の地震応答解析モデル図 3-7