主成分分析

(1)

データ解析

第七回「主成分分析」

鈴木大慈理学部情報科学科西八号館W707号室 [email protected]

(2)

今日の講義内容

主成分分析

2 / 33

(3)

構成

1 主成分分析の概要

2 実データ解析

(4)

主成分分析の目的

主成分分析: PCA (Principal Component Analysis)とも呼ばれる．

使いドコロ：多変量データを少ない変数に要約したい．

→ データの視覚化．

→ 線形回帰等多変量データ解析の前処理．

データを低い次元に落とすことを「次元削減」と言う．

主成分分析はデータ解析において「とりあえずやってみること」の一つ．

4 / 33

(5)

主成分分析で何が得られる？

−6 −4 −2 0 2 4 6

−6−4−20246

PC 1

PC 2

1 2

3 4 5

6 7

8 9 10 11 12

13 14

15 16

17 18

19 20

21

22 2324 25

26 27 28

29 30

31

32 33 34

35 3637 3938 40

41 42

4344 45 4647

48 49 50 51 52 53

54 55

56 57

58

59 6061 62 6463 65 66

67 68

69 70

71 7372 74

7576 77 7879 80

81 82

83 84 85 86 87 88

9089 9192 93 94

95 96

97

98 99

100 102101

104103 105 106107 108 109 110 111

112 113114 115

116 117118119

120 121122123

124 125 126

127128

129 130

131132 133 134

135

136 137 138

139 140

141 142

143 144 145

147146 148 149 150

151 152

153 154

155 156

157

158 159

160

161 162

163 164

165 166

167 168 170169 171 172 173

174 175 176

177

178

180 179

181 182

183 184

185 186

187 188 189

190 191

192

193 194195

196 197

198 199

200

201 202

203

204 205

206 207

208

209 210 211

212 213 214

215

216

217 218

219 220 221

222

223 224

225 226

227 228 229

230 231

232

233 234

235 236

237 238 239

240241 243242 244

245246 247

249248 250251 252 253

254 255 256

257

258 259 261260

262

263 264 265

266

267

268 269

270 271 272

273

274 275 276

277 278

279

280

281 282

283 284

285 286 287

288289 290 291

292 293

294 295

296297 298 299

300301 303302

304 305

306

307 308

309 310

311

312313 314 315 316317 318

319 320 321322

323324 325 326327

329328 330

331 332 333

334335336 337338 339340341

342 344343 345

346347 348 349 350

351 352

353

354 355 356

357 358 359 360 361

362 363

364

365 366

367 368

369

370 371 372

373 374

375

376 377 378

380379 381 382

383384 385

386387388 389

390 391 392

393

394 395 396397

398 399 400

401 402 403

404 405 406 407

408 409

410 411

412 413

414 415

416 417

418 419

420

421 422 423

424 425

426 427

428 429430 431 433432

434 435

436437 438

439 440441

443442444 445

446 447 449448450451 452 453

454 455 456

458457 459 460 462461 463 464 465 466

467 468 470469 472471 473

474 475

476 477

478

479 480 481 482 483 484485

486488487489 490

491

492 493 495494

496 497 498 499

500 501 502

503

504 505 506

−0.4 −0.2 0.0 0.2 0.4

−0.4−0.20.00.20.4

CRIM ZN

INDUS

CHAS

NOX

RM

AGE DIS

RAD TAX PTRATIO

B

LSTAT

MEDV

多変量データを二次元に射影してデータを要約することができる．

CRIM各町の一人あたりの犯罪率 ZN宅地割合

INDUS非商用地の割合 CHASチャールズ川沿いかどうか NOX一酸化窒素濃度

RM住居の平均部屋数 AGE 1940年より古くに建てられた住居の割合

DISボストンのビジネス街からの距離

RADハイウェイへのアクセスの良さ

TAX固定資産税 PTRATIO教師人口の割合 Bアフリカ系アメリカ人の割合をBkとしたときの

1000(Bk−0.63)² LSTAT低所得者層の割合 MEDV持ち家価格の中央値

(6)

主成分分析の流れ

1 データの標準化：中心化，分散の基準化 2 分散共分散行列の計算

3 分散共分散行列を固有値固有ベクトル分解

4 固有値の大きい方からいくつかの固有値固有ベクトルを取ってくる

→主成分！

5 主成分にデータを射影して視覚化および回帰などの処理を続行

6 / 33

(7)

データの形式

X =







X1,1 X1,2 . . . X1,d

X2,1 X2,2 . . . X2,d

... ... ... X_n,1 X_n,2 . . . X_n,d

| {z }

d次元















nサンプル

=





 x₁^⊤ x₂^⊤ ... x_n^⊤







(8)

データの標準化

中心化元データから平均を引いて平均を0にする．

分散の基準化中心化したデータを標準偏差で割って，分散を1に基準化．

ˆ µj = 1

n

∑n i=1

Xij : 平均値(の推定量)

ˆ σj =

vu ut 1

n−1

∑n i=1

(Xij−µˆj)²: 標準偏差(の推定量)

標準化：中心化して分散を 1 に基準化

X

_ij

← X

_ij

− µ ˆ

_j

ˆ σ

_j

→ 各成分は平均０分散１になる．

※ 主成分分析においては分散は１に揃えない場合も多い．

8 / 33

(9)

バラツキ（分散）が最大の方向

第一主成分とは，バラツキが一番大きい方向である．

分散が大きい→そのデータを特徴付ける方向→データの要約

(10)

バラツキ（分散）が最大の方向

第一主成分とは，バラツキが一番大きい方向である．

分散が大きい→そのデータを特徴付ける方向→データの要約

9 / 33

(11)

バラツキ（分散）が最大の方向の計算

ある方向ベクトルをv(∥v∥= 1)とおく．この方向へのx の長さは

v^⊤x で求まる．

よってv^⊤x_iの分散は 1

n−1

∑n i=1

[v^⊤(x_i−µ)]ˆ ²=v^⊤ (

1 n−1

∑n i=1

(x_i−µ)(xˆ _i−µ)ˆ ^⊤ )

| {z }

分散共分散行列

v

=:v^⊤Σv, である．これを最大にする方向vを求める:

max

v:∥v∥=1

v^⊤Σv.

→ 最大固有値に対応する固有ベクトルにほかならない．

(12)

分散共分散行列の固有値

Σは (実対称)半正定値行列 (チェックせよ)

一般に半正定値行列は直交行列で対角化可能(固有値固有ベクト分解):

Σvj =λjvj (j = 1, . . . ,d),

ただし，v_j らは互いに直交(⟨vj,vj^′⟩= 0 (j̸=j^′))し，λ₁≥. . . λd ≥0.

行列表現

V = [v₁, . . . ,v_d], Λ =diag(λ₁, . . . , λ_d) に対して，

ΣV =VΛ.

V は直交行列なので，

V^⊤ΣV = Λ, Σ =VΛV^⊤ でもある．

11 / 33

(13)

最大固有値

max

v:∥v∥=1v^⊤Σv= max

v:∥v∥=1v^⊤VΛV^⊤v

= max

v:∥v∥=1v^⊤Λv (∵∥Vv∥= 1⇔ ∥v∥= 1)

= max

v:∥v∥=1

∑d j=1

v_j²λj

=λ1, であり，最大化元はv1(v₁^⊤Σv1=λ1).

(14)

第二第三の主成分

●

●●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

第一主成分第二主成分

v1(第一主成分)に直交した成分で，バラツキの一番大きな成分:

max

v:v₁⊥v,∥v∥=1v^⊤Σv.

13 / 33

(15)

第二第三主成分の計算

max

v:v1⊥v,∥v∥=1

v^⊤Σv = max

v:v1⊥v,∥v∥=1

v^⊤VΛV^⊤v

= max

v:v₁⊥v,∥v∥=1v^⊤[v1v2. . .vd]



 λ1

. .. λd



[v1v2. . .vd]^⊤v

= max

v:v1⊥v,∥v∥=1

v^⊤[v₂. . .v_d]



 λ₂

. .. λd



[v₂. . .v_d]^⊤v

=λ2, 最適解はv2.

以下同様に第j主成分はj番目の固有ベクトルvjである．

(16)

まとめ

分散共分散行列を固有値分解して上から必要な数分だけ取ってくれば良い．

Σ =VΛV^⊤= [v1. . .vd]



 λ1

. .. λ_d



[v1. . .vd]^⊤.

固有値固有ベクトル分解

第j主成分:

v

_j

第j主成分スコア:

v

_j^⊤

x

^{(サンプル}xが第j主成分をどれだけ含んでいるか) 第j主成分の寄与率: ∑^λ^j

jλj

(> 0)

寄与率はその主成分方向がデータの何割を表現しているかを表している．

寄与率の大きい成分から順に取ってくることでデータの良い要約を得る．

それが主成分分析．

15 / 33

(17)

構成

1 主成分分析の概要

2 実データ解析

(18)

ボストンハウジングデータ

x <- read.table("housing_table.data", header=T) plot(x)

CRIM

080 0.01.0 4 7 210 200 0 400 1050

080

080 ZN

INDUS

020

0.01.0

CHAS

NOX

0.4

47 RM

AGE

080

210 _DIS

RAD 5

200

TAX

PTRATIO

1422

0400

B

LSTAT

10

0 80

1050

020 0.4 080 5 1422 10

MEDV

17 / 33

(19)

変数の意味

CRIM各町の一人あたりの犯罪率

ZN宅地割合

INDUS非商用地の割合

CHASチャールズ川沿いかどうか NOX一酸化窒素濃度

RM住居の平均部屋数

AGE 1940年より古くに建てられた住居の割合

DISボストンのビジネス街からの距離 RADハイウェイへのアクセスの良さ TAX固定資産税

PTRATIO教師人口の割合

Bアフリカ系アメリカ人の割合をBkとしたときの1000(Bk−0.63)²

LSTAT低所得者層の割合

MEDV持ち家価格の中央値

(20)

変数の標準化

scale関数で標準化可能

> x <- scale(x) #標準化

> colMeans(x) #全変数の平均0

CRIM ZN INDUS CHAS NOX RM

-6.899468e-18 2.298337e-17 1.516683e-17 -3.510587e-18 -2.149412e-16 -1.058524e-16

AGE DIS RAD TAX PTRATIO B

-1.645039e-16 1.144506e-16 4.651527e-17 1.906139e-17 -3.931034e-16 -1.155991e-16

LSTAT MEDV

-7.012260e-17 -1.379311e-16

> diag(var(x)) #全変数の分散1

CRIM ZN INDUS CHAS NOX RM AGE DIS RAD TAX PTRATIO

1 1 1 1 1 1 1 1 1 1 1

B LSTAT MEDV

1 1 1

19 / 33

(21)

分散共分散行列の計算

> Sigma = cov(x) #分散共分散行列を計算．

> Sigma[1:5,1:5]

CRIM ZN INDUS CHAS NOX

CRIM 1.00000000 -0.20046922 0.40658341 -0.05589158 0.42097171 ZN -0.20046922 1.00000000 -0.53382819 -0.04269672 -0.51660371 INDUS 0.40658341 -0.53382819 1.00000000 0.06293803 0.76365145 CHAS -0.05589158 -0.04269672 0.06293803 1.00000000 0.09120281 NOX 0.42097171 -0.51660371 0.76365145 0.09120281 1.00000000

(22)

分散共分散行列の固有値固有ベクトル分解

> res <- eigen(Sigma) #分散共分散行列を固有値固有ベクトル変換

> res

$values

[1] 6.54598958 1.64953191 1.34890592 0.88653987 0.85089944 0.66001077 0.53541080 0.40307658 0.27726358 0.25225744 0.21279025 0.18298750 [13] 0.13400970 0.06032666

$vectors

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]

[1,] 0.242284451 0.065873108 0.395077419 0.100366211 0.004957659 -0.22462703 0.777083366 0.15740140 0.254211798 0.071384615 [2,] -0.245435005 0.148002653 0.394545713 0.342958421 0.114495002 -0.33574694 -0.274178365 -0.38031404 0.382899480 -0.245579673 [3,] 0.331859746 -0.127075668 -0.066081913 -0.009626936 -0.022583692 -0.08082495 -0.340273839 0.17174578 0.627048264 0.254827026 [4,] -0.005027133 -0.410668763 -0.125305293 0.700406497 -0.535197817 0.16264906 0.074075775 -0.03292700 -0.018642967 0.041706916

res$valuesは固有値．降順に並んでいる．

res$vectorsは固有ベクトルを並べた行列(V のこと)．

21 / 33

(23)

固有値・固有ベクトルのチェック

固有値・固有ベクトルの性質をチェック

> norm(Sigma - res$vectors %*% diag(res$values) %*% t(res$vectors)) #確認 [1] 2.668005e-14

> tmp <- (res$vectors %*% t(res$vectors)); tmp[1:5,1:5]

[,1] [,2] [,3] [,4] [,5]

[1,] 1.000000e+00 -5.551115e-17 1.040834e-16 2.602085e-18 -3.729655e-17 [2,] -5.551115e-17 1.000000e+00 -1.942890e-16 -1.170938e-16 2.064321e-16 [3,] 1.040834e-16 -1.942890e-16 1.000000e+00 -8.239937e-17 -6.834810e-16 [4,] 2.602085e-18 -1.170938e-16 -8.239937e-17 1.000000e+00 -6.591949e-17 [5,] -3.729655e-17 2.064321e-16 -6.834810e-16 -6.591949e-17 1.000000e+00

> tmp <- (t(res$vectors) %*% res$vectors); tmp[1:5,1:5]

[,1] [,2] [,3] [,4] [,5]

[1,] 1.000000e+00 1.387779e-16 3.191891e-16 4.857226e-17 2.081668e-17 [2,] 1.387779e-16 1.000000e+00 -4.024558e-16 6.938894e-17 -3.122502e-17 [3,] 3.191891e-16 -4.024558e-16 1.000000e+00 -5.551115e-17 -5.204170e-17 [4,] 4.857226e-17 6.938894e-17 -5.551115e-17 1.000000e+00 -3.070461e-16 [5,] 2.081668e-17 -3.122502e-17 -5.204170e-17 -3.070461e-16 1.000000e+00

※ 対角行列の場合，固有ベクトルは直交行列をなす．

(24)

固有値・固有ベクトルのチェック２

固有値・固有ベクトルの性質をチェック

> norm(Sigma %*% res$vectors - res$vectors %*% diag(res$values)) #確認 [1] 2.207262e-14

Σv_j =λ_jv_j (∀1≤j≤d)

⇒ ΣV =VΛ,

ただしV = [v₁, . . . ,v_d], Λ =





λ1 O

. ..

O λd



.

23 / 33

(25)

主成分分析

> #主成分分析

> Lam <- res$values

> V <- res$vectors

> y = x %*% V #主成分スコアの計算

> dim(y) # n ^× d [1] 506 14

y_i^⊤=x_i^⊤V = [x_i^⊤v1, . . . ,x_i^⊤vd],

y =



 y₁^⊤

... y_n^⊤



.

(26)

第一，第二主成分スコアのプロット

> plot(y[,1],y[,2],type=’n’) #第一，第二主成分スコアをプロット

> text(y[,1],y[,2],seq(length=nrow(y)),cex=0.5)

−6 −4 −2 0 2 4 6

−6−4−202

y[, 1]

y[, 2]

1 2

3 4 5

6 7

8 9 10 11 12 13

14 15 16

17 18

19 20

21

22 23 2524 26 27 28

29 30

31

32 33 34

35 3637 38 40 39

41 42

4344 45 4647

48 49 50 51 52 53

54 55

56 57

58

59 6061 62 6463

65 66

67 68

69 70

71 72 7374

75 76

77 7879 80 81 82

83 84 85

86 87 88

9089 9192 93 94

95 96

97

98 99

100 102101

104103 105 106107 108 109 110 111

112 113114 115

116 117118

119 120

121122123 124 125 126

127128

129 130

131132 133

134 135

136 137 138

139 140

141 142

143 144 145

147146 148 149 150

151 152

153 154

155 156

157

158 159

160

161 162

163 164

165 166

167 168

170169 171 172 173

174 175 176

177

178

180 179

181 182

183 184

185 186

187 188 189

190 191

192

193 194195

196 197

198 199

200 201

202

203

204 205

206

207 208

209 210

211 212 213 214

215

216

217 218

219 220 221

222

223 224

225

226 227

228

229 230

231

232

233 234

235 236

237 238 239

240241 243242 244

245246 247

249248 250 252251 253

254 255 256

257

258 259 261260

262

263 264 265

266

267

268 269

270 271 272

273

274 275 276

277 278

279

280

281 282

283 284

285 286 287

288289 290 291

292 293

294 295

296 297 298 299

300301 303302

304 305

306

307 308

309 310

311

312 313 314 315 316317 318

319 320 321 322 323

324

325 326327

329328 330

331 332 333

334335336 337338 339340341

342 344 343 345

346347 348 349350

351 352

353

354 355 356

357 358 359 360 361

362 363

364

365 366

367 368

369

370 371 372

373 374

375

376 377 378

380379 381 382

383 384

385

386 387 388 389

390 391 392

393

394 395 396 397 398

399 400

401

402 403

404 405 406 407

408 409

410 411

412 413

414 415

416 417

418 419

420

421 422 423

424 425

426 427

429430428 431 433432

434 435

436 437

438 439 440441

443444442 445

446 447 449448450451 452 453

454 455 456

458457 459 460 462461 463 464 465 466

467 468 470469 472471 473

474 475

476

477 478

479 480 481

482 483 484485

486488487489 490

491

492 493 495494 496 497

498 499

500 501 502

503

504 505 506

25 / 33

(27)

主成分スコア(Y の各列)は互いに無相関．

> round(cov(y),10) #yは無相関

[,1] [,2] [,3] [,4] [,5]

[1,] 6.54599 0.000000 0.000000 0.0000000 0.0000000 [2,] 0.00000 1.649532 0.000000 0.0000000 0.0000000 [3,] 0.00000 0.000000 1.348906 0.0000000 0.0000000 [4,] 0.00000 0.000000 0.000000 0.8865399 0.0000000 [5,] 0.00000 0.000000 0.000000 0.0000000 0.8508994

y =XV ∈Rⁿ^×^d

⇒ y^⊤y =V^⊤X^⊤XV =V^⊤(Σ)V =V^⊤(VΛV^⊤)V = (V^⊤V)Λ(V^⊤V) = Λ.

(28)

主成分スコアと軸のプロット

biplot(y[,c(1,2)],V[,c(1,2)],cex=0.5) #第一，第二主成分スコア

27 / 33

(29)

第一・第二主成分スコア

−6 −4 −2 0 2 4 6

−6−4−20246

PC 1

PC 2

1 2

3 4 5

6 7

8 9 10 11 12 13

14 15 16

17 18

19 20

21

2223 2524 26 27 28

29 30

31

32 33 34

35 3637 3938 40

41 42

4344 45 4647

48 49 50 51 52 53

54 55

56 57

58

59 6061 62 6463 65 66

67 68

69 70

71 7372 74 75

76 77 7879 80

81 82

83 84 85 86 87 88

9089 9192 93

94 95

96 97

98 99

100 102101

104103 105 106107 108 109 110 111

112 113114 115

116 117118

119 120

121 122123

124 125 126

127128

129 130

131132 133 134

135 136

137 138

139 140

141 142

143 144 145

147146 148 149 150

151 152

153 154

155 156

157

158 159

160

161 162

163 164

165 166

167 168 170169 171 172 173

174 175 176

177

178

180 179

181 182

183 184

185 186

187 188 189

190 191

192 193 194195

196 197

198 199

200

201 202

203

204 205

206 207

208

209 210

211 212 213 214

215

216

217 218

219 220 221

222

223 224

225 226

227 228 229

230 231

232

233 234

235 236

237 238 239

240241 243242 244

245246 247

249248 250251 252 253

254 255 256

257

258 259 261260

262

263 264 265

266

267

268 269

270 271 272

273

274 275 276

277 278

279

280

281 282

283 284

285 286 287

288289 290 291

292 293

294 295

296297 298 299

300301 303302

304 305

306

307 308

309 310

311

312313 314 315 316317 318

319 320 321322

323324 325 326327

329328 330

331 332 333

334335336 337338 339340341

342 344343 345

346347 348 349 350

351 352

353

354 355 356

357 358 359 360 361

362 363

364

365 366

367 368

369

370 371 372

373 374

375

376 377 378

380379 381 382

383384 385

386387388 389

390 391 392

393

394 395 396397

398 399 400

401 402 403

404 405 406 407

408 409

410 411

412 413

414 415

416 417

418 419

420

421 422 423

424 425

426 427

429430428 431 433432

434 435

436437 438

439 440441

443442444 445

446 447 449448450451 452 453

454 455 456

458457 459 460 462461 463 464 465 466

467 468 470469 472471 473

474 475

476 477

478

479 480 481 482 483 484485

486488487489 490

491

492 493 495494

496 497 498 499

500 501 502

503

504 505 506

−0.4 −0.2 0.0 0.2 0.4

−0.4−0.20.00.20.4

CRIM ZN

INDUS

CHAS

NOX

RM

AGE DIS

RAD TAX PTRATIO

B

LSTAT

MEDV

各点：y_i^⊤= [y_i,1, y_i,2] = [x_i^⊤v₁, x_i^⊤v₂] 矢印の方向：uj = [v1,jv2,j] =e_j^⊤[v1, v2].

矢印は各変数が主成分の上でどの方向を向いているかを示している．

(30)

第一・第二主成分スコアの考察

第一主成分は，TAXやRAD,INDUSが大きく寄与していて，主に住環境に関する情報が乗っていると考えられる．

第一主成分が大きいほど，産業地域のようなあまり居住に適さない住環境．

第二主成分はCHASやMEDV, RMの寄与が大きく，住宅の質の良さ（「いい家」

かどうか）を表している．

29 / 33

(31)

第一・第三主成分スコア

−6 −4 −2 0 2 4 6

−6−4−20246

PC 1

PC 3

1

2 3 45

6 7

8

9 10 11 12 13

1415 16 17

18 19

20 21 2223

24 25 2726 2928 30

31 32

33 34

35 3637 38 39 40 41

42 4344

45 4647

48

49 50 5251 53

54 55 56

57 58

59 60

6162 63 64 65 66

67

68 69 70 71 72 737475 76

7877 8079 81

8382 84

85 86 87 88 89 90

9192 93 94

95 96

97 98 99

100 102101

103

104 105 106107 109108110 111 112

114113 115116 117118119

120

121122 123

124 125 126

127 128 129

130 131 133132

134 135 136137 138

139 140141

142 143 144 145 146 147

148 149 150 151

152

153 154

155 156

157 158

159160 161 162 163 164

165 166 167

168 170169

172171 173 174 175 176

177178 179 180

181

182 183

184

185 186 187

189188 190 191

192 193 194195 196

197 198199 200201

202 204203 205

206207 209208

210 211

212 213 214

215 216

217 218

219 220 221

222 223 224 225 226

227 228 229

230

231 232 234233

235 236 237 238 239240241

242 243 244

245246 247

248 249 250

251 252 253 254

255256 257

258

259 260 261 262 263

265264

266 267 268 269

270 271 272

273 275274 276 278 279277 280 281 283282

284 285

286 287 288289 290 291 292

293

294 295 296

297

298 299 300

301

302 303 304

305

306 307

308

309 310311 312

313 314 315 316317 318 319320 321322

323 324 325 326

327 328 329 330

331 332 333

334335 336

337338 339340341 342

343 344 345

346347 349348

350 351 352

353 354

355 356

358357 359 360 361

362 363 364 365

366 367 369 368 371370372 373

374375 376

377 378

379 380

381

382

383384 385 386388387 390 389 391 392

393 394395396

397 398

399

400 402 401 403 404

405 406

407 408

409 410

411

412

413 414

416 415 417

418 419

420

421 422 423

425424 426 427

428

429430 431432 433

434435436 437

438 439

440 442 441 443

444 445

446

447 449448 450

451

452 453 454

455 456

457 458

459 460

461

462 464463 465466

467

468 469 470 472471 473 474

475 477476

478 479 481 480 482 483

484 485486 488487

489 490 491 492 493 494 495496

497 498 499

500 502 501

503 504505

506

−0.2 0.0 0.2 0.4

−0.20.00.20.4

ZN CRIM

INDUS

CHAS

NOX RM

AGE DIS

RAD

TAX

PTRATIO

B

LSTAT MEDV

各点：y_i^⊤= [y_i,1, y_i,2] = [x_i^⊤v₁, x_i^⊤v₂] 矢印の方向：uj = [v1,jv2,j] =e_j^⊤[v1, v2].

矢印は各変数が主成分の上でどの方向を向いているかを示している．