2012/11/30: 凸最適化に基づくテンソル分解アルゴリズム

(1)

凸最適化に基づく

テンソル分解アルゴリズム

冨岡亮太

[email protected]

共同研究者：鈴木大慈、林浩平、鹿島久嗣

東京大学大学院情報理工学系研究科数理情報学専攻

(2)

自己紹介

•  専門：

–  統計的機械学習 / データマイ

ニング / 数理計画

•  機械学習？

–  多種多量のデータを解析する

ための方法論

•  例：ビジネス、医療、バイオ

_{New
York
Times
2012/11/24}

•  今回のミニシンポジウムとの関係

(3)

テンソル型データ

•  行列型データの拡張として捉えられる

Vector (1D)

Matrix (2D)

Tensor (3D)

Sam

pl

es

Sam

pl

es

Features

Sam

pl

es

Features

(4)

テンソル型データで何をしたいか

•  ノイズに埋もれた低ランク構

造を復元したい。

–  主成分分析の多次元拡張

•  欠損値を復元したい。

–  例：いくつかのセンサーが壊

れている

–  レコメンデーション

（e.g., Amazon, Facebook）

−5 −4 −3 −2 −1 0 1 2 3 4 5 −3 −2 −1 0 1 2 3

(5)

復習：特異値分解 (SVD)

X

=

U

Σ

V

T

d

₁

r

d

₂

where U, V: Orthogonal (U

T

_{U=I,
V}

T

_V=I)

=

1 ...

r

σ

_j

: jth largest singular value

r: rank (number of non-‐zero

singular values)

• Note: r ≤ min(d

₁

,d

₂

)

• Can be computed eﬃciently even for very large matrices

(see Liberty et al. “Randomized algorithms for the low-‐

rank approximaEon of matrices.”PNAS, 2007)

d

₂

(6)

Tucker 分解

[Tucker 66]

•  それぞれのモード（次元）が異なるランクを

持つ

•  直交変換の不定性

–  通常はコアが all-orthogonal となるようにする。

d

₁

d

₂

d

₃

X

_ijk

=

r

₁

⇤

a

=1

r

₂

⇤

b

=1

r

₃

⇤

c

=1

C

_abc

U

_i

(1)

_a

U

_j

(2)

_b

U

_k

(3)

_c

⇥

r

₁

r

₂

r

₃

=

1 d

1

2

3 r

₁

d

₂

r

₂

d

₃

r

₃

Core

Factors

(7)

Tucker 分解の計算

n

1 n

2 n

3 n

1 n

2 n

2 _・

n

3 Mode-1 unfolding

_X

₍₁₎

1.  テンソルの展開（行列化）

2.  特異値分解

3.  すべてのモードに関して繰り返す

X

₍₁₎

U

(1)

_V

1 T

=

Σ

₁

d

₁

d

₂

d

₃

d

₁

r

₁

r

₁

r

₁

r

₁

d

₂

d

₃

d

₁

d

₂

d

3 d

₁

d

₂

d

₂

d

₂

d

₂

d

₃

(8)

コアの計算

U

(1)

_{, U}

(2)

_{, U}

(3)

_{を計算したあと、}

d

₁

d

₂

d

₃

r

₁

r

₂

r

₃

=

₁

₂

₃

d

₁

r

₁

r

₂

d

2 r

₃

d

3 Core

Factors

C

_abc

=

d

1 X

i

=1

d

2 X

j

=1

d

3 X

k

=1

X

_ijk

U

_i

(1)

_a

U

_j

(2)

_b

U

_k

(3)

_c

(9)

ランダムテンソル理論？

•  Marchenko-Pastur 分布 (ランダム行列

の特異値の分布)

0 50 100 150 200 0 5 10 15 20 25 30 35 40 Order Singular values Gaussian, size=[200 500] 0 50 100 150 200 0 5 10 15 20 25 30 35 40 Order Singular values Uniform, size=[200 500] empirical spectrum theory empirical spectrum theory

テンソルのコアについて似たようなことが言えるか？

(10)

CP分解

•  CP = CANDECOMP

[Carroll & Chang 70]

/

PARAFAC

[Harshman 70]

d

₁

d

₂

d

₃

=

R

r=1

a

r

b

_r

c

_r

X

_ijk

=

R

r=1

a

_ir

b

_jr

c

_kr

Tucker分解の特別な場合（コアが対角）と見なせる

C =

_R

R

最小のRは

ランク

と

呼ばれる。

(11)

CP分解の性質

•  ランクの判定は

NP完全

[Håstad 90]

– 実際には適当なランクで近似することが多い。

•  CP分解はある条件のもとでスケーリング

と置換の自由度を除いて

ユニーク

k-rank: 行列の任意のk本の列が線形独立

となる最大のk

(12)

CP分解の性質（続き）

X is rank 3

Y is rank 2

⌃X

Y⌃

F

⇥ 0

( ⇥ ⇤)

Kolda & Bader 2009

X = a

1 b

1 c

2 + a

₁

b

₂

c

₁

+ a

₂

b

₁

c

₁

Y = (a

1 +

1 a

2 ) ⇥ (b

1 +

1 b

2 ) ⇥ (c

1 +

1 c

2 )

(13)

従来のテンソル分解法の問題

•  ノイズや欠損値にどう対応するか

–  単純にSVDはできない

–  繰り返し最適化法は

局所最適

•  ランクをどう選ぶか

–  ランクが高すぎると

•  ノイズの影響を受けやすい（オーバーフィット）

•  計算量多い（計算量トレードオフ）

–  何ら仮定なしに欠損値の復元は不可能

•  低ランク性はひとつの有効な仮定

凸最適化に基づく

大域最適

な推定法

（かつ

ランク自動決定

）を提案

(14)

凸関数・非凸関数

x

f(x)

y

f(y)

f(x)

f(y)

Non−convex

Convex

(15)

(-‐1,-‐1)

(1,1)

u

v

低ランク分解が局所最適になるイメージ

最適化問題

Non-‐convex!

minimize

U

,

V

(ij)⇥

(y

_ij

u

_i

⇤

v

_j

)

2

(16)

ランク制約？

minimize

W

(ij)⇤

(y

_ij

w

_ij

)

2 ,

subject to

rank(

_W

)

_{⇥ r}

最適化問題

SEll non-‐convex!

W=UV

T

_{を言い換えただけ}

(17)

ランクの凸緩和

Schatten

p

-ノルム

(のp乗)

−3

0 −2

−1

0

1

2

3

1

2

3

4 |x|

0.01

|x|

0.5

|x|

x

2

p=1

は最もタイ

トな凸緩和

(

trace norm /

nuclear norm

と

も呼ばれる

)

j

(

W

)

: jth largest singular value

W

p

_S

p

:=

r

j=1

p

j

(

W

)

⇤

W

_⇤

p

_S

p

_⇥0

⇥ rank(

W

)

(18)

凸最適化に基づく低ランク行列補完

minimize

W

(ij)⇤

(y

_ij

w

_ij

)

2 ,

subject to

_⌅

_W

_⌅

_S

₁

_⇥

最適化問題

_凸緩和

Schatten 1-ノルム

j

(

W

)

: jth largest singular value

W

_S

₁

=

r

j=1 j

(

W

)

(19)

Tuckerランクの凸緩和

Schatten 1-norm of

the

mode-l unfolding

W

_S

₁

:=

1 L

L

X

l=1

kW

(l)

k

S

₁

n

1 n

2 n

3 n

1 n

2 n

2 _・

n

3 Mode-1 unfolding

_X

₍₁₎

d

₁

d

₂

d

3 d

₁

d

₂

d

₂

d

₂

d

₂

d

₃

(20)

復元性能

minimize

X

S

1 ,

subject to X

ijk

= Y

ijk

((i, j, k)

)

最適化問題

0

0.2

0.4

0.6

0.8

1

10

−3

10

0

Fraction of observed elements

Estimation error

Convex

Tucker (exact)

Optimization tolerance

相転移！→なぜか？

(21)

解析：問題設定

観測モデル

ガウス雑音

最適化問題

正則化定数

観測作用素

X

(W) = ( X

₁

,

_{W , . . . , X}

_M

,

_{W )}

データ尤度

正則化項

ˆ

W =

argmin

W R

n1 ··· nK

1

2 y

X

(W)

2

2 +

M

W

_S

₁

y

_i

= X

_i

,

W +

_i

(i = 1, . . . , M)

W

: 真のテンソルランク(r

₁

,...,r

_L

)

D =

L

Y

l=1

d

_k

!

X :

R

D

_{! R}

M

(22)

解析結果

（ランダムガウスデザイン）

1. サンプル数Mに関する条件

2. 正則化定数λ

_M

に関する条件

正規化ランク

#samples(M )

#variables(D)

c

1 kd

1 k

1/2

krk

1/2

⇡

r

d

M

c

0 X

L

l=1

⇣p

d

_l

+

p

D/d

_l

⌘

/(L

p

M )

ˆ

W

⇤ 2

_F

N

 O

p

2 _kd

1 _k

1/2

krk

1/2

M

!

kd

1 k

1/2

:=

⇣

1 L

P

L

l=1

p

1/d

_l

⌘

2 ,

_krk

_1/2

:=

⇣

_L

1 P

L

_l=1

p

r

_l

⌘

2

(23)

0

0.2

0.4

0.6

0.8

0

0.2

0.4

0.6

0.8

1 Normalized rank ||n

−1

||

1/2

||r||

1/2

Fraction at err<=0.01

size=[50 50 20]

size=[100 100 50]

size=[50 50 20 10]

0 0.2 0.4 0.6 0.8 1 10−3 100

Fraction of observed elements

Estimation error Convex [7 8 9] Covex [40 9 7] Optimization tolerance

0.01 テンソル補完性能

観測ノイズなし

相転移点

size = 50x50x20 true rank 7x8x9 or 40x9x7

正規化ランク

#samples(M )

#variables(D)

(24)

ディスカッション

•  ランダムガウスデザイン（＝Xの要素が独

立同一なガウス乱数）

– 解析が容易（ランダム行列の最大特異値）

– テンソル補完の状況とは異なる

– それにも関わらず理論と実験はよく一致

•  理論はかなり悲観的

– 必要なサンプル数

M = O(rd

L 1

)

O(rdL + r

L

)

(25)

まとめ

•  Tucker 分解 (=HOSVD)

–  ランクの判定は容易

–  特異値 -> コアテンソル

–  不定性、局所最適

•  CP 分解

–  ランクの判定はNP完全

–  分解がユニークになる場合がある

–  局所最適

•  凸最適化にもとづくHOSVD

–  大域最適解が求まる

–  解の統計的な性質の理論解析が可能

–  計算量的には改善が必要

(26)

参考文献

•  Kolda & Bader (2009) Tensor decompositions and applications. SIAM Review, 51(3):455‒500. •  Tucker (1966) Some mathematical notes on three-mode factor analysis. Psychometrika, 31(3):279‒

311.

•  Candès & Recht. Exact matrix completion via convex optimization. Found. Comput. Math., 9(6):717‒ 772, 2009.

•  Candès & Tao. The power of convex relaxation: near-optimal matrix completion. IEEE Trans. Inform. Theory, 56(5):2053‒2080, 2010.

•  Foygel & Srebro. Concentration-based guarantees for low-rank matrix reconstruction. Arxiv preprint arXiv:1102.3923, 2011.

•  Gandy, Recht, & Yamada (2011) Tensor completion and low-n-rank tensor recovery via convex optimization. Inverse Problems, 27:025010.

•  Liu, Musialski, Wonka, & Ye. (2009) Tensor completion for estimating missing values in visual data. In Prof. ICCV.

•  Signoretto, de Lathauwer, & Suykens (2010) Nuclear norms for tensors and their use for convex multilinear estimation. Tech Report 10-186, K.U.Leuven.

•  Recht, Fazel, & Parrilo (2010) Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization. SIAM Review, 52(3):471‒501.

•  Tomioka, Hayashi, & Kashima (2011) Estimation of low-rank tensors via convex optimization. Technical report, arXiv:1010.0789, 2011.

•  Tomioka, Suzuki, Hayashi, & Kashima (2011) Statistical performance of convex tensor decomposition. Advances in NIPS 24. 2011, Granada, Spain.

2012/11/30: 凸最適化に基づく テンソル分解アルゴリズム

凸最適化に基づく

テンソル分解アルゴリズム

冨岡 亮太

[email protected]

共同研究者：鈴木大慈、林浩平、鹿島久嗣

東京大学 大学院情報理工学系研究科 数理情報学専攻

自己紹介

• 専門：

– 統計的機械学習 / データマイ

ニング / 数理計画

• 機械学習？

– 多種多量のデータを解析する

ための方法論

• 例：ビジネス、医療、バイオ

New York Times 2012/11/24

• 今回のミニシンポジウムとの関係

テンソル型データ

• 行列型データの拡張として捉えられる

Vector (1D)

Matrix (2D)

Tensor (3D)

Sam

pl

es

Sam

pl

es

Features

Sam

pl

es

Features

テンソル型データで何をしたいか

• ノイズに埋もれた低ランク構

造を復元したい。

– 主成分分析の多次元拡張

• 欠損値を復元したい。

– 例：いくつかのセンサーが壊

れている

– レコメンデーション

（e.g., Amazon, Facebook）

復習：特異値分解 (SVD)

X

=

U

Σ

V

T

d

1

r

r

r

d

2

where U, V: Orthogonal (U

T

U=I, V

T

V=I)

=

1

...

r

σ

j

: jth largest singular value

r: rank (number of non-­‐zero

singular values)

•

Note: r ≤ min(d

1

,d

2

)

•

Can be computed eﬃciently even for very large matrices

(see Liberty et al. “Randomized algorithms for the low-­‐

rank approximaEon of matrices.”PNAS, 2007)

2012/11/30: 凸最適化に基づくテンソル分解アルゴリズム

冨岡亮太

東京大学大学院情報理工学系研究科数理情報学専攻

•  専門：

–  統計的機械学習 / データマイ

•  機械学習？

–  多種多量のデータを解析する

•  例：ビジネス、医療、バイオ

_{New
York
Times
2012/11/24}

•  今回のミニシンポジウムとの関係

•  行列型データの拡張として捉えられる

•  ノイズに埋もれた低ランク構

–  主成分分析の多次元拡張

•  欠損値を復元したい。

–  例：いくつかのセンサーが壊

–  レコメンデーション

₁

₂

_{U=I,
V}

_V=I)

_j

r: rank (number of non-‐zero

• 

₁

₂

• 

(see Liberty et al. “Randomized algorithms for the low-‐

₂

•  それぞれのモード（次元）が異なるランクを

•  直交変換の不定性

–  通常はコアが all-orthogonal となるようにする。

₁

₂

₃

_ijk

_abc

_i

_a

_j

_b

_k

_c

₁

₂

₃

₁

₂

₂

₃

₃