• 検索結果がありません。

.

定義

.

.

.

. . .

.

.

w

t

:

以下の停止基準による近似的な

DAL

法で得られる点列.

∥∇ ϕ

t

t

) ∥ ≤ q

γ

ηt

w

t+1

w

t

µ 1/γ:

損失関数の微分

f

のリプシッツ定数

.

.

定理

2

.

.

.

. . .

.

.

定理

1

と同じ仮定のもとで

w

t+1

w

∥ ≤ 1

1 + 2ση

t

w

t

w

.

η

t が増加するなら,

w

t

w

に超1次収束する.

収束レートは厳密な場合

( ∥∇ ϕ

t

t

) = 0)

より少し悪い.

同程度の収束レートは内部最小化をもう少し厳しくすることで達成 可能 ∥∇wt+1ϕtwt)t

O(1/η

t

).

冨岡 亮太(東大) RAMP2011 2011-10-25 22 / 37

. . . . . .

定理 2 (近似的最小化)

.

定義

.

.

.

. . .

.

.

w

t

:

以下の停止基準による近似的な

DAL

法で得られる点列.

∥∇ ϕ

t

t

) ∥ ≤ q

γ

ηt

w

t+1

w

t

µ 1/γ:

損失関数の微分

f

のリプシッツ定数

.

.

定理

2

.

.

.

.

.

定理

1

と同じ仮定のもとで

w

t+1

w

∥ ≤ 1

1 + 2ση

t

w

t

w

.

η

t が増加するなら,

w

t

w

に超1次収束する.

収束レートは厳密な場合

( ∥∇ϕ

t

t

)∥ = 0)

より少し悪い.

同程度の収束レートは内部最小化をもう少し厳しくすることで達成 可能 ∥∇wt+1ϕtwt)t

O(1/η

t

).

冨岡 亮太(東大) RAMP2011 2011-10-25 22 / 37

. . . . . .

.

定理

1

の証明(エッセンス)

.

.

.

. . .

.

.

w

t+1は,

f(w) +

1

t

w w

t

2を最小化するので,

(w

t

w

t+1

)/η

t

∂f (w

t+1

)

(劣微分に入る)

従って

(Beck & Teboulle 09)

f (w

) f (w

t+1

) D

(w

t

w

t+1

)/η

t

, w

w

t+1

E

.

w wt+1 f(w)

f(wt+1)

冨岡 亮太(東大) RAMP2011 2011-10-25 23 / 37

. . . . . .

.

定理

2

の証明(エッセンス)

.

.

.

. . .

.

.

f (w

) f (w

t+1

) D

(w

t

w

t+1

)/η

t

, w

w

t+1

E 1

∥∇ ϕ

t

t

)

2

| {z }

近似最小化のコスト

.

1/γ:

損失関数の微分

f

のリプシッツ定数.

w wt+1 f(w)

f(wt+1)

. . . . . .

構造付きスパース推定問題のための最適化手法

Alternating Direction Method of Multipliers (ADMM)

冨岡 亮太(東大) RAMP2011 2011-10-25 25 / 37

. . . . . .

拡張ラグランジュ法 [Powell 69; Hestenes 69]

.

最小化問題

.

.

.

. . .

.

.

minimize

x,z

f(x) + λ z

1

, s.t. z = Φx

.

拡張ラグランジアン

.

.

.

. . .

.

.

L

η

(x , z, α) = f (x ) + λ z

1

+ α

(z Φx ) + η

2 z Φx

2

.

.

拡張ラグランジュ法

.

.

.

.

.

 

 

 

 

 

 

拡張ラグランジアンを

x , z

に関して最小化

: (x

t+1

, z

t+1

) = argmin

x∈Rn,z∈Rm

L

ηt

(x , z , α

t

).

ラグランジュ乗数を更新

: α

t+1

= α

t

+ η

t

(z

t+1

Φx

t+1

).

x

z

の間に絡みが発生

!

(別々に最小化できない)

冨岡 亮太(東大) RAMP2011 2011-10-25 26 / 37

. . . . . .

Alternating Direction Method of Multipliers (ADMM; Gabay

& Mercier 76)

.

拡張ラグランジアン

.

.

.

. . .

.

.

L

η

(x , z, α) = f (x ) + λ z

1

+ α

(z Φx ) + η

2 z Φx

2

.

 

 

 

 

 

 

 

 

 

 

拡張ラグランジアンを

x

に関して最小化

: x

t+1

= argmin

x∈Rn

L

ηt

(x , z

t

, α

t

).

拡張ラグランジアンを

z

に関して最小化

: z

t+1

= argmin

z∈Rm

L

ηt

(x

t+1

, z , α

t

).

ラグランジュ乗数を更新

: α

t+1

= α

t

+ η

t

(z

t+1

Φx

t+1

).

今更新した

x

t+1

z

t+1の計算に入っているところがポイント.

冨岡 亮太(東大) RAMP2011 2011-10-25 27 / 37

. . . . . .

ADMM (Gabay & Mercier 76)

.

拡張ラグランジアン

.

.

.

. . .

.

.

L

η

(x , z, α) = f (x ) + λ∥ z

1

+ α

(z Φx ) + η

2 z Φx

2

.

書き直すと

 

 

 

x

t+1

= argmin

x∈Rn

L

ηt

(x , z

t

, α

t

).

z

t+1

= argmin

z∈Rm

L

ηt

(x

t+1

, z, α

t

).

α

t+1

= α

t

+ η

t

(z

t+1

Φx

t+1

).

z

に関する最小化は

Prox

作用素

prox

λ/ηt(簡単).

x

に関する最小化は行列

Φ

が変数を絡ませるのでちょっと難しい.

1

反復あたりのコストが同じなら近接勾配法より経験的に速い(理 論的には不明)

双対側での

Douglas Rachford Splitting

と等価

ステップサイズ

η

によらず

ADMM

は安定.

(Lions & Mercier 76; Eckstein & Bertsekas 92)

. . . . . .

ADMM (Gabay & Mercier 76)

.

拡張ラグランジアン

.

.

.

. . .

.

.

L

η

(x , z, α) = f (x ) + λ z

1

+ α

(z Φx ) + η

2 z Φx

2

.

書き直すと

 

 

 

 

x

t+1

= argmin

x∈Rn

³

f(x) + η

t

2 z

t

Φx + α

t

t

2

´ . z

t+1

= argmin

z∈Rm

L

ηt

(x

t+1

, z, α

t

).

α

t+1

= α

t

+ η

t

(z

t+1

Φx

t+1

).

z

に関する最小化は

Prox

作用素

prox

λ/η

t(簡単).

x

に関する最小化は行列

Φ

が変数を絡ませるのでちょっと難しい.

1

反復あたりのコストが同じなら近接勾配法より経験的に速い(理 論的には不明)

双対側での

Douglas Rachford Splitting

と等価

ステップサイズ

η

によらず

ADMM

は安定.

(Lions & Mercier 76; Eckstein & Bertsekas 92)

冨岡 亮太(東大) RAMP2011 2011-10-25 28 / 37

. . . . . .

ADMM (Gabay & Mercier 76)

.

拡張ラグランジアン

.

.

.

. . .

.

.

L

η

(x , z, α) = f (x ) + λ z

1

+ α

(z Φx ) + η

2 z Φx

2

.

書き直すと

 

 

 

 

x

t+1

= argmin

x∈Rn

³

f(x) + η

t

2 z

t

Φx + α

t

t

2

´ . z

t+1

= argmin

z∈Rm

³

λ z

1

+ η

t

2 z Φx

t+1

+ α

t

t

2

´ . α

t+1

= α

t

+ η

t

(z

t+1

Φx

t+1

).

z

に関する最小化は

Prox

作用素

prox

λ/ηt(簡単).

x

に関する最小化は行列

Φ

が変数を絡ませるのでちょっと難しい.

1

反復あたりのコストが同じなら近接勾配法より経験的に速い(理 論的には不明)

双対側での

Douglas Rachford Splitting

と等価

ステップサイズ

η

によらず

ADMM

は安定.

(Lions & Mercier 76; Eckstein & Bertsekas 92)

. . . . . .

ADMM (Gabay & Mercier 76)

.

拡張ラグランジアン

.

.

.

. . .

.

.

L

η

(x , z, α) = f (x ) + λ z

1

+ α

(z Φx ) + η

2 z Φx

2

.

書き直すと

 

 

 

 

x

t+1

= argmin

x∈Rn

³

f(x) + η

t

2 z

t

Φx + α

t

t

2

´ . z

t+1

= argmin

z∈Rm

³

λ z

1

+ η

t

2 z Φx

t+1

+ α

t

t

2

´ . α

t+1

= α

t

+ η

t

(z

t+1

Φx

t+1

).

z

に関する最小化は

Prox

作用素

prox

λ/ηt(簡単).

x

に関する最小化は行列

Φ

が変数を絡ませるのでちょっと難しい.

1

反復あたりのコストが同じなら近接勾配法より経験的に速い(理 論的には不明)

双対側での

Douglas Rachford Splitting

と等価

ステップサイズ

η

によらず

ADMM

は安定.

(Lions & Mercier 76; Eckstein & Bertsekas 92)

冨岡 亮太(東大) RAMP2011 2011-10-25 28 / 37

. . . . . .

テンソルの穴埋め問題への凸最適化の適用 [Liu+09,

Signoretto +10, Tomioka+10, Gandy+11]

凸最適化の適用のポイント

:

テンソルの行列化

(Matricization)

テンソルが

Tucker

分解の意味で低ランク

そのテンソルの行列化は(行列の意味で)低ランク

n 1n 2 n 3 n 1 n 2 n 2 n 2

n 3

モード1 行列化

n 1n 2 n 3 n 2 n 3 n 3 n 3

n 1

モード2 行列化

X

(1)

X

(2)

. . . . . .

テンソルの穴埋め問題への ADMM の適用

数学的な定式化

: minimize

x,z1,...,zK∈RN

1

Ωx y

2

+ X

K k=1

γ

k

| {z } Z

k

S1

低ランク化

,

s.t. P

k

x = z

k

(k = 1, . . . , K ),

x

は推定すべきテンソルをベクトルとして書いたもの.

y R

Mは観測.(

M N = n

1

n

2

· · · n

K

)

P

k はモード

k

行列化の操作を行列で表現したもの.

P

k

P

k

= I

(行列化は直交変換).

すべてのモードが同時に低ランクになるように正則化.

冨岡 亮太(東大) RAMP2011 2011-10-25 30 / 37

. . . . . .

テンソルの穴埋め問題への ADMM の適用

拡張ラグランジアン

L

η

(x , { Z

k

}

Kk=1

, { α

k

}

Kk=1

) = 1

Ωx y

2

+ X

K k=1

γ

k

Z

k

S1

+ X

K k=1

³

α

k⊤

(P

k

x z

k

) + η

2 P

k

x z

k

2

´ .

x

に関する最小化

P

k が直交行列なので解析的に

O(N)

で計算可能.

Z

k

z

k を行列として並べたもの)に関する最小化は

Schatten 1-

ノ ルムに関する

Prox

作用素.

ラグランジュ乗数ベクトルは制約の数(モードの数)だけ必要.

. . . . . .

関連したドキュメント