（近似的最小化） - 2011/10/25: 機械学習における連続最適化の新しいトレンド

.

定義

.

. . .

.

w

:

以下の停止基準による近似的な

DAL

法で得られる点列．

∥∇ ϕ

(α

) ∥ ≤ q

ηt

∥ w

^t+1

− w

∥

µ 1/γ:

損失関数の微分

∇ f

_ℓのリプシッツ定数

.

¶

.

定理

2 .

. . .

.

定理

1

と同じ仮定のもとで

∥ w

^t+1

− w

^∗

∥ ≤ 1

√ 1 + 2ση

∥ w

− w

^∗

∥ .

⇒ η

t が増加するなら，

w

^t は

w

^∗に超１次収束する．

収束レートは厳密な場合

( ∥∇ ϕ

(α

) ∥ = 0)

より少し悪い．

同程度の収束レートは内部最小化をもう少し厳しくすることで達成可能 _∥^∥∇_wt+1^ϕ^t^(α−w^t⁾^t^∥∥

≤ O(1/η

).

冨岡亮太(東大) RAMP2011 2011-10-25 22 / 37

. . . . . .

定理 2 _{（近似的最小化）}

.

定義

.

. . .

.

w

:

以下の停止基準による近似的な

DAL

法で得られる点列．

∥∇ ϕ

(α

) ∥ ≤ q

ηt

∥ w

^t+1

− w

∥

µ 1/γ:

損失関数の微分

∇ f

_ℓのリプシッツ定数

.

¶

.

定理

2 .

定理

1

と同じ仮定のもとで

∥ w

^t+1

− w

^∗

∥ ≤ 1

√ 1 + 2ση

∥ w

− w

^∗

∥ .

⇒ η

t が増加するなら，

w

^t は

w

^∗に超１次収束する．

収束レートは厳密な場合

( ∥∇ϕ

(α

)∥ = 0)

より少し悪い．

同程度の収束レートは内部最小化をもう少し厳しくすることで達成可能 _∥^∥∇_wt+1^ϕ^t^(α−w^t⁾^t^∥∥

≤ O(1/η

).

冨岡亮太(東大) RAMP2011 2011-10-25 22 / 37

. . . . . .

.

定理

1

の証明（エッセンス）

.

. . .

.

w

^t+1は，

f(w) +

_2η¹

∥ w − w

∥

²を最小化するので，

(w

− w

^t⁺¹

)/η

∈ ∂f (w

^t+1

)

（劣微分に入る）

従って

(Beck & Teboulle 09)

，

f (w

^∗

) − f (w

^t+1

) ≥ D

(w

− w

^t+1

)/η

, w

^∗

− w

^t⁺¹

E

.

w^∗ w^t+1 f(w^∗)

f(w^t+1)

冨岡亮太(東大) RAMP2011 2011-10-25 23 / 37

. . . . . .

.

定理

2

の証明（エッセンス）

.

. . .

.

f (w

^∗

) − f (w

^t+1

) ≥ D

(w

− w

^t⁺¹

)/η

, w

^∗

− w

^t+1

E − 1

2γ ∥∇ ϕ

(α

) ∥

| {z }

近似最小化のコスト

.

1/γ:

_{損失関数の微分}

∇ f

_ℓ_{のリプシッツ定数．}

w^∗ w^t+1 f(w^∗)

f(w^t+1)

. . . . . .

構造付きスパース推定問題のための最適化手法

Alternating Direction Method of Multipliers (ADMM)

冨岡亮太(東大) RAMP2011 2011-10-25 25 / 37

. . . . . .

拡張ラグランジュ法 [Powell 69; Hestenes 69]

.

最小化問題

.

. . .

.

minimize

x,z

f(x) + λ ∥ z ∥

, s.t. z = Φx

.

拡張ラグランジアン

.

. . .

.

L

_η

(x , z, α) = f (x ) + λ ∥ z ∥

+ α

^⊤

(z − Φx ) + η

2 ∥ z − Φx ∥

.

拡張ラグランジュ法

.

 

 



 

 

拡張ラグランジアンを

x , z

に関して最小化

: (x

^t+1

, z

^t+1

) = argmin

x∈Rⁿ,z∈R^m

L

_η_t

(x , z , α

).

ラグランジュ乗数を更新

: α

^t+1

= α

+ η

(z

^t+1

− Φx

^t+1

).

x

と

z

の間に絡みが発生

!

（別々に最小化できない）

冨岡亮太(東大) RAMP2011 2011-10-25 26 / 37

. . . . . .

Alternating Direction Method of Multipliers (ADMM; Gabay

& Mercier 76)

.

拡張ラグランジアン

.

. . .

.

L

_η

(x , z, α) = f (x ) + λ ∥ z ∥

+ α

^⊤

(z − Φx ) + η

2 ∥ z − Φx ∥

.

 

 



 

 

拡張ラグランジアンを

x

_{に関して最小化}

: x

^t⁺¹

= argmin

x∈Rⁿ

L

_η_t

(x , z

, α

).

拡張ラグランジアンを

z

に関して最小化

: z

^t+1

= argmin

z∈R^m

L

_η_t

(x

^t+1

, z , α

).

ラグランジュ乗数を更新

: α

^t+1

= α

+ η

(z

^t⁺¹

− Φx

^t⁺¹

).

今更新した

x

^t+1_が

z

^t⁺¹の計算に入っているところがポイント．

冨岡亮太(東大) RAMP2011 2011-10-25 27 / 37

. . . . . .

ADMM (Gabay & Mercier 76)

.

拡張ラグランジアン

.

. . .

.

L

_η

(x , z, α) = f (x ) + λ∥ z ∥

+ α

^⊤

(z − Φx ) + η

2 ∥ z − Φx ∥

.

書き直すと

 

 

 



x

^t+1

= argmin

x∈Rⁿ

L

_η_t

(x , z

, α

).

z

^t+1

= argmin

z∈R^m

L

_η_t

(x

^t+1

, z, α

).

α

^t+1

= α

+ η

(z

^t+1

− Φx

^t⁺¹

).

z

に関する最小化は

Prox

作用素

prox

_λ/η_t（簡単）．

x

に関する最小化は行列

Φ

が変数を絡ませるのでちょっと難しい．

1

反復あたりのコストが同じなら近接勾配法より経験的に速い（理論的には不明）

双対側での

Douglas Rachford Splitting

と等価

⇒

^{ステップサイズ}

η

によらず

ADMM

は安定．

(Lions & Mercier 76; Eckstein & Bertsekas 92)

. . . . . .

ADMM (Gabay & Mercier 76)

.

拡張ラグランジアン

.

. . .

.

L

_η

(x , z, α) = f (x ) + λ ∥ z ∥

+ α

^⊤

(z − Φx ) + η

2 ∥ z − Φx ∥

.

書き直すと

 

 



 

 

x

^t+1

= argmin

x∈Rⁿ

³

f(x) + η

2 ∥ z

− Φx + α

/η

∥

´ . z

^t+1

= argmin

z∈R^m

L

_η_t

(x

^t+1

, z, α

).

α

^t+1

= α

+ η

(z

^t+1

− Φx

^t⁺¹

).

z

に関する最小化は

Prox

作用素

prox

_λ/η

t（簡単）．

x

に関する最小化は行列

Φ

が変数を絡ませるのでちょっと難しい．

1

反復あたりのコストが同じなら近接勾配法より経験的に速い（理論的には不明）

双対側での

Douglas Rachford Splitting

と等価

⇒

ステップサイズ

η

によらず

ADMM

は安定．

(Lions & Mercier 76; Eckstein & Bertsekas 92)

冨岡亮太(東大) RAMP2011 2011-10-25 28 / 37

. . . . . .

ADMM (Gabay & Mercier 76)

.

拡張ラグランジアン

.

. . .

.

L

_η

(x , z, α) = f (x ) + λ ∥ z ∥

+ α

^⊤

(z − Φx ) + η

2 ∥ z − Φx ∥

.

書き直すと

 

 



 

 

x

^t+1

= argmin

x∈Rⁿ

³

f(x) + η

2 ∥ z

− Φx + α

/η

∥

´ . z

^t+1

= argmin

z∈R^m

³

λ ∥ z ∥

+ η

2 ∥ z − Φx

^t⁺¹

+ α

/η

∥

´ . α

^t+1

= α

+ η

(z

^t+1

− Φx

^t⁺¹

).

z

に関する最小化は

Prox

作用素

prox

_λ/η_t（簡単）．

x

に関する最小化は行列

Φ

が変数を絡ませるのでちょっと難しい．

1

反復あたりのコストが同じなら近接勾配法より経験的に速い（理論的には不明）

双対側での

Douglas Rachford Splitting

と等価

⇒

ステップサイズ

η

によらず

ADMM

は安定．

(Lions & Mercier 76; Eckstein & Bertsekas 92)

. . . . . .

ADMM (Gabay & Mercier 76)

.

拡張ラグランジアン

.

. . .

.

L

_η

(x , z, α) = f (x ) + λ ∥ z ∥

+ α

^⊤

(z − Φx ) + η

2 ∥ z − Φx ∥

.

書き直すと

 

 



 

 

x

^t+1

= argmin

x∈Rⁿ

³

f(x) + η

2 ∥ z

− Φx + α

/η

∥

´ . z

^t+1

= argmin

z∈R^m

³

λ ∥ z ∥

+ η

2 ∥ z − Φx

^t⁺¹

+ α

/η

∥

´ . α

^t+1

= α

+ η

(z

^t+1

− Φx

^t⁺¹

).

z

に関する最小化は

Prox

作用素

prox

_λ/η_t（簡単）．

x

に関する最小化は行列

Φ

が変数を絡ませるのでちょっと難しい．

1

反復あたりのコストが同じなら近接勾配法より経験的に速い（理論的には不明）

双対側での

Douglas Rachford Splitting

と等価

⇒

ステップサイズ

η

によらず

ADMM

は安定．

(Lions & Mercier 76; Eckstein & Bertsekas 92)

冨岡亮太(東大) RAMP2011 2011-10-25 28 / 37

. . . . . .

テンソルの穴埋め問題への凸最適化の適用 ^[Liu+09,

Signoretto +10, Tomioka+10, Gandy+11]

凸最適化の適用のポイント

:

テンソルの行列化

(Matricization)

テンソルが

Tucker

分解の意味で低ランク

⇔

そのテンソルの行列化は（行列の意味で）低ランク

n 1n 2 n 3 n 1 n 2 n 2 n 2

n 3

モード¹ 行列化

n 1n 2 n 3 n 2 n 3 n 3 n 3

n 1

モード² 行列化

X

(1)

X

(2)

. . . . . .

テンソルの穴埋め問題への ADMM _の適用

数学的な定式化

: minimize

x,z₁,...,z_K∈R^N

1 2λ ∥ Ωx − y ∥

+ X

K k=1

γ

∥ | {z } Z

∥

低ランク化

,

s.t. P

x = z

(k = 1, . . . , K ),

x

は推定すべきテンソルをベクトルとして書いたもの．

y ∈ R

^Mは観測．（

M ≪ N = n

₁

n

₂

· · · n

)

P

_k _はモード

k

行列化の操作を行列で表現したもの．

P

_k^⊤

P

= I

（行列化は直交変換）．

すべてのモードが同時に低ランクになるように正則化．

冨岡亮太(東大) RAMP2011 2011-10-25 30 / 37

. . . . . .

テンソルの穴埋め問題への ADMM _の適用

拡張ラグランジアン

L

_η

(x , { Z

}

^Kk=1

, { α

}

^Kk=1

) = 1

2λ ∥ Ωx − y ∥

+ X

K k=1

γ

∥ Z

∥

+ X

K k=1

³

α

k⊤

(P

x − z

) + η

2 ∥ P

x − z

∥

´ .

x

に関する最小化

P

_k が直交行列なので解析的に

O(N)

で計算可能．

Z

_k（

z

_k を行列として並べたもの）に関する最小化は

Schatten 1-

ノルムに関する

Prox

作用素．

ラグランジュ乗数ベクトルは制約の数（モードの数）だけ必要．

. . . . . .

ドキュメント内 2011/10/25: 機械学習における連続最適化の新しいトレンド (ページ 30-44)

（近似的最小化）

.

.

.

.

. . .

.

.

w

:

DAL

∥∇ ϕ

(α

) ∥ ≤ q

∥ w

− w

∥

µ 1/γ:

∇ f

.

¶

.

2

.

.

.

. . .

.

.

1

∥ w

− w

∥ ≤ 1

√ 1 + 2ση

∥ w

− w

∥ .

⇒ η

w

w

( ∥∇ ϕ

(α

) ∥ = 0)

≤ O(1/η

).

定理 2 （近似的最小化）

.

.

.

.

. . .

.

.

w

:

DAL

∥∇ ϕ

(α

) ∥ ≤ q

∥ w

− w

∥

µ 1/γ:

∇ f

.

¶

.

2

.

.

.

.

.

1

∥ w

− w

∥ ≤ 1

√ 1 + 2ση

∥ w

− w

定理 2 _{（近似的最小化）}