2010/4/13: Dual Augmented Lagrangian Algorithm 法によるスパース正則化

(1)

. . . .

.

Dual Augmented Lagrangian Algorithm

法による

スパース正則化

冨岡亮太

1 ,

鈴木大慈

1 ,

杉山将

2

1

東大数理情報学専攻

2

_{東工大計算工学専攻}

[email protected]

2010-4-13 @

統計学輪講

冨岡亮太 (数理情報) DAL 2010-4-13 1 / 36

(2)

. . . . イントロ — スパース正則化具体例

スパース回帰（組み合わせ的）

入出力の組み

(

x

₁

,

y

₁

), (

x

₂

,

y

₂

), . . . , (

x

m

,

y

m

),

(

x

i

∈ R

n

).

仮定：

y

i

=

〈w, x

i

〉 + ϵ

i

,

ϵ

i

∼ N (0, σ

2 ).

経験誤差：

L(w ) =

1

2 m

X

i=1

(

y

i

− 〈w, x

i

〉)

2 =

1

2 ∥y − Aw∥

2 .

問題：

minimize

L(w ),

s.t.

∥w∥

₀

≤ C

(NP

困難

!!)

動機

1 ：現実には多くの場合

m < n

．

動機

2 ：なるべく少ない数の変数で説明したい！

（

w

の

非ゼロ要素の数

∥w∥

0 が少なければ少ないほどよい）

冨岡亮太 (数理情報) DAL 2010-4-13 2 / 36

(3)

スパース回帰（連続）

p-

ノルムの

p

乗（のようなもの）

∥w∥

p

=

P

n

j=1

|w

j

|

p

:

(

p

≥ 1

ならば

凸

p < 1

ならば

非凸

−3

0 −2

−1

0

1

2

3

1

2

3

4 |x|

0.01

|x|

0.5

|x|

x

2

∥w∥

1 の正則化は凸の中ではもっとも

∥w∥

0 の正則化に近い！

冨岡亮太 (数理情報) DAL 2010-4-13 3 / 36

(4)

スパース回帰（連続）

p-

ノルムの

p

乗（のようなもの）

∥w∥

p

=

P

n

j=1

|w

j

|

p

:

(

p

≥ 1

ならば

凸

p < 1

ならば

非凸

−3

0 −2

−1

0

1

2

3

1

2

3

4 |x|

0.01

|x|

0.5

|x|

x

2

∥w∥

1 の正則化は凸の中ではもっとも

∥w∥

0 の正則化に近い！

冨岡亮太 (数理情報) DAL 2010-4-13 3 / 36

(5)

Lasso

回帰（連続かつ凸）

問題

1:

minimize

∥w∥

1 ,

s.t. L(w )

≤ C.

問題

2:

minimize

L(w ),

s.t.

∥w∥

1 ≤ C

′

.

問題

3:

minimize

L(w ) + λ

∥w∥

₁

.

[From Efron et al. (2003)]

注意：

上の

3 つの問題はいずれも等価．

正則化項やロス項に単調な非線形変換をしても等価．

この発表では問題

3 を扱う．

(6)

なぜ

ℓ

1 -正則化か？

凸の中で最も

∥ · ∥

0 に近い．

原点で微分不可能（有限の

λ

で

ゼロに打ち切ることができる．

）

凸でない正則化

→

繰り返し（重み付き）

ℓ

1 -

正

則化問題を解けばよい．

ベイズ周辺化尤度最大化

→

（特殊な場合に）繰り返し

（重み付き）

ℓ

1 -

正則化問題を解

けばよい．

(Wipf&Nagarajan, 08)

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2 0 0.5 1 1.5 2 冨岡亮太 (数理情報) DAL 2010-4-13 5 / 36

(7)

. . . . イントロ — スパース正則化問題設定

問題設定

以下の最適化問題を効率良く解くためのアルゴリズムが求められている．

minimize

w

∈R

n

f

ℓ

(

Aw ) + φ

λ

(

w ).

ただし，

A

∈ R

m

×n

_（

_m:

_{サンプル数，}

_n:

_{未知変数の数）．}

f

ℓ

は凸で

2 回微分可能．

φ

λ

(

w )

は例えば，

φ

λ

(

w ) = λ

∥w∥

1 など，凸だが，微分不可能であっ

てもよい．また，

ηφ

λ

= φ

ηλ

を仮定．

特定の

f

ℓ

に依存したアルゴリズム（

LARS

など）ではもの足りない．

No Free Lunch –

観測の数が変数の数より少ない場合

(m

≪ n)

や

A

のコンディションが悪い場合が応用上重要．

冨岡亮太 (数理情報) DAL 2010-4-13 6 / 36

(8)

どこが難しいか？

今までの見方:

φ

λ

(

w )

の微分不可能性が原因．

正則化項を微分可能な関数で上から押

さえる．

FOCUSS

(Rao & Kreutz-Delgado, 99)

Majorization-Minimization

(Figueiredo et al., 07)

微分不可能性を陽に考慮する．

Sub-gradient L-BFGS (Andrew &

Gao, 07; Yu et al., 08)

我々の見方:

A

が変数の間にからみを導入するのが原因．

(9)

どこが難しいか？

我々の見方:

A

が変数の間にからみを導入するのが原因．

A = I

n

（単位行列の場合）

min

w

_∈R

n

µ

1

2 ∥y − w∥

2

2 + λ

∥w∥

1 ¶

=

n

X

j=1

min

w

j

∈R

µ

1

2 (

y

j

− w

j

)

2 _{+ λ}

_|w

j

|

¶

.

⇒ w

j

∗

= ST

λ

(

y

j

)

=











y

j

− λ (λ ≤ y

j

),

0 (

−λ ≤ y

j

≤ λ),

y

j

+ λ

(

y

j

≤ −λ).

解析的に解ける！

λ

−

λ

本発表では

φ

λ

として，上の最小化が解析的に求められるもの

のみ

を扱う．

冨岡亮太 (数理情報) DAL 2010-4-13 8 / 36

(10)

φ

λ

に関する

proximation

は解析的に計算できる

.

仮定

.

φλ

に関する

proximation (soft-thresholding)

ST

λ

(

y ) = argmin

w

∈R

n

µ

φ

λ

(

w ) +

1

2 ∥y − w∥

2

2 ¶

は解析的に計算できる．

グループラッソー

φ

λ

(

w ) =

X

g

∈G

∥w

g

∥

2 :

グループ単位のノルムの和

.

トレースノルム

φ

λ

(

W ) =

r

X

j=1

σ

j

(

W ) :

特異値の和（

W

は行列）

.

冨岡亮太 (数理情報) DAL 2010-4-13 9 / 36

(11)

Proximation

の解釈（脱線）

Proximation

は集合に対する射影の一般化．

集合

C

の定義関数

δ

C

(

x)

を

δ

C

(

x) =

(

0,

x

∈ C

のとき

,

+

∞,

その他

,

と定義する．

δ

C

に関する

proximation

≡

集合

C

への２乗距離の意味での射影．

Proximation

による分解：

prox

_f

(

z) + prox

_f

∗

(

z) = z.

ただし，

f

と

f

∗

は凸共役な関数の組み．

参照：

Moreau 1965, Rockafellar 1970.

冨岡亮太 (数理情報) DAL 2010-4-13 10 / 36

(12)

発表の流れ

.

₁

イントロ

スパース正則化

どこが難しいか：

微分不可能性

⇒ 変数の間のからみ

.

2

最適化アルゴリズム

Iterative shrinkage-thresholding (IST)

Dual Augmented Lagrangian

（提案手法）

.

3

_{収束レート：}

_{超１次収束}

厳密な内部最小化の場合

近似的な

内部最小化の場合

.

4

_実験

OWLQN, SpaRSA, and FISTA との比較．

.

5

_まとめ

(13)

. . . .

手法

Iterative Shrinkage/Thresholding (IST)

.

IST 法

(Figueiredo&Nowak, 03; Daubechies et al., 04;...)

.

1

_{適当に初期解}

_w

0 _を決める

_.

.

2

_{停止条件が満たされるまで反復：}

w

t+1

← ST

_η

_t

_λ

| {z }

縮小

³

w

t

− η

t

A

⊤

∇f

ℓ

(

Aw

t

)

|

{z

}

勾配ステップ

´

.

利点

:

実装が簡単．

欠点

:

デザイン行列

A

の条件数が悪い

と遅い．

冨岡亮太 (数理情報) DAL 2010-4-13 12 / 36

(14)

. . . .

手法

Iterative Shrinkage/Thresholding (IST)

.

IST 法

(Figueiredo&Nowak, 03; Daubechies et al., 04;...)

.

1

_{適当に初期解}

_w

0 _を決める

_.

.

2

_{停止条件が満たされるまで反復：}

w

t+1

← ST

_η

_t

_λ

| {z }

縮小

³

w

t

− η

t

A

⊤

∇f

ℓ

(

Aw

t

)

|

{z

}

勾配ステップ

´

.

利点

:

実装が簡単．

欠点

:

デザイン行列

A

の条件数が悪い

と遅い．

冨岡亮太 (数理情報) DAL 2010-4-13 12 / 36

(15)

. . . .

手法

Dual Augmented Lagrangian (DAL)

法（提案手法）

.

主問題

.

minimize

w

f

|

ℓ

(

Aw ) + φ

{z

λ

(

w )

}

f (w )

.

双対問題

.

maximize

α,v

− f

∗

ℓ

(

−α) − φ

∗

λ

(

v )

s.t.

v = A

⊤

α

f

_ℓ

∗

，

φ

∗

_λ

は

f

ℓ

，

φ

λ

の凸共役：

f

_ℓ

∗

(α) =

sup

z

∈R

m

(

〈α, z〉 − f

ℓ

(

z))

φ

∗

_λ

(

v ) = sup

w

∈R

n

(

〈v, w〉 − φ

λ

(

w ))

主問題の最小値

=

双対問題の最大値（強双対性）

冨岡亮太 (数理情報) DAL 2010-4-13 13 / 36

(16)

. . . .

手法

Dual Augmented Lagrangian (DAL)

法（提案手法）

.

主問題

.

minimize

w

f

|

ℓ

(

Aw ) + φ

{z

λ

(

w )

}

f (w )

Proximal minimization:

w

t+1

=

argmin

w

µ

f (w ) +

1 2ηt

∥w − w

t

_∥

2 ¶

(η

0 ≤ η

1 ≤ · · · )

解析がしやすい．例えば

f (w

t+1

_{) +}

1 2ηt

∥w

t+1

_{− w}

t

_∥

2

_{≤ f (w}

t

_).

実用的でない（もとの問題と同

程度に難しい！）

.

双対問題

.

maximize

α,v

− f

∗

ℓ

(

−α) − φ

∗

λ

(

v )

s.t.

v = A

⊤

α

⇔Augmented Lagrangian

(Tomioka & Sugiyama, 09)

:

w

t+1

= ST

λη

t

(

w

t

_{+ η}

t

A

⊤

α

t

)

α

t

=

argmin

α

ϕt

(α)

ϕt

(α)

の最小化は簡単（なめ

らか）

.

ステップサイズ

ηt

は増加．

同値性については Rockafellar 76 を参照．

冨岡亮太 (数理情報) DAL 2010-4-13 14 / 36

(17)

. . . .

手法

Dual Augmented Lagrangian (DAL)

法（提案手法）

.

主問題

.

minimize

w

f

|

ℓ

(

Aw ) + φ

{z

λ

(

w )

}

f (w )

Proximal minimization:

w

t+1

=

argmin

w

µ

f (w ) +

1 2η

t

∥w − w

t

_∥

2 ¶

(η

0 ≤ η

1 ≤ · · · )

解析がしやすい．例えば

f (w

t+1

_{) +}

1 2ηt

∥w

t+1

_{− w}

t

_∥

2

_{≤ f (w}

t

_).

実用的でない（もとの問題と同

程度に難しい！）

.

双対問題

.

maximize

α,v

− f

∗

ℓ

(

−α) − φ

∗

λ

(

v )

s.t.

v = A

⊤

α

⇔Augmented Lagrangian

(Tomioka & Sugiyama, 09)

:

w

t+1

= ST

λη

t

(

w

t

_{+ η}

t

A

⊤

α

t

)

α

t

=

argmin

α

ϕt

(α)

ϕt

(α)

の最小化は簡単（なめ

らか）

.

ステップサイズ

ηt

は増加．

同値性については Rockafellar 76 を参照．

冨岡亮太 (数理情報) DAL 2010-4-13 14 / 36

(18)

. . . .

手法

Dual Augmented Lagrangian (DAL)

法（提案手法）

.

主問題

.

minimize

w

f

|

ℓ

(

Aw ) + φ

{z

λ

(

w )

}

f (w )

Proximal minimization:

w

t+1

=

argmin

w

µ

f (w ) +

1 2η

t

∥w − w

t

_∥

2 ¶

(η

0 ≤ η

1 ≤ · · · )

解析がしやすい．例えば

f (w

t+1

_{) +}

1 2ηt

∥w

t+1

_{− w}

t

_∥

2

_{≤ f (w}

t

_).

実用的でない（もとの問題と同

程度に難しい！）

.

双対問題

.

maximize

α,v

− f

∗

ℓ

(

−α) − φ

∗

λ

(

v )

s.t.

v = A

⊤

α

⇔Augmented Lagrangian

(Tomioka & Sugiyama, 09)

:

w

t+1

= ST

λη

t

(

w

t

_{+ η}

t

A

⊤

α

t

)

α

t

=

argmin

α

ϕt

(α)

ϕt

(α)

の最小化は簡単（なめ

らか）

.

ステップサイズ

η

t

は増加．

同値性については Rockafellar 76 を参照．

冨岡亮太 (数理情報) DAL 2010-4-13 14 / 36

(19)

. . . .

手法

.

Dual Augmented Lagrangian 法 (ℓ

1 -正則化)

.

1

_{適当に初期解}

_w

1 _{を決める．}

.

2

_{停止条件が満たされるまで反復：}

w

t+1

= ST

η

t

λ

³

w

t

+ η

t

A

⊤

α

t

´

ただし，

α

t

=

argmin

α

∈R

m

³

f

_ℓ

∗

(

−α)

| {z }

損失関数 f

ℓ

の凸共役

+

1 2η

t

∥ST

η

t

λ

(

w

t

+ η

t

A

⊤

α)

∥

2

2 ´

冨岡亮太 (数理情報) DAL 2010-4-13 15 / 36

(20)

. . . .

手法

.

Dual Augmented Lagrangian 法（ℓ

1 -正則化の場合）

.

(1)

この計算は解析的にできると仮定．

w

t+1

= ST

η

t

λ

³

w

t

+

A

⊤

α

t

´

(2)

この計算はスパースであればあるほど効率的．

Ã

“

アクティブな

”

未知変数の数

に線形

!

α

t

=

argmin

α

∈R

m

³

f

_ℓ

∗

(

−α)

| {z }

A のスケーリン

グの影響を受け

ない

+

1 2η

t

∥ST

η

t

λ

(

w

t

+ η

t

A

⊤

α)

∥

2

2 |

{z

}

∂

∂α

:

AST

η

t

λ

(

w

t

_{+ η}

t

A

⊤

α)

∂

∂α

2

: η

t

A

+

A

+

⊤

（

A

+

は

A

の

“アクティブな”

列から

なる部分行列

; ℓ

1

-

正則化の場合）

´

(3) A

のスケーリングの悪さの影響を受けにくい．

冨岡亮太 (数理情報) DAL 2010-4-13 16 / 36

(21)

. . . . 手法

IST

と

DAL

の違い：いかに変数の間の絡みを取り除くか

目的関数

f

に関する

Proximation

は難しい：

w

t+1

=

argmin

w

³

z

f (w )

}|

{

f

ℓ

(

Aw )

| {z }

変数が絡みあっている

+φ

λ

(

w )

+

1 2η

t

∥w − w

t

_∥

2 ´

IST

（既存手法）

:

線形にロス項を

近似

：

f

ℓ

(

Aw )

≅ f

ℓ

(

Aw

t

) +

(w

− w

t

)

⊤

A

⊤

∇f

ℓ

(

Aw

t

)

→

現在の点

w

t

で最もタイト

DAL

（提案法）

:

線形なロス項の

下限

f

ℓ

(

Aw ) = max

α

∈R

m

³

−f

∗

ℓ

(

−α) −

w

⊤

A

⊤

α

´

→

次の点

w

t+1

で最もタイト

w

t

w

t+1

w

t

w

t+1

冨岡亮太 (数理情報) DAL 2010-4-13 17 / 36

(22)

. . . . 手法

IST

と

DAL

の違い：いかに変数の間の絡みを取り除くか

目的関数

f

に関する

Proximation

は難しい：

w

t+1

=

argmin

w

³

z

f (w )

}|

{

f

ℓ

(

Aw )

| {z }

変数が絡みあっている

+φ

λ

(

w )

+

1 2η

t

∥w − w

t

_∥

2 ´

IST

（既存手法）

:

線形にロス項を

近似

：

f

ℓ

(

Aw )

≅ f

ℓ

(

Aw

t

) +

(

w

− w

t

)

⊤

A

⊤

∇f

ℓ

(

Aw

t

)

→

現在の点

w

t

で最もタイト

DAL

（提案法）

:

線形なロス項の

下限

f

ℓ

(

Aw ) = max

α

∈R

m

³

−f

∗

ℓ

(

−α) −

w

⊤

A

⊤

α

´

→

次の点

w

t+1

で最もタイト

w

t

w

t+1

w

t

w

t+1

冨岡亮太 (数理情報) DAL 2010-4-13 17 / 36

(23)

. . . . 手法

IST

と

DAL

の違い：いかに変数の間の絡みを取り除くか

目的関数

f

に関する

Proximation

は難しい：

w

t+1

=

argmin

w

³

z

f (w )

}|

{

f

ℓ

(

Aw )

| {z }

変数が絡みあっている

+φ

λ

(

w )

+

1 2η

t

∥w − w

t

_∥

2 ´

IST

（既存手法）

:

線形にロス項を

近似

：

f

ℓ

(

Aw )

≅ f

ℓ

(

Aw

t

) +

(

w

− w

t

)

⊤

A

⊤

∇f

ℓ

(

Aw

t

)

→

現在の点

w

t

で最もタイト

DAL

（提案法）

:

線形なロス項の

下限

f

ℓ

(

Aw ) = max

α

∈R

m

³

−f

∗

ℓ

(

−α) −

w

⊤

A

⊤

α

´

→

次の点

w

t+1

で最もタイト

w

t

w

t+1

w

t

w

t+1

冨岡亮太 (数理情報) DAL 2010-4-13 17 / 36

(24)

. . . . 手法

数値例

デザイン行列

A

の

コンデイションが悪くなるほど

，

DAL

の方が有利．

IST

DAL

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 冨岡亮太 (数理情報) DAL 2010-4-13 18 / 36

(25)

. . . . 収束レート

定理

1（厳密な最小化）

.

定義

.

w

t

_：厳密な

_DAL

_法（

_∥∇ϕt

_(α

t

₎

_{∥ = 0}

_{）で得られる点列．}

w

∗

：目的関数

f

を最小化する点．

.

仮定

.

正の定数

σ

が存在して

f (w

t+1

)

− f (w

∗

)

≥ σ∥w

t+1

− w

∗

∥

2 (

t = 0, 1, 2, . . .).

.

定理１

.

∥w

t+1

_{− w}

∗

_{∥ ≤}

1 1 + ση

t

∥w

t

_{− w}

∗

_∥.

⇒ η

t

が増加するなら，

w

t

は

w

∗

に

超１次収束

する．

冨岡亮太 (数理情報) DAL 2010-4-13 19 / 36

(26)

. . . . 収束レート

定理

2（近似的最小化）

.

定義

.

w

t

:

以下の停止基準による近似的な

DAL

法で得られる点列．

∥∇ϕt

(α

t

)

∥ ≤

q

_η

γ

t

∥w

t+1

_{− w}

t

_∥

µ

1/γ:

損失関数の微分

∇f

ℓ

のリプシッツ定数

.

¶

.

定理 2

.

定理

1 と同じ仮定のもとで

∥w

t+1

_{− w}

_∗

_{∥ ≤}

_√

1 1 + 2ση

t

∥w

t

_{− w}

_∗

_∥.

⇒ η

t

が増加するなら，

w

t

は

w

∗

に

超１次収束

する．

収束レートは厳密な場合

(

∥∇ϕ

t

(α

t

)

∥ = 0)

より少し

悪い

．

同程度の収束レートは内部最小化をもう少し厳しくすることで達成

可能

∥∇ϕ

t

(α

t

)

∥

∥w

t+1

_−w

t

_∥

≤ O(1/η

t

).

冨岡亮太 (数理情報) DAL 2010-4-13 20 / 36

(27)

. . . . 収束レート

定理

2（近似的最小化）

.

定義

.

w

t

:

以下の停止基準による近似的な

DAL

法で得られる点列．

∥∇ϕt

(α

t

)

∥ ≤

q

_η

γ

t

∥w

t+1

_{− w}

t

_∥

µ

1/γ:

損失関数の微分

∇f

ℓ

のリプシッツ定数

.

¶

.

定理 2

.

定理

1 と同じ仮定のもとで

∥w

t+1

_{− w}

_∗

_{∥ ≤}

_√

1 1 + 2ση

t

∥w

t

_{− w}

_∗

_∥.

⇒ η

t

が増加するなら，

w

t

は

w

∗

に

超１次収束

する．

収束レートは厳密な場合

(

∥∇ϕ

t

(α

t

)

∥ = 0)

より少し

悪い

．

同程度の収束レートは内部最小化をもう少し厳しくすることで達成

可能

∥∇ϕ

t

(α

t

)

∥

∥w

t+1

_−w

t

_∥

≤ O(1/η

t

).

冨岡亮太 (数理情報) DAL 2010-4-13 20 / 36

(28)

. . . . 収束レート

.

定理 1 の証明（エッセンス）

.

w

t+1

は，

f (w ) +

_2ηt

1 ∥w − w

t

∥

2 を最小化するので，

(

w

t

− w

t+1

)

/η

t

∈ ∂f (w

t+1

)

（劣微分に入る）

従って

(Beck & Teboulle 09)

，

f (w

∗

)

− f (w

t+1

)

≥

D

(

w

t

− w

t+1

)/ηt

,

w

∗

− w

t+1

E

.

w

∗

w

t+1

f(w

∗

)

f(w

t+1

)

冨岡亮太 (数理情報) DAL 2010-4-13 21 / 36

(29)

. . . . 収束レート

.

定理 2 の証明（エッセンス）

.

f (w

∗

)

− f (w

t+1

)

≥

D

(

w

t

− w

t+1

)/ηt

,

w

∗

− w

t+1

E

−

1 2γ

∥∇ϕ

t

(α

t

)

∥

2 |

{z

}

近似最小化のコスト

.

1/γ

:

損失関数の微分

∇f

ℓ

のリプシッツ定数．

w

∗

w

t+1

f(w

∗

)

f(w

t+1

)

冨岡亮太 (数理情報) DAL 2010-4-13 22 / 36

(30)

. . . . 収束レート

他の手法との比較

手法

説明

収束オーダー

１次

IST

O(1/k )

FISTA

IST

の収束性を改善した

もの

O(1/k

2 ₎

SpaRSA

曲率の情報を利用して

IST

のステップサイズを

改善したもの

?

OWLQN

劣微分を利用した擬似ニ

ュートン法

?

高次

内点法

Koh, Kim, & Boyd 2007

O(e

−k

)

DAL

提案法

o(e

−k

)

(31)

. . . .

数値実験

数値実験: ℓ

1 -正則化付きロジスティック回帰

#samples=1, 024, #unknowns=16, 384.

FISTA

２段階

IST

(Beck &

Teboulle 09)

OWLQN

劣微分準ニュートン

(Andrew & Gao 07)

SpaRSA

ステップサイズ改良

IST

(Wright et al. 09)

100 101 102 103 104 10−4 10−2 100 ||w t − w*|| DAL DAL (thm2) DAL (thm1) FISTA OWLQN SpaRSA 100 101 102 10−4 10−2 100 100 101 102 103 104 10−8 10−6 10−4 10−2 100 102 #iteretions f(w t) − f(w*) 100 101 102 10−8 10−6 10−4 10−2 100 102

CPU time (sec)

DAL FISTA OWLQN SpaRSA

(32)

. . . . 数値実験

未知変数の数に対する計算時間の増加

m = 1,024. n = 4,096–524,288

10

3

10

4

10

5

10

6

10

0

10

1

10

2

10

3

10

4

Number of unknowns

CPU time (s)

DAL

FISTA

OWLQN

SpaRSA

IRS

DAL−B

L1_LOGREG

冨岡亮太 (数理情報) DAL 2010-4-13 25 / 36

(33)

. . . . 応用

脳波解析における接続関係の推定

ξ

独立・

非ガウス信号

時空間

スパース

AR過程

z

空間方向

即時的

混合

源信号

観測信号

x

1

2

3 P

空間方向に

スパース

S. Haufe, R. Tomioka, G. Nolte,

K‐R Müller and M. Kawanabe,

IEEE TBME 2010. accepted.

x(t) = M z(t)

z(t) =

P

!

p=1

H

(p)

z(t

_{− p)}

+ ξ(t)

冨岡亮太 (数理情報) DAL 2010-4-13 26 / 36

(34)

. . . . 応用

EM

アルゴリズム

E-

ステップ：隠れ信号

z(t)

の推定（

B

に関する最尤法）

混合行列の逆行列 B := M

−1

とする．

ξ(

t) = Bx(t)

−

P

_p=1

H

(

p)

Bx(t

− p) は sech 分布に従うと仮定．

p(ξ)

∝

D

Y

d =1

1 e

−ξ

d

₊

e

ξ

d

M-

ステップ：

AR

係数の推定（

H

(

p)

に関するスパース推定）

尤度：sech 分布

正則化：

（空間方向に）スパースな接続関係をみつけたい

⇒ 時間方向にグループしたグループラッソー正則化．

冨岡亮太 (数理情報) DAL 2010-4-13 27 / 36

(35)

. . . . 応用

結果（人工データ）

SCSA_EM

（提案手法）が混合行列

M

の推定および結合係数

H

(

P)

の推

定の両方の意味で優れている．

SCSA_EM（提案手法）

冨岡亮太 (数理情報) DAL 2010-4-13 28 / 36

(36)

. . . . まとめ

Summary

なぜスパース正則化は難しい

? –

変数の間の絡み

微分不可能性は悪くない．

内部最小化はスパースであればあるほど速い．

微分不可能性は効率的な内部最小化のために使える

いかに変数の間の絡みを取り除くか

線形近似の代わりに

パラメトリックな下限

を使う．

厳密／近似的内部最小化のもとでの超１次収束．

スパース正則化の状況に特殊化することで，現実的・使いやすい条件

のもとで，既存の収束レートを改善．

実験結果も理論をサポート

既存手法 OWLQN, SpaRSA, and FISTA より速い．かつより複雑な

正則化に対応可能．

(37)

. . . . まとめ

Summary

なぜスパース正則化は難しい

? –

変数の間の絡み

微分不可能性は悪くない．

内部最小化はスパースであればあるほど速い．

微分不可能性は効率的な内部最小化のために使える

いかに変数の間の絡みを取り除くか

線形近似の代わりに

パラメトリックな下限を使う．

厳密／近似的内部最小化のもとでの超１次収束．

スパース正則化の状況に特殊化することで，現実的・使いやすい条件

のもとで，既存の収束レートを改善．

実験結果も理論をサポート

既存手法 OWLQN, SpaRSA, and FISTA より速い．かつより複雑な

正則化に対応可能．

(38)

. . . . まとめ

Summary

なぜスパース正則化は難しい

? –

変数の間の絡み

微分不可能性は悪くない．

内部最小化はスパースであればあるほど速い．

微分不可能性は効率的な内部最小化のために使える

いかに変数の間の絡みを取り除くか

線形近似の代わりに

パラメトリックな下限を使う．

厳密／近似的内部最小化のもとでの超１次収束．

スパース正則化の状況に特殊化することで，現実的・使いやすい条件

のもとで，既存の収束レートを改善．

実験結果も理論をサポート

既存手法 OWLQN, SpaRSA, and FISTA より速い．かつより複雑な

正則化に対応可能．

(39)

. . . . まとめ

Summary

なぜスパース正則化は難しい

? –

変数の間の絡み

微分不可能性は悪くない．

内部最小化はスパースであればあるほど速い．

微分不可能性は効率的な内部最小化のために使える

いかに変数の間の絡みを取り除くか

線形近似の代わりに

パラメトリックな下限を使う．

厳密／近似的内部最小化のもとでの超１次収束．

スパース正則化の状況に特殊化することで，現実的・使いやすい条件

のもとで，既存の収束レートを改善．

実験結果も理論をサポート

既存手法 OWLQN, SpaRSA, and FISTA より速い．かつより複雑な

正則化に対応可能．

(40)

. . . .

Appendix

Benchmark datasets (dorothea)

m = 800, n = 100,000.

10−3 10−2 10−1 100 0 100 200 300 400 500

Cumulative CPU time (s)

DAL DAL−B FISTA OWLQN SpaRSA L1_LOGREG 10−3 10−2 10−1 100 50 60 70 80 90 100 Test accuracy (%)

Regularization constant ¯

λ

.

Regularization constant ¯

λ

.

(41)

. . . .

Appendix

Benchmark datasets (madelon)

m = 2,000, n = 500.

10−3 10−2 10−1 100 0 5 10 15 20

Cumulative CPU time (s)

DAL DAL−B FISTA OWLQN SpaRSA L1_LOGREG 10−3 10−2 10−1 100 50 52 54 56 58 60 62 64 Test accuracy (%)

Regularization constant ¯

λ

.

Regularization constant ¯

λ

.

(42)

. . . .

Appendix

(1) Proximation wrt φ

λ

is analytic (though non-smooth):

w

t+1

= ST

η

t

λ

³

w

t

+ η

t

A

⊤

α

t

´

(2) Inner minimization is smooth:

α

t

=

argmin

α

∈R

m

³

f

_ℓ

∗

(

−α)

| {z }

independent of A.

+

1 2η

t

∥ST

η

t

λ

(

w

t

+ η

t

A

⊤

α)

∥

2

2 |

{z

}

= Φ

∗_λ

(

·)

(linear to the number of

active variables)

´

−

λ

0 λ

φ

_λ

∗

(w)

Φ

λ

∗

_(w)

冨岡亮太 (数理情報) DAL 2010-4-13 32 / 36

(43)

. . . . Appendix

Comparison to Rockafellar 76

.

Assumption

.

The multifunction

∇f

∗

is (locally) Lipschitz continuous at the origin:

∥∇f

∗

(β)

− ∇f

∗

(0)

∥ ≤ L∥β∥ (∥β∥ ≤ τ)

⇒ Implies our assumption with σ =

1

2 min(1/L, τ /

∥w

0 − w

∗

∥).

.

Convergence (exact minimization)

– comparable to Thm 1

.

∥w

t+1

_{− w}

∗

_{∥ ≤}

_p

1 1 + (η

t

/L)

2 ∥w

t

_{− w}

∗

_∥

.

Convergence (approximate minimization)

– much worse than Thm 2

.

∥w

t+1

_{− w}

_∗

_{∥ ≤}

µ

t

+ ϵ

t

1 − ϵ

t

∥w

t

_{− w}

_∗

_∥

³

µ

t

=

√

1 1+(ηt

/L)

2

´

(assuming

∥∇ϕt

∥ ≤ ϵt

p

γ/η

t

∥w

t+1

− w

t

∥)

冨岡亮太 (数理情報) DAL 2010-4-13 33 / 36

(44)

. . . .

Appendix

Outline of proof of Theorem 1

.

1

_{Since w}

t+1

₌

_argmin

w

³

f (w ) +

_2ηt

1 ∥w − w

t

∥

2 ´

,

(

w

t

− w

t+1

)/η

t

is a subgradient of f at w

t+1

.

I.e.,

f (w

∗

)

− f (w

t+1

)

≥

D

(

w

t

− w

t+1

)/η

t

,

w

∗

− w

t+1

E

.

2

_{For any µ > 0,}

∥w

∗

− w

t+1

_∥∥w

t

_{− w}

∗

_{∥ ≤}

µ

2 ∥w

∗

_{− w}

t+1

_∥

2 ₊

1 2µ

∥w

t

_{− w}

∗

_∥

2 _.

.

3

_{Combining 1 & 2 and using f (w}

t+1

₎

− f (w

∗

₎

≥ σ∥w

t+1

− w

∗

∥

2 _,

1

2 ∥w

t

_{− w}

_∗

_∥

2 _{≥ ((1 + ση}

t

)µ

−

µ

2

2 )

∥w

t+1

_{− w}

_∗

_∥

2 _.

.

4

_{Maximize RHS wrt µ.}

冨岡亮太 (数理情報) DAL 2010-4-13 34 / 36

(45)

. . . .

Appendix

Outline of proof of Theorem 1

.

1

_{Since w}

t+1

₌

_argmin

w

³

f (w ) +

_2ηt

1 ∥w − w

t

∥

2 ´

,

(

w

t

− w

t+1

)/η

t

is a subgradient of f at w

t+1

.

I.e.,

f (w

∗

)

− f (w

t+1

)

≥

D

(

w

t

− w

t+1

)/η

t

,

w

∗

− w

t+1

E

.

2

_{For any µ > 0,}

∥w

∗

− w

t+1

_∥∥w

t

_{− w}

∗

_{∥ ≤}

µ

2 ∥w

∗

_{− w}

t+1

_∥

2 ₊

1 2µ

∥w

t

_{− w}

∗

_∥

2 _.

.

3

_{Combining 1 & 2 and using f (w}

t+1

₎

− f (w

∗

₎

≥ σ∥w

t+1

− w

∗

∥

2 _,

1

2 ∥w

t

_{− w}

_∗

_∥

2 _{≥ ((1 + ση}

t

)µ

−

µ

2

2 )

∥w

t+1

_{− w}

_∗

_∥

2 _.

.

4

_{Maximize RHS wrt µ.}

冨岡亮太 (数理情報) DAL 2010-4-13 34 / 36

(46)

. . . .

Appendix

Outline of proof of Theorem 1

.

1

_{Since w}

t+1

₌

_argmin

w

³

f (w ) +

_2ηt

1 ∥w − w

t

∥

2 ´

,

(

w

t

− w

t+1

)/η

t

is a subgradient of f at w

t+1

.

I.e.,

f (w

∗

)

− f (w

t+1

)

≥

D

(

w

t

− w

t+1

)/η

t

,

w

∗

− w

t+1

E

.

2

_{For any µ > 0,}

∥w

∗

− w

t+1

_∥∥w

t

_{− w}

∗

_{∥ ≤}

µ

2 ∥w

∗

_{− w}

t+1

_∥

2 ₊

1 2µ

∥w

t

_{− w}

∗

_∥

2 _.

.

3

_{Combining 1 & 2 and using f (w}

t+1

₎

− f (w

∗

₎

≥ σ∥w

t+1

− w

∗

∥

2 _,

1

2 ∥w

t

_{− w}

_∗

_∥

2 _{≥ ((1 + ση}

t

)µ

−

µ

2

2 )

∥w

t+1

_{− w}

_∗

_∥

2 _.

.

4

_{Maximize RHS wrt µ.}

冨岡亮太 (数理情報) DAL 2010-4-13 34 / 36

(47)

. . . .

Appendix

Outline of proof of Theorem 2

.

_.

1

_{Let δ}

t

_:=

∇ϕ

t

(α

t

),

f (w

∗

)

− f (w

t+1

)

≥

D

(

w

t

− w

t+1

)/η

t

,

w

∗

− w

t+1

E

−

1 2γ

∥δ

t

_∥

2 _.

.

2

_{By assumption}

f (w

t+1

)

− f (w

∗

)

≥ σ∥w

t+1

− w

∗

∥

2 ,

∥δ

t

_∥

2 _≤

γ

η

t

∥w

t+1

_{− w}

t

_∥

2 .

.

3

_{Combining 1 & 2,}

1

2 ∥w

∗

_{− w}

t

_∥

2 _{≥ (ση}

t

+

1

2 )

∥w

∗

_{− w}

t+1

_∥

2 .

冨岡亮太 (数理情報) DAL 2010-4-13 35 / 36

2010/4/13: Dual Augmented Lagrangian Algorithm 法による スパース正則化

.

.

.

.

.

.

.

Dual Augmented Lagrangian Algorithm

法による

スパース正則化

冨岡 亮太

1

,

鈴木 大慈

1

,

杉山 将

2

東大 数理情報学専攻

東工大 計算工学専攻

[email protected]

2010-4-13 @

統計学輪講

スパース回帰（組み合わせ的）

入出力の組み

(

x

1

,

y

1

), (

x

2

,

y

2

), . . . , (

x

m

,

y

m

),

(

x

i

∈ R

n

).

仮定：

y

i

=

〈w, x

i

〉 + ϵ

i

,

ϵ

i

∼ N (0, σ

2

).

経験誤差：

L(w ) =

1

2

m

X

i=1

(

y

i

− 〈w, x

i

〉)

2

=

2010/4/13: Dual Augmented Lagrangian Algorithm 法によるスパース正則化

冨岡亮太

鈴木大慈

杉山将

東大数理情報学専攻

_{東工大計算工学専攻}

₁

₁

₂

₂

₀