• 検索結果がありません。

DL の P 依存性を評価する

③ エネルギー密度 (一成分当たり)

χ χ

 

 +

+

+ + −

 

 

 − − + +



 

 

 

 − − + +

=

) 1

( 2

) 2

(

) ˆ ,

; ˆ (

2 ˆ ˆ

2 ˆ ˆ ˆ 2 ˆ

ˆ ˆ

DL の P 依存性を評価する:まとめ

平均二乗誤差と分散

エネルギー

ˆ ) , (

extr

*

= arg Ω Ω

f

} ,

, ,

,

{mD

χ

D QX mX

χ

X

MSED, MSEX,

χ

D,

χ

X

0 0 2

0

*

*

1

ˆ ) ,

(  

  −

= Ω

DX D X

f MP

5変数の連立方程式を解き、

を求めればよい。 → 複数個の解が存在する。

解の分類

解①

解②

mD = 1

mX =

ρ

QX =

ρ

mD = 0

mX = 0

Qx ∈ R+

χ

D = ,

χ

X = f = 0 f = 0

χ

D = ,

χ

X = f = 0 f ≠ 0

χ

D < ,

χ

X <

χ

D < ,

χ

X <

解の分類

解①:成功解(S)

解②:失敗解(F)

• MSED = 0

• MSEX = 0

χ

D = ,

χ

X =

χ

D < ,

χ

X <

f = 0

f = 0

χ

D = ,

χ

X = f = 0 f ≠ 0

χ

D < ,

χ

X <

• MSED > 0

• MSEX > 0

解の分類

解①:成功解(S)

解②:失敗解(F)

χ

D = ,

χ

X =

χ

D < ,

χ

X <

f = 0

f = 0

χ

D = ,

χ

X = f = 0 f ≠ 0

この解が唯一の安定解として 存在するとき、学習成功。

χ

D < ,

χ

X <

• MSED = 0

• MSEX = 0

• MSED > 0

• MSEX > 0

解の分類

解①:成功解(S)

解②:失敗解(F)

χ

D = ,

χ

X =

χ

D < ,

χ

X <

f = 0

f = 0

χ

D = ,

χ

X = f = 0 f ≠ 0

この解が唯一の安定解として 存在するとき、学習成功。

χ

D < ,

χ

X <

この解が存在するとき、

D0X0 = DXを満たすD≠D0,X≠X0がたくさん存在。

. DL2

• MSED = 0

• MSEX = 0

• MSED > 0

• MSEX > 0

① 成功解の γ 依存性

χ

D = ,

χ

X =

χ

D < ,

χ

X <

f = 0

f = 0

…1 < γ <γSで存在

… α > θeffS(θ, ρ), γS < γ で存在

 

 

 −

− +

=

> 2 exp 2

) 1

( )

, (

2 S

eff

u u ρ π

θ ρ

θ θ

α

) , ) (

, ,

(

S

eff

θ ρ θ

α ρ α

θ α γ

γ >

S

= −

+∞

z = −

dz exp( 2 2)

θ ρ

u は次のように決められる。

• MSED = 0

• MSEX = 0

② 失敗解の γ 依存性

χ

D = ,

χ

X = f = 0

f ≠ 0

χ

D < ,

χ

X <

…0< γ < γFで存在。

…α > θeffF(θ, ρ), γF < γ で存在。





− +

=

> 2 exp 2

) (

2 F

eff

v v

θ π

θ θ

α

(

effF

)

2

) ,

(

α θ α θ

γ

γ

> = −a

F

2 exp 2

2

2

θ

π

=



−

+∞

v

z dz

v は次のように決められる。

. DL2

• MSED > 0

• MSEX > 0

Impossible to learn Learnable by

O(N) samples

0.2 0.4 0.6 0.8 1

1 0.8 0.6 0.4 0.2 0

α

α θ 平面の相図

α = θ

F

θ

eff

α

=

α

>

θ

effFでは、(

α

θ

effF から決まる

γ

Fを用いて) P > N

γ

Fのときにplanted solutionを同定できる。

Impossible to learn Learnable by

O(N) samples

0.2 0.4 0.6 0.8 1

1 0.8 0.6 0.4 0.2

0 θ

α

α θ 平面の相図

α = θ

F

θ

eff

α

=

α

>

θ

effFでは、(

α

θ

effF から決まる

γ

Fを用いて) P > N

γ

Fのときにplanted solutionを同定できる。

ベイズ最適な辞書学習では、

この領域でも学習が可能。

ベイズ最適な学習則

• 平均自乗誤差(MSE)を定義

は任意の学習則を用いてYから推定した解

<…>は次の同時分布による平均

=

i

i i

D

D D

MN

µ µ µ

Y

D X Y

, , 2

0

0

))

0

ˆ ( 1 (

MSE

=

il

il il

X

X X

NP Y

D X Y

, , 2

0

0

))

0

ˆ ( 1 (

MSE

)

; (

) (

) , ,

(

0 0 0 0

0 0 0

0

X Y δ Y D X D X ρ

D P P

P 



 −

=

) ˆ Y(

D Xˆ Y( )

ベイズ最適な学習則

MSE はベイズ最適な学習則により最小化される。

この学習則による推定値は以下の通り。

– Di Di 番目のコラム

– <…> は事後分布P(D,X|Y) = P(D,X,Y)/P(Y)によるDX平均.

つまり、推定の際にモデルの真の分布が分かっている。

このとき、レプリカ対称解は安定。[Y. Iba (1999)]

X Y

D X Y D

D ˆ ( ) = ( = 1 ,..., ), ˆ

ODL

( ) =

2

ODL

M i N

i

i i

ベイズ最適な学習則の解析

真の値と推定値の重なり mDmX を定義する

MSED = 2(1 – mD), MSEX = 2(ρ – mX) となるので mD = 1, mX = ρ : D0 X0 の学習に成功。

mD = 0, mX = 0 : 学習失敗。

レプリカ法によりm , m のパラメータ依存性を明らかにする。

=

i

l i

D

D D

m MN

µ µ µ

Y X

Y

D

, , ODL

0

0

)

0

ˆ ( 1

=

il

il il

X

X X

m NP

Y X

Y

D

, , ODL

0

0

)

0

ˆ (

1

• レプリカ法によるmDmXの表式

2 2

2

0 0

0 0

ˆ ) 1

(

ˆ ) ˆ

( 1 ˆ

ˆ

 

 

+

+ Ξ

= Ξ

= +

+

X X

X X

X X X

D D D

m

X m z

X m P

DzdX m

m m m

σ

X D X

X D

X D X

D

X

m m

m m m

m m m

= −

=

2

− , ˆ

2

ˆ ρσ

γ ρσ

α

+

+  Ξ = − + Ξ



+ +

= +

Ξ X X

X X

X X

X X

X

X m

X m z

m m

) 1

( ) ,

1 ˆ ( 2

ˆ ) ( ˆ

exp

1 ˆ 2

2 0 2

2

ρ

σ σ

σ ρ

α = M / N γ = P / N

ベイズ最適な学習則の解析

m

D

の γ 依存性 ( α = 0.5, ρ = 0.2)

• γ > γS = α/(α ρ) mD = 1 mX =

ρ

の解が現れる。

→ Sample complexity は Pc = NγS.

• γ > γM mD = 1 mX =

ρ

以外の解が消える。

しかし、

γ

ρ

ρ

(

α

)で発散する。

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

1.5 2 2.5 3 3.5 4

m D

γ

γ

S

γ

F

γ

M

mD

γ

α = 圧縮率、

ρ = 非ゼロ要素の割合

α

ρ

の差が広がるにつれて

γ

M は増加し、

ρ

>

ρ

M(

α

) で発散する。

γ

M

α , ρ 依存性

ρM

0 20 40 60 80 100

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

γM

ρ

ρM

0 20 40 60 80 100

0 0.1 0.2 0.3 0.4 0.5 0.6

γ

ρ

α

= 0.5

α

= 0.7

γ

M

γ

M

ρ ρ

ρ

M

ρ

M

α = 圧縮率、ρ = 非ゼロ要素の割合

γ

M

の意味

γ > γ

M

m

D

= 1 が大域的安定解となる。

γ

γ

S <

γ

<

γ

M

γ

>

γ

M

mD = 1

(MSE = 0)

mD = 1

(MSE = 0) 0 < mD < 1

(MSE > 0)

• (1)+(2): サンプル複雑度は Pc = N

γ

S,

γ

S =

α

/(

α

ρ

).

• (1):

γ

M が有限(

γ

>

γ

M ではmD = 1 が大域的安定解となる)

α ρ 平面上の相図

0 0.2 0.4 0.6 0.8 1

0 0.2 0.4 0.6 0.8 1

α

ρ (1)

(2)

(3)

Impossible to learn

二乗誤差最小化 による学習での O(N) limit

ρ

M(

α

)

α

=

ρ

α

ρ

まとめ

辞書学習に対して、ベイズ最適な学習則を用いた場合の サンプル複雑度の解析を行った。

非ゼロ要素の割合

ρ

< 圧縮率

α

のとき、

原理的にはサンプル数 P > Pc =

γ

sN で辞書学習が達成可。

サンプル複雑度はO(N)である。

先行研究の上界O(N2)を改善した。

特に

ρ

<

ρ

M(

α

)の場合、

学習成功状態が大域的な安定解となるため、

多項式時間で解を得られる可能性が示唆された。

関連したドキュメント