DL の P 依存性を評価する
③ エネルギー密度 (一成分当たり)
–
χ χ
+
+
+ + −
− − + +
−
− − + +
−
=
Ω Ω) 1
( 2
) 2
(
) ˆ ,
; ˆ (
2 ˆ ˆ
2 ˆ ˆ ˆ 2 ˆ
ˆ ˆ
DL の P 依存性を評価する:まとめ
平均二乗誤差と分散
エネルギー
ˆ ) , (
extr
*
= arg Ω Ω
Ω
Ωf
} ,
, ,
,
{mD
χ
D QX mXχ
XMSED, MSEX,
χ
D,χ
X0 0 2
0
*
*
1
ˆ ) ,
(
−
= Ω
Ω DX D X
f MP
5変数の連立方程式を解き、
Ω∗を求めればよい。 → 複数個の解が存在する。
解の分類
解①
解②
• mD = 1
• mX =
ρ
• QX =
ρ
• mD = 0
• mX = 0
• Qx ∈ R+
・
χ
D = ∞,χ
X = ∞ f = 0 f = 0・
χ
D = ∞,χ
X = ∞ f = 0 f ≠ 0・
χ
D < ∞,χ
X < ∞・
χ
D < ∞,χ
X < ∞解の分類
解①:成功解(S)
解②:失敗解(F)
• MSED = 0
• MSEX = 0
・
χ
D = ∞,χ
X = ∞・
χ
D < ∞,χ
X < ∞f = 0
f = 0
・
χ
D = ∞,χ
X = ∞ f = 0 f ≠ 0・
χ
D < ∞,χ
X < ∞• MSED > 0
• MSEX > 0
解の分類
解①:成功解(S)
解②:失敗解(F)
・
χ
D = ∞,χ
X = ∞・
χ
D < ∞,χ
X < ∞f = 0
f = 0
・
χ
D = ∞,χ
X = ∞ f = 0 f ≠ 0この解が唯一の安定解として 存在するとき、学習成功。
・
χ
D < ∞,χ
X < ∞• MSED = 0
• MSEX = 0
• MSED > 0
• MSEX > 0
解の分類
解①:成功解(S)
解②:失敗解(F)
・
χ
D = ∞,χ
X = ∞・
χ
D < ∞,χ
X < ∞f = 0
f = 0
・
χ
D = ∞,χ
X = ∞ f = 0 f ≠ 0この解が唯一の安定解として 存在するとき、学習成功。
・
χ
D < ∞,χ
X < ∞この解が存在するとき、
D0X0 = DXを満たすD≠D0,X≠X0がたくさん存在。
. DL2の統計力学
• MSED = 0
• MSEX = 0
• MSED > 0
• MSEX > 0
① 成功解の γ 依存性
・
χ
D = ∞,χ
X = ∞・
χ
D < ∞,χ
X < ∞f = 0
f = 0
…1 < γ <γSで存在
… α > θeffS(θ, ρ), γS < γ で存在
−
− +
=
> 2 exp 2
) 1
( )
, (
2 S
eff
u u ρ π
θ ρ
θ θ
α
) , ) (
, ,
(
Seff
θ ρ θ
α ρ α
θ α γ
γ >
S= −
+∞
∫
− z = −dz exp( 2 2)
θ ρ
u は次のように決められる。
• MSED = 0
• MSEX = 0
② 失敗解の γ 依存性
・
χ
D = ∞,χ
X = ∞ f = 0f ≠ 0
・
χ
D < ∞,χ
X < ∞…0< γ < γFで存在。
…α > θeffF(θ, ρ), γF < γ で存在。
− +
=
> 2 exp 2
) (
2 F
eff
v v
θ π
θ θ
α
(
effF)
2) ,
(
α θ α θ
γ
γ
> = −aF
2 exp 2
2
2
θ
π
=
−
+∞
∫
v
z dz
v は次のように決められる。
. DL2の統計力学
• MSED > 0
• MSEX > 0
Impossible to learn Learnable by
O(N) samples
0.2 0.4 0.6 0.8 1
1 0.8 0.6 0.4 0.2 0
α
α ‐ θ 平面の相図
α = θ
F
θ
effα
=α
>θ
effFでは、(α
,θ
effF から決まるγ
Fを用いて) P > Nγ
Fのときにplanted solutionを同定できる。Impossible to learn Learnable by
O(N) samples
0.2 0.4 0.6 0.8 1
1 0.8 0.6 0.4 0.2
0 θ
α
α ‐ θ 平面の相図
α = θ
F
θ
effα
=α
>θ
effFでは、(α
,θ
effF から決まるγ
Fを用いて) P > Nγ
Fのときにplanted solutionを同定できる。ベイズ最適な辞書学習では、
この領域でも学習が可能。
ベイズ最適な学習則
• 平均自乗誤差(MSE)を定義
, は任意の学習則を用いてYから推定した解
<…>は次の同時分布による平均
∑ −
=
i
i i
D
D D
MN
µ µ µY
D X Y, , 2
0
0
))
0ˆ ( 1 (
MSE
∑ −
=
il
il il
X
X X
NP Y
D X Y, , 2
0
0
))
0ˆ ( 1 (
MSE
)
; (
) (
) , ,
(
0 0 0 00 0 0
0
X Y δ Y D X D X ρ
D P P
P
−
=
) ˆ Y(
D Xˆ Y( )
ベイズ最適な学習則
MSE はベイズ最適な学習則により最小化される。
– この学習則による推定値は以下の通り。
– Di はDのi 番目のコラム
– <…> は事後分布P(D,X|Y) = P(D,X,Y)/P(Y)によるD,X平均.
• つまり、推定の際にモデルの真の分布が分かっている。
• このとき、レプリカ対称解は安定。[Y. Iba (1999)]
X Y
D X Y D
D ˆ ( ) = ( = 1 ,..., ), ˆ
ODL( ) =
2
ODL
M i N
i
i i
ベイズ最適な学習則の解析
真の値と推定値の重なり mD ,mX を定義する
MSED = 2(1 – mD), MSEX = 2(ρ – mX) となるので mD = 1, mX = ρ : D0 と X0 の学習に成功。
mD = 0, mX = 0 : 学習失敗。
レプリカ法によりm , m のパラメータ依存性を明らかにする。
∑
=
i
l i
D
D D
m MN
µ µ µ
Y X
Y
D, , ODL
0
0
)
0ˆ ( 1
∑
=
il
il il
X
X X
m NP
Y X
Y
D, , ODL
0
0
)
0ˆ (
1
• レプリカ法によるmD ,mXの表式
2 2
2
0 0
0 0
ˆ ) 1
(
ˆ ) ˆ
( 1 ˆ
ˆ
+
+ Ξ
= Ξ
= +
∫
+X X
X X
X X X
D D D
m
X m z
X m P
DzdX m
m m m
σ
X D X
X D
X D X
D
X
m m
m m m
m m m
= −
=
2− , ˆ
2ˆ ρσ
γ ρσ
α
+
+ Ξ = − + Ξ
+ +
= +
Ξ X X
X X
X X
X X
X
X m
X m z
m m
) 1
( ) ,
1 ˆ ( 2
ˆ ) ( ˆ
exp
1 ˆ 2
2 0 2
2
ρ
σ σ
σ ρ
α = M / N γ = P / N
ベイズ最適な学習則の解析
m
Dの γ 依存性 ( α = 0.5, ρ = 0.2)
• γ > γS = α/(α - ρ)で mD = 1, mX =
ρ
の解が現れる。→ Sample complexity は Pc = NγS.
• γ > γM で mD = 1 ,mX =
ρ
以外の解が消える。しかし、
γ
はρ
→ρ
(α
)で発散する。0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1.5 2 2.5 3 3.5 4
m D
γ
γ
Sγ
Fγ
MmD
γ
※ α = 圧縮率、
ρ = 非ゼロ要素の割合
•
α
とρ
の差が広がるにつれてγ
M は増加し、ρ
>ρ
M(α
) で発散する。γ
Mの α , ρ 依存性
ρM
0 20 40 60 80 100
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
γM
ρ
ρM
0 20 40 60 80 100
0 0.1 0.2 0.3 0.4 0.5 0.6
γ
ρ
α
= 0.5α
= 0.7γ
Mγ
Mρ ρ
ρ
Mρ
M※ α = 圧縮率、ρ = 非ゼロ要素の割合
γ
Mの意味
γ > γ
Mで m
D= 1 が大域的安定解となる。
γ
γ
S <γ
<γ
Mγ
>γ
MmD = 1
(MSE = 0)
mD = 1
(MSE = 0) 0 < mD < 1
(MSE > 0)
• (1)+(2): サンプル複雑度は Pc = N
γ
S,γ
S =α
/(α
–ρ
).• (1):
γ
M が有限(γ
>γ
M ではmD = 1 が大域的安定解となる)α – ρ 平面上の相図
0 0.2 0.4 0.6 0.8 1
0 0.2 0.4 0.6 0.8 1
α
ρ (1)
(2)
(3)
Impossible to learn
二乗誤差最小化 による学習での O(N) limit
ρ
M(α
)α
=ρ
α
ρ
まとめ
辞書学習に対して、ベイズ最適な学習則を用いた場合の サンプル複雑度の解析を行った。
非ゼロ要素の割合
ρ
< 圧縮率α
のとき、原理的にはサンプル数 P > Pc =
γ
sN で辞書学習が達成可。サンプル複雑度はO(N)である。
先行研究の上界O(N2)を改善した。
特に
ρ
<ρ
M(α
)の場合、学習成功状態が大域的な安定解となるため、
多項式時間で解を得られる可能性が示唆された。