近似メッセージ伝搬法 - M = N M N M < N. N x 0 0 K M K M < N M > K N x M y M N A y = Ax 3) M

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

図16: 基底追跡のレプリカ解析の結果．MSEが0.001を境目として、黒がMSEが大きい領域（失敗相）、

白がMSEが小さい領域（成功相）．曲線は図6のもの．

これはボルツマン機械学習の項で述べられるように、確率分布関数の強い複数の確率変数間の相関関係を断ち切る近似を行うことで得られる方法である．

さて我々の目的とする圧縮センシングの原信号推定に利用してみよう．まずは基底追跡型の最適化問題について考えよう．観測行列A、観測信号yが与えられたときの事後確率はベイズの定理を利用して、以下のように与えられる．

P^β(x|A,y)∝

∏N k=1

exp (−β|xk|)

∏M µ=1

δ(

yµ−a^T_µx)

(230) ファクターノードµにたいして、変数ノードは全て繋がっている．またaµは観測行列の行ベクトルを抜き取ったものである．β → ∞の極限において、L1ノルム最小化を利用して、スパースな解を得るという格好をしているのはこれまで通りである．制約条件を表すデルタ関数部分を罰金法にあるように、制約条件から決まるガウス分布で表現することも可能である．そこで一般に以下の形で与えられる確率分布関数を以降取り扱うことにする．

P^β(x|A,y)∝

∏N k=1

exp (−β|xk|)

∏M µ=1

f( a^T_µx|yµ

) (231)

そのままメッセージ伝搬法を利用しても良いが、更に変数の数が多い（N → ∞）という問題の性質を利用 して、近似を施すことにより計算量の更に低いアルゴリズムを構成することができる．これを近似メッセージ伝搬法（Approximate Message Passing:AMP）と呼ぶ．

それでは近似メッセージ伝搬法の導出を行う．N → ∞の極限での計算であるから、先ほどの統計力学による解析手法が参考になる．まずメッセージの更新式（228）の計算を進める．以下の恒等式を利用する．

1 =

∫ du_µδ(

u_µ−a^T_µx)

(232) この恒等式をメッセージ更新式（228）に挿入しよう．

M˜_µ^[t]_→_k(xk) ∝

∫ duµ

∫

dx_/kf(uµ|yµ)δ(

uµ−a^T_µx) ∏

l̸=k∈∂µ

M_l^[t]_→_µ(xl) (233) さらにデルタ関数をフーリエ積分表示（後の便宜のため虚数単位を用いた表示）をする．

M˜_µ^[t]_→_k(xk) ∝

∫ duµ

∫ d˜uµ

∫

dx/kf(uµ|yµ) exp{ i˜uµ

(uµ−a^T_µx)} ∏

l̸=k∈∂µ

M_l^[t]_→_µ(xl) (234) 積分される変数に注目して、xlについての積分の積として表示する．

M˜_µ^[t]_→_k(xk) ∝

∫ duµ

∫

d˜uµf(uµ|yµ) exp{i˜uµ(uµ−aµkxk)} ∏

l̸=k∈∂µ

∫

dxlexp (−i˜uµaµlxl)M_l^[t]_→_µ(xl) (235) ここで観測行列は慣例に従い、平均0、分散1/Mのガウス分布に従うものを仮定する．そのときaµlが分散1/M程度の微小な値を持つことをから、xlに関する積分の中身を展開する．[t]その際に以下の平均と分散を定義する．

m_k_→_µ[t] ≡

∫

dx_kx_kM_k^[t]_→_µ(x_k) (236)

Vk→µ[t] ≡

∫

dxkx²_kM_k^[t]_→_µ(xk)−(mk→µ[t])² (237) これによりxlに関する積分をaµkについて2次まで展開したのちに実行したつもりになり、再び指数関数の肩に引き上げる．

M˜_µ^[t]_→_k(x_k) ∝

∫ du_µ

∫

d˜u_µf(u_µ|y_µ) exp{i˜u_µ(u_µ−a_µkx_k)} ∏

l̸=k∈∂µ

exp (

−i˜u_µa_µlm_l_→_µ[t]−u˜²_µ

2 a²_µlV_l_→_µ[t]

)

(238)

ここでu˜µについてガウス分布関数となっていることに注目して、積分を実行する．

M˜_µ^[t]_→_k(xk) ∝

∫

duµf(uµ|yµ) exp {

− 1 2Vµ

(uµ−mµ[t] +aµk(xk−mk→µ[t]))² }

ここで

m_µ[t] ≡ ∑

a_µkm_k_→_µ[t] (239)

V_µ[t] ≡ ∑

a²_µkV_k_→_µ[t] (240)

と定義した．途中∑

l̸=kml→µ[t] =mµ[t]−mk→µ[t]、∑

l̸=kVl→µ[t] =Vµ[t]−Vk→µ[t]として丁寧に主要に寄与する項を考慮しながら計算する．さらにaµkが小さいので、更に展開をする．

M˜_µ^[t]_→_k(x_k) ∝

∫

du_µf(u_µ|y_µ) exp {

− 1

2V_µ[t][t](u_µ−m_µ[t])² }

× {

1 +aµk(xk−mk→µ[t])(uµ−mµ[t]) Vµ[t] −a²_µk

2 (xk−mk→µ[t])² {

Vµ[t]−(uµ−mµ[t])² (V_µ[t])²

}}

(241) ここでu_µについての積分を実行する．そこで以下のモーメントを定義する．

c^(k)_µ =

∫

duµf(uµ|yµ) exp {

− 1

2Vµ[t](uµ−mµ[t])²

} (u_µ−m_µ[t]

Vµ[t]

(242) このモーメントを利用してメッセージは以下のようにガウス分布関数となることがわかる．

M˜_µ^[t]_→_k(xk) ∝ c⁽⁰⁾_µ exp {

mµ→k[t]xk−1

2Vµ→k[t]x²_k }

ここでメッセージによる平均と分散にかかわるx_kの1次、2次の係数は

mµ→k[t] = aµkg0(mµ[t]|Vµ[t])−a²_µkg1(mµ[t]|Vµ[t])mk→µ[t] (243) Vµ→k[t] = −a²_µkg1(mµ[t]|Vµ[t]) (244) であり、gr(mµ|Vµ)は以下のように定義した．

gr(mµ|Vµ) = ∂^r

∂m^r_µ logc⁽⁰⁾_µ (245)

この量はf(u_µ|y_µ)を（242）式のようにガウス積分することで得られる．つまりメッセージ更新式（228）

については評価が終わっている．この中に登場するmµ、Vµの評価のためにもう片方のメッセージ更新式

（229）に目を向ける．ここでメッセージによるモーメント d^(r)_k_→_µ =

∫

dxkx^r_kM_k^[t_→⁻_µ^1](xk) (246) を計算することを考えてみよう．r= 1のときmk→µ[t−1]、r= 2を利用してVk→µ[t−1]を得ることができる．ここでメッセージ更新式の定義（229）をみると、評価するべきは以下の積分であることがわかる．

d^(r)_k_→_µ=

∫

dxkx^r_kexp



−β|xk|+∑

ν̸=µ

mν→k[t−1]xk−1

2Vν→k[t−1]x²_k



 (247)

例によって絶対値関数があるため積分の実行は難しい．しかしながらβ→ ∞を考えるため、積分するする詐欺で、鞍点評価に逃げることができる．そこでmν→k[t−1]→βmν→k[t−1]、Vν→k[t−1]→βVν→k[t−1]

とスケールを変更する．さらに

m_k[t−1] = ∑

m_µ_→_k[t−1] (248)

Vk[t−1] = ∑

Vµ→k[t−1] (249)

を定義する．レプリカ法による計算のときと同様な計算にするため、先んじて以下の量を計算する．

I(a|b) = log {∫

dxexp (

−β|x|+βax−1 2βbx²

)}

≈ β

2b(|a| −1)²Θ (|a| −1) (250)

ここからd^(r)_k_→_µ = (∂/∂βa)^rI(a|b)より、

m_k_→_µ[t] = S_1/(V_k_[t₋_1]₋_V_µ→k_[t₋_1])

(m_k[t−1]−m_µ_→_k[t−1]

Vk[t−1]−Vµ→k[t−1]

)

≈ S_1/V_k_[t₋_1]

(m_k[t−1]

Vk[t−1]

)

−m_µ_→_k[t−1]

Vk[t−1] Θ (|m_k[t−1]| −1) (251) βV_k_→_µ[t] = 1

Vk[t−1]−Vµ→k[t−1]Θ (|m_k[t−1]−m_µ_→_k[t−1]| −1)≈ 1

Vk[t−1]Θ (|m_k[t−1]| −1). (252) これで一般的に確率分布関数f(u_µ|y_µ)の形が与えられたとき、メッセージをそれぞれガウス分布関数に近似したうえで、その1次と2次の係数についての関係式を以下のように得る．

mk[t] = 1 β

∑M µ=1

aµkg0(mµ[t]|Vµ[t])−1 β

∑M µ=1

a²_µkg1(mµ[t]|Vµ[t])S_1/V_k_[t₋_1]

(mk[t−1]

Vk[t−1]

)

(253)

Vk[t] = −1 β

∑M µ=1

a²_µkg1(mµ[t]|Vµ[t]) (254)

mµ[t] = ∑

aµkS1/V_k[t−1]

(mk[t−1]

Vk[t−1]

)

−Vµ[t]g0(mµ[t−1]|Vµ[t−1]) (255) βVµ[t] = ∑

a²_µk 1

Vk[t−1]Θ (|mk[t−1]| −1). (256)

LASSOに対する近似的メッセージ伝搬法さてLASSO型の最適化問題に対する近似メッセージ伝搬法のアルゴリズムを書いてみよう．それはf(uµ|yµ)を

f(uµ|yµ) = exp {

−β

2λ(yµ−uµ)² }

(257)

とおけばよい．式（245）に従い、まずc⁽⁰⁾µ を計算すると、

g0(mµ|Vµ) = β

λ+βV_µ(yµ−mµ) (258)

g1(mµ|Vµ) = − β

λ+βV_µ (259)

であるからβVµ →χµとして、

mk[t] =

∑M µ=1

aµk

λ+χ_µ[t](yµ−mµ[t]) +Vk[t]S_1/V_k_[t₋_1]

(mk[t−1]

V_k[t−1]

)

(260)

V_k[t] =

∑M µ=1

a²_µk

λ+χµ[t] (261)

mµ[t] = ∑

aµkS_1/V_k_[t₋_1]

(mk[t−1]

V_k[t−1]

)

−χµ[t]g0(mµ[t−1]|χµ[t−1]) (262) χ_µ[t] = ∑

a²_µk 1

V_k[t−1]Θ (|m_k[t−1]| −1). (263) ここでさらに近似を行う．（いわゆる近似メッセージ伝搬法は、この近似を行ったもの．上記は正確には緩和信念伝搬法（relaxed Belief Propagation）と呼ぶ．）大数の法則（非常に多くの確率変数の和からなる量は期待値に収束する）より∑

µa²_µk= 1およびa²_µk= 1/M としてもよい．ここでISTA等前述したアルゴリズムとの対応をより見やすくするために、∑

µa²_µk=L、a²_µk=L/Mとおく．さらにχµ[t] =χ[t]および V_k[t] =V[t]とする．

mk[t] =

∑M µ=1

aµk

λ+χ[t](yµ−mµ[t]) +V[t]S_1/V_[t₋_1]

(mk[t−1]

V[t−1]

)

(264) V[t] = L

λ+χ[t] (265)

mµ[t] = ∑

aµkS_1/V_[t₋_1]

(mk[t−1]

V[t−1]

)

− χ[t]

λ+χ[t−1](yµ−mµ[t−1]) (266) χ[t] = L

∑N k=1

V[t−1]Θ (|mk[t−1]| −1) (267)

それぞれガウス分布関数の係数をあらわしている．そこで期待値に軟判定しきい値関数をくぐらせたものから各成分の信号を推定することにしよう．

xk[t] =SΛ_[t]

(mk[t]

V[t]

)

(268) この各時刻の推定値に関する反復方程式であるとみて、式変形をしてみる．

xk[t+ 1] = S_Λ[t]

(

xk[t] + 1 L

∑M µ=1

aµkzµ[t]

)

(269) zµ[t] = (

yµ−a^T_µx[t])

+K[t−1]

M zµ[t−1] (270)

Λ[t] = λ

L+Λ[t−1]

M K[t−1] (271)

ここで

K[t] =

∑N k=1

(xk[t] + 1 L

∑M µ=1

aµkzµ[t]

−Λ[t]

)

(272)

またV[t] = 1/Λ[t]とした．上記2つの反復方程式を称して、圧縮センシングの再構成アルゴリズムとして

の有名なAMPと呼ぶ．3つめの反復式（271）は、圧縮センシングの再構成の可能性を表現する重要な式である．（その割にあまり目にしない．）第2項は、N成分あるうち非零の成分がいくつあるのかを数えている．そのため復号される信号の非零成分の個数K[t]がK[t]< Mであれば、基本的には1より小さい係数がΛ[t−1]にかかる．そのためΛ[t]は収束することが期待される．一方で非零成分の個数がK[t]> Mで

あれば発散してしまうため復号ができない．zµ[t]は各時刻での各行における残差yµ−a^T_µx[t]に由来する項であり、第一項までとすればISTAと一致することに注意したい．統計力学由来のAMPにより更に非自明な補正項が登場する．λ→0とすればLASSO型から基底追跡型の最小化問題に対応するが、一般には ISTAによる計算は不安定なものとなる．しかしこの補正項により、ISTAの計算不安定性を弱める性質があることが知られている．その意味でAMPはISTAより有用であり盛んに応用的な研究やその性質についての理論的研究が進められてきた．

ドキュメント内 M = N M N M < N. N x 0 0 K M K M < N M > K N x M y M N A y = Ax 3) M < N x K M > K K N K y = Ax N K N K K y = Ax.3 L L0 x 0 x L 0 x min x x 0 s.t. y = (ページ 39-44)