情報幾何を用いたExpectation Propagation の収束点の解析

全文

(1)人工知能学会研究会資料 SIG-DMSM-A801-01 (7/23).

(2) の収束点の解析

(3)

(4)

(5)

(6) . 情報幾何を用いた. 松井秀往. . 田中利幸.

(7)

(8) 京都大学大学院情報学研究科.

(9) . . ! . . . 節そして数値実験により摂動解析の結果を裏付ける例を示す

(10) 第 ' 節. はじめに. 確率推論を行う際に対象とする分布に関するある統計量の期待値を求めたい状況がしばしば起こるしかしその際に計算量の爆発が発生することが多いこのような状況で用いられる手法の " つとして確率伝播法が広く知られている確率伝播法を使うと対象とする分布の周辺分布が持つ統計量の期待値を推定できる

(11) #"$ は確率伝播法を拡張した手法 #" % &$ であるを使うと対象とする分布に関する「着目する統計量」の期待値を推定できる「着目する統計量」は期待値を求めたい統計量を含む必要があるがその条件を満たしてさえいればを使用する際にユーザが任意に選ぶことができるしかしその選び方によって期待値の推定値は変わると予想される本稿ではを用いる際に「着目する統計量」の選び方が推定値の精度に与える影響について情報幾何 #'$ の視点から議論する確率伝播法の推定値の精度は情報幾何の手法を用いることで既に評価されている #( )$ 前述の通りは確率伝播法の拡張である #" % &$ そこで我々は情報幾何の手法を用いた確率伝播法へのアプローチ #( )$ をに拡張するまず我々はを情報幾何の視点から定式化する

(12) 第 % 節その定式化を基にの推定値の精度が「着目する統計量」の選び方にどう影響されるかを摂動解析によって調べる

(13) 第 &. . 情報幾何の視点から見た. . を確率分布

(14) に従う確率変数とし

(15) をの実数値関数とする本稿では

(16) を対象とする分布と呼ぶ今

(17) に関する

(18) の期待値 .

(19) *

(20) *. .

(21)

(22) .

(23) ". が必要であるとするこのような状況は機械学習や通信において事後平均を求めたい場合などベイズの公式を利用した推論を行う際にしばしば現れるしかしながらが高次元かつが「扱い辛い分布」であった場合

(24) を求めるのは困難であるここで本稿では確率分布が「扱い辛い分布」であるとは

(25)

(26) を求める際にが取り得る全ての値に対する

(27)

(28) を評価し足し合わせるという単純ではあるが多くの計算量を必要とする方法を取らねばならないことを指す逆に確率分布が「扱い易い分布」であるとは

(29)

(30) が解析的に求まったり多くの成分が独立であるための全ての組み合わせを考えなくても良いなど

(31)

(32) の計算が容易であることを指すまたある分布族に属する全ての分布が「扱い易い分布」であるときその分布族を「扱い易い分布族」と呼ぶが「扱い辛い分布」である場合には式

(33) " の右辺を求めるには何らかの近似手法が必要となるもこのような状況で用いられる近似手法の " つである. . . 連絡先：京都大学大学院情報学研究科〒京都市左京区吉田本町

(34) . -1-. .

(35) %. 以下で情報幾何の視点からを定式化するための準備をする

(36) が以下のように分解できるとする.

(37) . . .

(38). . . &

(39) *

(40) を満たすようなめる.

(41) %. . ( -*. *

(42) + * #

(43) ,

(44)

(45)

(46) $

(47) & ここで

(48) はの自然座標系

(49)

(50) は正規化のための項であるまた我々はアインシュタインの規約を用いたつまり上と下に " 回ずつ現れる添え字についてはその添え字に関する和をとる以降でも明示せずにこの表記法を用いる上で

(51) は

(52) *

(53) と表される後述するのアルゴリズムはに属する分布の更新アルゴリズムとみなせるためはを . ).

(54) . * *. . . . 及び . -* とする. 収束するまで %.( を更新するを求める. 収束解の精度. 収束解の性質.

(55) + * #

(56)

(57)

(58) $

(59) (

(60) + * #

(61) ,

(62)

(63)

(64) $

(65) ) . 第 % 節で示したのアルゴリズムは「着目する統計量」を適切に選べば確率伝播法のアルゴリズムに一致する従って確率伝播法の収束解について得られている条件がの収束解にも成り立つと考えられる実際にのアルゴリズムが収束した状態では確率伝播法と同様に条件条件 #( )$ と呼ばれる以下の % つの条件が成り立っている. ここではのパラメータであるはの部分モデルとなっているは「着目する統計量」を選ぶことで定まるまたは「着目する統計量」と対象とする分布の分解の仕方

(66) 式

(67) % を決めることで定まる我々はが実行可能となるためにが「扱い易い分布族」であること及び

(68) から

(69) を求めるのが容易であることを仮定する確率伝播法の情報幾何の視点から見た定式化 #( )$ に倣うとモデル上ののアルゴリズムは以下のように表せる情報幾何の視点から見た. を求. このアルゴリズムの収束解として得られる -*

(70) がによる

(71) の推定値となるは一般に収束するとは限らないしかし本稿ではが収束する条件などは考えず収束した場合に得られる解の性質について議論するの収束解は一般には

(72) に一致しないまたでは「着目する統計量」が変わると収束解も変わると予想される従ってを実際に用いる際には「着目する統計量」をどのように選んだらの収束解が精度良く真の値

(73) を近似するのかという問題が生じる直感的には「着目する統計量」が多ければ多いほど推定の精度が良くなるという予想が立つがこれは決して自明な性質ではない我々は % つの異なるモデルにおいての収束解の精度を評価し

(74) 第 &% 節第 && 節それらを比べることによってこの問題を議論する第 &% 節で扱うモデルは第 && 節で扱うモデルに含まれるため本稿では前者を小さいモデル後者を大きいモデルと呼ぶ.

(75) '. で表す以下でモデル上のの定式化をする分布族を以下のように定義する. . / の収束値から -*

(76) . 情報幾何の視点から理解する際に基礎となる分布族である式

(77) & から明らかなように指数型分布族は統計量

(78) に加えて

(79) に基づいて定義されているこのようにを行う基礎となる指数型分布族を定義する際に導入される統計量を本稿では「着目する統計量」と呼ぶことにする．「着目する統計量」は期待値を知りたい統計量を含むという条件を満たしていればを使用する際にユーザが任意に選ぶことができる以降では確率分布に関する

(80) の期待値を第成分に持つベクトルを.

(81) *. . 確率分布. '

(82) を求め -*

(83) とする. ここで * " % であるまた

(84) は実数値関数である以下の指数型分布族を考える. " つもしくは複数個任意に選ぶ

(85) + を求め

(86) を求めるを.

(87) 条件 - * *

(88) 条件 -

(89) *

(90) . . . . .

(91) /

(92) 0. なお印は収束値を表す条件は

(93) +

(94) + 及び

(95) の関係を表す条件であり以下で詳しく説明. のアルゴリズム. " を初期化し * を全てのに対して求める. -2-.

(96) . するの部分モデルを考える . *.

(97). +. . .

(98) +. 以下の解析は確率伝播法に対する % 次の摂動解析 #($ と同様の手順で行うを. .

(99) . *

(100) + . , . . *

(101) + * #

(102) ,

(103)

(104)

(105) $

(106) "% によって葉層化するは

(107) に含まれるまたは

(108) に一致するさらにを. . . . *". + ,

(109) .

(110). .

(111) .

(112) 1. . .

(113) + *

(114) " * . ,. . .

(115). . .

(116) . ,

(117)

(118) " .

(119) "2.

(120) "&. . . .

(121)

(122)

(123)

(124)

(125) .

(126) "'. と近似できるここで * とした定義より

(127)

(128) は

(129) 上にあるため *

(130)

(131) である言い換えれば推定誤差は. . . .

(132)

(133)

(134) .

(135) "(. . と近似できることが分かるここまでに述べた

(136)

(137) と

(138) との関係を図 " に示す

(139) を求めるため

(140) が * の周りでの % 次のテイラー展開で近似できると仮定するこのとき

(141) は. . 小さいモデル. . 小さいモデルを.

(142)

(143) , , "% .

(144) "). と近似できるここでテイラー展開の " 次 % 次の係数を * それぞれ * ¼ ¼ とおいた式

(145) ") より

(146) は. *

(147) + * #

(148) ,

(149)

(150)

(151) $

(152) "" と定義するこのモデルは「着目する統計量」として

(153) を選んだモデルであるこのモデルは第 % 節で定義したモデルに式の上で完全に一致する小さいモデル上のによって得られる収束解と真の値

(154) との推定誤差

(155) を % 次の摂動解析によって評価する. . が成り立つのでこの確率分布は条件を用いると

(156) に一致することが分かるつまり条件は

(157) +

(158) + を繋ぐ対数線形な部分モデルに

(159) が含まれることを意味する #( )$ 条件条件を用いると確率伝播法の収束解に対して摂動解析により成された誤差評価 #($ と同様の手順での収束解の誤差を評価することができるこの方法で % つのモデル上のの収束解に対して誤差評価をし比較する. . * . *

(160) "

(161) ,.

(162) . によって葉層化する条件

(163) 式

(164) 0 より

(165) は

(166) 及び

(167) を含む以降では多くの添え字が必要となるそこで混乱を避けるための成分を表す添え字にはを用いの成分を表す添え字にはを用いるという規則を導入する推定誤差を評価するために

(168) と

(169) との交点を求める

(170) に属する分布をの自然座標系

(171) で表したときのパラメータをの関数として

(172) と表す

(173) と

(174) との交点は

(175)

(176) である従って

(177) と

(178) との交点を求めるには

(179) を求めればよい上の自然座標系

(180) で表される分布に関する

(181) の期待値を

(182) で表す求めたい真の期待値は

(183) *

(184) である一方で

(185) と

(186)

(187) とはどちらも

(188) 上の点であるから

(189) 上で

(190)

(191) の周りでの " 次のテイラー展開を考えることで

(192) *

(193) は. ここで *

(194) であるまた

(195) は正規化項であるは

(196) +

(197) + を繋ぐの対数線形な部分モデルである

(198) + は * " * によって定まる確率分布としてに含まれる

(199) + は * 2 * によって定まる確率分布としてに含まれるここでは第成分が " その他の成分が 2 の単位ベクトルであるまた上で *

(200) " * によって定まる確率分布を考えると. . *. .

(201)

(202) ,. , %". .

(203) "/. *

(204)

(205) , , "% .

(206) "0. . . と近似できる同様には . -3-.

(207) S. E. M ( η* ). S (1). (θ (1), ࠉ 1). と定義するここで

(208) はの実数値関数

(209) Æ は 3 の自然座標系であるこのモデルは「着目する統計量」として

(210) 及び

(211) を選んだモデルである小さいモデルは大きいモデルにおいて Æ * とおいた部分モデルとして大きいモデルに含まれる以下では確率分布

(212) に関する

(213) の期待値を

(214) と表すまた

(215) *

(216) と表す大きいモデル上のは

(217) の推定値に加え

(218) の推定値も得ることができるしかし我々が知りたい統計量の期待値は全てに含まれているための推定値の良し悪しについて本稿では問題としない第 &% 節と同様の手順で大きいモデル上のの推定誤差を評価する 3 を. *. (0, ࠉ 1). . v. θ. (ζ 2* , e2 ) (ζ 1* , e1 ). (θ * , ࠉ 0). 3

(219) . *

(220) + * #

(221) ,

(222) ,

(223)

(224) 3

(225) Æ $

(226) %(. "-

(227)

(228) と

(229) との関係

(230)

(231)

(232) である図. . 対数線形と表せる. および. 推定誤差は. 3

(233) . . 条件

(234) 式

(235) / と式

(236) "0 より "

(237) "1. *

(238)

(239) , % が成り立つ式

(240) "1 を式

(241) "/ の右辺に代入すると " .

(242)

(243)

(244) %2 % . .

(245) %"

(246) %%. が成り立つ #($ ここでは右側にある項に作用する演算子であり

(247) *

(248) における導関数 , を求めることを意味するまた * とおいた式

(249) "(

(250) %2

(251) %% より推定誤差は. . .

(252)

(253) "%. . .

(254) %&. 大きいモデル. 大きいモデルを 3.

(255) %).

(256)

(257) , 3 , "% 3

(258) %/ 3 , " 3 Æ

(259)

(260) Æ ,

(261) %0 % と近似できるここでテイラー展開の " 次の係数を 3 * ¼ 3 * Æ ¼ とおいたま 3 * ¼ たテイラー展開の % 次の係数を 3 * Æ ¼ とおいた条件を用いることで式

(262) %/

(263) %0 は " 3 .

(264)

(265)

(266) %1 % . と近似できる. .

(267) *

(268) . . を得る

(269) に沿ったのによる " 次微分 % 次微分は共に全ての成分が 2 となる

(270) においてこの条件を考えるとテイラー展開の係数について. , * 2 * . 3

(271)

(272) . によって葉層化するこれらはそれぞれ小さいモデルにおける

(273)

(274) に対応する 3 の部分モデルを 3 -* 3

(275) 3 -* 3

(276) と定義するモデル 3 上でが実行可能であるためには 3 が「扱い易い分族」であること及び

(277)

(278)

(279) から

(280)

(281) Æ

(282) を求めるのが容易であることが必要であるここでは 3 に属する分布である添え字に対する混乱を避けるため第 &% 節で導入した規則に加え Æ の成分を表す添え字にはを用いるという規則を導入する 3

(283) 上にある分布を 3 の自然座標系

(284) Æ で表したときのパラメータ Æ をそれぞれの関数と 3

(285) して

(286) Æ

(287) と表すこのとき 3

(288) ととの交点におけるパラメータ

(289) Æ

(290) は式

(291) "/ と同様 % 次のテイラー展開を考えることで. . . *. *

(292) + Æ * #

(293) , Æ

(294) ,

(295)

(296) 3

(297) Æ $

(298) %'. -4-. Æ. .

(299)

(300) "%. . . 3 .

(301) &2.

(302) と変形できる

(303) に沿ったのによる " 次微分 % 次微分は共に全ての成分が 2 となる

(304) Æ においてこの条件を考えるとテイラー展開の係数について. . 3 3 3. 3 3. . . . . 3. . 3. 3. . 3 3 , * 3 3 3

(305) &" . . . . . . . . * 3 3. 3 . . . . . . .

(306) &%. . .

(307) 3

(308) 3

(309) 3 Æ

(310) " 3 3

(311) % .

(312) &&. . . と近似できるここで " 行目の右辺から % 行目への式変形には式

(313) %1

(314) &2

(315) &% を用いた. . Æ ¼. * . . * Æ . . . . . Æ ¼ Æ ¼. . . . . . . *. . . Æ ¼. * Æ . . * ÆÆ . . . Æ ¼. . . Æ ¼. .

(316) &). 数値実験. 定式化この節では第 & 節の結果を支持するような例を数値実験により示す & 変数 *

(317) ! ! ! " " のボルツマンマシン. つの収束解の比較. 第 &% 節第 && 節で得た % つのモデル上のの推定誤差を比べることで「着目する統計量」の選び方がの収束解の精度に与える影響を調べる簡単のため我々は 3 上の点

(318) Æ *

(319) Æ においては

(320) と

(321) とが直交すると仮定するこの 3

(322) が成り立つ従っ仮定の下では 3 * 2 より 3 3 て

(323) , が成り立つこれを式

(324) && に代入すると大きいモデルの推定誤差は.

(325) + " # . .

(326). ". ! ! . ,#. . ! . .

(327) &/. の統計量 ! の期待値をにより推定するこの目的を達成するため異なる % つのモデル上でを実行してそれぞれの推定値を比べたまず小さいモデルを. 3 3

(328) . ,

(329) 3 , 3 , 3 3

(330) &'. *

(331) + * #

(332) , ! ,

(333)

(334)

(335) $

(336) &0. と定義するここで * " % & である

(337) 然座標系であるまた. と変形できる式

(338) &' は具体的に. 3 3

(339) . *. . とおいた式

(340) &( 右辺の % 行目 & 行目が小さいモデルの推定誤差と大きいモデルの推定誤差との差を表しているこれらの項の大小関係や正負はモデルに依存する従って式

(341) &( から「着目する統計量」を多くすることが推定誤差の良し悪しに与える影響は追加する統計量の選び方に依ることが分かるつまり本節の摂動解析から大きいモデル上のの推定値の方が精度が悪くなる場合があるということが分かる. 3 は右側にある項に作用する演が成り立つここで 3 , 算子であり

(342) Æ における導関数 , 3 を求めることを意味する式

(343) "( と同様に

(344)

(345) Æ

(346) の周りでの " 次のテイラー展開を考えることで推定誤差は. と書き下すことができるここで. , 3 , 3 , 3 3 . , 3

(347) , 3 , 3

(348) , 3 , 3 3

(349) &(.

(350). . *#. はの自. !. * %! ! %" ! ! "% ! ! " "

(351) * ! ! , %! ! ! ! % % " "

(352) * ! ! ! ! , %! ! % %

(353).

(354) &1. と定義した式

(355) &/ で定義した確率分布は上で

(356) *

(357) 2 " と表される式

(358) &0 において . -5-.

(359) の指数部に

(360) が加わっており第 % 節の定式化と一致しないように見えるが第 % 節で述べたのアルゴリズムは

(361) を含む形に自明に書き直すことができ，摂動解析の議論にも影響を与えないモデルは「着目する統計量」として ! を選んだモデルであるこれは我々が目的としている ! の期待値の推定値を得ることに対して必要最小限のモデルであるまたの部分モデルを.

(362) + * #

(363) , !

(364)

(365) $

(366) '2

(367) + * #

(368) , ! , "

(369)

(370)

(371) $

(372) '" . 0.8 0.7. . * *. 1 0.9. 0.5 0.4. . . *

(373) + *

(374) , ! ,

(375)

(376) 3

(377) . 0.2 -0.4. . . .

(378) + *

(379) , !

(380) 3

(381)

(382) '&

(383) + *

(384) , ! , "

(385)

(386) 3

(387)

(388) ''. . . 0. 0.1. 0.2. 0.3. 0.4. -0.05. と定義するここでは 3 の自然パラメータである. . -0.1. 0. 推定誤差. . -0.2. 図 %- 式

(389) &/ で定義された分布のパラメータ " の変化に伴う * ! の変化パラメータ # は " に固定した実線が真の分布によって得られたの真の値破線点線はそれぞれ大きいモデル小さいモデル上ので得たの推定値. .

(390) '%. . * 3 *. -0.3. ". と定義するここで * " % & であるまた

(391) は 3 の自然座標系である式

(392) &/ で定義した確率分布は 3 上では

(393) *

(394) " と表されるモデル 3 は「着目する統計量」として ! ! ! を選んだモデルである我々が興味があるのは ! の期待値のみであるが第 & 節の議論で示したように他の統計量にも着目することで ! の期待値の推定値が変わる可能性があるまた 3 の部分モデル 3 3 を 3. 真の値大きいモデル小さいモデル. 0.3. と定義するここではの自然パラメータである次に大きいモデルを 3. 0.6. 実験結果. -0.1 -0.15 -0.2. 我々は式

(395) &/ において # を " に固定した上でパラメータ " を 2 の周りで変化させその都度に関する統計量 ! の期待値 * ! をによって推定したその結果を図 % に示す図 % から " が 2 の近辺において小さいモデルの方が大きいモデルよりも僅かに推定誤差が小さいことが分かるこれは第 & 節の摂動解析で得た大きいモデル上のの推定値の方が精度が悪くなる場合があるという結果を支持するまたによって得たの推定値と真の値との誤差を図 & に示した図 & から上述の傾向がさらに良く分かるこの結果で我々が強調したいのはここで示した例は" が 2 の近辺で大きいモデルの方が精度が悪くなっ. 大きいモデル小さいモデル. -0.25 -0.4 -0.3 -0.2 -0.1. 0. 0.1 0.2 0.3 0.4. ". 図 &- 式

(396) &/ で定義された分布のパラメータ " の変化に伴う * ! の推定誤差破線点線はそれぞれ大きいモデル小さいモデル上ので得たの推定値と真の値との推定誤差. -6-.

(397)

(398)

(399)

(400) ! 7 5 4 8 %22%. #&$ 5 8. ているという点である我々はまた " が大きい場合に大きいモデルの方が精度が悪くなっている例も実験的に見出している

(401) 結果は省略．しかしここで示した例は我々が摂動解析で評価した % 次の誤差の範囲ですら大きいモデル上のの推定値の方が精度が悪くなる場合があるという結果を確かに支持している. . #'$ < 9 ? 6

(402) 4 5 5 @ "1" < 5 %22" #($ 6 4 4 6 < ; 6 >

(403) @ (2 ) "21/."""' 8 %22'. まとめ. 我々はを使用する際に生じる「着目する統計量」の選び方が推定の精度にどのような影響を与えるかという問題を議論したまずを情報幾何の視点から定式化したその定式化に基づいて% つの異なるモデル上のの推定誤差を % 次の摂動解析により評価し比較した摂動解析から大きいモデル上のの推定値の方が精度が悪くなる場合があるという結果を得たそして数値実験により大きいモデル上のの推定値の方が精度が悪い例を示し摂動解析の結果を支持したこれらの結果からを用いる際に「着目する統計量」が多いほど推定誤差が小さくなるという単純な関係が成り立たないことが分かった. . #)$ 6 4 4 6 < ; > " ! @ ") 1 "//1."0"2 %22'. 今後の課題. 本稿では「着目する統計量」に対して具体的な条件を置かずに一般的な枠組みのもとで議論した実用上「着目する統計量」をどのように選ぶと推定誤差が小さくなるかという問題は重要であるが我々の結果はこの問題に対して解答を与えるに至っていないこの問題に対する " つのアプローチとして実用上役に立つ状況を考えて「着目する統計量」の選び方に対して具体的な議論をすることでを実際に用いる際に参考となる知見を探すという方法が考えられるこの議論は今後の課題としたい. 参考文献.

(404) 7 5. #"$ 4 5 6. 4 8 %22". #%$ 4 96 5 ! 6 ! ! : ;< = > .

(405)

(406) "" ""2"( ?@ %22(. -7-.

(407)