情報幾何を用いたExpectation Propagation の収束点の解析
7
0
0
全文
(2) の収束点の解析
(3)
(4)
(5)
(6) . 情報幾何を用いた. 松井秀往. . 田中利幸.
(7)
(8) 京都大学 大学院情報学研究科.
(9) . . ! . . . 節 そして数値実験により 摂動解析の結果を裏付け る例を示す
(10) 第 ' 節. はじめに. 確率推論を行う際に 対象とする分布に関するある 統計量の期待値を求めたい状況がしばしば起こる し かしその際に計算量の爆発が発生することが多い こ のような状況で用いられる手法の " つとして 確率伝播 法が広く知られている 確率伝播法を使うと 対象とす る分布の周辺分布が持つ統計量の期待値を推定できる
(11) #"$ は確率伝播法を拡張 した手法 #" % &$ である を使うと 対象とする分 布に関する「着目する統計量」の期待値を推定できる 「着目する統計量」は期待値を求めたい統計量を含む必 要があるが その条件を満たしてさえいれば を使 用する際にユーザが任意に選ぶことができる しかし その選び方によって期待値の推定値は変わると予想さ れる 本稿では を用いる際に「着目する統計量」の選び 方が推定値の精度に与える影響について 情報幾何 #'$ の視点から議論する 確率伝播法の推定値の精度は 情 報幾何の手法を用いることで既に評価されている #( )$ 前述の通り は確率伝播法の拡張である #" % &$ そ こで我々は情報幾何の手法を用いた確率伝播法へのア プローチ #( )$ を に拡張する まず我々は を情 報幾何の視点から定式化する
(12) 第 % 節 その定式化を 基に の推定値の精度が「着目する統計量」の選び 方にどう影響されるかを摂動解析によって調べる
(13) 第 &. . 情報幾何の視点から見た. . を確率分布
(14) に従う確率変数とし
(15) を の実数値関数とする 本稿では
(16) を対象とする分 布と呼ぶ 今
(17) に関する
(18) の期待値 .
(19) *
(20) *. .
(21)
(22) .
(23) ". が必要であるとする このような状況は機械学習や通 信において事後平均を求めたい場合など ベイズの公式 を利用した推論を行う際にしばしば現れる しかしなが ら が高次元かつ が「扱い辛い分布」であった場合
(24) を求めるのは困難である ここで本稿では確率分 布 が「扱い辛い分布」であるとは
(25)
(26) を 求める際に が取り得る全ての値に対する
(27)
(28) を評価し足し合わせるという 単純ではあるが多くの 計算量を必要とする方法を取らねばならないことを指 す 逆に確率分布 が「扱い易い分布」であるとは
(29)
(30) が解析的に求まったり 多くの成分が独 立であるため の全ての組み合わせを考えなくても良 いなど
(31)
(32) の計算が容易であることを指す また ある分布族に属する全ての分布が「扱い易い分 布」であるとき その分布族を「扱い易い分布族」と呼 ぶ が「扱い辛い分布」である場合には 式
(33) " の右 辺を求めるには何らかの近似手法が必要となる も このような状況で用いられる近似手法の " つである. . . 連絡先: 京都大学 大学院情報学研究科 〒 京都市左京区吉田本町
(34) . -1-. .
(35) %. 以下で情報幾何の視点から を定式化するための 準備をする
(36) が以下のように分解できるとする.
(37) . . .
(38). . . &
(39) *
(40) を満たすような める.
(41) %. . ( -*. *
(42) + * #
(43) ,
(44)
(45)
(46) $
(47) & ここで
(48) は の自然座標系
(49)
(50) は正規化の ための項である また 我々はアインシュタインの規約 を用いた つまり上と下に " 回ずつ現れる添え字につい てはその添え字に関する和をとる 以降でも明示せず にこの表記法を用いる 上で
(51) は
(52) *
(53) と表される 後述する のアルゴリズムは に属す る分布の更新アルゴリズムとみなせるため は を . ).
(54) . * *. . . . 及び . -* とする. 収束するまで %.( を更新する を求める. 収束解の精度. 収束解の性質.
(55) + * #
(56)
(57)
(58) $
(59) (
(60) + * #
(61) ,
(62)
(63)
(64) $
(65) ) . 第 % 節で示した のアルゴリズムは「着目する統 計量」を適切に選べば確率伝播法のアルゴリズムに一 致する 従って確率伝播法の収束解について得られて いる条件が の収束解にも成り立つと考えられる 実際に のアルゴリズムが収束した状態では確率伝 播法と同様に 条件 条件 #( )$ と呼ばれる以下の % つの条件が成り立っている. ここで は のパラメータである は の 部分モデルとなっている は「着目する統計量」を 選ぶことで定まる また は「着目する統計量」と 対象とする分布の分解の仕方
(66) 式
(67) % を決めることで 定まる 我々は が実行可能となるために が 「扱い易い分布族」であること 及び
(68) から
(69) を求めるのが容易であることを仮定する 確率伝播法 の情報幾何の視点から見た定式化 #( )$ に倣うと モデ ル 上の のアルゴリズムは以下のように表せる 情報幾何の視点から見た. を求. このアルゴリズムの収束解として得られる -*
(70) が による
(71) の推定値となる は一般に収束するとは限らない しかし本稿では が収束する条件などは考えず 収束した場合に得ら れる解の性質について議論する の収束解 は一 般には
(72) に一致しない また では「着目する統 計量」が変わると収束解も変わると予想される 従っ て を実際に用いる際には 「着目する統計量」をど のように選んだら の収束解が精度良く真の値
(73) を近似するのか という問題が生じる 直感的には「着 目する統計量」が多ければ多いほど推定の精度が良く なるという予想が立つが これは決して自明な性質では ない 我々は % つの異なるモデルにおいて の収束 解の精度を評価し
(74) 第 &% 節 第 && 節 それらを比べ ることによってこの問題を議論する 第 &% 節で扱うモ デルは第 && 節で扱うモデルに含まれるため 本稿では 前者を小さいモデル 後者を大きいモデルと呼ぶ.
(75) '. で表す 以下でモデル 上の の定式化をする 分布族 を以下のように定義する. . / の収束値 から -*
(76) . 情報幾何の視点から理解する際に基礎となる分布族で ある 式
(77) & から明らかなように 指数型分布族 は統 計量
(78) に加えて
(79) に基づいて定義されて いる このように を行う基礎となる指数型分布族 を定義する際に導入される統計量を 本稿では「着目す る統計量」と呼ぶことにする. 「着目する統計量」は 期 待値を知りたい統計量を含むという条件を満たしてい れば を使用する際にユーザが任意に選ぶことがで きる 以降では確率分布 に関する
(80) の期待値 を第 成分に持つベクトルを.
(81) *. . 確率分布. '
(82) を求め -*
(83) とする. ここで * " % である また
(84) は実数値 関数である 以下の指数型分布族を考える. " つもしくは複数個任意に選ぶ
(85) + を求め
(86) を求める を.
(87) 条件 - * *
(88) 条件 -
(89) *
(90) . . . . .
(91) /
(92) 0. なお 印は収束値を表す 条件は
(93) +
(94) + 及び
(95) の関係を表す条件であり 以下で詳しく説明. のアルゴリズム. " を初期化し * を全ての に対 して求める. -2-.
(96) . する の部分モデル を考える . *.
(97). +. . .
(98) +. 以下の解析は確率伝播法に対する % 次の摂動解析 #($ と同様の手順で行う を. .
(99) . *
(100) + . , . . *
(101) + * #
(102) ,
(103)
(104)
(105) $
(106) "% によって葉層化する は
(107) に含まれる また は
(108) に一致する さらに を. . . . *". + ,
(109) .
(110). .
(111) .
(112) 1. . .
(113) + *
(114) " * . ,. . .
(115). . .
(116) . ,
(117)
(118) " .
(119) "2.
(120) "&. . . .
(121)
(122)
(123)
(124)
(125) .
(126) "'. と近似できる ここで * とした 定義より
(127)
(128) は
(129) 上にあるため *
(130)
(131) で ある 言い換えれば 推定誤差は. . . .
(132)
(133)
(134) .
(135) "(. . と近似できることが分かる ここまでに述べた
(136)
(137) と
(138) との関係を図 " に示す
(139) を求めるため
(140) が * の周りでの % 次の テイラー展開で近似できると仮定する このとき
(141) は. . 小さいモデル. . 小さいモデルを.
(142)
(143) , , "% .
(144) "). と近似できる ここでテイラー展開の " 次 % 次の係数を * それぞれ * ¼ ¼ とおいた 式
(145) ") より
(146) は. *
(147) + * #
(148) ,
(149)
(150)
(151) $
(152) "" と定義する このモデルは「着目する統計量」として
(153) を選んだモデルである このモデルは第 % 節で 定義したモデル に式の上で完全に一致する 小さい モデル上の によって得られる収束解 と 真の値
(154) との推定誤差
(155) を % 次の摂動解析によっ て評価する. . が成り立つので この確率分布は 条件を用いると
(156) に一致することが分かる つまり 条件は
(157) +
(158) + を繋ぐ対数線形な部分モデル に
(159) が含まれることを意味する #( )$ 条件 条件を用いると 確率伝播法の収束解に対 して摂動解析により成された誤差評価 #($ と同様の手順 で の収束解の誤差を評価することができる この 方法で % つのモデル上の の収束解に対して誤差評 価をし 比較する. . * . *
(160) "
(161) ,.
(162) . によって葉層化する 条件
(163) 式
(164) 0 より
(165) は
(166) 及び
(167) を含む 以降では多くの添 え字が必要となる そこで混乱を避けるため の成分を表す添え字には を用い の成分を表 す添え字には を用いる という規則を導入する 推定誤差を評価するために
(168) と
(169) との交 点を求める
(170) に属する分布を の自然座標系
(171) で表したときのパラメータ を の関数として
(172) と表す
(173) と
(174) との交点は
(175)
(176) であ る 従って
(177) と
(178) との交点を求めるには
(179) を求めればよい 上の自然座標系
(180) で表され る分布に関する
(181) の期待値を
(182) で表す 求 めたい真の期待値は
(183) *
(184) である 一方で
(185) と
(186)
(187) とはどちらも
(188) 上の点であるか ら
(189) 上で
(190)
(191) の周りでの " 次のテイラー展 開を考えることで
(192) *
(193) は. ここで *
(194) である また
(195) は正規 化項である は
(196) +
(197) + を繋ぐ の対数線形な部分モデルである
(198) + は * " * によって定まる確率分布として に含まれる
(199) + は * 2 * によって定まる確率分布 として に含まれる ここで は第 成分が " そ の他の成分が 2 の単位ベクトルである また 上で *
(200) " * によって定まる確率分布を考え ると. . *. .
(201)
(202) ,. , %". .
(203) "/. *
(204)
(205) , , "% .
(206) "0. . . と近似できる 同様に は . -3-.
(207) S. E. M ( η* ). S (1). (θ (1), ࠉ 1). と定義する ここで
(208) は の実数値関数
(209) Æ は 3 の自然座標系である このモデルは「着目する統 計量」として
(210) 及び
(211) を選んだモデルで ある 小さいモデルは大きいモデルにおいて Æ * と おいた部分モデルとして大きいモデルに含まれる 以 下では確率分布
(212) に関する
(213) の期待値を
(214) と表す また
(215) *
(216) と表す 大きいモデル上 の は
(217) の推定値 に加え
(218) の推定値 も得ることができる しかし我々が知りたい統計量の 期待値は全て に含まれているため の推定値の良 し悪しについて本稿では問題としない 第 &% 節と同様の手順で 大きいモデル上の の推 定誤差を評価する 3 を. *. (0, ࠉ 1). . v. θ. (ζ 2* , e2 ) (ζ 1* , e1 ). (θ * , ࠉ 0). 3
(219) . *
(220) + * #
(221) ,
(222) ,
(223)
(224) 3
(225) Æ $
(226) %(. "-
(227)
(228) と
(229) との関係
(230)
(231)
(232) である 図. . 対数線形と表せる. および. 推定誤差は. 3
(233) . . 条件
(234) 式
(235) / と式
(236) "0 より "
(237) "1. *
(238)
(239) , % が成り立つ 式
(240) "1 を式
(241) "/ の右辺に代入すると " .
(242)
(243)
(244) %2 % . .
(245) %"
(246) %%. が成り立つ #($ ここで は右側にある項に作用する演 算子であり
(247) *
(248) における導関数 , を求めることを意味する また * とおい た 式
(249) "(
(250) %2
(251) %% より推定誤差は. . .
(252)
(253) "%. . .
(254) %&. 大きいモデル. 大きいモデルを 3.
(255) %).
(256)
(257) , 3 , "% 3
(258) %/ 3 , " 3 Æ
(259)
(260) Æ ,
(261) %0 % と近似できる ここでテイラー展開の " 次の係数を 3 * ¼ 3 * Æ ¼ とおいた ま 3 * ¼ た テイラー展開の % 次の係数を 3 * Æ ¼ とおいた 条件を用いるこ とで式
(262) %/
(263) %0 は " 3 .
(264)
(265)
(266) %1 % . と近似できる. .
(267) *
(268) . . を得る
(269) に沿った の による " 次微分 % 次 微分は共に全ての成分が 2 となる
(270) においてこ の条件を考えると テイラー展開の係数について. , * 2 * . 3
(271)
(272) . によって葉層化する これらはそれぞれ小さいモデル における
(273)
(274) に対応する 3 の部分モデルを 3 -* 3
(275) 3 -* 3
(276) と定義する モデル 3 上で が実行可能であるためには 3 が「扱い易い分族」で あること 及び
(277)
(278)
(279) から
(280)
(281) Æ
(282) を 求めるのが容易であることが必要である ここで は 3 に属する分布である 添え字に対する混乱を避ける ため 第 &% 節で導入した規則に加え Æ の成分を表 す添え字には を用いる という規則を導入する 3
(283) 上にある分布を 3 の自然座標系
(284) Æ で表したときのパラメータ Æ を それぞれ の関数と 3
(285) して
(286) Æ
(287) と表す このとき 3
(288) と との交点におけるパラメータ
(289) Æ
(290) は式
(291) "/ と同 様 % 次のテイラー展開を考えることで. . . *. *
(292) + Æ * #
(293) , Æ
(294) ,
(295)
(296) 3
(297) Æ $
(298) %'. -4-. Æ. .
(299)
(300) "%. . . 3 .
(301) &2.
(302) と変形できる
(303) に沿った の による " 次 微分 % 次微分は共に全ての成分が 2 となる
(304) Æ においてこの条件を考えると テイラー展開の係数につ いて. . 3 3 3. 3 3. . . . . 3. . 3. 3. . 3 3 , * 3 3 3
(305) &" . . . . . . . . * 3 3. 3 . . . . . . .
(306) &%. . .
(307) 3
(308) 3
(309) 3 Æ
(310) " 3 3
(311) % .
(312) &&. . . と近似できる ここで " 行目の右辺から % 行目への式変 形には式
(313) %1
(314) &2
(315) &% を用いた. . Æ ¼. * . . * Æ . . . . . Æ ¼ Æ ¼. . . . . . . *. . . Æ ¼. * Æ . . * ÆÆ . . . Æ ¼. . . Æ ¼. .
(316) &). 数値実験. 定式化 この節では第 & 節の結果を支持するような例を数値 実験により示す & 変数 *
(317) ! ! ! " " のボルツマンマシン. つの収束解の比較. 第 &% 節 第 && 節で得た % つのモデル上の の推 定誤差を比べることで 「着目する統計量」の選び方が の収束解の精度に与える影響を調べる 簡単のた め 我々は 3 上の点
(318) Æ *
(319) Æ において は
(320) と
(321) とが直交すると仮定する この 3
(322) が成り立つ 従っ 仮定の下では 3 * 2 より 3 3 て
(323) , が成り立つ これを式
(324) && に代 入すると大きいモデルの推定誤差は.
(325) + " # . .
(326). ". ! ! . ,#. . ! . .
(327) &/. の統計量 ! の期待値を により推定する この目 的を達成するため 異なる % つのモデル上で を実行 してそれぞれの推定値を比べた まず小さいモデルを. 3 3
(328) . ,
(329) 3 , 3 , 3 3
(330) &'. *
(331) + * #
(332) , ! ,
(333)
(334)
(335) $
(336) &0. と定義する ここで * " % & である
(337) 然座標系である また. と変形できる 式
(338) &' は具体的に. 3 3
(339) . *. . とおいた 式
(340) &( 右辺の % 行目 & 行目が小さいモデル の推定誤差と大きいモデルの推定誤差との差を表して いる これらの項の大小関係や正負はモデルに依存す る 従って式
(341) &( から 「着目する統計量」を多くす ることが推定誤差の良し悪しに与える影響は 追加する 統計量の選び方に依ることが分かる つまり本節の摂 動解析から 大きいモデル上の の推定値の方が精度 が悪くなる場合がある ということが分かる. 3 は右側にある項に作用する演 が成り立つ ここで 3 , 算子であり
(342) Æ における導関数 , 3 を求めることを意味する 式
(343) "( と同様に
(344)
(345) Æ
(346) の周りでの " 次のテイラー展開を考え ることで推定誤差は. と書き下すことができる ここで. , 3 , 3 , 3 3 . , 3
(347) , 3 , 3
(348) , 3 , 3 3
(349) &(.
(350). . *#. は の自. !. * %! ! %" ! ! "% ! ! " "
(351) * ! ! , %! ! ! ! % % " "
(352) * ! ! ! ! , %! ! % %
(353).
(354) &1. と定義した 式
(355) &/ で定義した確率分布 は 上で
(356) *
(357) 2 " と表される 式
(358) &0 において . -5-.
(359) の指数部に
(360) が加わっており 第 % 節の定式化と一 致しないように見えるが 第 % 節で述べた のアルゴ リズムは
(361) を含む形に自明に書き直すことができ, 摂動解析の議論にも影響を与えない モデル は「着 目する統計量」として ! を選んだモデルである これ は我々が目的としている ! の期待値の推定値を得るこ とに対して必要最小限のモデルである また の部分 モデル を.
(362) + * #
(363) , !
(364)
(365) $
(366) '2
(367) + * #
(368) , ! , "
(369)
(370)
(371) $
(372) '" . 0.8 0.7. . * *. 1 0.9. 0.5 0.4. . . *
(373) + *
(374) , ! ,
(375)
(376) 3
(377) . 0.2 -0.4. . . .
(378) + *
(379) , !
(380) 3
(381)
(382) '&
(383) + *
(384) , ! , "
(385)
(386) 3
(387)
(388) ''. . . 0. 0.1. 0.2. 0.3. 0.4. -0.05. と定義する ここで は 3 の自然パラメータである. . -0.1. 0. 推定誤差. . -0.2. 図 %- 式
(389) &/ で定義された分布 のパラメータ " の変 化に伴う * ! の変化 パラメータ # は " に固定 した 実線が真の分布 によって得られた の真の値 破線 点線はそれぞれ大きいモデル 小さいモデル上の で得た の推定値. .
(390) '%. . * 3 *. -0.3. ". と定義する ここで * " % & である また
(391) は 3 の自然座標系である 式
(392) &/ で定義した確率分布 は 3 上では
(393) *
(394) " と表される モデル 3 は 「着目する統計量」として ! ! ! を選んだモデルで ある 我々が興味があるのは ! の期待値のみであるが 第 & 節の議論で示したように他の統計量にも着目する ことで ! の期待値の推定値が変わる可能性がある ま た 3 の部分モデル 3 3 を 3. 真の値 大きいモデル 小さいモデル. 0.3. と定義する ここで は の自然パラメータである 次に大きいモデルを 3. 0.6. 実験結果. -0.1 -0.15 -0.2. 我々は式
(395) &/ において # を " に固定した上でパラ メータ " を 2 の周りで変化させ その都度 に関する 統計量 ! の期待値 * ! を によって推定した その結果を図 % に示す 図 % から " が 2 の近辺におい て小さいモデルの方が大きいモデルよりも僅かに推定 誤差が小さいことが分かる これは第 & 節の摂動解析 で得た 大きいモデル上の の推定値の方が精度が悪 くなる場合があるという結果を支持する また に よって得た の推定値と 真の値との誤差を図 & に示 した 図 & から上述の傾向がさらに良く分かる この結果で我々が強調したいのは ここで示した例 は" が 2 の近辺で大きいモデルの方が精度が悪くなっ. 大きいモデル 小さいモデル. -0.25 -0.4 -0.3 -0.2 -0.1. 0. 0.1 0.2 0.3 0.4. ". 図 &- 式
(396) &/ で定義された分布 のパラメータ " の変 化に伴う * ! の推定誤差 破線 点線はそれぞれ 大きいモデル 小さいモデル上の で得た の推定 値と真の値との推定誤差. -6-.
(397)
(398)
(399)
(400) ! 7 5 4 8 %22%. #&$ 5 8. ているという点である 我々はまた " が大きい場合 に大きいモデルの方が精度が悪くなっている例も実験 的に見出している
(401) 結果は省略.しかしここで示した 例は 我々が摂動解析で評価した % 次の誤差の範囲です ら 大きいモデル上の の推定値の方が精度が悪くな る場合がある という結果を確かに支持している. . #'$ < 9 ? 6
(402) 4 5 5 @ "1" < 5 %22" #($ 6 4 4 6 < ; 6 >
(403) @ (2 ) "21/."""' 8 %22'. まとめ. 我々は を使用する際に生じる 「着目する統計 量」の選び方が推定の精度にどのような影響を与える か という問題を議論した まず を情報幾何の視点 から定式化した その定式化に基づいて% つの異なる モデル上の の推定誤差を % 次の摂動解析により評 価し 比較した 摂動解析から 大きいモデル上の の推定値の方が精度が悪くなる場合がある という結果 を得た そして数値実験により 大きいモデル上の の推定値の方が精度が悪い例を示し 摂動解析の結果を 支持した これらの結果から を用いる際に「着目 する統計量」が多いほど推定誤差が小さくなる という 単純な関係が成り立たないことが分かった. . #)$ 6 4 4 6 < ; > " ! @ ") 1 "//1."0"2 %22'. 今後の課題. 本稿では「着目する統計量」に対して具体的な条件 を置かずに一般的な枠組みのもとで議論した 実用上 「着目する統計量」をどのように選ぶと推定誤差が小さ くなるか という問題は重要であるが 我々の結果はこ の問題に対して解答を与えるに至っていない この問 題に対する " つのアプローチとして 実用上役に立つ 状況を考えて「着目する統計量」の選び方に対して具 体的な議論をすることで を実際に用いる際に参考 となる知見を探すという方法が考えられる この議論 は今後の課題としたい. 参考文献.
(404) 7 5. #"$ 4 5 6. 4 8 %22". #%$ 4 96 5 ! 6 ! ! : ;< = > .
(405)
(406) "" ""2"( ?@ %22(. -7-.
(407)
関連したドキュメント
テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から
不変量 意味論 何らかの構造を保存する関手を与えること..
しかし何かを不思議だと思うことは勉強をする最も良い動機だと思うので,興味を 持たれた方は以下の文献リストなどを参考に各自理解を深められたい.少しだけ案
特に, “宇宙際 Teichm¨ uller 理論において遠 アーベル幾何学がどのような形で用いられるか ”, “ ある Diophantus 幾何学的帰結を得る
本時は、「どのクラスが一番、テスト前の学習を頑張ったか」という課題を解決する際、その判断の根
我々は何故、このようなタイプの行き方をする 人を高貴な人とみなさないのだろうか。利害得
「系統情報の公開」に関する留意事項
注)○のあるものを使用すること。