5 Conclusions
5.1 変分ベイズ学習の力学系
ベルヌーイ分布側の次元がM = 3である真の分布を 以下で与える.
p∗(x) = 0.8·(
0.9x1·0.11−x1)
+ 0.2·(
0.1x2·0.91−x2) この分布をすべてのサンプルの発生確率とともに示した のが図1である.
図1: 真の分布(左)と各サンプルの発生確率.真の分布 は白いほど高い確率を表す.また,サンプルについては 白が1,黒が0を表す.
ここで真の分布について,上部の棒グラフがその混合 比を表し,その下にベルヌーイ分布のパラメータ,すな わち各分布におけるxi(i= 1,2)の発生頻度をグレース ケールで表した.ここで白いほど発生確率が高いものと している.上述の定理から,この分布はa= 3+12 = 2に 相転移点をもつと考えられる.また,真の分布から発生 するデータは,図1右の表にある8つのパターンで,そ れぞれの確率を表の最右列に示した.
以下の実験では,真の分布からサンプルを直接発生させ るのではなく,総サンプル数Nに対して各サンプルの確 率の比でそれぞれのデータが発生すると考える.この場 合,サンプルによる揺らぎを考慮する必要がなくなるた め,変分ベイズ学習のアルゴリズムはハイパーパラメー タをもつ力学系と見なすことができる.なお,以下の実 験ではN = 10000としている.
前述の8種類のサンプルSi(i = 1,· · · ,8)の第t成分 S(t)i (t= 1,2,3),S1〜S8のそれぞれの発生確率をP1〜 P8として変分ベイズアルゴリズムを書き換えた力学系 は以下にようになる.
VB e-step
logρSik = Ψα(k)
+ Si(1)Ψ1(k) + (1−Si(1))Ψ′1(k) + Ψ′2(k) + Si(2)Ψ1(k) + (1−Si(2))Ψ′1(k) + Ψ′2(k) + Si(3)Ψ1(k) + (1−Si(3))Ψ′1(k) + Ψ′2(k) rSik = ρSik
∑4 k=1ρSik
VB m-step
Nk =
∑4
i=1
N PirSik, ak=a+Nk
η1k = b+rS1kN P1+rS2kN P2+rS3kN P3+rS4kN P4 η2k = b+rS1kN P1+rS2kN P2+rS5kN P5+rS6kN P6 η3k = b+rS1kN P1+rS4kN P4+rS5kN P5+rS7kN P7 η1k′ = b+rS5kN P5+rS6kN P6+rS7kN P7+rS8kN P8
η2k′ = b+rS3kN P3+rS4kN P4+rS7kN P7+rS8kN P8
η3k′ = b+rS2kN P2+rS3kN P3+rS6kN P6+rS8kN P8
ここで
Ψα(k) = ψ(αk)−ψ ( K
∑
k
αk )
,
Ψ1(k) = ψ(ηk1)−ψ(η′k1) +ψ(η′k1)−ψ(ηk1+η′k1), Ψ2(k) = ψ(ηk2)−ψ(η′k2) +ψ(η′k2)−ψ(ηk2+η′k2), Ψ′1(k) = ψ(ηk1′ )−ψ(ηk1+η′k1),
Ψ′2(k) = ψ(ηk2′ )−ψ(ηk2+η′k2) とした.
5.2 実験結果
学習モデルの混合分布数をK = 4として,上記のア ルゴリズムにより学習を行った結果が図2である.ここ で横軸,縦軸はそれぞれハイパーパラメータa, bであり,
いずれも0.001〜10まで変化させている(logスケール で表示).また,図のグレースケールは学習結果の混合 比(平均パラメータ)を大きい順に並び替えたπ1,· · · , π4 に対してz =|π1−0.8|+|π2−0.2| を算出したもので あり,zが0に近い(黒い)ほど冗長な分布を含まず,混 合比も含めて真の分布に近い学習結果と考えることがで きる.この結果から上述の定理が示唆するように,冗長 な表現への切り替え(相転移)はa=M∗ = 3+12 = 2 の前後で発生しているが,その値はbに依存しているこ とがわかる.
図2: ハイパーパラメータと混合比の関係.横軸はa,縦 軸はbであり,濃淡はz=|π1−0.8|+|π2−0.2|の値を 表す.
この様子をさらに図2中の四角で囲った領域で拡大した ものが図3上段右の図である.この学習結果は大きく以 下の3つの種類に分類することがができる.
• 領域A:コンポーネント数を絞り込み,2つの混合
分布で表現する..
• 領域B:AからCへの移行過程.
• 領域C:すべてのコンポーネントを用いて分布を表
現する.
この分類にしたがって領域を分け,相図を作成したもの が上段左の図である.また,それぞれの領域での学習結 果に対する予測分布(平均パラメータによる分布) を下 段に示した.この図から,冗長なコンポーネントを除き,
より少ない混合分布数で学習結果を表現する場合にはa を小さくし,bを0.5より大きくとると良いことがわか る.特にb = 0.5からb = 1のときにより冗長な項の 混合比が一番低くなっている.また,aが小さい場合で もbを小さく設定すると,コンポーネント数が増える傾 向にある.これはベルヌーイ分布側の確率が1または0 近づくような事前分布を与えるハイパーパラメータを設 定することで,小さなカテゴリを検出しやすくなるため と考えられる.このようなハイパーパラメータの設定は アンケートやマーケティング解析などの 少数意見の抽 出 に応用することができる[11].
相図からは,さらにハイパーパラメータを変えた際の予 測分布の変化の様子の違いを読み取ることもできる.す なわち,a >2.0の領域でbを大きくした場合,Bのよ うな移行過程領域からAの冗長性のない分布の領域に
向かう途中で,Cの冗長な表現をする領域をb= 0.5付 近で通過することになる.一方,a <2.0のような領域 では領域Cを跨らずに,直接的に領域Aに向かうこと になる.
図4はベルヌーイ分布の次元をM = 2とした場合の 真の分布(左)と実験結果である.
図3: 相転移の領域(上段:左),ハイパーパラメータと混 合比の関係拡大図(上段:右),各領域での平均パラメータ による学習結果(下段)
この場合も相転移点や前述の領域A,B,Cの位置関係 は大きくは変わらず,相図としてはほぼ同じものが得ら れる.
図 4: M = 2での真の分布(左)とハイパーパラメータ と混合比の関係(右)
これらの結果から設定したハイパーパラメータa, bを 変更することで抽出するクラスタの粒度やコンポーネン ト使い方,すなわち,すべてのコンポーネントを使用す
るか/コンポーネントの絞込みを行うかを調整できるこ とがわかった.応用の観点では,これらの相図は混合ベ ルヌーイ分布をクラスタリングのツールとして用いる場 合,目的とする分類粒度に応じて,どのようなハイパー パラメータを設定すべきかの方針を与える図になってい ると考えられる.
6 おわりに
変分ベイズ法を用いた混合ベルヌーイ分布の学習にお けるハイパーパラメータと学習結果の関係を調べ,M = 2, M = 3の場合の相図を示した.相図は相転移点での 挙動に関する多くの情報を与えるだけでなく,応用の立 場からもクラスタリングへ利用する際のハイパーパラ メータ設定に関する指針を提供する.一方,相転移と変 分自由エネルギー,汎化誤差の関係についてはまだ多く のことは分かっておらず,理論的な解明を含め今後の課 題である.
参考文献
[1] K. Watanabe and S. Watanabe. Stochastic com-plexities of general mixture models in Varia-tional Bayesian Approximation. Neural Computa-tion, Vol. 18, No. 5, pp.1007-1065, 2006.
[2] S. Nakajima and S. Watanabe. Variational Bayes Solution of Linear Neural Networks and its Gen-eralization Performance.Neural Computation, Vol.
19, No. 4, pp. 1112-1153, 2007.
[3] C. M. Bishop. Pattern Recognition and Machine Learning.Springer, 2006.
[4] S. Watanabe. Algebraic analysis for singular sta-tistical estimation. Proc. of International Jour-nal of AlgorithmicLearningTheory Lecture Notes on Computer Sciences,1720, pp.39-50, 1999.
[5] S. Watanabe. Algebraic Analysis for Noniden-tifiable LearningMachines. Neural Computation, Vol.13, No.4, pp.899-933, 2001
[6] S. Watanabe. Learning efficiency of redundant neu-ral networksin Bayesian estimation.IEEE Transac-tions on NeuralNetworks , Vol.12, No.6, pp.1475-1486, 2001.
[7] H. Attias. Inferring parameters and structure of latent variable models by variational Bayes, In Proc. of Uncertainty in Artificial Intelligence(UAI 99),1999.
[8] M. J. Beal. Variational Algorithms for approximate Bayesian inference.PhD thesis, University College London, 2003.
[9] Z. Ghahramani and M. J. Beal. Graphical Models and Variational Methods. InAdvanced Mean Field.
Methods. MIT Press, 2000
[10] P. F. Lazarsfeld and N. W. Henry. Latent struc-ture analysis.Houghton Mifflin, 1968
[11] D. Kaji and S. Watanabe. Optimal Hyperparam-eters for Generalized Learning and Knowledge Dis-covery in Variational Bayes.To appear in Proc. of ICONIP, 2009
[12] 大山 慎史,渡辺 澄夫.変分ベイズ学習におけるハ イパーパラメータの汎化誤差への影響について.信 学技報(NC研究会), January 2009.
情報論的学習理論テクニカルレポート
領域ベースの隠れ変数を用いた決定論的画像領域分割
三好 誠司
£
岡田 真人
Ý
!
" #$ %
はじめに
多数の変数とその変数間の無向性相互作用からなる系 はマルコフ確率場()と呼ばれ,画像の確率モデ ルとして広く利用されている&'()*.に基づく 画像処理においては,事後分布を用いるベイズ推定がよ く用いられる&() +*.この場合,ベイズの定理が事後 分布の式を与えてくれるが,実際の数値計算を行う段階 で計算量的困難に直面することが多い.そのようなとき に変分法に基づく推論,確率伝搬法,モンテカルロ法な ど機械学習や統計力学の分野で近年開発された計算手法
&)*が威力を発揮することになる.
とベイズ統計に基づいた画像処理を行う場合,
画像の事前分布を素朴なガウス分布とすると画像中の エッジの表現がどうしても難しくなる.エッジを表現 するためには隠れ変数の導入が有効である.たとえば
, らは とにより提案されたベ イズ超解像&-*にエッジを表す隠れ変数を導入すること によってすぐれた超解像処理を行うことに成功した&.*.
画像処理においてエッジを表現するための隠れ変数に
£関西大学 システム理工学部 大阪府吹田市山手町
丁目番号
! " # $%!
& " ' (
Ý東京大学大学院 新領域創成科学研究科 )**千葉県柏市柏 の葉 理化学研究所 脳科学総合研究センター 埼玉県
和光市広沢) +
,!+ "! !" -$%!
#. #. /0 )** ( 12#3
4!"2 ) 5!. 6 "
(
は境界ベース&/*と領域ベース&01*の二つの方法があ る.境界ベースは画素と画素の間に,そこがエッジであ るかどうかを表す隠れ変数を置いてゆく考え方である.
これに対して領域ベースは各画素がどの領域に属するか を示す隠れ変数を画素ごとに貼り付ける方法である.境 界ベースの隠れ変数の場合,境界線がなるべく途切れず,
境界線が多くなりすぎず,境界線がクロスすることが起 こりにくくなるように多くの拘束条件を設ける必要があ る&/*.これに対して領域ベースの隠れ変数の場合,境界 が自然に閉じたループになるなど好ましい性質を多く持 つ&1*.ただし,領域ベースの画像処理は局所解に陥り やすいという欠点があるため,あまり使われていない.
に統計力学的なアプローチを試みる場合,(値 をとるイジングスピンが変数としてよく用いられる.領 域ベースの隠れ変数を用いて画像処理を行う場合,これ を 値に拡張したポッツスピンを用いることにより表 現の自由度があがると期待される.
ところで,画像をある一定の特徴を持つ小領域ごとに 分割する問題は領域分割(セグメンテーション)と呼ば れる&('2*.領域分割は画像に含まれる対象物を抽出す る手法であると言うことも可能で,その後の画像の認識 や理解のための第一次画像処理として重要である.また,
網膜という(次元センサーの信号から)次元の現実世 界を再構成するための第一歩でもあることから視覚の計 算論の基礎としても重要である."ら&0*は に領域ベースの隠れ変数を導入し,シミュレーテッドア ニーリングを用いたモンテカルロ法により画像領域分割