パラメータ化とパラメータ推定

(1)

ベイジアン・ネットワークの学習

電気通信大学大学院情報システム学研究科

植野真臣

ベイジアン・ネットワークモデル

∏

=

Π

=

N i

i i

N G px G

x x x P

1 2

1, , , | ) ( | , )

( !

} , , ,

{₁ ₂ _q_i

i⊆ x x !x

Π は変数iの親ノード集合

1

2

4 3

5 P(x

1=1)=.80 P(x₃=1|x₁=1)=.80 P(x

3=1|x

1=0)=.20 P(x₅=1|x₃=1)=.80 P(x₅=1|x₃=0)=.20 P(x₂=1|x₁=1)=.80

P(x

2=1|x

1=0)=.20

P(x

4=1|x

2=1,x

3=1)=.80 P(x₄=1|x₂=0,x₃=1)=.60 P(x₄=1|x₂=1,x₃=0)=.60 P(x₄=1|x₂=0,x₃=0)=.20

パラメータ化とパラメータ推定

ベイジアン・ネットワークのParametrerization

（Spiegelhalter, D.J.,and Lauritzen, S.L. 1990)

Spiegelhalter, D.J.,and Lauritzen, S.L. Sequential updating of conditional Probabilities on directed graphical structures. Networks 20 (1990), 579-605

今、θ_ijk ^{を親ノード変数集合}Π_i がj番目のパターンをとったときの

k x_i =

となる条件付確率を示すパラメータとする。

このとき、データXを得たときの尤度は、以下のとおりである。

∏

∏∏∏

∑

∏

−

=

= = −

=

−

=

−

=

∝

∝ Θ

1

0

1 1 1

0 1

0

!

! )

,

| (

i ijk i

i i i

ijk

r

k n ijk N

i q

j r

k ijk r

k n ijk S

n n G

L

θ X θ

•

多項分布の自然共役分布である以下のディレクレイ分布を事前分布に導入

Cooper and Herskovits, 1992 A Bayesian methods for the Induction of Pr obabilistic net work s from data, M achine Lear ning, 9, 309-347

∏

∏∏ ∏

∑

⁻

=

−

= =

−

=

−

=

Γ Γ

= Θ

1

0 1

1 1 1

0 1

0

) (

) ( )

|

(

ⁱ ⁱ ^iij

i i

r

k ijk N

i q

j r

k ijk r

k ijk

S

G

p θ

^α

α α

ディレクレィ分布の周辺分布ベータ分布

1 2 3 4 5

α=1/2

α=1

α=-1/lo g +1/2

(2)

事後分布

∏∏∏

∏

∏∏∏

∑

= =

−

=

− +

−

=

− +

= =

−

=

−

=

∝

− + Γ

= Θ

N

i q

j r

k n ijk

r

k n ijk N

i q

j r

k ijk ijk

r

k

ijk ijk G

i i

ijk ijk

i ijk ijk i

i i

n n G

p

1 1

1

0 1

1

0 1

1 1 1

0 1

0

) 1 (

)) 1 (

( )

| , (

α

θ

θ α

α X

EAP推定量

ij ij

ijk ijk

ijk

n

n +

= + α θ ^ˆ α

∑

−

=

1 0 ri

k ijk

ij α

α

,

∑

⁻

=

1 0 ri

k ijk

ij n

n

.

ただし

表１

ノード番号

1 2 3 4 5

1 1 0 1 1 1

2 0 0 0 1 0

3 1 1 1 1 1

4 1 1 1 1 0

5 1 1 1 1 0

6 1 1 0 0 0

7 1 0 0 0 0

8 0 0 0 0 0

9 0 0 0 0 0

10 0 1 1 1 1

11 0 0 0 0 0

12 1 1 1 1 1

13 0 0 1 1 1

14 1 1 1 1 1

15 1 0 1 1 1

16 1 1 1 0 0

17 1 1 0 1 0

18 1 1 1 0 0

19 1 1 0 1 0

20 1 1 1 0 1

平均 0.70 0.60 0.60 0.60 0.40

表１より推定した母数推定値

真の値 αi j k=0 αi j k=1 αi j k=1/2

P(x2=1|x1=1) 0.8 0.8. 0.76 0.78

P(x2=1|x1=0) 0.2 0 0.14 0.08

P(x3=1|x1=1) 0.8 0.8 0.76 0.78

P(x3=1|x1=0) 0.2 0 0.14 0.08

P(x4=1|x2=1, x3=1) 0.8 0.66 0.64 0.65

P(x4=1|x2=1, x3=0) 0.6 0.5 0.5 0.5

P(x4=1|x2=0, x3=1) 0.6 0.5 0.5 0.5

P(x4=1|x2=0, x3=0) 0.2 0.4 0.43 0.41

P(x5=1|x3=1) 0.8 0.67 0.64 0.42

P(x5=1|x3=0) 0.2 0.33 0.35 0.34

真の値との平均自乗誤差 0.0193 0.015 0.028

Learning Bayesian Networks

データから構造を推定する

1

2

4 3

5 P(x

1=1)=.80 P(x

3=1|x

1=1)=.80 P(x

3=1|x

1=0)=.20 P(x

5=1|x

3=1)=.80 P(x

5=1|x

3=0)=.20 P(x

2=1|x

1=1)=.80 P(x

2=1|x

1=0)=.20

P(x

4=1|x

2=1,x

3=1)=.80 P(x

4=1|x

2=0,x

3=1)=.60 P(x

4

=1|x

2

=1,x

3

=0)=.60 P(x

4=1|x

2=0,x

3=0)=.20

(3)

モデル選択基準

もっとも良いモデルをデータから選択する基準以下を最小化するモデルを選べばよい Akaike Information Criterion

AIC = - 2 ln-Likelihood + 2 No.Parameters Bayesian Information Criterion

BIC = -2 ln-Likelihood + No.Parameters ln(n)

ここで nはデータ数

AICは期待対数尤度の近似，BICは周辺尤度の近似 AICは漸近的一致性を持たないが，BICは持つ．

AICとBICの条件

• AICとBICは，統計的正則モデルを仮定して

いる。

•

統計的正則モデル：最尤推定量が正規分布に法則収束するモデルを正則モデルと呼ぶ

。このとき，漸近的にフィッシャー情報量行列の固有値がすべて

0

よりも大きいので漸近展開により，

AIC

や

BIC

が導出される。

ベイジアンネットワークは

•

統計的正則性を持たない。

•

情報科学で用いられる数理モデルは，ほとんど統計的正則性を持たない。

•

理論的には

AIC

や

BIC

を用いることは問題がある。

ディレクレィ分布の周辺尤度を直接計算

∏

∏∏

∏

∏∏

∑

∫

−

=

= =

−

=

= = −

= Θ

Γ + Γ +

Γ

= Γ

Γ + Γ

⎥⎦

⎤

⎢⎣

⎡ +

Γ

= Γ

Θ Θ Θ

∝

1 0

1 1

1 0

1 1 1

0

) (

) ) (

(

) (

) ) (

(

) ( )

| , ( ) ( )

| (

i i

i S

r

k ijk

ijk N ijk

i q

j ij ij

ijk

r

k ijk

ijk N ijk

i q

j r

k ijk ijk

ijk

G G G

n G n

P

n n

G P

d p G p

G P X G p

α α α

α

α α α

α X

K2

(Cooper and Herskovits 1992) α

_ijk

=1 （一様分布）のとき

∏

∏∏

−

=

= =

+ −

∝ −

1 0

1 1

)! ! 1 (

)!

1 ) (

( )

|

(

ⁱ ⁱ

r k

ijk N

i q

j ij i

i

n

r n S r

p S

p X

D.Heckerman, D.Geiger and D.M.Chickering (1995)

• Likelihood equivalence

の構造がマルコフ確率構造として同型であるとき

が成り立つこと

)

| ( )

|

( S₁ p S₂

pΘ_U = Θ_U S1 S₂

(4)

n’

_ijk

=1のときの周辺尤度

今、二つの変数について二つの背反するLikelihood

equivalenceの構造を考える。

を用いた場合、

となり、Likelihood equivalenceの仮定を満たさない。

y x,

x

Sy_→

、

∏

∏∏

−

=

= = + −

∝ −

1 0

1 1

)! ! 1 (

)!

1 ) (

( )

|

( ⁱ ⁱ

r k

ijk N

i q

j ij i

i n

r n S r p S

p X

)

| ( )

|

(S X pS X

p _x_→_y ≠ _y_→_x

y

Sx_→

BDe Score Metric

(

Likelihood equivalent Bayesian Dirichlet scoring

)

• Likelihood equivalenceの仮定を満たす Scoring Metricの十分条件は

ただし

は事前分布の擬似サンプル数

ESS

で事前分布の重みでもある

∏

∏∏

−

=

= =

Γ

+ Γ +

Γ

¹

0

1 1

( )

) (

) ) (

(

ⁱ ⁱ

r

k ijk

ijk N ijk

i q

j ij ij

ijk

n

S n

P α

α α

α

)

| ,

( x k j S

p

_i _i

ijk

= α = Π =

α α

BDeu Score Metric (W.L.Buntine (1991))

• Bde

の一様分布を考えたモデル

ただし

∏

∏∏

−

=

= = Γ

+ Γ +

Γ

Γ ¹

0

1 1 ( )

) (

) ) (

( ⁱ ⁱ

r

k ijk

ijk N ijk

i q

j ij ij

ijk n

S n

P

α

α α

α

) /(

_i _i

ijk

α q r

α =

問：ハイパーパラメータn’を大きくするとエッジは付きやすくなるのか？

ij ij

ijk ijk

ijk

n

n +

= + α θ ^ˆ α

∑

−

=

1 0 ri

k ijk

ij α

α

,

∑

⁻

=

1 0 ri

k ijk

ij n

n

.

ただし

予測

• ESSを大きくするとエッジはつきにくくなる

(5)

Ueno2010

データへのESS値の最適性

(6)

いまおそらく最もよいスコア事前知識に頑健な基準

完全無情報事前分布構造の探索アルゴリズム

例えば、n=2のとき、構造数は３、n=3のとき、構造数は25、n=5で29000,n=10 で4.2×10¹⁸

探索問題は、指数爆発する。。なんらかの工夫が必要。

) ( 2 ) 1 ( )

( ⁽ ⁾

1

1 f n i

i n n

f ⁿ ⁱⁿⁱ

i

i ⎥ −

⎦

⎢ ⎤

⎣

− ⎡

= ⁻

=

∑

+

変数の数ｎに対して、構造の候補数は以下のように増える。

アルゴリズム

1.

変数間の順序を決める。X1>x2>‥>xn

2. Xn

のすべての親ノードパターンを変えなが

ら、情報量基準でどのパターンが最適かを検索。親ノードパターンは、親ノード数をｍ個に制限するのが普通である。

3. Xn-1について、１と同じ手続きを行い、X1ま

で繰り返す。

例

• X1>X2>x3から始める

X3 X3

X2 X2

勝ち X3

X2 X1

勝ち X3

X2 X1

真の構造

(7)

• X1>X3>X2

• X2>X3>X1

• X2>X1>X3

• X3>X2>X1

• X3>X1>X2

について同様のことを行い，最もスコアの高かった構造を推定値とする

親探しアルゴリズムが重要

•

順序を所与として，

•

変数Xiの親ノード候補から、いかに早く親ノードをみつけてくるかのためのアルゴリズム

•

例

X4>X3>X2>X1

X４ X2 X１ X3

X４

X2 X１

X3

X４ X2 X１ X3

親ノード探索に用いられるアルゴリズム

•

動的計画法

DP O(N2^N)

• A＊探索

•

幅優先探索と分枝限定法（BFBnB）

性質(1) すべてのパラメータのディレクレ分布のハイパーパラメータを設定できる

0.2 0.4 0.6 0.8 1

1 2 3 4 5

n’=1/2 n’=1 N’=- 1/log+1/2

例えば、事前に因果関係があると考えられるアークの設定やないと考えられるアークの設定も事前分布の設定により矛盾なく行える

様々な情報量基準を表現できるし、それらを MIXした基準も作り出せる

(8)

本手法の特徴（２）

• ベイジアンネットワークモデルの各ノードの価値を定義し、評価しながら、望ましいノード集合を探索する手法

ノードの価値(Expected Value of Node Information) 植野(199３,1994,1996、１９９９)

∑

−

=

−

=

n i qi

n i

qi

l

n n

l

i n i

n

x x p x x p

x x x p x x x p EVNIN

1 1

2

1

1 1

2

1

1 1

) , ( log ) , (

)

| , ( log )

| , (

!

変数評価機能：Ｋｅｙ Node

頑健で、解釈しやすくて、予測効率の高い Causal Modelが構築できる

パラメータ化とパラメータ推定

ベイジアン・ネットワークの学習

ベイジアン・ネットワークモデル

∏

パラメータ化とパラメータ推定

•

∏

∏∏ ∏

∑

Γ Γ

= Θ

) (

) ( )

|

(

G

p θ

α α

ディレクレィ分布の 周辺分布ベータ分布

事後分布

EAP推定量

n

n +

= + α θ ˆ α

∑

∑

表１

表１より推定した母数推定値

Learning Bayesian Networks

データから構造を推定する

モデル選択基準

AICとBICの条件

• AICとBICは，統計的正則モデルを仮定して

•

0

AIC

BIC

ベイジアンネットワークは

•

•

•

AIC

BIC

ディレクレィ分布の周辺尤度を直接計算

∏

∏∏

∏

∏∏

∑

∫

K2

(Cooper and Herskovits 1992) α

=1 （一様分布）のとき

∏

∏∏

+ −

∝ −

)! ! 1 (

)!

1 ) (

( )

|

(

n

r n S r

p S

p X

D.Heckerman, D.Geiger and D.M.Chickering (1995)

• Likelihood equivalence

n’

=1のときの周辺尤度

y x,

∏

∏∏

BDe Score Metric

(

)

• Likelihood equivalenceの仮定を満たす Scoring Metricの十分条件は

ESS

∏

ディレクレィ分布の周辺分布ベータ分布

= + α θ ^ˆ α

問：ハイパーパラメータn’を大きくするとエッジは付きやすくなるのか？

= + α θ ^ˆ α

いまおそらく最もよいスコア事前知識に頑健な基準

完全無情報事前分布構造の探索アルゴリズム

親ノード探索に用いられるアルゴリズム