• 検索結果がありません。

BayesfiI‡É“ÅfiK‡È−w‘K‡Ì‡½‡ß‡ÌChow-Liu…A…‰…S…−…Y…•

N/A
N/A
Protected

Academic year: 2021

シェア "BayesfiI‡É“ÅfiK‡È−w‘K‡Ì‡½‡ß‡ÌChow-Liu…A…‰…S…−…Y…•"

Copied!
21
0
0

読み込み中.... (全文を見る)

全文

(1)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ Bayes的に最適な学習のためのChow-Liuアルゴリズム 鈴木 譲 大阪大学 . .

.

1 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

(2)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ Kruscalのアルゴリズム V : 有限集合 wi ,j ∈ R: wi ,j = wj ,i i ̸= j . Kruscalのアルゴリズム(wi ,j ≥ 0のとき) . . . .. . . . .

.

. 1 E ← {{i, j}|i, j ∈ V , i ̸= i} .

.

. 2 E ← {} .

.

.

3 while(E ̸= ϕ) for wi ,jが最大となる{i, j} ∈ E

.

.

. 1 E ← E\{i, j} .

.

. 2 G = (V , E∪ {i, j})が木=⇒ E ← E ∪ {i, j} 最終的なG が∑{i,j}∈Ewi ,j を最大にする木 . .

.

2 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム .

(3)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ wi ,j = I (i , j )(相互情報量) のとき i 1 1 2 1 2 3 j 2 3 3 4 4 4 I (i , j ) 12 10 8 6 4 2         X(2) X(4) X(1) X(3)         X(2) X(4) X(1) X(3)         X(2) X(4) X(1) X(3)         X(2) X(4) X(1) X(3) @ @@ . .

.

3 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム .

(4)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ Dendroid分布 G := (V , E )V :={1, · · · , N} Q1,··· ,N(x(1),· · · , x(N)) = ∏ {i,j}∈EPi ,j(x(i ), x(j )) ∏ i∈VPi(x(i ))di−1 di :=|{j ∈ V |{i, j} ∈ E}| . .

.

4 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム .

(5)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ Chow-Liuアルゴリズム: 近似 真の分布P1,··· ,N をDendroid分布Q1,··· ,N で近似 . Chow-Liu, 1968 . . . .. . . . 重みとしてwi ,j := I (i , j )を用いて、Kruscalのアルゴリズムを適 用すると、D(P1,··· ,N||Q1,··· ,N) が最小になる x(1),··· ,x(N) P1,··· ,N(x(1),· · · , x(N)) log Q1,··· ,N(x(1),· · · , x(N)) = ∑ i∈V H(i )−{i,j}∈E I (i , j ) . .

.

5 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム .

(6)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ Chow-Liuアルゴリズム: 最尤推定 {(X(1) i ,· · · , X (N) i )}∞i =1: i.i.d P1,··· ,Nは未知 n組のサンプル{(xi(1),· · · , x (N) i )}ni =1が利用可能 In(i , j ): X(i ), X(j )の経験的相互情報量 ˆ P1,··· ,N: P1,··· ,Nの最尤推定 .

.

. 1 In(i , j )の大きい i , j ∈ V (i ̸= j) から辺を結ぶ .

.

. 2 ループを作る場合、結ばない . Chow-Liuアルゴリズム: 最尤推定 . . . .. . . . D( ˆP1,··· ,N|| ˆQ1,··· ,N)を最小にするQˆ1,··· ,N を表現する木が得られる . .

.

6 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム .

(7)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ {x(i ) k }nk=1, {(x (i ) k , x (j ) k )}nk=1の予測分布 Rn(i ), Rn(i , j ) A(i ): X(i )の取りうる値の集合 α(i ):=|A(i )| cn[x ]: {xk(i )}nk=1におけるx ∈ A(i )の頻度 cn[x , y ]: {(xk(i ), xk(j ))}nk=1における(x , y )∈ A(i )× A(j )の頻度   パラメータの分布としてDirechlet(a = 1/2)を仮定 Rn(i ) := Γ(n + α (i )a)Γ(a)α(i ) Γ(α(i )a)x∈A(i )Γ(cn[x ] + a) Rn(i , j ) := Γ(n + α (i )α(j )a)Γ(a)α(i )α(j ) Γ(α(i )α(j )a)x∈A(i )Γ(cn[x , y ] + a) . .

.

7 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム .

(8)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ {(x(1) k ,· · · , x (N) k )}nk=1の記述長 L − log Rn(i )≈ nH n(i ) + α(i )− 1 2 log n − log Rn(i , j )≈ nH n(i , j ) + α(i )α(j )− 1 2 log n − log Rn(i , j ) + logRn(j ) ≈ n{Hn(i , j )− Hn(j ) + α(j )(i )− 1) 2n log n} = n{Hn(i ) + α(i )− 1 2n log n− In(i , j ) + (α(j )− 1)(α(i )− 1) 2n log n} L ≈ ni∈V {Hn(i ) + α(i )− 1 2n log n} −n{i,j}∈E {In(i , j )− 1 2n(α (i )− 1)(α(j )− 1) log n} . .

.

8 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

.

(9)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ Chow-Liuアルゴリズム: 記述長最小 Jn(i , j ) := In(i , j )− 1 2n(α (i )− 1)(α(j )− 1) log n Jn(i , j )は負になりうるので、拡張版 Kruscal のアルゴリズムを適用 (V , E )は、木ではなく、一般的な森 .

.

. 1 Jn(i , j )の大きい i , j∈ V (i ̸= j) から辺を結ぶ .

.

. 2 ループを作る場合、結ばない .

.

. 3 Jn(i , j ) < 0の場合、結ばない . Chow-Liuアルゴリズム: 記述長最小 (Suzuki, 1993) . . . .. . . . 記述長を最小にするQˆ1,··· ,Nを表現する森が得られる . .

.

9 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

.

(10)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ i j In(i , j ) α(i ) α(j ) Jn(i , j ) 1 2 12 5 2 8 1 3 10 5 3 2 2 3 8 2 3 6 1 4 6 5 4 -6 2 4 4 2 4 1 3 4 2 3 4 -4         X(2) X(4) X(1) X(3)         X(2) X(4) X(1) X(3)         X(2) X(1) X(4) X(3)         X(2) X(4) X(1) X(3) . .

.

10 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

.

(11)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ Radon-Nikodymの定理 (Ω,F): 可測空間 µ, ν: F 上の測度 B: RのBorel集合 µνに対して絶対連続(µ << ν)A∈ Fについて、 ν(A) = 0 =⇒ µ(A) = 0 νσ-有限 Ω =∪iAi かつν(Ai) <∞なるAi ∈ F, i = 1, 2, · · · が存在 f : Ω→ RF可測 任意のD ∈ Bについて、 {ω ∈ Ω|X (ω) ∈ D} ∈ F . Radon-Nikodymの定理 . . . . . µ, νσ有限で、 µ≪ νのとき、各A∈ Fµ(A) =A fd νと なるような、F可測な d µ d ν := f ≥ 0が存在 . .

.

11 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

.

(12)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ Kullback-Leibler情報量 (Ω,F, µ): 確率空間 . X : Ω→ Rが確率変数 . . . .. . . . XF可測 離散、連続、どちらでもないものが存在する FX(x ) =    0 x <−1 1 2 −1 ≤ x < 0 1 2+ ∫x 0 1 2g (t)dt 0≤ x . Kullback-Leibler情報量 . . . . . µ≪ νのとき、 D(µ||ν) := ∫ log(d µ d ν)d µ . .

.

12 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

.

(13)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ 一般の Chow-Liu アルゴリズム: 近似 D(1),· · · , D(N)∈ B µi(D(i )) := µ(X(i ) ∈ D(i )) µij(D(i ), D(j )) := µ(X(i )∈ D(i ), X(j )∈ D(j )) µ1,··· ,N(D(1),· · · , D(N)) := µ(X(i )∈ D(i ), i = 1,· · · , N) µ1⊗ · · · ⊗ µN(D(1),· · · , D(N)) := Ni =1 µi(D(i )) . .

.

13 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

.

(14)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ µij ≪ µi⊗ µj のとき、相互情報量I (i , j ) := D(µij||µi⊗ µj)が定義 d ν1,··· ,N(x(1),· · · , x(N)) = ∏ {i,j}∈E d µi ,j(x(i ), x(j )) ∏ i∈V d µi(x(i ))di−1 . 定理1 . . . .. . . . D(µ1,··· ,N||ν1,··· ,N) = D(µ1,··· ,N||µ1⊗ · · · ⊗ µN){i,j}∈E I (i , j ) . .

.

14 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

.

(15)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ ユニバーサル測度 (有限の確率変数の場合) X : 有限集合Aに値をとる確率変数 cn[x ]: 長さnの系列xn:={xk}nk=1∈ Anにおけるx ∈ Aの頻度 Rn(xn) := Γ(n +|A|/2)Γ(1/2) |A| Γ(|A|/2)x∈AΓ(cn[x ] + 1/2) H: Xをi.i.dで発生させたときのエントロピー Xの分布Pによらず、1 nlog R n(xn)→ H (n → ∞) Pn(xn): Xn= xnの真の確率 Shannon-McMillan-Breiman定理 Xの分布Pによらず、1 nlog P n(xn)→ H (n → ∞) . ユニバーサル測度R . . . . . Xの分布Pによらず、1 nlog Pn(xn) Rn(xn) → 0 (n → ∞) . .

.

15 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

.

(16)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ ユニバーサル測度 (確率密度関数が存在する場合) X ∈ [0, 1)のとき、A0:={[0, 1)}として A1 = {[0, 1/2), [1/2, 1)} A2 = {[0, 1/4), [1/4, 1/2), [1/2, 3/4), [3/4, 1)} . . . Ak = {[0, 2−(k−1)), [2−(k−1), 2· 2−(k−1)), · · · , [(2k−1− 1)2−(k−1), 1)} . . . 各レベルの予測分布を幅で割ったものの重みづけ和 . ユニバーサル確率密度 g (Ryabko, 2009) . . . . . Xの確率密度f によらず、1 n log fn(xn) gn(xn) → 0 (n → ∞) . .

.

16 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

.

(17)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ ユニバーサル測度 (確率密度関数が存在しない場合) η: σ有限, µ≪ η . Suzuki, 2011 . . . .. . . . 確率密度関数f := d µ d λ ではなく、一般の d µ d η を推定 (アルゴリズムとして、ληに変えるだけ) D(µk||η) → D(µ||η) (k → ∞) =⇒ 1 nlog d µn d νn(x n)→ 0 (n → ∞) を、ηに関するユニバーサル測度とよぶ) . .

.

17 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

.

(18)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ Bayes的な相互情報量の推定 (xn, yn): 確率変数(X , Y )n個のサンプル µX ≪ ηX, µY ≪ ηY d µn X d ηXn (x n),d µnY d ηYn (y n), d µnXY d ηnXd ηnY(x n, yn)を、 ユニバーサル測度d ν n X d ηXn(x n),d νYn d ηYn(y n), d νXYn d ηXnd ηnY(x n, yn)で推定 . 定理2: 提案する相互情報量の一般的な推定量 . . . .. . . . 1 n log d νXYn d ηXnd ηYn(x n, yn) d νXn d ηnX(x n)d νYn d ηYn(y n) → I (X , Y ) (1) . .

.

18 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

.

(19)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ 一般的な意味での記述長最小基準 .

.

. 1 可測空間 (Ω,F) で、µ(Ω) = 1 となる異なる測度の列 {µ[m]}m∈Nに 1 nlog µn[m] νn[m](x n)→ 0 なる{ν[m]}m∈Nが用意されている。 .

.

. 2 ある m∗∈ N について、µ[m∗]にしたがって独立に発生した n 個の サンプル xnから、記述長 − logd νn[m] d ηn (x n) を最小にする m を見出し、m∗の推定値とする。 − logd ν[m∗]n d ηn (x n)≤ − logd ν[m]n d ηn (x n)⇐⇒ − logd ν[m∗]n d ν[m]n (x n)≤ 0 . .

.

19 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

.

(20)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ 一般の Chow-Liu アルゴリズム: 記述長最小 Kn(i , j ): X(i ), X(j )のBayes的な相互情報量の推定値 {(x(1) k ,· · · , x (N) k )}nk=1の記述長は ∑ i∈V − logd νin d ηni ({x (i ) k } n k=1)− n{i,j}∈E Kn(i , j ) .

.

. 1 Kn(i , j )の大きい i , j∈ V (i ̸= j) から辺を結ぶ .

.

. 2 ループを作る場合、結ばない .

.

. 3 Kn(i , j ) < 0の場合、結ばない . 一般のChow-Liuアルゴリズム: 記述長最小 . . . . . 生成された森の測度ν∗が、他の森の測度νnに対して − logd ν∗n d νn(x n)≤ 0 . .

.

20 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

.

(21)

. . 確率変数が有限の場合 . . 一般の確率変数の場合 . . まとめ まとめ 離散や連続を仮定しない一般の確率変数について、 Bayes的な相互情報量の提案 記述長最小基準の提案 Bayes的な Chow-Liu アルゴリズムの提案 今後の課題: 数値実験 . .

.

21 / 21 Bayes的に最適な学習のための Chow-Liu アルゴリズム

.

参照

関連したドキュメント

今後とも、迅速で正確な情報提供につとめますが、感染症法第16条第2項に

個別の事情等もあり提出を断念したケースがある。また、提案書を提出はしたものの、ニ

需要動向に対応して,長期にわたる効率的な安定供給を確保するため, 500kV 基 幹系統を拠点とし,地域的な需要動向,既設系統の状況などを勘案のうえ,需要

基準の電力は,原則として次のいずれかを基準として決定するも

遮音壁の色については工夫する余地 があると思うが、一般的な工業製品

参考のために代表として水,コンクリート,土壌の一般

VREF YZのQRは Io = 30 mA になりま す。 VREF ?を IC のでJKする./、QR のæç でJKするような èとしてGさ い。をéえるQRとした./、

学側からより、たくさんの情報 提供してほしいなあと感じて います。講議 まま に関して、うるさ すぎる学生、講議 まま