確率的生成モデル

(1)

確率的生成モデル

http://www.cs.miyazaki-u.ac.jp/~date/

伊達章

宮崎大学工学部情報システム工学科

2020

年

7

月

28

日

1 / 21

(2)

講義のスケジュール（案）

9.

統計的最適化に必要な基礎知識

•

最終課題の概要

•

確率，正規分布，最尤推定，対数尤度

•

疑似乱数，乱数の種とは

• Python

で乱数生成

10.

同時確率，周辺確率，条件付確率，ベイズ推論，事後確率最大化

11.

動的計画法

12.

動くコードを完成させる方法

13.

プログラミング実践（C言語，Python）

14.

自由課題について．少し高度な話題：事後確率の具体的な計算

15.

まとめ（レポート講評）

(3)

本講義の（真の）ねらい

単純な課題を通して，これまでならったことの理解をとことん深める

•

アルゴリズムとデータ構造

「データ構造」の大切さ．動的計画法とは．

•

確率・統計，情報理論．

確率と情報の親密性．正規分布（ガウス分布），ベイズの公式．

事前確率，事後確率．事後確率最大化

•

数値計算

コンピュータで乱数をどう発生させるか．疑似乱数．乱数の種

（seed）．事後確率値の計算（アンダーフローを防ぐには）

•

ソフトウェア工学

どう設計するか．変数の名前の付け方．プログラムの構造．実験の仕方．テストコード．

•

パターン認識（単なるノイズ除去の問題ではない），脳の情報処理

•

コミュニケーション：問題設定の理解（全体像と詳細），簡潔な口頭説明，レポート執筆（事実と考察の記述，問題発見，自問自答）

•

目標

:

動くコードを完成させる．自分一人で．

3 / 21

(4)

9.

•

確率，正規分布最尤推定，対数尤度

•

疑似乱数，乱数の種とは

• Python

で乱数生成

10.

11.

動的計画法

12.

13.

14.

15.

(5)

確率的生成モデルの実験

-2 -1 0 1 2 3 4

0 50 100 150 200

t x true , y x

MAP

seed: 20070919

P (x

_MAP

| y ) = 0.03118

P (x

_true

| y ) = 0.00213 σ=0.7

5 / 21

(6)

事後確率最大化

x ₁ x ₂ x ₃ x _n-1 x _n

y ₁ y ₂ y ₃ y _n-1 y _n

x ^∗ = argmax

x

p(x)p(y | x)

= argmax

x

p(x ₁ )

∏ n

i=2

p(x _i | x _i ₋ ₁ )

∏ n

i=1

p(y _i | x _i )

= argmax

x

log p(x ₁ ) +

∑ n

i=2

log p(x _i | x _i−1 ) +

∑ n

i=1

log p(y _i | x _i )

(7)

別の方法と性能を比較する

-2 -1 0 1 2 3 4

0 50 100 150 200

t x

true

, y x

MAP

seed: 20070919 P (x_MAP| y ) = 0.03118

P (x_true| y ) = 0.00213 σ=0.7

• y i > 0.5

なら

x i = 1

と推定

•

貪欲法（Greedy Method）

•

並列処理で求める方法

•

周辺事後確率最大化

• · · ·

x

₁

x

₂

x

₃

x

_n-1

x

_n

y

₁

y

₂

y

₃

y

_n-1

y

_n

7 / 21

(8)

並列処理で事後確率最大化

x ₁ x ₂ x ₃ x _n-1 x _n

y ₁ y ₂ y ₃ y _n-1 y _n

•

初期設定：x

₁

から

x ₂₀₀

に適当に

0, 1

を代入．

• n = 200

個のうち，どれか一つをランダムに選び（kとする），他

は固定し

x _k

の値を（確率的に）更新．これをひたすら繰り返す．

•

いつかは，事後確率を最大にする値にたどり着く（？）．どのくらいの更新回数で，どのくらいよい推定ができるか．

(9)

周辺事後確率最大化

x ₁ x ₂ x ₃ x _n-1 x _n

y ₁ y ₂ y ₃ y _n-1 y _n

•

事後確率最大化

x

^∗

= argmax

x

p(x)p(y | x) = argmax

x

p(x 1 )

∏ n i=2

p(x i | x i

−

1 )

∏ n i=1

p(y i | x i )

•

周辺事後確率最大化：

x

^†

_k = argmax

x

_k

p(x k | y)

x

^†

_k = argmax

x

_k

∑

x

₁

∑

x

₂

· · · ∑

x

_k−1

∑

x

_k+1

· · · ∑

x

_n−1

∑

x

_n

p(x)p(y | x) (k = 1, · · · , n)

9 / 21

(10)

本講義の（真の）ねらい

単純な課題を通して，これまでならったことの理解をとことん深める

•

アルゴリズムとデータ構造

「データ構造」の大切さ．動的計画法とは．

•

確率・統計，情報理論．

確率と情報の親密性．正規分布（ガウス分布），ベイズの公式．

事前確率，事後確率．事後確率最大化

•

数値計算

コンピュータで乱数をどう発生させるか．疑似乱数．乱数の種

（seed）．事後確率値の計算（アンダーフローを防ぐには）

•

ソフトウェア工学

どう設計するか．変数の名前の付け方．プログラムの構造．実験の仕方．テストコード．

•

パターン認識（単なるノイズ除去の問題ではない），脳の情報処理

•

コミュニケーション：問題設定の理解（全体像と詳細），簡潔な口頭説明，レポート執筆（事実と考察の記述，問題発見，自問自答）

•

目標

:

動くコードを完成させる．自分一人で．

(11)

確率的生成モデル

与えられているもの

データ（観測値）：

y = (y ₁ , · · · , y _n )

モデル：

p(x), p(y | x) ⇐ =

事前分布．

世の中の規則性を捉えたモデル化には，設計センスが必要

p(x 1 ) =

{ 0.5 if x 1 = 0 0.5 if x ₁ = 1

p(x _i+1 | x _i ) =

 

 

 



0.99 if x _i = 0, x _i+1 = 0 0.01 if x _i = 0, x _i+1 = 1 0.97 if x _i = 1, x _i+1 = 1 0.03 if x _i = 1, x _i+1 = 0 p(y i | x i ) = 1

√ 2πσ exp

{

− (y i − x i ) ² 2σ ²

}

事後確率最大化：

x

^∗

= argmax

x

p(x | y)

・真の確率分布と解釈する際の確率分布が異なっていると...

・音声認識（

YouTube

で英語の動画を，字幕を日本語にして視聴する）

11 / 21

(12)

知的なコンピュータのエンジン

•

生成モデル

(Generative)

• Markov Random Fields

• Boltzmann Machines

• Generative Adversarial Networks (GAN)

• Generative Query Networks（GQN）

•

判別モデル

(Discriminatve)

• Convolutional Deep Neural Networks

•

脳

•

並列分散処理

• · · ·

(13)

確率的生成モデル（脳）とパターン認識

データ（観測値）：

y = (y ₁ , · · · , y _n )

モデル：

p(x), p(y | x) ⇐ =

事前分布

x

は見えない（脳の中，hidden），yは見える（visible）．

• y ∼ p(y | x)p(x)

二度と同じものは現れない

•

認識・思考・推論：

x

^∗

= argmax

x

p(x | y)

•

知識・記憶

p(x; θ)

• Mind’s eye

，夜見る夢

p(x; θ)

• · · ·

•

知的なコンピュータを開発するヒントは脳の中にある．ただし，なかなかわからない....

13 / 21

(14)

9.

•

疑似乱数，乱数の種とは，

• Python

で乱数生成

10.

11.

動的計画法

12.

13.

14.

15.

(15)

事後確率値の計算

-2 -1 0 1 2 3 4

0 50 100 150 200

t x true , y x

MAP

seed: 20070919

P (x

_MAP

| y ) = 0.03118

P (x

_true

| y ) = 0.00213 σ=0.7

15 / 21

(16)

事後確率の具体的な計算

x ₁ x ₂ x ₃ x _n-1 x _n

y ₁ y ₂ y ₃ y _n-1 y _n

p(x | y) = p(x, y)

p(y) = p(x)p(y | x)

∑

˜

x

p( ˜ x)p(y | x) ˜

•

分母の

p(y)

を無視できない（事後確率最大化のときとは異なる）

•

分母：

2 ⁿ

個の和を計算する必要がある

• p(x _MAP | y)

といえども，値が小さい．（

∑

x

p(x | y) = 1）

(17)

1 p(x | y) = p(y) p(x, y) =

∑

˜ x

p(˜ x, ⃗ y) p(x, y)

=

∑

i

₁

,i

₂

,i

₃

,

···

,i

_N

p i

1

,i

2

p i

2

,i

3

q i

1

,y

1

q i

2

,y

2

q i

3

,y

3

· · · q i

N

,y

N

p x

₁

,x

₂

p x

₂

,x

₃

q x

₁

,y

₁

q x

₂

,y

₂

q x

₃

,y

₃

· · · q x

_N

,y

_N

=

∑

i

_N

q i

_N

,y

_N

q _x

_N

_,y

_N

· · ·

∑

i

₃

p i

₃

,i

₄

q i

₃

,y

₃

p _x

₃

_,x

₄

q _x

₃

_,y

₃

∑

i

₂

p i

₂

,i

₃

q i

₂

,y

₂

p _x

₂

_,x

₃

q _x

₂

_,y

₂

∑

i

₁

p i

₁

,i

₂

q i

₁

,y

₁

p _x

₁

_,x

₂

q _x

₁

_,y

₁

=

∑

i

_N

q _i

_N

_,y

_N

q x

_N

,y

_N

· · ·

∑

i

₃

p _i

₃

_,i

₄

q _i

₃

_,y

₃

p x

₃

,x

₄

q x

₃

,y

₃

∑

i

₂

p _i

₂

_,i

₃

q _i

₂

_,y

₂

r ₂ (i ₂ ) p x

₂

,x

₃

q x

₂

,y

₂

=

∑

i

_N

q i

N

,y

N

q _x

_N

_,y

_N

· · ·

∑

i

₃

p i

3

,i

4

q i

3

,y

3

r 3 (i 3 ) p _x

₃

_,x

₄

q _x

₃

_,y

₃

=

∑

i

N

q _i

_N

_,y

_N

r _N (i _N )

q x

_N

,y

_N

ここで

r 2 (i 2 ) =

∑

i

₁

p i

₁

,i

₂

q i

₁

,y

₁

p _x

₁

_,x

₂

q _x

₁

_,y

₁ であり

r t (i t ) =

∑

i

t−1

p _i

_t−1

_,i

_t

q _i

_t−1

_,y

_t−1

r _t

₋

₁ (i _t

₋

₁ )

p x

_t−1

,x

_t

q x

_t−1

,y

_t−1

である（

t = 3, · · · , n

）．

17 / 21

(18)

1 p(x | y) = p(y) p(x, y) =

∑

˜ x

p(˜ x, ⃗ y) p(x, y)

=

∑

i

₁

,i

₂

,i

₃

,

···

,i

_N

p _i

₁

_,i

₂

p _i

₂

_,i

₃

q _i

₁

_,y

₁

q _i

₂

_,y

₂

q _i

₃

_,y

₃

· · · q _i

_N

_,y

_N

p x

₁

,x

₂

p x

₂

,x

₃

q x

₁

,y

₁

q x

₂

,y

₂

q x

₃

,y

₃

· · · q x

_N

,y

_N

=

∑

i

_N

q i

_N

,y

_N

q _x

_N

_,y

_N

· · ·

∑

i

₃

p i

₃

,i

₄

q i

₃

,y

₃

p _x

₃

_,x

₄

q _x

₃

_,y

₃

∑

i

₂

p i

₂

,i

₃

q i

₂

,y

₂

p _x

₂

_,x

₃

q _x

₂

_,y

₂

∑

i

₁

p i

₁

,i

₂

q i

₁

,y

₁

p _x

₁

_,x

₂

q _x

₁

_,y

₁

=

∑

i

_N

q _i

_N

_,y

_N

q x

_N

,y

_N

· · ·

∑

i

₃

p _i

₃

_,i

₄

q _i

₃

_,y

₃

p x

₃

,x

₄

q x

₃

,y

₃

∑

i

₂

p _i

₂

_,i

₃

q _i

₂

_,y

₂

r ₂ (i ₂ ) p x

₂

,x

₃

q x

₂

,y

₂

=

∑

i

_N

q _i

_N

_,y

_N

q x

_N

,y

_N

· · ·

∑

i

₃

p _i

₃

_,i

₄

q _i

₃

_,y

₃

r ₃ (i ₃ ) p x

₃

,x

₄

q x

₃

,y

₃

=

∑

i

N

q i

_N

,y

_N

r N (i N )

q x

_N

,y

_N

ここで

r 2 (i 2 ) =

∑

i

₁

p i

1

,i

2

q i

1

,y

1

p _x

₁

_,x

₂

q _x

₁

_,y

₁ であり

r t (i t ) =

∑

i

_t−1

p i

_t−1

,i

_t

q i

_t−1

,y

_t−1

r t

−

1 (i t

−

1 ) p x

_t−1

,x

_t

q x

_t−1

,y

_t−1

である（

t = 3, · · · , n

）．

(19)

9.

•

疑似乱数，乱数の種とは，

• Python

で乱数生成

10.

11.

動的計画法

12.

13.

14.

•

上位

4

つの候補を表示

•

事後確率分布

p(x | y)

からのサンプリング（動的計画法）

• · · ·

15. 19 / 21

(20)

レポートの執筆

•

提出締切

8/3（月） 18:00

（ともかく提出）

•

実験しながら執筆（実験手法，原理）

•

考察：問題発見の練習．問題を発見することが大事．

•

丁寧に記述する．

•

提出する前に読み直す

(21)

終

21 / 21

確率的生成モデル

http://www.cs.miyazaki-u.ac.jp/~date/

2020

7

28

1 / 21

9.

•

•

•

• Python

10.

11.

12.

13.

14.

15.

•

•

•

•

•

•

•

:

3 / 21

9.

•

•

•

• Python

10.

11.

12.

13.

14.

15.

-2 -1 0 1 2 3 4

0 50 100 150 200

t x true , y x

P (x

| y ) = 0.03118

P (x

| y ) = 0.00213 σ=0.7

5 / 21

x 1 x 2 x 3 x n-1 x n

y 1 y 2 y 3 y n-1 y n

x ∗ = argmax

x

p(x)p(y | x)

= argmax

x

p(x 1 )

∏ n

i=2

p(x i | x i − 1 )

∏ n

i=1

p(y i | x i )

= argmax

x

log p(x 1 ) +

∑ n

i=2

log p(x i | x i−1 ) +

∑ n

i=1

log p(y i | x i )

t x

, y x

• y i > 0.5

x i = 1

•

•

•

• · · ·

x

x

x

x

x ₁ x ₂ x ₃ x _n-1 x _n

y ₁ y ₂ y ₃ y _n-1 y _n

x ^∗ = argmax

p(x ₁ )

p(x _i | x _i ₋ ₁ )

p(y _i | x _i )

log p(x ₁ ) +

log p(x _i | x _i−1 ) +

log p(y _i | x _i )

x ₁ x ₂ x ₃ x _n-1 x _n

y ₁ y ₂ y ₃ y _n-1 y _n

₁

x ₂₀₀

x _k

x ₁ x ₂ x ₃ x _n-1 x _n

y ₁ y ₂ y ₃ y _n-1 y _n

_k = argmax

_k = argmax

y = (y ₁ , · · · , y _n )

{ 0.5 if x 1 = 0 0.5 if x ₁ = 1

p(x _i+1 | x _i ) =

0.99 if x _i = 0, x _i+1 = 0 0.01 if x _i = 0, x _i+1 = 1 0.97 if x _i = 1, x _i+1 = 1 0.03 if x _i = 1, x _i+1 = 0 p(y i | x i ) = 1