ベイズモデリング

(1)

機械学習論

ベイズモデリング

(2)

能動学習の問題設定 (pool-based sequential setting)

▶ 問題設定１：関数推定関数 f を精度良く推定したい

f

^∗

= arg min

f ˆ

∈F

∑ n

i=1

(f (x _i ) − f(x ˆ _i )) ²

▶ 問題設定２：最適化

関数 f を最大化するパラメータ x を求めたい x

^∗

_i = arg max

x∈{x1

,...,x

n}

f (x)

(3)

問題設定１：関数推定のための能動学習（不確実性）

(4)

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 0

Objective

Prediction Observations

Next Sample Uncertainty

(5)

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 1

Objective

Prediction Observations

Next Sample Uncertainty

(6)

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 2

Objective

Prediction Observations

Next Sample Uncertainty

(7)

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 3

Objective

Prediction Observations

Next Sample Uncertainty

(8)

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 4

Objective

Prediction Observations

Next Sample Uncertainty

(9)

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 5

Objective

Prediction Observations

Next Sample Uncertainty

(10)

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 6

Objective

Prediction Observations

Next Sample Uncertainty

(11)

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 7

Objective

Prediction Observations

Next Sample Uncertainty

(12)

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 8

Objective

Prediction Observations

Next Sample Uncertainty

(13)

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 9

Objective

Prediction Observations

Next Sample Uncertainty

(14)

問題設定２：最適化のための能動学習（不確実性）

(15)

問題設定２：最適化のための能動学習（不確実性）

Input

Output

Step 0

Objective

Prediction Observations

Next Sample Uncertainty

(16)

問題設定２：最適化のための能動学習（不確実性）

Input

Output

Step 1

Objective

Prediction Observations

Next Sample Uncertainty

(17)

問題設定２：最適化のための能動学習（不確実性）

Input

Output

Step 2

Objective

Prediction Observations

Next Sample Uncertainty

(18)

問題設定２：最適化のための能動学習（不確実性）

Input

Output

Step 3

Objective

Prediction Observations

Next Sample Uncertainty

(19)

問題設定２：最適化のための能動学習（不確実性）

Input

Output

Step 4

Objective

Prediction Observations

Next Sample Uncertainty

(20)

問題設定２：最適化のための能動学習（不確実性）

Input

Output

Step 5

Objective

Prediction Observations

Next Sample Uncertainty

(21)

問題設定２：最適化のための能動学習（不確実性）

Input

Output

Step 6

Objective

Prediction Observations

Next Sample Uncertainty

(22)

問題設定２：最適化のための能動学習（不確実性）

Input

Output

Step 7

Objective

Prediction Observations

Next Sample Uncertainty

(23)

Part1

ベイズの定理

(24)

能動学習のながれ

(25)

ベイズモデリング

ベイズモデリング：パラメータの更新プロセスのモデル化

▶ パラメータの事前分布： P ( ˆ w)

▶ データ： D := { (x i , y i ) } ⁿ i=1

▶ パラメータの事後分布： P ( ˆ w | D )

(26)

ベイズの定理

▶ ベイズの定理

P ( ˆ w | D ) = P ( D | w) ˆ P ( ˆ w) P ( D )

▶

パラメータの事後確率： P ( ˆ w | D )

▶

尤度： P ( D | w) ˆ

▶

パラメータの事前確率： P ( ˆ w)

▶

データの周辺分布

▶ ベイズの定理の解釈 P ( ˆ w | D )

| {z }

パラメータの事後確率

∝ P ( D | w) ˆ

| {z }

尤度

× P ( ˆ w)

| {z }

パラメータの事前確率

(27)

ベイズ推論：結果から原因をさぐる

▶ 結果：E

▶ 原因： A 1 , A 2 , . . . , A m

▶ 条件付確率

P (A i , E) = P (A i | E) P (E) = P (E | A i ) P (A i )

▶ 結果 E が起こったときに原因が A i である確率 P (A

i

| E)= P (E | A

i

) P (A

i

)

P (E)

= P (E | A

i

) P (A

i

)

P (E | A

₁

) P (A

₁

) + P (E | A

₂

) P (A

₂

) + . . . + P (E | A

_m

) P (A

_m

)

(28)

演習問題１

▶ ベイズの定理を証明せよ（ヒント：同時確率と条件付確率の関係

を利用）

(29)

演習問題１の解答

(30)

以降の構成

▶ 正規分布におけるベイズ推論

▶ ベイズ線形モデル

▶ ベイズ線形モデルの予測分布（次回）

▶ ベイズ線形モデルのカーネル化 = ガウス過程モデル（次回）

▶ ガウス過程モデルの予測分布（次回）

Input

Output

Step 4

Objective Observations Uncertainty

(31)

Part2

正規分布におけるベイズ推論

(32)

正規分布（の復習）

▶ 確率密度関数（平均 µ，分散 σ ² ）

z ∼ N (µ, σ ² ) ⇔ P (z) = 1 (2πσ ² )

¹²

exp

(

− 1

2σ ² (z − µ) ² )

▶ 2 つの正規確率変数（周辺分布）

z ∼ N (µ z , σ _z ² ), w ∼ N (µ w , σ ² _w )

▶ 同時分布

(z, w) ∼ N ([ µ z

µ w

] ,

[ σ ² _z Cov(z, w) Cov(z, w) σ _w ²

])

▶ 条件付分布

z | w ∼ N (µ

_|

, σ ²

_|

), w | z ∼ N (µ

_|

, σ ²

_|

)

(33)

正規分布におけるベイズ推論

▶ 事前分布：µ ∼ N (µ 0 , σ ² ₀ ) P (µ) = 1

(2πσ

²₀

)

¹²

exp (

− 1

2σ

₀²

(µ − µ

0

)

²

)

▶ データ：z = [z ₁ , . . . , z _n ]

^⊤

，z _i ^i.i.d. ∼ N (µ, σ ² ) P (z _i | µ) = 1

(2πσ

²

)

¹²

exp (

− 1

2σ

²

(z

_i

− µ)

²

)

, i = 1, . . . , n

▶ 事後分布：µ | z ∼ N (µ

_n

, σ

²_n

) P (w | z) = 1

(2πσ

_n²

)

¹²

exp (

− 1

2σ

_n²

(w − µ

_n

) ²

)

(34)

正規分布におけるベイズ推論

▶ 事前分布

µ ∼ N (µ 0 , σ ₀ ² )

▶ 事後分布（演習問題２）

µ | z ∼ N (

σ ²

nσ ² ₀ + σ ² µ 0 + nσ ₀ ² nσ ₀ ² + σ ² z, ¯

( 1 σ ² ₀ + n

σ ²

)

₋

1 )

(35)

ベイズ推論の性質

▶ 事後分布 µ | z ∼ N

( σ ²

nσ ² ₀ + σ ² µ ₀ + nσ ₀ ² nσ ₀ ² + σ ² z, ¯

( 1 σ ² ₀ + n

σ ² )

₋

1 )

▶ n → 0 のとき（事前知識重視）

µ ∼ N (µ

0

, σ

²₀

)

▶ n → ∞ のとき（データ重視）

µ ∼ N(¯ z, σ

²

n )

(36)

演習問題２

▶ 正規分布の平均パラメータ µ のベイズ推論において，事後分布 P (µ | z) の平均 µ

_n

と分散 σ

_n²

が

µ

_n

= σ ²

nσ ² ₀ + σ ² µ ₀ + nσ ₀ ² nσ ₀ ² + σ ² z, ¯ 1

σ

²_n

= 1 σ ² ₀ + n

σ ²

と表されることを示せ．ただし，¯ z = ¹ _n ∑ n

i=1 z _i である．

▶ （ヒント）ベイズの定理より，

P (µ | z) ∝ P (z | µ) P (µ) (1) である．条件付分布も正規分布となるので，µ に関する平方完成を行い，式 (1) の指数関数の部分が

exp (

− 1

2σ

²_n

(µ − µ

n

) ²

)

(37)

演習問題２の解答

(38)

Part3

ベイズ線形モデル

(39)

ベイズ線形モデル

▶ 線形モデル（X ∈ R ⁿ

^×

^d , y ∈ R ⁿ ）

y = X w + ε, ε ∼ N (0, σ ² I _n )

▶ パラメータの事前分布 P (w)：w ∼ N (0, σ ₀ ² I d )

P (w) = 1 (2πσ

₀²

)

¹²

exp



 − 1 2σ

₀²

∑

d j=1

w

²_j



 ∝ exp (

− 1 2σ

₀²

w

^⊤

w

)

▶ 尤度 P (y | w)

P (y | w) = 1 (2πσ

²

)

¹²

exp (

− 1 2σ

²

∑

n i=1

(y

i

− x

^⊤_i

w)

²

)

∝ exp (

− 1

2σ

²

(y − Xw)

^⊤

(y − Xw) )

▶ パラメータの事後分布 P (w | y) ： w | y ∼ N ( w ˆ

n

, S

n

)

P (w | y) = 1

1

exp (

− 1

(w − w ˆ

n

)

^⊤

S

⁻_n¹

(w − w ˆ

n

)

(40)

ベイズ線形モデルパラメータの事後分布

▶ 事前分布

w ∼ N (0, σ ₀ ² I)

▶ 事後分布（演習問題３）

w | y ∼ N (

(X

^⊤

X + σ ²

σ ₀ ² I)

⁻

¹ X

^⊤

y, σ ² (X

^⊤

X + σ ² σ ² ₀ I)

⁻

¹

)

(41)

ベイズ線形モデルの例

Bishop (2006) Fig3.7より転載

(42)

ベイズ線形モデルとリッジ回帰分析

ベイズ線形回帰 = リッジ回帰分析

▶ 最小二乗法 ˆ

w _LS = (X

^⊤

X )

⁻

¹ X

^⊤

y, Cov[ ˆ w _LS ] = σ ² (X

^⊤

X)

⁻

¹

▶ リッジ回帰分析

w ˆ Ridge = (X

^⊤

X + λI)

⁻

¹ X

^⊤

y, Cov[ ˆ w Ridge ] = σ ² (X

^⊤

X + λI )

⁻

¹

▶ ベイズ線形回帰の事後分布 w | y ∼ N

(

(X

^⊤

X + σ ²

σ ₀ ² I)

⁻

¹ X

^⊤

y, σ ² (X

^⊤

X + σ ² σ ² ₀ I)

⁻

¹

)

(43)

演習問題３

▶ 前ページにおける正規線形モデルパラメータ w のベイズ推論において，事後分布 P (w | y) の平均 w ˆ

n

と分散共分散行列 S

n

が

w ˆ

n

= 1

σ ² S

n

X

^⊤

y = (X

^⊤

X + σ ²

σ ² ₀ I)

⁻

¹ X

^⊤

y S

⁻_n¹

= 1

σ ² X

^⊤

X + 1 σ ² ₀ I

(

S n = σ ² (X

^⊤

X + σ ² σ ₀ ² I)

⁻

¹

)

と表されることを示せ．

▶ （ヒント）多変数二次関数の平方完成は

− 1 2

(

w

^⊤

Aw − 2b

^⊤

w )

+ const. = − 1 2 (

(w − A

⁻¹

b)

^⊤

A(w − A

⁻¹

b) )

+ const. (2)

と表されるので， P (w | y) の指数関数の引数部分で式 (2) の行列 A とベクトル b に対応するものを求めれば，

ˆ

w n = A

⁻

¹ b, S _n

⁻

¹ = A

(44)

演習問題３の解答

(45)

まとめ

(46)

ベイズモデリング

機械学習論

ベイズモデリング

能動学習の問題設定 (pool-based sequential setting)

▶ 問題設定１：関数推定 関数 f を精度良く推定したい

f

= arg min

f ˆ

∑ n

i=1

(f (x i ) − f(x ˆ i )) 2

▶ 問題設定２：最適化

関数 f を最大化するパラメータ x を求めたい x

i = arg max

,...,x

f (x)

問題設定１：関数推定のための能動学習（不確実性）

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 0

Objective

Prediction Observations

Next Sample Uncertainty

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 1

Objective

Prediction Observations

Next Sample Uncertainty

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 2

Objective

Prediction Observations

Next Sample Uncertainty

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 3

Objective

Prediction Observations

Next Sample Uncertainty

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 4

Objective

Prediction Observations

Next Sample Uncertainty

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 5

Objective

Prediction Observations

Next Sample Uncertainty

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 6

Objective

Prediction Observations

Next Sample Uncertainty

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 7

Objective

Prediction Observations

Next Sample Uncertainty

問題設定１：関数推定のための能動学習（不確実性）

Input

Output

Step 8

Objective

Prediction Observations

Next Sample Uncertainty

▶ 問題設定１：関数推定関数 f を精度良く推定したい

(f (x _i ) − f(x ˆ _i )) ²

_i = arg max