機械学習論
ベイズモデリング
能動学習の問題設定 (pool-based sequential setting)
▶ 問題設定1:関数推定 関数 f を精度良く推定したい
f
∗= arg min
f ˆ
∈F∑ n
i=1
(f (x i ) − f(x ˆ i )) 2
▶ 問題設定2:最適化
関数 f を最大化するパラメータ x を求めたい x
∗i = arg max
x∈{x1
,...,x
n}f (x)
問題設定1:関数推定のための能動学習(不確実性)
問題設定1:関数推定のための能動学習(不確実性)
Input
Output
Step 0
Objective
Prediction Observations
Next Sample Uncertainty
問題設定1:関数推定のための能動学習(不確実性)
Input
Output
Step 1
Objective
Prediction Observations
Next Sample Uncertainty
問題設定1:関数推定のための能動学習(不確実性)
Input
Output
Step 2
Objective
Prediction Observations
Next Sample Uncertainty
問題設定1:関数推定のための能動学習(不確実性)
Input
Output
Step 3
Objective
Prediction Observations
Next Sample Uncertainty
問題設定1:関数推定のための能動学習(不確実性)
Input
Output
Step 4
Objective
Prediction Observations
Next Sample Uncertainty
問題設定1:関数推定のための能動学習(不確実性)
Input
Output
Step 5
Objective
Prediction Observations
Next Sample Uncertainty
問題設定1:関数推定のための能動学習(不確実性)
Input
Output
Step 6
Objective
Prediction Observations
Next Sample Uncertainty
問題設定1:関数推定のための能動学習(不確実性)
Input
Output
Step 7
Objective
Prediction Observations
Next Sample Uncertainty
問題設定1:関数推定のための能動学習(不確実性)
Input
Output
Step 8
Objective
Prediction Observations
Next Sample Uncertainty
問題設定1:関数推定のための能動学習(不確実性)
Input
Output
Step 9
Objective
Prediction Observations
Next Sample Uncertainty
問題設定2:最適化のための能動学習(不確実性)
問題設定2:最適化のための能動学習(不確実性)
Input
Output
Step 0
Objective
Prediction Observations
Next Sample Uncertainty
問題設定2:最適化のための能動学習(不確実性)
Input
Output
Step 1
Objective
Prediction Observations
Next Sample Uncertainty
問題設定2:最適化のための能動学習(不確実性)
Input
Output
Step 2
Objective
Prediction Observations
Next Sample Uncertainty
問題設定2:最適化のための能動学習(不確実性)
Input
Output
Step 3
Objective
Prediction Observations
Next Sample Uncertainty
問題設定2:最適化のための能動学習(不確実性)
Input
Output
Step 4
Objective
Prediction Observations
Next Sample Uncertainty
問題設定2:最適化のための能動学習(不確実性)
Input
Output
Step 5
Objective
Prediction Observations
Next Sample Uncertainty
問題設定2:最適化のための能動学習(不確実性)
Input
Output
Step 6
Objective
Prediction Observations
Next Sample Uncertainty
問題設定2:最適化のための能動学習(不確実性)
Input
Output
Step 7
Objective
Prediction Observations
Next Sample Uncertainty
Part1
ベイズの定理
能動学習のながれ
ベイズモデリング
ベイズモデリング:パラメータの更新プロセスのモデル化
▶ パラメータの事前分布: P ( ˆ w)
▶ データ: D := { (x i , y i ) } n i=1
▶ パラメータの事後分布: P ( ˆ w | D )
ベイズの定理
▶ ベイズの定理
P ( ˆ w | D ) = P ( D | w) ˆ P ( ˆ w) P ( D )
▶
パラメータの事後確率: P ( ˆ w | D )
▶
尤度: P ( D | w) ˆ
▶
パラメータの事前確率: P ( ˆ w)
▶
データの周辺分布
▶ ベイズの定理の解釈 P ( ˆ w | D )
| {z }
パラメータの事後確率
∝ P ( D | w) ˆ
| {z }
尤度
× P ( ˆ w)
| {z }
パラメータの事前確率
ベイズ推論:結果から原因をさぐる
▶ 結果:E
▶ 原因: A 1 , A 2 , . . . , A m
▶ 条件付確率
P (A i , E) = P (A i | E) P (E) = P (E | A i ) P (A i )
▶ 結果 E が起こったときに原因が A i である確率 P (A
i| E)= P (E | A
i) P (A
i)
P (E)
= P (E | A
i) P (A
i)
P (E | A
1) P (A
1) + P (E | A
2) P (A
2) + . . . + P (E | A
m) P (A
m)
演習問題1
▶ ベイズの定理を証明せよ(ヒント:同時確率と条件付確率の関係
を利用)
演習問題1の解答
以降の構成
▶ 正規分布におけるベイズ推論
▶ ベイズ線形モデル
▶ ベイズ線形モデルの予測分布(次回)
▶ ベイズ線形モデルのカーネル化 = ガウス過程モデル(次回)
▶ ガウス過程モデルの予測分布(次回)
Input
Output
Step 4
Objective Observations Uncertainty
Part2
正規分布におけるベイズ推論
正規分布(の復習)
▶ 確率密度関数(平均 µ,分散 σ 2 )
z ∼ N (µ, σ 2 ) ⇔ P (z) = 1 (2πσ 2 )
12exp
(
− 1
2σ 2 (z − µ) 2 )
▶ 2 つの正規確率変数(周辺分布)
z ∼ N (µ z , σ z 2 ), w ∼ N (µ w , σ 2 w )
▶ 同時分布
(z, w) ∼ N ([ µ z
µ w
] ,
[ σ 2 z Cov(z, w) Cov(z, w) σ w 2
])
▶ 条件付分布
z | w ∼ N (µ
|, σ 2
|), w | z ∼ N (µ
|, σ 2
|)
正規分布におけるベイズ推論
▶ 事前分布:µ ∼ N (µ 0 , σ 2 0 ) P (µ) = 1
(2πσ
20)
12exp (
− 1
2σ
02(µ − µ
0)
2)
▶ データ:z = [z 1 , . . . , z n ]
⊤,z i i.i.d. ∼ N (µ, σ 2 ) P (z i | µ) = 1
(2πσ
2)
12exp (
− 1
2σ
2(z
i− µ)
2)
, i = 1, . . . , n
▶ 事後分布:µ | z ∼ N (µ
n, σ
2n) P (w | z) = 1
(2πσ
n2)
12exp (
− 1
2σ
n2(w − µ
n) 2
)
正規分布におけるベイズ推論
▶ 事前分布
µ ∼ N (µ 0 , σ 0 2 )
▶ 事後分布(演習問題2)
µ | z ∼ N (
σ 2
nσ 2 0 + σ 2 µ 0 + nσ 0 2 nσ 0 2 + σ 2 z, ¯
( 1 σ 2 0 + n
σ 2
)
−1 )
ベイズ推論の性質
▶ 事後分布 µ | z ∼ N
( σ 2
nσ 2 0 + σ 2 µ 0 + nσ 0 2 nσ 0 2 + σ 2 z, ¯
( 1 σ 2 0 + n
σ 2 )
−1 )
▶ n → 0 のとき(事前知識重視)
µ ∼ N (µ
0, σ
20)
▶ n → ∞ のとき(データ重視)
µ ∼ N(¯ z, σ
2n )
演習問題2
▶ 正規分布の平均パラメータ µ のベイズ推論において,事後分布 P (µ | z) の平均 µ
nと分散 σ
n2が
µ
n= σ 2
nσ 2 0 + σ 2 µ 0 + nσ 0 2 nσ 0 2 + σ 2 z, ¯ 1
σ
2n= 1 σ 2 0 + n
σ 2
と表されることを示せ.ただし,¯ z = 1 n ∑ n
i=1 z i である.
▶ (ヒント)ベイズの定理より,
P (µ | z) ∝ P (z | µ) P (µ) (1) である.条件付分布も正規分布となるので,µ に関する平方完成 を行い,式 (1) の指数関数の部分が
exp (
− 1
2σ
2n(µ − µ
n) 2
)
演習問題2の解答
Part3
ベイズ線形モデル
ベイズ線形モデル
▶ 線形モデル(X ∈ R n
×d , y ∈ R n )
y = X w + ε, ε ∼ N (0, σ 2 I n )
▶ パラメータの事前分布 P (w):w ∼ N (0, σ 0 2 I d )
P (w) = 1 (2πσ
02)
12exp
− 1 2σ
02∑
d j=1w
2j
∝ exp (
− 1 2σ
02w
⊤w
)
▶ 尤度 P (y | w)
P (y | w) = 1 (2πσ
2)
12exp (
− 1 2σ
2∑
n i=1(y
i− x
⊤iw)
2)
∝ exp (
− 1
2σ
2(y − Xw)
⊤(y − Xw) )
▶ パラメータの事後分布 P (w | y) : w | y ∼ N ( w ˆ
n, S
n)
P (w | y) = 1
1
exp (
− 1
(w − w ˆ
n)
⊤S
−n1(w − w ˆ
n)
)
ベイズ線形モデルパラメータの事後分布
▶ 事前分布
w ∼ N (0, σ 0 2 I)
▶ 事後分布(演習問題3)
w | y ∼ N (
(X
⊤X + σ 2
σ 0 2 I)
−1 X
⊤y, σ 2 (X
⊤X + σ 2 σ 2 0 I)
−1
)
ベイズ線形モデルの例
Bishop (2006) Fig3.7より転載