ニューラル情報処理第 07 回
正規分布と線形分類器
竹内一郎
名古屋工業大学
前回の課題の解答
ベイズ決定規則による分類
▶
ベイズの公式
P (ω
j| x) = p(x | ω
j)P (ω
j)
p(x) , j = 1, 2
▶
事前分布
P (ω
1) = 0.4, P (ω
2) = 0.6
▶
クラス条件付確率
p(x | ω
1), p(x | ω
2)
本日の講義の目標
▶
クラス条件付き確率 p(x | ω
j) が正規分布であるときの ベイズ分類規則を導出する
0 0.05 0.1 0.15 0.2
15 20 25 30 35 40 45 50
Probability Density
Feature x
1 次元正規分布
▶
確率密度関数
p(x; µ, σ
2) = 1 2πσ
2exp
( (x − µ)
22σ
2)
▶
パラメータ
µ: 平均, σ
2: 分散, σ: 標準偏差
0 0.1 0.2 0.3 0.4 0.5
-5 -4 -3 -2 -1 0 1 2 3 4 5
Probability Density
Feature x
さまざまな 1 次元正規分布
N(µ, σ
2), µ: 平均 , σ
2: 分散 (σ: 標準偏差 )
0 0.2 0.4 0.6 0.8 1
-10 -8 -6 -4 -2 0 2 4 6 8 10
Probability Density
Feature x
0 0.2 0.4 0.6 0.8 1
-10 -8 -6 -4 -2 0 2 4 6 8 10
Probability Density
Feature x
N ( − 5, 1
2) N (3, 1
2)
0 0.2 0.4 0.6 0.8 1
-10 -8 -6 -4 -2 0 2 4 6 8 10
Probability Density
Feature x
0 0.2 0.4 0.6 0.8 1
-10 -8 -6 -4 -2 0 2 4 6 8 10
Probability Density
Feature x
N (0, 0.5
2) N (0, 2
2)
なぜ正規分布が重要なのか
▶
中心極限定理
同一分布にしたがうランダム変数の和や平均は極限で 正規分布になる
▶
最小二乗法
誤差が正規分布の場合、最尤推定と最小二乗法が一致
▶
エントロピー最大
同じ平均と分散を持つ分布のなかでは正規分布のエン
トロピーが最大
サイコロ 2 個の平均
▶
サイコロを 1 回振って出た目の分布
1 2 3 4 5 6
▶
サイコロを 2 回振って出た目の平均の分布は?
1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6
中心極限定理の例
▶
サイコロを T 回振って出た目の平均値の分布
1 2 3 4 5 6 1 2 3 4 5 6
1 回 2 回
1 2 3 4 5 6 1 2 3 4 5 6
4 回 10 回
多次元正規分布
▶
d 次元正規分布の確率密度関数
p(x; µ, Σ) = 1
(2π)
d/2| Σ |
1/2exp (
− 1
2 (x − µ)Σ
−1(x − µ) )
▶
平均ベクトル : µ ∈ R
dµ = [
µ
1. . . µ
d]
⊤∈ R
d▶
分散共分散行列 : Σ ∈ R
d×dΣ =
Var(x
1) Cov(x
1, x
2) · · · Cov(x
1, x
d) Cov(x
2, x
1) Var(x
2) · · · Cov(x
1, x
d)
.. . .. . . .. .. .
Cov(x
d, x
1) Cov(x
d, x
2) · · · Var(x
d)
∈ R
d×d多次元正規分布の等高線
▶
多次元正規分布の等高線は楕円となる
N ([ 1
2 ]
, [ 1 0
0 1 ])
N ([ −1
1 ]
, [ 2 0
0 1 ])
N ([ 0
1 ]
,
[ 1 1/2 1/2 2
])
誤分類率を最小化する 2 クラス分類問題の識別関数
▶
識別関数
G(x) = P (ω
1| x) − P (ω
2| x)
▶
事後確率の大きなクラスへ分類する :
G(x) > 0 ⇒ クラス ω
1と分類 G(x) < 0 ⇒ クラス ω
2と分類
▶
ベイズの定理を使うと : G(x) = p(x | ω
1)P (ω
1)
p(x) − p(x | ω
2)P (ω
2) p(x)
▶
対数識別関数 :
g(x) = log p(x | ω
1) − log p(x | ω
2) + log P (ω
1) − log P (ω
2)
練習問題
クラス条件付確率 p(x | ω
1), p(x | ω
2) がそれぞれ多次元正規 分布 N (µ
1, Σ), N (µ
2, Σ) に従うものとする ( 共分散行列 Σ が等しいことに注意 ).
このとき , 対数識別関数 g(x) が g(x) = w
0+ w
⊤x
と x の線形関数となり , w
0∈ R と w ∈ R
dが
w
0= − 1
2 (µ
⊤1Σ
−1µ
1− µ
⊤2Σ
−1µ
2) + log P (ω
1) − log P (ω
2), w = Σ
−1(µ
1− µ
2).
と表されることを示せ .
練習問題の解答
クラス条件付確率分布が正規分布のときのベイズ識別関数
▶
Case1: Σ
1= Σ
2= σ
2I
d(d- 次元単位行列 ) の場合
▶
Case2: Σ
1= Σ
2= Σ の場合
▶
Case3: Σ
1̸ = Σ
2の場合
Case 1
▶
Σ
1= Σ
2= σ
2I
d(d- 次元単位行列 ) の場合
-4 -2 0 2 4
-4 -2 0 2 4
Feature x2
Feature x1
Case 2
▶
Σ
1= Σ
2= Σ の場合
-4 -2 0 2 4
-4 -2 0 2 4
Feature x2
Feature x1
Case 3
▶
Σ
1̸ = Σ
2の場合
-4 -2 0 2 4
-4 -2 0 2 4
Feature x2
Feature x1