正規分布と線形分類器

(1)

ニューラル情報処理第 07 回

正規分布と線形分類器

竹内一郎

名古屋工業大学

(2)

前回の課題の解答

(3)

ベイズ決定規則による分類

▶

ベイズの公式

P (ω

_j

| x) = p(x | ω

_j

)P (ω

_j

)

p(x) , j = 1, 2

▶

事前分布

P (ω

1

) = 0.4, P (ω

2

) = 0.6

▶

クラス条件付確率

p(x | ω

₁

), p(x | ω

₂

)

(4)

本日の講義の目標

▶

クラス条件付き確率 p(x | ω

_j

) が正規分布であるときのベイズ分類規則を導出する

0 0.05 0.1 0.15 0.2

15 20 25 30 35 40 45 50

Probability Density

Feature x

(5)

1 次元正規分布

▶

確率密度関数

p(x; µ, σ

²

) = 1 2πσ

²

exp

( (x − µ)

²

2σ

²

)

▶

パラメータ

µ: 平均, σ

²

: 分散, σ: 標準偏差

0 0.1 0.2 0.3 0.4 0.5

-5 -4 -3 -2 -1 0 1 2 3 4 5

Probability Density

Feature x

(6)

さまざまな 1 次元正規分布

N(µ, σ

²

), µ: 平均 , σ

²

: 分散 (σ: 標準偏差 )

0 0.2 0.4 0.6 0.8 1

-10 -8 -6 -4 -2 0 2 4 6 8 10

Probability Density

Feature x

0 0.2 0.4 0.6 0.8 1

-10 -8 -6 -4 -2 0 2 4 6 8 10

Probability Density

Feature x

N ( − 5, 1

²

) N (3, 1

²

)

0 0.2 0.4 0.6 0.8 1

-10 -8 -6 -4 -2 0 2 4 6 8 10

Probability Density

Feature x

0 0.2 0.4 0.6 0.8 1

-10 -8 -6 -4 -2 0 2 4 6 8 10

Probability Density

Feature x

N (0, 0.5

²

) N (0, 2

²

)

(7)

なぜ正規分布が重要なのか

▶

中心極限定理

同一分布にしたがうランダム変数の和や平均は極限で正規分布になる

▶

最小二乗法

誤差が正規分布の場合、最尤推定と最小二乗法が一致

▶

エントロピー最大

同じ平均と分散を持つ分布のなかでは正規分布のエン

トロピーが最大

(8)

サイコロ 2 個の平均

▶

サイコロを 1 回振って出た目の分布

1 2 3 4 5 6

▶

サイコロを 2 回振って出た目の平均の分布は？

1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6

(9)

中心極限定理の例

▶

サイコロを T 回振って出た目の平均値の分布

1 2 3 4 5 6 1 2 3 4 5 6

1 回 2 回

1 2 3 4 5 6 1 2 3 4 5 6

4 回 10 回

(10)

多次元正規分布

▶

d 次元正規分布の確率密度関数

p(x; µ, Σ) = 1

(2π)

^d/2

| Σ |

^1/2

exp (

− 1

2 (x − µ)Σ

⁻¹

(x − µ) )

▶

平均ベクトル : µ ∈ R

^d

µ = [

µ

₁

. . . µ

_d

]

_⊤

∈ R

^d

▶

分散共分散行列 : Σ ∈ R

^d^×^d

Σ =



 

 

Var(x

₁

) Cov(x

₁

, x

₂

) · · · Cov(x

₁

, x

_d

) Cov(x

2

, x

1

) Var(x

2

) · · · Cov(x

1

, x

d

)

.. . .. . . .. .. .

Cov(x

_d

, x

₁

) Cov(x

_d

, x

₂

) · · · Var(x

_d

)



 

  ∈ R

^d^×^d

(11)

多次元正規分布の等高線

▶

多次元正規分布の等高線は楕円となる

N ([ 1

2 ]

, [ 1 0

0 1 ])

N ([ −1

1 ]

, [ 2 0

0 1 ])

N ([ 0

1 ]

,

[ 1 1/2 1/2 2

])

(12)

誤分類率を最小化する 2 クラス分類問題の識別関数

▶

識別関数

G(x) = P (ω

₁

| x) − P (ω

₂

| x)

▶

事後確率の大きなクラスへ分類する :

G(x) > 0 ⇒ クラス ω

1

と分類 G(x) < 0 ⇒ クラス ω

₂

と分類

▶

ベイズの定理を使うと : G(x) = p(x | ω

₁

)P (ω

₁

)

p(x) − p(x | ω

₂

)P (ω

₂

) p(x)

▶

対数識別関数 :

g(x) = log p(x | ω

₁

) − log p(x | ω

₂

) + log P (ω

₁

) − log P (ω

₂

)

(13)

練習問題

クラス条件付確率 p(x | ω

₁

), p(x | ω

₂

) がそれぞれ多次元正規分布 N (µ

₁

, Σ), N (µ

₂

, Σ) に従うものとする ( 共分散行列 Σ が等しいことに注意 ).

このとき , 対数識別関数 g(x) が g(x) = w

₀

+ w

^⊤

x

と x の線形関数となり , w

₀

∈ R と w ∈ R

^d

が

w

₀

= − 1

2 (µ

^⊤₁

Σ

⁻¹

µ

₁

− µ

^⊤₂

Σ

⁻¹

µ

₂

) + log P (ω

₁

) − log P (ω

₂

), w = Σ

⁻¹

(µ

₁

− µ

₂

).

と表されることを示せ .

(14)

練習問題の解答

(15)

クラス条件付確率分布が正規分布のときのベイズ識別関数

▶

Case1: Σ

1

= Σ

2

= σ

²

I

d

(d- 次元単位行列 ) の場合

▶

Case2: Σ

₁

= Σ

₂

= Σ の場合

▶

Case3: Σ

₁

̸ = Σ

₂

の場合

(16)

Case 1

▶

Σ

₁

= Σ

₂

= σ

²

I

_d

(d- 次元単位行列 ) の場合

-4 -2 0 2 4

Feature x2

Feature x1

(17)

Case 2

▶

Σ

₁

= Σ

₂

= Σ の場合

-4 -2 0 2 4

Feature x2

Feature x1

(18)

Case 3

▶

Σ

₁

̸ = Σ

₂

の場合

-4 -2 0 2 4

Feature x2

Feature x1

(19)

最終課題

事前確率が

P (ω

₁

) = P (ω

₂

) = 0.5, クラス条件付確率が

µ

1

= [ 2

1 ]

, µ

2

= [ − 1

0 ]

, Σ

1

= Σ

2

= Σ =

[ 2 − 1

− 1 2 ]

と与えられているとき , 誤分類率を最小化する識別関数の方

程式を求め , 図示せよ .

(20)

最終課題の解答

正規分布と線形分類器

ニューラル情報処理第 07 回