ロジスティック回帰モデル

(1)

Lec09

ロジスティック回帰モデル

(2)

ロジスティック回帰分析の例（再掲）

価格

(x

i

)

自動運転

(y

i

)

1.25 0

1.36 0

1.52 1

1.55 0

1.64 0

1.74 1

1.82 0

2.01 1

2.27 1

2.35 1

^1.0 ^1.5 ^2.0 ^2.5

01

Car Price

Auto−Driving Equipment

(3)

ロジスティック回帰分析の例（再掲）

価格

(x

i

)

自動運転

(y

i

)

1.25 0

1.36 0

1.52 1

1.55 0

1.64 0

1.74 1

1.82 0

2.01 1

2.27 1

2.35 1

1.0 1.5 2.0 2.5

01

Car Price

(4)

ロジスティック回帰分析の例（再掲）

価格

(x

i

)

自動運転

(y

i

)

1.25 0

1.36 0

1.52 1

1.55 0

1.64 0

1.74 1

1.82 0

2.01 1

2.27 1

2.35 1

1.0 1.5 2.0 2.5

01

Car Price

(5)

一般化線形モデルの構成要素

▶ 線形予測子

z

i

=

∑

d j=1

w

j

x

ij

▶ リンク関数：ロジット関数

θ

i

= g

⁻¹

(z

i

) = 1 exp( − z

i

)

▶ 確率モデル：ベルヌーイ分布

P [y

i

] = θ

_i^yⁱ

(1 − θ

i

)

⁽¹⁻^yⁱ⁾

入力変数中間変数パラメータ確率分布

(6)

２クラス分類問題の訓練データ

▶ 訓練データ（

n

事例，

d

次元）

X =



 

 

x

11

x

12

· · · x

id

x

21

x

22

· · · x

2d

.. . .. . . . . .. . x

n1

x

n2

· · · x

nd



 

  ∈ R

ⁿ^×^d

, y =



 

  y

1

y

2

.. . y

n



 

  ∈ { 0, 1 }

ⁿ

(7)

ロジスティック回帰分析

▶ 確率モデル

P (y

i

= 1 | x

i

) = g

⁻¹

(w

^⊤

x

i

) P (y

_i

= 0 | x

_i

) = 1 − g

⁻¹

(w

^⊤

x

_i

)

▶ ロジスティック関数

g

⁻¹

(z) = 1 1 + exp( − z)

0.40.60.81.0

Logistic Function

(8)

ロジスティック回帰モデルの尤度

▶ ロジスティック回帰分析の尤度関数

L(w) =

∏

n i=1

P (y

i

| x

i

)

▶ ロジスティック回帰分析の対数尤度関数

ℓ(w) =

∑

n i=1

log P (y

i

| x

i

)

=

∑

n i=1

(

y

i

log 1

1 + exp( − w

^⊤

x

i

) + (1 − y

i

) log exp( − w

^⊤

x

i

) 1 + exp( − w

^⊤

x

i

)

(9)

最尤推定法

▶ ロジスティック回帰モデルの最尤推定

ˆ

w = arg max

w∈R^d+1

∑

n

i=1

(

y

i

log 1

1 + exp( − w

^⊤

x

i

) + (1 − y

i

) log exp( − w

^⊤

x

i

) 1 + exp( − w

^⊤

x

i

)

▶ 繰り返しアルゴリズム

w

⁽⁰⁾

→ w

⁽¹⁾

→ . . . → w

^(t)

→ w

^(t+1)

→ . . .

▶ 非線形最適化の方法

最急降下法，準ニュートン法，ニュートン法, ...

(10)

演習問題１

ロジスティック回帰モデルの対数尤度関数が

ℓ(w) =

∑

n i=1

(

y

i

log 1

1 + exp( − w

^⊤

x

i

) + (1 − y

i

) log exp( − w

^⊤

x

_i

) 1 + exp( − w

^⊤

x

i

)

と表されることを示せ．

(11)

演習問題１の解答

(12)

ニュートン法（まずは一変数関数から）

▶ 一変数関数

ℓ(w)

の最大化

ˆ

w = arg max

w∈R

ℓ(w)

w

⁽⁰⁾

→ w

⁽¹⁾

→ · · · → w

^(t)

→ w

^(t+1)

→ · · ·

▶ 二次近似（二次の項までのテイラー展開）

ℓ(w) = ˜ ℓ(w

^(t)

) + ℓ

^′

(w

^(t)

)(w − w

^(t)

) + 1

2 ℓ

^′′

(w

^(t)

)(w − w

^(t)

)

²

▶ ニュートンステップ

=

二次近似モデル最小化

w

^(t+1)

= arg max

w∈R

ℓ(w) ˜

(13)

ニュートンステップ

▶ 一変数関数のニュートン法において，w^(t)から

w

^(t+1)の更新式は

w

^(t+1)

← w

^(t)

− ℓ

^′

(w

^(t)

) ℓ

^′′

(w

^(t)

)

と表される．

（証明）

(14)

例題

一変数関数

ℓ(w) = − (w − 2)

⁴

を最大にするような

w

をニュートン法によって求める（演習問題２）

(15)

ニュートン法の例

(a) t = 0 (b) t = 1

(16)

（多変数関数の）ニュートン法

▶ 多変数関数の最大化問題

ˆ

w = arg max

w∈R^d+1

ℓ(w)

w

⁽⁰⁾

→ w

⁽¹⁾

→ · · · → w

^(t)

→ w

^(t+1)

→ · · ·

▶ 二次近似（二次の項までのテイラー展開）

ℓ(w) =˜ ℓ(w^(t)) + [∂ℓ

∂w ]_⊤

w=w^(t)

(w−w^(t)) +1

2(w−w^(t))^⊤ [ ∂²ℓ

∂w∂w^⊤ ]

w=w^(t)

(w−w^(t))

▶ ニュートンステップ

=

二次近似モデル最小化

w

^(t+1)

= arg max

w

ℓ(w) ˜

(17)

一次微分ベクトルと二次微分行列

▶ 一次微分ベクトル

[ ∂ℓ

∂w ]

w=w^(t)

:=



 

 

∂ℓ

∂w1

∂ℓ

∂w₂

.. .

∂ℓ

∂wd



 

 

w=w^(t)

▶ 二次微分行列

[ ∂

²

ℓ

∂w∂w

^⊤

]

w=w^(t)

:=



 



∂²ℓ

∂w1∂w1

∂²ℓ

∂w1∂w2

· · ·

_∂w^∂₁²_∂w^ℓ _d

.. . .. . . . . .. .

∂²ℓ

∂w_d∂w₁

∂²ℓ

∂w_d∂w₂

· · ·

_∂w^∂_d²_∂w^ℓ _d



 



w=w^(t)

(18)

多変数関数のニュートンステップ

▶ 多変数関数のニュートン法において，w^(t)から

w

^(t+1)の更新式は

w

^(t+1)

← w

^(t)

− [ ∂

²

ℓ

∂w∂w

^⊤

]

₋1

w=w^(t)

[ ∂ℓ

∂w ]

w=w^(t)

と表される（演習問題２）

(19)

演習問題２

▶ 一変数関数

f(w) = − (w − 2)

⁴

を最大にするような

w

をニュートン法によって求める（演習問題２

a

）初期解を

w

⁽⁰⁾

= 0

とするとき，ニュートン法の更新値

w

⁽¹⁾

, w

⁽²⁾

, w

⁽³⁾を求めよ．

▶ 多変数関数のニュートン法において，

w

^(t)から

w

^(t+1)の更新式が

w

^(t+1)

← w

^(t)

− [ ∂

²

ℓ

∂w∂w

^⊤

]

₋1

w=w^(t)

[ ∂ℓ

∂w ]

w=w^(t)

と表されることを示せ．

(20)

演習問題２の解答

(21)

２クラス分類問題とパターン認識

ID gene A gene B cancer (1) ornot (0)

1 310 150 1

2 190 160 1

3 280 120 1

4 310 170 1

5 290 120 1

6 200 100 0

7 180 130 0

8 240 110 0

9 150 150 0

10 150 110 0 ⁸⁰

100 120 140 160 180 200

100 150 200 250 300 350 400

Activity of gene B

Activity of gene A

(22)

２クラス分類問題とパターン認識

1 310 150 1

2 190 160 1

3 280 120 1

4 310 170 1

5 290 120 1

6 200 100 0

7 180 130 0

8 240 110 0

9 150 150 0

10 150 110 0 ⁸⁰

100 120 140 160 180 200

100 150 200 250 300 350 400

Activity of gene B

Activity of gene A

(23)

２クラス分類問題とパターン認識

1 310 150 1

2 190 160 1

3 280 120 1

4 310 170 1

5 290 120 1

6 200 100 0

7 180 130 0

8 240 110 0

9 150 150 0

10 150 110 0 ⁸⁰

100 120 140 160 180 200

100 150 200 250 300 350 400

Activity of gene B

Activity of gene A

(24)

２クラス分類問題とパターン認識

▶ ２クラス分類問題の訓練データ（

n

事例，

d

次元）

X =



 

 

x

11

x

12

· · · x

id

x

21

x

22

· · · x

2d

.. . .. . . . . .. . x

n1

x

n2

· · · x

nd



 

  ∈ R

ⁿ^×^d

, y =



 

  y

1

y

2

.. . y

n



 

  ∈ { 0, 1 }

ⁿ

▶ 線形分類境界

h(x) = w

0

+

∑

d j=1

w

j

x

i

= 0

▶ 分類規則

h(x

_i

) > 0 ⇒ y

_i

= 1,

h(x

i

) < 0 ⇒ y

i

= 0

(25)

３つの線形２クラス分類アルゴリズム

▶ ロジスティック回帰分析

▶ 線形判別分析

▶ （線形）サポートベクトルマシン

(26)

２クラス分類器としてのロジスティック回帰分析

▶ ２クラス分類規則

P (y

_i

| x

_i

) = 1

1 + exp( − w

^⊤

x

i

) > 0.5 ⇒ y ˆ

_i

= 1, P (y

_i

| x

_i

) = 1

1 + exp( − w

^⊤

x

_i

) < 0.5 ⇒ y ˆ

_i

= 0

▶ 線形分類境界を

h(x) = w

^⊤

x

としたとき，分類規則は以下のように表される：

h(x

i

) > 0 ⇒ y ˆ

i

= 1, h(x

_i

) < 0 ⇒ y ˆ

_i

= 0

（証明）

(27)

線形判別分析

▶ 各クラスの入力ベクトル分布

P (x

_i

| y

_i

= 1), P (x

_i

| y

_i

= 0)

▶ 両分布が分散共分散行列の等しい多変量正規分布のとき線形判別境界となる

-4 -2 0 2 4

Feature x2

(28)

（線形）サポートベクトルマシン

▶ 分類境界とマージン

80 100 120 140 160 180 200

100 150 200 250 300 350 400

Activity of gene B

Activity of gene A

(29)

（線形）サポートベクトルマシン

▶ 分類境界とマージン

80 100 120 140 160 180 200

100 150 200 250 300 350 400

Activity of gene B

Activity of gene A

(30)

演習問題３

▶ 判別分析では，

H(x) := P (y = 1 | x) − P (y = 0 | x)

を考え，以下のように分類する：

H (x

_i

) > 0 ⇒ y ˆ

_i

= 1, H (x

i

) < 0 ⇒ y ˆ

i

= 0

▶ ベイズの定理

P (y = 1 | x) = P (x | y = 1) P (y = 1)

P (x) , P (y = 0 | x) = P (x | y = 0) P (y = 0) P (x) ,

を用いて，対数識別関数

h(x) := log P (y = 1 | x) − log P (y = 0 | x)

が以下のように表されることを示せ

h(x) = log P (x | y = 1) − log P (x | y = 0) + log P (y = 1) − log P (y = 0)

(31)

演習問題３（つづき）

▶ また，クラスごとの入力ベクトルの確率分布が以下のように多変量正規分布に従うとする．

x | y = 1 ∼ N(µ

₁

, Σ), x | y = 0 ∼ N (µ

₀

, Σ).

このとき，対数識別関数

h(x)

が

h(x) = w

0

+ w

^⊤

x

と表され，

w

0

∈ R

と

w ∈ R

^d が

w

0

= − 1

2 (µ

^⊤₁

Σ

⁻¹

µ

1

− µ

^⊤₀

Σ

⁻¹

µ

0

) + log P (y = 1) − log P (y = 0),

w = Σ

⁻¹

(µ

₁

− µ

₀

)

(32)

演習問題３の解答