ロジスティック回帰分析

(1)

ニューラル情報処理

09

^回

ロジスティック回帰分析

Ichiro Takeuchi

Nagoya Institute of Technology

(2)

分類問題

▶

入力

: x ∈ R ^d ,

出力

: y ∈ {− 1, +1 }

▶

事後確率

P (y | x)

が最大となるクラスへ分類する

▶

ベイズの公式

P (y | x) = p(x | y)P (y) p(x)

を使えば

,

事前確率

p(y)

と条件付確率

p(x | y)

を用いて事後確率を計算できる

(

前回の講義

)

▶

事後確率

P (y | x)

を直接推定できないか

?

(3)

事後確率を推定するモデル

▶

線形モデルを利用可能か？

P (y | x) = f(x) = w ₁ x ₁ + . . . + w _d x _d

▶

確率は

0

から

1

の範囲でなければならない

0 ≤ P (y | x) ≤ 1

▶

線形モデルは明らかにこの性質を満たさない

(4)

ロジスティック関数

▶

ロジスティック関数

ψ

ψ(z) = 1

1 + exp( − z)

(5)

ロジスティック回帰分析

▶

データ

{ (x _i , y _i ) } ⁿ i=1 , x _i ∈ R ^d , y _i ∈ { 1, − 1 }

▶

ロジスティック回帰モデル

P (y = +1 | x) = ψ(w ₁ x ₁ + . . . + w _d x _d ) = ψ(w ^⊤ x)

= 1

1 + exp( − w ^⊤ x)

P (y = − 1 | x) = 1 − ψ(w ^⊤ x)

= exp( − w ^⊤ x)

1 + exp( − w ^⊤ x) = 1 1 + exp(w ^⊤ x)

分子分母に

exp(w ^⊤ x)

をかける

(6)

ロジスティック回帰分析の解釈

1(

オッズ

)

▶

ロジスティック回帰モデルを変形すると

log P (y = +1 | x)

P (y = − 1 | x) = w ₁ x ₁ + . . . + w _d x _d

▶

確率の比をオッズ

(odds)

という

▶

ロジスティック回帰分析は対数オッズを線形モデルで表したもの

▶

元々は, 成功する回数

(確率)/失敗する回数 (確率)

としてギャンブルなどで使用

(7)

ロジスティック回帰分析の解釈

2(

オッズ比

)

▶ x

が試験勉強を

8

時間以上するかしないかを表すとするする:

x ₁ = 1,

しない:

x ₁ = 0

このとき,試験に合格するか

(y = 1)

しないか

(y = 0)

を判定したい

▶

以下のロジスティック回帰モデルを考える

log P (y = +1 | x)

P (y = − 1 | x) = w ₁ x ₁ + · · · + w _d x _d

▶

このとき,係数

w ₁

は

w ₁ = log P (y = +1 | x ₁ = 1, . . . x _d )/P (y = − 1 | x ₁ = 1, . . . , x _d ) P (y = − 1 | x ₁ = 1, . . . x _d )/P (y = − 1 | x ₁ = 1, . . . x _d )

と表される

.

▶

オッズの比はオッズ比

(odds ratio)

と呼ばれ

,

リスク指標としてよく用いられる

(8)

ロジスティック回帰分析の学習

▶

学習データ

X

n × d

=



 

 

x ₁₁ x ₁₂ · · · x _id x ₂₁ x ₂₂ · · · x _2d .. . .. . . .. .. . x _n1 x _n2 · · · x _nd



 

  , y

n × 1 =



 

  y ₁ y ₂ .. . y _n



 

 

▶

入力

: x _ij ∈ R : i

番目の学習データの

j

番目の入力

▶

出力

: y _i ∈ {− 1, 1 } : i

番目の学習データの出力

▶

最尤推定法を使う

(9)

最尤推定法（簡単な例題）

▶ 1

次元正規分布

N (µ, σ ² )

から発生した

n

個の学習データ

x ₁ , . . . , x _n

が与えられているとき

,

平均

µ ∈ R

を推定したい

(σ ²

はとりあえず既知とする

).

(10)

尤度

▶ µ = 0.0

の分布から

x ₁ = − 0.2

が発生した確率

▶ µ = 1.0

の分布から

x ₁ = − 0.2

0 0.1 0.2 0.3

-4 -2 0 2 4

Proba bi lity D ensity

Feature x

N(0, 1)

N(1, 1)

(11)

尤度

▶ µ = 0.0

の分布から

x ₂ = 1.0

▶ µ = 1.0

の分布から

x ₂ = 1.0

0 0.1 0.2 0.3

-4 -2 0 2 4

Proba bi lity D ensity

Feature x

N(0, 1)

N(1, 1)

(12)

尤度

▶ µ = 0.0

の分布から

x ₁ = − 0.2, x ₂ = 1.0

▶ µ = 1.0

の分布から

x ₁ = − 0.2, x ₂ = 1.0

0 0.1 0.2 0.3

-4 -2 0 2 4

Proba bi lity D ensity

Feature x

N(0, 1)

N(1, 1)

(13)

尤度

▶ µ = 0.0

の分布から

x ₁ , . . . , x _n

▶ µ = 1.0

の分布から

x ₁ , . . . , x _n

0 0.1 0.2 0.3

-4 -2 0 2 4

Proba bi lity D ensity

Feature x

N(0, 1)

N(1, 1)

(14)

最尤推定法

:

尤度の最大化

▶

尤度

L(µ) :=

∏ n

i=1

√ 1

2πσ ² exp (

− (x _i − µ) ² 2σ ²

)

▶

対数尤度

ℓ(µ) :=

∑ n

i=1

log ( 1

√ 2πσ ² exp

( − (x _i − µ) ² 2σ ²

))

▶

最尤推定法

µ ^∗ := arg max

µ ∈R L(µ) = arg max

µ ∈R ℓ(µ)

(15)

課題

1

▶

学習データ

{ (x _i , y _i ) } ⁿ i=1 , x _i ∈ R ^d , y _i ∈ {− 1, +1 }

が与えられたとき, ロジスティック回帰分析の対数尤度関数が

ℓ(w) :=

∑ n i=1

log 1

1 + exp( − y _i w ^⊤ x _i )

と表されることを示せ

.

▶

ヒント

:

ロジスティック回帰分析における条件付確率

P (y _i = +1 | x _i ) = 1

1 + exp( − w ^⊤ x _i ) P (y _i = − 1 | x _i ) = 1

1 + exp(w ^⊤ x _i )

(16)

課題

1

の解答

(17)

ロジスティック回帰分析の学習

▶

ロジスティック回帰の最尤推定法は非線形最適化問題

w ^∗ = arg max

w ∈R

^d

∑ n i=1

log

( 1

1 + exp( − y i w ^⊤ x i ) )

= arg min

w ∈R

^d

∑ n i=1

log (

1 + exp( − y _i w ^⊤ x _i ) )

▶

課題

2: y = log(1 + exp( − x))

のグラフの概形を横軸を

x,

縦軸を

y

として描け

(18)

ロジスティック回帰分析の損失関数

(19)

分類の確からしさ

▶

分類境界から離れるほど確からしい

?

80 100 120 140 160 180 200

100 150 200 250 300 350 400

Activity of gene B

Activity of gene A

(20)

マージン

▶

分類境界からの

(正しい方向へ)

距離をマージンという

80 100 120 140 160 180 200

100 150 200 250 300 350 400

Activity of gene B

Activity of gene A

▶

点と直線の関係を使うとマージン

= y i

w ^⊤ x _i

∥ w ∥ ² 2

∝ y i w ^⊤ x i

(21)

ロジスティック回帰分析の損失関数

0 0.5 1 1.5 2 2.5 3 3.5 4

-3 -2 -1 0 1 2 3

los s

Logistic

(22)

課題

3

▶

正規分布

N (µ, σ ² )

から発生した

x 1 , . . . , x n

に基づく

µ

の最尤推定値が算術平均と一致する,すなわち,

arg max

µ ∈R

∏ n i=1

√ 1

2πσ ² exp

( − (x _i − µ) ² 2σ ²

)

= 1 n

∑ n i=1

x i

であることを示せ

.

なお

, σ ²

は既知の定数とみなしてよい

(23)

課題

3

の解答

ロジスティック回帰分析

09

Ichiro Takeuchi

Nagoya Institute of Technology

▶

: x ∈ R d ,

: y ∈ {− 1, +1 }

▶

P (y | x)

▶

P (y | x) = p(x | y)P (y) p(x)

,

p(y)

p(x | y)

(

)

▶

P (y | x)

?

▶

P (y | x) = f(x) = w 1 x 1 + . . . + w d x d

▶

0

1

0 ≤ P (y | x) ≤ 1

▶

▶

ψ

ψ(z) = 1

1 + exp( − z)

▶

{ (x i , y i ) } n i=1 , x i ∈ R d , y i ∈ { 1, − 1 }

▶

P (y = +1 | x) = ψ(w 1 x 1 + . . . + w d x d ) = ψ(w ⊤ x)

= 1

1 + exp( − w ⊤ x)

P (y = − 1 | x) = 1 − ψ(w ⊤ x)

= exp( − w ⊤ x)

1 + exp( − w ⊤ x) = 1 1 + exp(w ⊤ x)

exp(w ⊤ x)

1(

)

▶

log P (y = +1 | x)

P (y = − 1 | x) = w 1 x 1 + . . . + w d x d

▶

(odds)

▶

▶

(確率)/失敗する回数 (確率)

2(

)

▶ x

8

x 1 = 1,

x 1 = 0

(y = 1)

(y = 0)

▶

log P (y = +1 | x)

P (y = − 1 | x) = w 1 x 1 + · · · + w d x d

▶

w 1

w 1 = log P (y = +1 | x 1 = 1, . . . x d )/P (y = − 1 | x 1 = 1, . . . , x d ) P (y = − 1 | x 1 = 1, . . . x d )/P (y = − 1 | x 1 = 1, . . . x d )

.

▶

(odds ratio)

,

▶

X

n × d

=



 

 

x 11 x 12 · · · x id x 21 x 22 · · · x 2d .. . .. . . .. .. . x n1 x n2 · · · x nd



 

  , y

n × 1 =

: x ∈ R ^d ,

P (y | x) = f(x) = w ₁ x ₁ + . . . + w _d x _d

{ (x _i , y _i ) } ⁿ i=1 , x _i ∈ R ^d , y _i ∈ { 1, − 1 }

P (y = +1 | x) = ψ(w ₁ x ₁ + . . . + w _d x _d ) = ψ(w ^⊤ x)

1 + exp( − w ^⊤ x)

P (y = − 1 | x) = 1 − ψ(w ^⊤ x)

= exp( − w ^⊤ x)

1 + exp( − w ^⊤ x) = 1 1 + exp(w ^⊤ x)

exp(w ^⊤ x)

P (y = − 1 | x) = w ₁ x ₁ + . . . + w _d x _d

x ₁ = 1,

x ₁ = 0

P (y = − 1 | x) = w ₁ x ₁ + · · · + w _d x _d

w ₁

w ₁ = log P (y = +1 | x ₁ = 1, . . . x _d )/P (y = − 1 | x ₁ = 1, . . . , x _d ) P (y = − 1 | x ₁ = 1, . . . x _d )/P (y = − 1 | x ₁ = 1, . . . x _d )

x ₁₁ x ₁₂ · · · x _id x ₂₁ x ₂₂ · · · x _2d .. . .. . . .. .. . x _n1 x _n2 · · · x _nd

  y ₁ y ₂ .. . y _n

: x _ij ∈ R : i

: y _i ∈ {− 1, 1 } : i

N (µ, σ ² )

x ₁ , . . . , x _n

(σ ²

x ₁ = − 0.2

x ₁ = − 0.2

x ₂ = 1.0

x ₂ = 1.0

x ₁ = − 0.2, x ₂ = 1.0

x ₁ = − 0.2, x ₂ = 1.0

x ₁ , . . . , x _n

x ₁ , . . . , x _n

2πσ ² exp (

− (x _i − µ) ² 2σ ²