ニューラル情報処理
09
回ロジスティック回帰分析
Ichiro Takeuchi
Nagoya Institute of Technology
分類問題
▶
入力: x ∈ R d ,
出力: y ∈ {− 1, +1 }
▶
事後確率P (y | x)
が最大となるクラスへ分類する▶
ベイズの公式P (y | x) = p(x | y)P (y) p(x)
を使えば
,
事前確率p(y)
と条件付確率p(x | y)
を用いて 事後確率を計算できる(
前回の講義)
▶
事後確率P (y | x)
を直接推定できないか?
事後確率を推定するモデル
▶
線形モデルを利用可能か?P (y | x) = f(x) = w 1 x 1 + . . . + w d x d
▶
確率は0
から1
の範囲でなければならない0 ≤ P (y | x) ≤ 1
▶
線形モデルは明らかにこの性質を満たさないロジスティック関数
▶
ロジスティック関数ψ
ψ(z) = 1
1 + exp( − z)
ロジスティック回帰分析
▶
データ{ (x i , y i ) } n i=1 , x i ∈ R d , y i ∈ { 1, − 1 }
▶
ロジスティック回帰モデルP (y = +1 | x) = ψ(w 1 x 1 + . . . + w d x d ) = ψ(w ⊤ x)
= 1
1 + exp( − w ⊤ x)
P (y = − 1 | x) = 1 − ψ(w ⊤ x)
= exp( − w ⊤ x)
1 + exp( − w ⊤ x) = 1 1 + exp(w ⊤ x)
分子分母に
exp(w ⊤ x)
をかけるロジスティック回帰分析の解釈
1(
オッズ)
▶
ロジスティック回帰モデルを変形するとlog P (y = +1 | x)
P (y = − 1 | x) = w 1 x 1 + . . . + w d x d
▶
確率の比をオッズ(odds)
という▶
ロジスティック回帰分析は対数オッズを線形モデルで表 したもの▶
元々は, 成功する回数(確率)/失敗する回数 (確率)
とし てギャンブルなどで使用ロジスティック回帰分析の解釈
2(
オッズ比)
▶ x
が試験勉強を8
時間以上するかしないかを表すとする する:x 1 = 1,
しない:x 1 = 0
このとき,試験に合格するか
(y = 1)
しないか(y = 0)
を判定したい▶
以下のロジスティック回帰モデルを考えるlog P (y = +1 | x)
P (y = − 1 | x) = w 1 x 1 + · · · + w d x d
▶
このとき,係数w 1
はw 1 = log P (y = +1 | x 1 = 1, . . . x d )/P (y = − 1 | x 1 = 1, . . . , x d ) P (y = − 1 | x 1 = 1, . . . x d )/P (y = − 1 | x 1 = 1, . . . x d )
と表される.
▶
オッズの比はオッズ比(odds ratio)
と呼ばれ,
リスク指 標としてよく用いられるロジスティック回帰分析の学習
▶
学習データX
n × d
=
x 11 x 12 · · · x id x 21 x 22 · · · x 2d .. . .. . . .. .. . x n1 x n2 · · · x nd
, y
n × 1 =
y 1 y 2 .. . y n
▶
入力: x ij ∈ R : i
番目の学習データのj
番目の入力▶
出力: y i ∈ {− 1, 1 } : i
番目の学習データの出力▶
最尤推定法を使う最尤推定法(簡単な例題)
▶ 1
次元正規分布N (µ, σ 2 )
から発生したn
個の学習データx 1 , . . . , x n
が与えられているとき
,
平均µ ∈ R
を推定したい(σ 2
は とりあえず既知とする).
尤度
▶ µ = 0.0
の分布からx 1 = − 0.2
が発生した確率▶ µ = 1.0
の分布からx 1 = − 0.2
が発生した確率0 0.1 0.2 0.3
-4 -2 0 2 4
Proba bi lity D ensity
Feature x
N(0, 1)
N(1, 1)
尤度
▶ µ = 0.0
の分布からx 2 = 1.0
が発生した確率▶ µ = 1.0
の分布からx 2 = 1.0
が発生した確率0 0.1 0.2 0.3
-4 -2 0 2 4
Proba bi lity D ensity
Feature x
N(0, 1)
N(1, 1)
尤度
▶ µ = 0.0
の分布からx 1 = − 0.2, x 2 = 1.0
が発生した確率▶ µ = 1.0
の分布からx 1 = − 0.2, x 2 = 1.0
が発生した確率0 0.1 0.2 0.3
-4 -2 0 2 4
Proba bi lity D ensity
Feature x
N(0, 1)
N(1, 1)
尤度
▶ µ = 0.0
の分布からx 1 , . . . , x n
が発生した確率▶ µ = 1.0
の分布からx 1 , . . . , x n
が発生した確率0 0.1 0.2 0.3
-4 -2 0 2 4
Proba bi lity D ensity
Feature x
N(0, 1)
N(1, 1)
最尤推定法
:
尤度の最大化▶
尤度L(µ) :=
∏ n
i=1
√ 1
2πσ 2 exp (
− (x i − µ) 2 2σ 2
)
▶
対数尤度ℓ(µ) :=
∑ n
i=1
log ( 1
√ 2πσ 2 exp
( − (x i − µ) 2 2σ 2
))
▶
最尤推定法µ ∗ := arg max
µ ∈R L(µ) = arg max
µ ∈R ℓ(µ)
課題
1
▶
学習データ{ (x i , y i ) } n i=1 , x i ∈ R d , y i ∈ {− 1, +1 }
が与え られたとき, ロジスティック回帰分析の対数尤度関数がℓ(w) :=
∑ n i=1
log 1
1 + exp( − y i w ⊤ x i )
と表されることを示せ
.
▶
ヒント:
ロジスティック回帰分析における条件付確率P (y i = +1 | x i ) = 1
1 + exp( − w ⊤ x i ) P (y i = − 1 | x i ) = 1
1 + exp(w ⊤ x i )
課題
1
の解答ロジスティック回帰分析の学習
▶
ロジスティック回帰の最尤推定法は非線形最適化問題w ∗ = arg max
w ∈R
d∑ n i=1
log
( 1
1 + exp( − y i w ⊤ x i ) )
= arg min
w ∈R
d∑ n i=1
log (
1 + exp( − y i w ⊤ x i ) )
▶
課題2: y = log(1 + exp( − x))
のグラフの概形を横軸をx,
縦軸をy
として描けロジスティック回帰分析の損失関数
分類の確からしさ
▶
分類境界から離れるほど確からしい?
80 100 120 140 160 180 200
100 150 200 250 300 350 400
Activity of gene B
Activity of gene A
マージン
▶
分類境界からの(正しい方向へ)
距離をマージンという80 100 120 140 160 180 200
100 150 200 250 300 350 400
Activity of gene B
Activity of gene A
▶
点と直線の関係を使うと マージン= y i
w ⊤ x i
∥ w ∥ 2 2
∝ y i w ⊤ x i
ロジスティック回帰分析の損失関数
0 0.5 1 1.5 2 2.5 3 3.5 4
-3 -2 -1 0 1 2 3
los s
Logistic
課題
3
▶
正規分布N (µ, σ 2 )
から発生したx 1 , . . . , x n
に基づくµ
の最尤推定値が算術平均と一致する,すなわち,arg max
µ ∈R
∏ n i=1
√ 1
2πσ 2 exp
( − (x i − µ) 2 2σ 2
)
= 1 n
∑ n i=1
x i
であることを示せ
.
なお, σ 2
は既知の定数とみなして よい課題