カーネルサポートベクトルマシン

(1)

機械学習論 Lec06

カーネルサポートベクトルマシン

(2)

Part1

カーネルを用いた双対表現

(3)

線形モデルとカーネルモデル

▶

特徴ベースモデル：モデルの主表現（Primal Representation）

f (x; w) = w 1 x 1 + w 2 x 2 + . . . + w d x d

▶

事例ベースモデル：モデルの双対表現（Dual Representation)

f (x; α) = α ₁ k(x, x ₁ ) + α ₂ k(x, x ₂ ) + . . . + α _n k(x, x _n )

(4)

双対表現とカーネル関数

▶

事例ベースモデル：モデルの双対表現（Dual Representation)

f (x; α) = α 1 k(x, x 1 ) + α 2 k(x, x 2 ) + . . . + α n k(x, x n )

▶

カーネル関数：２つの事例

x _i

と

x _i

′ の類似度を表す関数

k(x _i , x _i

′

)

(5)

カーネル行列とカーネルベクトル

▶

カーネル行列

K ∈ R ⁿ ^× ⁿ

K =



 

 

k(x 1 , x 1 ) k(x 1 , x 2 ) · · · k(x 1 , x n ) k(x 2 , x 1 ) k(x 2 , x 2 ) · · · k(x 2 , x n )

.. . .. . . . . .. . k(x n , x 1 ) k(x n , x 2 ) · · · k(x n , x n )



 

  ∈ R ⁿ ^× ⁿ

▶

任意の

x ∈ R ⁿ

に対するカーネルベクトル

k(x) ∈ R ⁿ

k(x) =



 

 

k(x, x ₁ ) k(x, x 2 )

.. . k(x, x n )



 

  ∈ R ⁿ

(6)

内積カーネル

▶

最も基本的なカーネル関数：内積カーネル関数

k(x i , x i

′

) = x ^⊤ _i x i

′

▶

内積カーネルの場合のカーネル行列

K = XX ^⊤

▶

内積カーネルの場合のカーネルベクトル

k(x) = X x

(7)

リッジ回帰分析の双対表現

▶

リッジ回帰分析

E(w) = 1

2 (y − Xw) ^⊤ (y − Xw) + λ 2 w ^⊤ w

▶

双対変数

α ∈ R ⁿ

の導入

α = 1

λ (y − X w)

▶

最適性条件

∂E(w)

∂w = 0 ⇔ − X ^⊤ (y − Xw) + λw = 0

⇔ w = X ^⊤ 1

λ (y − X w) = X ^⊤ α

(8)

目的関数の双対表現

▶

リッジ回帰分析の目的関数

E(w) = 1

2 (y − Xw) ^⊤ (y − Xw) + λ 2 w ^⊤ w

は，双対変数

α

と内積カーネル行列

K

を用いて以下のように表される

E(α) = 1

2 α ^⊤ (KK + λK)α − (Ky) ^⊤ α + 1 2 y ^⊤ y

メモ１

(9)

モデルの双対表現

▶

線形モデル

f (x; w) = w ₁ x ₁ + . . . + w _d x _d

は，双対変数

α

と内積カーネルベクトル

k(x)

を用いて以下のように表される

f (x; α) = α ^⊤ k(x) = α 1 k(x, x 1 ) + . . . + α n k(x, x n )

メモ２

(10)

カーネルを用いた線形モデルの拡張

▶

カーネル関数を内積カーネルから他のものへ換えることにより線形モデルを拡張でき，これをカーネル法（

kernel method

）と呼ぶ

▶

他の一般的なカーネルの例

▶ （q次）多項式カーネル

k(x, x ^′ ) = (x ^⊤ x ^′ + 1) ^q

▶ ガウシアンカーネル

k(x, x ^′ ) = exp (

− ∥ x − x ^′ ∥ ² 2

2s ² )

▶

文字列カーネル，グラフカーネルなど，ベクトル表現できない構造データに対するカーネルも多数あり

(11)

演習問題１

▶

以下のような特徴変換を考える

[ x ₁ x 2

] 7→ ϕ



 



√ 1 2x 1

√ 2x 2

x ² ₁ x ² ₂

√ 2x ₁ x ₂



 



２次の多項式カーネルが以下のように表されることを示せ．

k(x, x ^′ ) = (x ^⊤ x ^′ + 1) ² = ϕ(x) ^⊤ ϕ(x ^′ )

#

多項式カーネルは特徴空間

ϕ(x)

における内積を表すものと解釈できる

(12)

演習問題１の解答

ϕ(x) ^⊤ ϕ(x ^′ ) = 1 + 2x 1 x ^′ ₁ + 2x 2 x ^′ ₂ + x ² ₁ + x ^′ ₁ ² + x ² ₂ + x ^′ ₂ ² + 2x 1 x ^′ ₁ x 2 x ^′ ₂ .

(1 + x 1 x ^′ ₁ + x 2 x ^′ ₂ ) ² = 1 + 2x 1 x ^′ ₁ + 2x 2 x ^′ ₂ + x ² ₁ + x ^′ ₁ ² + x ² ₂ + x ^′ ₂ ² + 2x 1 x ^′ ₁ x 2 x ^′ ₂ .

(13)

Part2

カーネル

SVM

(14)

サポートベクトルマシン（ SVM ）

▶

ハードマージン

SVM min

w

0

∈R ,w ∈R

^d

w ^⊤ w

s.t. y i (w 0 + w ^⊤ x i ) ≥ 1 ∀ i ∈ { 1, . . . , n } .

▶

ソフトマージン

SVM min

w

₀

∈R ,w ∈R

^d

, { ξ

_i

∈R}

ⁿ_i=1

1 2 w ^⊤ w + C

∑ n i=1

ξ _i

s.t. y i (w 0 + w ^⊤ x i ) ≥ 1 − ξ i , ξ i ≥ 0 ∀ i.

(15)

主 SVM 問題

▶

主

SVM

モデル

f (x) = w 0 + w ^⊤ x

▶

主

SVM

モデルの学習

min

w

0

∈R ,w ∈R

^d

, { ξ

i

∈R}

ⁿi=1

1 2 w ^⊤ w + C

∑ n i=1

ξ i

s.t. y i (w 0 + w ^⊤ x i ) ≥ 1 − ξ i , ξ i ≥ 0 ∀ i.

(16)

双対 SVM 問題

▶

双対

SVM

モデル

f (x) = α ₀ +

∑ n i=1

α _i y _i x ^⊤ x _i

▶

双対

SVM

モデルの学習

min

α ∈R

ⁿ

1 2

∑ n i=1

∑ n j=1

α i α j y i y j x ^⊤ _i x j −

∑ n i=1

α i

s.t.

∑ n i=1

α i y i = 0, 0 ≤ α i ≤ C, ∀ i.

(17)

カーネル SVM

▶

双対

SVM

モデル

f (x) = α 0 +

∑ n i=1

α i y i k(x, x i )

▶

双対

SVM

モデルの学習

min

α ∈R

ⁿ

1 2

∑ n i=1

∑ n i

^′

=1

α i α i

^′

y i y i

^′

k(x i , x i

^′

) −

∑ n i=1

α i

s.t.

∑ n i=1

α i y i = 0, 0 ≤ α i ≤ C, ∀ i.

(18)

双対変数 α _i とマージンの関係

(19)

双対変数 α _i とマージンの関係

(20)

双対変数 α _i とマージンの関係

(21)

双対変数 α _i とマージンの関係

(22)

双対変数 α _i とマージンの関係

(23)

双対変数 α _i とマージンの関係

(24)

SVM の最適性条件

▶

双対変数

α i

とマージンの関係

マージンの外側

y i f (x i ) > 1 α i = 0

マージン上

y i f (x i ) = 1 0 ≤ α i ≤ C

マージンの内側

y i f (x i ) < 1 α i = C

▶

サポートベクトルと非サポートベクトル

▶ 双対モデル

f (x) = α ₀ +

∑ n i=1

α _i y _i k(x _i , x)

▶ マージンの外側にあるデータは

α _i = 0

なので分類境界

f

に影響を与えない．

▶

SVM

は事例に対するスパース性を持つ（一部の事例のみを保持しておけばよい）

(25)

（余談）研究紹介

-2 -1 0 1 2

-3 -2 -1 0 1 2

x2

x1

Before safe screening

Toy Data (n = 1000 and d = 2)

(26)

（余談）研究紹介

[

Before safe screening

Toy Data (n = 1000 and d = 2)

(27)

（余談）研究紹介

-2 -1 0 1 2

-3 -2 -1 0 1 2

x2

x1

[

Before safe screening After safe screening

Toy Data (n = 1000 and d = 2)

(28)

（余談）研究紹介

[

Before safe screening After safe screening

Toy Data (n = 1000 and d = 2)

(29)

（余談）研究紹介

[

Before safe screening After safe screening

Toy Data (n = 1000 and d = 2)

(30)

（余談）研究紹介

[

Before safe screening After safe screening Toy Data (n = 1000 and d = 2)

Optimality is guaranteed even if we remove some samples.

(31)

演習問題２

▶ SVM

はマージン

y _i f (x _i )

が

1

より大きい事例は分類境界に影響を与えない事例スパース性を有している．一方，ロジスティック回帰分析はそのような性質を有していない．両者の損失関数の違いに基づいてこのような違いが生じるのか説明せよ．

0 0.5 1 1.5 2 2.5 3 3.5 4

-3 -2 -1 0 1 2 3

los s

Logistic Hinge Loss

Logistic Loss

(32)

演習問題２の解答

(33)

Part2

SVM

の学習（SMOアルゴリズム）

(34)

カーネル SVM の双対問題

▶ y _i , y _i

′ もまとめ,以下の行列

Q

を導入する

Q

n × n

:=



 

y 1 y 1 k(x 1 , x 1 ) · · · y 1 y n k(x 1 , x n ) .. . . . . .. . y n y 1 k(x n , x 1 ) · · · y n y n k(x n , x n )



 

▶ SVM

双対最適化問題

α min ∈R

ⁿ

1 2

∑ n i=1

∑ n i

′

=1

α i α i

^′

Q ii

^′

−

∑ n i=1

α i

s.t.

∑ n i=1

α i y i = 0, 0 ≤ α i ≤ C, ∀ i.

(35)

SMO アルゴリズム

▶ Sequential Minimal Optimization (SMO) Algorithm 1: while optimality conditions are NOT satisfied do 2: for h = 1, . . . , n do

3: update α h with the other variables { α i } i ̸ =h fixed 4: end for

5: end while

▶ LASSO

の

Shooting

アルゴリズム同様，１変数の最適化を繰り返す

(36)

SVM の１変数の最適化

▶ 1

個の双対変数

α h

に関する最適化問題

min

α

_h

∈R

1 2

∑ n i=1

∑ n j=1

α i α j Q ij −

∑ n i=1

α i

s.t. 0 ≤ α i ≤ C, ∀ i.

が以下のように整理できる：

min

α

h

∈R

1 2 Q hh α ² _h −



1 − ∑

i ̸ =h

Q hi α i



 α h

s.t. 0 ≤ α h ≤ C.

(37)

演習問題３

▶ SMO

アルゴリズムのステップ３の

α h

の更新式が

α h =

 



C if C < (1 − ∑

i ̸ =h Q hi α i )/Q hh

0 if 0 > (1 − ∑

i ̸ =h Q hi α i )/Q hh

(1 − ∑

i ̸ =h Q hi α i )/Q hh otherwise

と表されることを示せ

.

(38)

演習問題３のヒント

(39)

演習問題３の解答

(40)

まとめ

(41)

まとめ

▶

カーネル化は線形モデルから非線形モデルへ拡張する際の有用

▶

多くの機械学習モデルが主表現と双対表現を持つ

▶

カーネル

SVM

は学習も早く性能もよく，デフォルト的な手法

(42)

本日のまとめ

▶

スパースモデリングとサポートベクトルマシンは「前深層学習時代」のデフォルト機械学習手法

▶

多くのツールが揃い，学習も早く，性能もそこそこよいので手軽に試すべきオプション

▶

深層学習と違い凸最適化問題として定式化されるため，最適性の保証や理論的な理解が容易

カーネルサポートベクトルマシン

機械学習論 Lec06