過学習と正則化

(1)

Lec10

過学習と正則化

(2)

高次元モデル

▶

計測技術の発展と高次元データ

（例）マイクロアレイによる遺伝子活動計測

x ij :

患者

i

の遺伝子

j

の活動量

/ y i :

薬剤代謝酵素量

▶

高次元線形モデル

y = w 0 + w 1 x 1 + . . . + w 10000 x 10000

(3)

非線形モデル

▶

非線形現象のモデリング

▶

多項式回帰モデル

y = w 1 x + w 2 x ² + +w 3 x ³ + · · · + w 50 x ⁵⁰

(4)

過学習（重要）

▶

パラメータ数が多いと過学習が起こる

パラメータ数=1 パラメータ数=2

(5)

過学習（重要）

▶

(6)

最小二乗法（復習）

▶

訓練データ

X

n × d

=



 

 

x 11 x 12 · · · x 1d

x 21 x 22 · · · x 2d

.. . .. . . . . .. . x n1 x n2 · · · x nd



 

  ∈ R ⁿ ^× ^d , y

n × 1

=



 

  y 1

y 2

.. . y n



 

  ∈ R ⁿ .

▶

正規方程式

X ^⊤ X w ˆ = X ^⊤ y ⇒ w ˆ = (X ^⊤ X ) ⁻ ¹ X ^⊤ y

▶

最小二乗解が存在する条件

X ^⊤ X

の逆行列が存在する

(7)

事例数

n

と次元数

d

の関係

▶ n > d

のとき

（一般に）解ける

▶ n = d

のとき

誤差が

0（完全に過学習）

▶ n < d

のとき

（一般に）解けない

(8)

n = d

のとき

事例数

n

と次元数

d

が等しい場合

▶

（例題）以下の

X

と

y

に対して最小二乗法を解くと，E

= 0

となることを示せ

X

2 × 2

= [ 1 2

3 3 ]

, y

2 × 1

= [ 4

9 ]

▶

二乗誤差：E

= (y − Xw) ^⊤ (y − Xw)

w = X ⁻ ¹ y

とすれば

y − Xw = 0

となるので

E = 0

(9)

n < d

のとき

事例数

n

よりも次元数

d

が大きい場合

▶

（例題）以下の

X

と

y

に対して最小二乗法を解け

1 X × 2

= [

1 2 ] , y

1 × 1

= [ 5 ]

▶

正規方程式の逆行列

(X ^⊤ X ) ⁻ ¹ =

([ 1 2

] [ 1 2 ]) ⁻ ¹

=

([ 1 2 2 4

]) ₋ 1

▶ n < d

の場合，X

^⊤ X

の逆行列が存在せず最小二乗解が得られない

(10)

ここまでのまとめ

▶

高次元モデルや非線形モデルではパラメータ数が多くなる

▶

最小二乗法が解けるか

⇔ X ^⊤ X

の逆行列が存在するか

▶

そもそも

n < d

の場合には（一般的に）最小二乗解が存在しない

(11)

演習問題１

▶

以下のような

n = 3

のデータが与えられている．

X =



 1 2 4



 , y =



 2 4 3





▶

この訓練データに対して，以下のような定数モデル，線形モデル

（定数項あり），２次多項式モデル（定数項あり）を学習せよ

y i = w 0 + ε i ,

y _i = w ₀ + w ₁ x _i + ε _i , y i = w 0 + w 1 x i + w 2 x ² _i ε i

▶

３つのモデルを横軸を

x，縦軸を y

とするグラフにプロットせよ

▶

２次回帰モデルではすべての事例において誤差が

0

となることを確認せよ

(12)

演習問題１のヒント

▶

定数モデルでは以下のような

X

0を用いて最小二乗解を求めればよい

X

0

=



 1 1 1



 ⇒ w ˆ

0

= (X

₀^⊤

X

0

)

⁻¹

X

^⊤₀

y

▶

線形モデルでは以下のような

X

1

=



 1 1 1 2 1 4



 ⇒ [ w ˆ

0

ˆ w

1

]

= (X

₁^⊤

X

1

)

⁻¹

X

₁^⊤

y

▶

二次モデルでは以下のような

X

2

=



 1 1 1

²

1 2 2

²

1 4 4

²



 ⇒



 w ˆ

0

ˆ w

1

ˆ w

2



 = (X

₂^⊤

X

2

)

⁻¹

X

₂^⊤

y

(13)

演習問題１の解答

(14)

過学習を防ぐには

▶

特徴選択（

Feature Selection

）

ˆ

w = arg min

w (y − Xw) ^⊤ (y − X w) s.t. ∥ w ∥ 0 = k

ただし，

∥ w ∥ 0

はベクトル

w

の非零の要素数を表す

▶

正則化（Regularization）

ˆ

w = arg min

w (y − Xw) ^⊤ (y − X w) s.t. w ∈ Ω ⊂ R ^d

ただし，

Ω ⊂ R ^d

は

d

次元空間

R ^d

のある部分領域を表す

(15)

特徴選択

▶

特徴数が

d

のデータを考える（例：

d = 10000

）

y i = w 1 x i1 + . . . + w 10000 x i10000 + ε i

▶ k < d

個の特徴を選択（例：k

= 4）

y i = w 6 x i6 + w 58 x i58 + w 3192 x i3192 + w 7325 x i7325 + ε i

▶

最適な特徴選択（Best subset selection）

特徴選択の組み合わせ数=

( d k )

=

( 10000 4

)

= 4.16 × 10 ¹⁴

(16)

逐次特徴選択

Step 1 Step 2 Step 3

(17)

逐次特徴選択アルゴリズム（実装１）

Input:

訓練データ

(X, y),

特徴数

k 1: t ← 1, J ← ∅

2: for t = 1, . . . , k do

3:

以下の基準で追加する特徴を選択する

j t ← arg min

j ∈{ 1,...,d }\J (y − X t+1,j w ˆ t+1,j ) ^⊤ (y − X t+1,j w ˆ t+1,j )

ただし，

X t+1,j := [

X t x j

] , ˆ

w t+1,j := (

X _t+1,j ^⊤ X t+1,j

) ₋ 1

X _t+1,j ^⊤ y 4:

選択された特徴の集合

J

を更新する：

J ← J ∪ { j _t } 5: t ← t + 1

6: end for

Output:

J

(18)

逐次特徴選択アルゴリズム（実装２）

Input:

訓練データ

(X, y),

特徴数

k 1: t ← 1, P ₁ ← y, J ← ∅

2: for t = 1, . . . , k do

3:

以下の基準で追加する特徴を選択する

j _t ← arg max

j ∈{ 1,...,d }\J

(y ^⊤ P _t x _j ) ² x ^⊤ _j P t x j

4:

J

を更新する：

J ← J ∪ { j _t } 5:

射影行列を更新する

P t+1 ← P t − P _t x ^⊤ _j x _j P _t x ^⊤ _j P t x j

6: t ← t + 1

7: end for

(19)

計算量

▶

ベクトルの内積

u ^⊤ v (u, v ∈ R ⁿ )

FLOP

数：2n

− 1，

計算量オーダ：

O (n)

▶

行列とベクトルの積

M v (M ∈ R ^m ^× ⁿ , v ∈ R ⁿ )

FLOP

数：2mn

− m,

O (mn)

▶

行列の積

M N (M ∈ R ^m ^× ^k , N ∈ R ^k ^× ⁿ )

FLOP

数：

2mnk − mn,

O (mnk)

(20)

逐次特徴選択の計算コスト

逐次特徴選択は計算コストが大きい

▶

実装１

O (n ³ + dn ² + d ² n)

▶

実装２

O (2n ² + dn + d ² )

大規模データに対する機械学習アルゴリズムでは実装の工夫が不可欠

(21)

演習問題２

▶

行列

A ∈ R ^m ^× ^k , B ∈ R ^k ^× ⁿ ,

ベクトル

v ∈ R ⁿ

の積

ABx

を計算するには

2

通りの方法

1. (AB)v 2. A(Bv)

がある．それぞれの計算方法の

FLOP

数，計算量オーダを求め，

どちらが効率的であるかを議論せよ．

(22)

演習問題２の解答

(23)

過学習を防ぐには（再掲）

▶

特徴選択（

Feature Selection

）

ˆ

w = arg min

w (y − Xw) ^⊤ (y − X w) s.t. ∥ w ∥ 0 = k

ただし，

∥ w ∥ 0

はベクトル

w

の非零の要素数を表す

▶

正則化（Regularization）

ˆ

w = arg min

w (y − Xw) ^⊤ (y − X w) s.t. w ∈ Ω ⊂ R ^d

ただし，

Ω ⊂ R ^d

は

d

次元空間

R ^d

のある部分領域を表す

(24)

過学習されたモデルの係数

▶ 10

次多項式モデルのフィッティングの例

最小二乗推定値

w

1

+8.110 w

2

− 0.850 w

3

− 52.16 w

4

−4.110 w

5

+87.75 w

6

+41.13 w

7

− 49.97 w

8

− 79.87 w

9

+6.340 w

10

+43.99

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

x

y

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0 True

Data Estimated

(25)

リッジ回帰分析（制約表現）

ˆ

w Ridge = arg min

w ∈R

^d

∑ n

i=1

(y i − w ^⊤ x i ) ² subject to

∑ d

j=1

w _j ² ≤ s

(26)

リッジ回帰分析（罰則表現）

hatw Ridge = arg min

w ∈R

^d

∑ n

i=1

(y i − w ^⊤ x i ) ² + λ

∑ d

j=1

w _j ²

λ > 0

は正則化パラメータ

(27)

対応関係

w∈R

min

^d

∑

n i=1

(y

i

− w

^⊤

x

i

)

²

+ λ

∑

d j=1

w

²_j

min

w∈R^d

∑

n i=1

(y

i

− w

^⊤

x

i

)

²

subject to

∑

d j=1

w

²_j

≤ s

(28)

リッジ回帰分析（復習）

▶

リッジ回帰分析：係数の二乗和を罰則とする最小二乗回帰分析

w λ = arg min

w ∈R

^d

∑ n i=1

(y i − w ^⊤ x i ) ² + λ

∑ d j=1

w _j ²

ただし，λ >

0

は正則化パラメータとよばれるハイパーパラメータ

(29)

リッジ回帰分析の行列・ベクトル表現（復習）

▶

訓練データ

X

n × d

=



 

 

x ₁₁ x ₁₂ · · · x _1d x ₂₁ x ₂₂ · · · x _2d .. . .. . . . . .. . x n1 x n2 · · · x nd



 

  ∈ R ⁿ ^× ^d , y

n × 1

=



 

  y ₁ y ₂ .. . y n



 

  ∈ R ⁿ .

▶

罰則付き誤差

E= (y − X w) ^⊤ (y − Xw) + λw ^⊤ w

= w ^⊤ (X ^⊤ X )w − 2(X ^⊤ y) ^⊤ w + y ^⊤ y + λw ^⊤ w

= w ^⊤ (X ^⊤ X + λI)w − 2(X ^⊤ y) ^⊤ w + y ^⊤ y

▶

正規方程式（もどき）

w ^∗ _λ = (X ^⊤ X ⁻ ¹ + λI) ⁻ ¹ X ^⊤ y

(30)

平均二乗誤差のバイアス・分散分解

▶

不偏推定：期待値が真値である推定

E [ ˆ w] = w

▶

不偏でない推定

E [ ˆ w] ̸ = w

▶

平均二乗誤差

E [(w − w) ˆ ² ] = (w − E [ ˆ w]) ²

| {z }

バイアス²

+ E [( ˆ w − E [ ˆ w]) ² ]

| {z }

分散

E [(w − w) ˆ

²

]= E [((w − E [ ˆ w]) − ( ˆ w − E [ ˆ w]))

²

]

= (w − E [ ˆ w])

²

+ 2(w − E [ ˆ w]) E [ ˆ w − E [ ˆ w]] + E [( ˆ w − E [ ˆ w])

²

]

(31)

最小二乗法とリッジ回帰分析のバイアス・分散

▶

最小二乗推定量の平均二乗誤差

MSE[ ˆ w] = σ ²

∑ d j=1

1 ρ _j

| {z }

分散

ただし，

ρ j , j = 1, . . . , d

は

X ^⊤ X

の固有値

( ≥ 0)

▶

リッジ回帰推定量の平均二乗誤差

MSE[ ˆ w ^R ] = σ ²

∑ d j=1

ρ _j (ρ j + λ) ²

| {z }

分散

+ λ ² w ^⊤ (X ^⊤ X + λI) ⁻ ² w

| {z }

バイアスの

2

乗

(32)

一般化二次正則化

▶

正定値行列：G

∈ R ^d ^× ^d

G

が正定値行列

⇔ z ^⊤ Gz ≥ 0 ∀ z ∈ R ^d

▶

罰則付き誤差

E:= (y − X w) ^⊤ (y − X w) + λw ^⊤ Gw

= w ^⊤ (X ^⊤ X + λG)w − 2(X ^⊤ y)w + y ^⊤ y

▶

最小解

∂E

∂w = 0 ⇔ (X ^⊤ X + λG)w = X ^⊤ y

⇔ w _λ ^∗ = (X ^⊤ X + λG) ⁻ ¹ y

(33)

演習問題３（その１）

▶

高齢者の骨密度は過去の体重の推移に依存しており，70才の高齢者の骨密度を以下のような

4

特徴の線形モデル

y = w 1 x 1 + w 2 x 2 + w 3 x 3 + w 4 x 4

を使ってモデル化しよう．ここで，

4

つの特徴が

x 1 30

歳のときの体重

x 2 40

x ₃ 50

x 4 60

歳のときの体重と定義されているとする．

(34)

演習問題３（その２）

▶

年齢が近い場合は骨密度への影響も似ていると想定されるので，

以下の正則化項を導入する：

R(w) := λ 1

∑ 4 j=1

w ² _j + λ 2

∑ 3 j=1

(w j − w j+1 ) ² .

ただし，第

1

項は通常の二次正則化項を，第

2

項は隣り合う係数が似た値を持つことを反映したものである．

▶

正則化項

R(w)

を行列・ベクトル表現を用いて

R(w) = w ^⊤ Gw

と表すためには，Gをどのような行列とすればよいか答えよ．ただし，Gは正定値行列として，対称行列であることに留意せよ．

(35)

演習問題３の解答

(36)

発展問題

▶

逐次選択法のステップ

t

における入力行列を

X t

，最小二乗解を

w ˆ t = (X _t ^⊤ X t ) ⁻ ¹ X _t ^⊤ y

とする．また，このときの二乗誤差の和を

S _t := (y − X _t w ˆ _t ) ^⊤ (y − X _t w ˆ _t )

とする．また，射影行列を

P _t := I − X _t (X _t ^⊤ X _t ) ⁻ ¹ X _t ^⊤

と定義する．新たに加える特徴を

x j ∈ R ⁿ

とすると，ステップ

t + 1

の二乗誤差の和が

S _t+1 = S _t − (y ^⊤ P _t x _j ) ² x ^⊤ _j P t x j

と表されることを示せ．

(37)

発展問題のヒント（その１）

▶

射影行列

P _t := I − X _t (X _t ^⊤ X _t ) ⁻ ¹ X _t

は以下の性質を持つ．

▶

P _t

は冪等性（Idemopotent）を持つ

P _t ² = P _t

▶

P _t

を用いると，二乗誤差の和は以下のように表される

S t := (y − X t w ˆ t ) ^⊤ (y − X t w ˆ t ) = y ^⊤ P t y

(38)

発展問題のヒント（その２）

▶

対称行列

A ∈ R ^d ^× ^d

，ベクトル

a ∈ R ^d

，スカラー

a ∈ R

において

[ A a a

^⊤

a

]

−1

=

[ A

⁻¹

0 0

^⊤

0 ]

+ 1

a − a

^⊤

A

⁻¹

a

[ A

⁻¹

a

− 1

] [ A

⁻¹

a

− 1 ]

_⊤

▶

上の公式を用いると，行列

(X _t+1 ^⊤ X _t+1 ) ⁻ ¹

は

(X

_t+1^⊤

X

t+1

)

⁻¹

= ([ X

_t^⊤

x

^⊤_j

] [ X

t

x

j

])

⁻¹

=

[ (X

_t^⊤

X

t

)

⁻¹

0

^⊤

0 ]

+ 1

x

^⊤_j

x

j

− x

^⊤_j

X

t

(X

_t^⊤

X

t

)

⁻¹

X

t

x

j

[ (X

_t^⊤

X

t

)

⁻¹

X

_t^⊤

x

j

− 1

] [ (X

^⊤_t

X

t

)

⁻¹

X

^⊤_t

x

j

− 1

]

_⊤

(39)

発展問題の解答

過学習と正則化

Lec10

▶

x ij :

i

j

/ y i :

▶

y = w 0 + w 1 x 1 + . . . + w 10000 x 10000

▶

▶

y = w 1 x + w 2 x 2 + +w 3 x 3 + · · · + w 50 x 50

▶

▶

▶

X

n × d

=



 

 

x 11 x 12 · · · x 1d

x 21 x 22 · · · x 2d

.. . .. . . . . .. . x n1 x n2 · · · x nd



 

  ∈ R n × d , y

n × 1

=



 

  y 1

y 2

.. . y n



 

  ∈ R n .

▶

X ⊤ X w ˆ = X ⊤ y ⇒ w ˆ = (X ⊤ X ) − 1 X ⊤ y

▶

X ⊤ X

n

d

▶ n > d

▶ n = d

0（完全に過学習）

▶ n < d

n = d

n

d

▶

X

y

= 0

X

2 × 2

= [ 1 2

3 3 ]

, y

2 × 1

= [ 4

9 ]

▶

= (y − Xw) ⊤ (y − Xw)

w = X − 1 y

y − Xw = 0

E = 0

n < d

n

d

▶

X

y

1 X × 2

= [

1 2 ] , y

1 × 1

= [ 5 ]

▶

(X ⊤ X ) − 1 =

y = w 1 x + w 2 x ² + +w 3 x ³ + · · · + w 50 x ⁵⁰

  ∈ R ⁿ ^× ^d , y

  ∈ R ⁿ .

X ^⊤ X w ˆ = X ^⊤ y ⇒ w ˆ = (X ^⊤ X ) ⁻ ¹ X ^⊤ y

X ^⊤ X

= (y − Xw) ^⊤ (y − Xw)

w = X ⁻ ¹ y

(X ^⊤ X ) ⁻ ¹ =

] [ 1 2 ]) ⁻ ¹

]) ₋ 1

^⊤ X

⇔ X ^⊤ X

y _i = w ₀ + w ₁ x _i + ε _i , y i = w 0 + w 1 x i + w 2 x ² _i ε i