モデルの選択と評価

(1)

Lec12

モデルの選択と評価

(2)

過学習（再掲）

▶ パラメータ数が多いと過学習が起こる

パラメータ数=1 パラメータ数=2

(3)

過学習（再掲）

▶ パラメータ数が多いと過学習が起こる

(4)

過学習を抑制するためのアプローチ

▶ アプローチ１：特徴選択

▶ 特徴数が少な過ぎる：未学習

▶ 特徴数が多過ぎる：過学習

モデル選択：適切な特徴数を選択する

▶ アプローチ２：正則化

▶ 正則化パラメータが大き過ぎる：未学習

▶ 正則化パラメータが小さ過ぎる：過学習

モデル選択：適切な正則化パラメータを選択する

(5)

モデルの選択と評価

▶ 適切なモデル選択をするには適切なモデル評価の基準が必要

▶ 訓練データに対する誤差vs. 真の関数に対する誤差

−3 −2 −1 0 1 2 3

0.00.10.20.30.40.50.6

Model Complexity

Errors on Data / Truth

−3 −2 −1 0 1 2 3

0.00.10.20.30.40.50.6 Error on Data

Error on Truth

▶ 訓練データに対する誤差をモデルの選択や評価には使えない!

(6)

学習と理解・予測

母集団

旧データ（訓練）モデル新データ

学習予測

理解

(7)

旧データと新データ

旧（訓練）データ新データ

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

x

y

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

True Old Data

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

x

y

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

True New Data

(8)

旧データと新データ

旧（訓練）データ新データ

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

x

y

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

True Old Data Estimated

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

x

y

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

True New Data Estimated

(9)

訓練誤差と汎化誤差

▶ 旧（訓練）データに対する予測誤差：

訓練誤差（Training Error）

▶ 新データに対する予測誤差：

汎化誤差（Generalization Error)

(10)

特徴選択の場合

0 20 40 60 80 100 120

0.00.10.20.30.40.50.6

Number of Selected Features

Training/Generalization Error

0 20 40 60 80 100 120

0.00.10.20.30.40.50.6 Error on Old Data Error on New Data

選択特徴数と訓練誤差・汎化誤差の推移

(11)

正則化の場合

−3 −2 −1 0 1 2 3

0.00.10.20.30.40.50.6

Negative Log of Regularization Parameter

−3 −2 −1 0 1 2 3

選択特徴数と訓練誤差・汎化誤差の推移

(12)

演習問題１

▶ 以下のX とyに対してλ= 1,2の場合のリッジ回帰分析を解き，

それぞれの場合の訓練誤差を比べよ X=[

1 2 ] ,y=[

5 ]

▶ ヒント

X^⊤X= [ 1

2

] [ 1 1 ] +λ

[ 1 0 0 1

]

(13)

演習問題１の解答

(14)

データ分割

▶ 仮想的な新データを得るためデータをランダム分割する

訓練用

評価用

(15)

特徴選択の場合（再掲）

0 20 40 60 80 100 120

0.00.10.20.30.40.50.6

Number of Selected Features

0 20 40 60 80 100 120

選択特徴数と訓練誤差・評価誤差の推移

(16)

正則化の場合（再掲）

−3 −2 −1 0 1 2 3

0.00.10.20.30.40.50.6

Negative Log of Regularization Parameter

−3 −2 −1 0 1 2 3

選択特徴数と訓練誤差・評価誤差の推移

(17)

３つの機械学習タスクとデータ

▶ タスク１：モデルの訓練

パラメータ最適化：モデルパラメータwの推定訓練データ（training data）

▶ タスク２：モデルの選択

複雑さの制御：特徴数kや正則化パラメータλの選択評価データ（validation data）

▶ タスク３：モデルの評価

汎化性能推定：最終的なモデルの性能推定テストデータ（test data)

(18)

訓練・選択・評価のためのデータ分割

訓練データ

（training data)

テストデータ

（test data) 評価データ

（validation data)

(19)

交差確認法（ Cross Validation ）

学習データ評価データ

１回目２回目３回目４回目５回目

5重交差確認法（5-fold cross-validation）

(20)

交差確認法の例

(21)

交差確認法の例

(22)

交差確認法の例

(23)

交差確認法の例

(24)

交差確認法の例

(25)

Leave-one-out Cross-Validation

１回目２回目

n回目

n – 1 回目

学習データ評価データ

1つ抜き交差確認法（leave-one-out cross-validation）

(26)

Nested Cross-Validation

1: for u= 1, . . . ,10do

2: 全データの1割をテストデータに，残りを訓練&評価データに 3: for t= 1, . . . ,10do

4: 訓練&評価データの1割を評価データに，残りを訓練データに 5: for k= 1, . . . , K do

6: 訓練データを用いてλkでモデルを学習 7: end for

8: 評価データを用いて最適なλを選択 9: end for

10: 最適なλのモデルをテストデータに対して評価 11: end for

(27)

演習問題２

▶ 訓練データ{(xi, yi)}ⁿi=1による定数モデル yi=w0+εi

の最小二乗推定は ˆ

w0= arg min

w0∈R(yi−w0)²= 1 n

∑n i=1

yi= ¯y

となる．

▶ 定数モデルの訓練誤差とLOOCV(Leave-One-Out Cross-Validation)誤差を，それぞれ

TrainEr :=

∑n i=1

(

yi−arg min

w₀∈R

∑n h=1

(yh−w0)² )

=

∑n i=1

(yi−y)¯²

LoocvEr :=

∑n i=1



yi−arg min

w0∈R

∑n h̸=i

(y_h−w0)²



=

∑n i=1



yi− 1 n−1

∑

h̸=i

y_h





2

とすると，両者の関係が

LoocvEr = ( n

n−1 )2

TrainEr となることを示せ．

(28)

演習問題２の解答

(29)

演習問題３

▶ 事例数n >100，特徴数d >50のデータを準備せよ．以下のサイ

トを参考にしてもよい

https://archive.ics.uci.edu/ml/datasets.html

▶ Rのプログラムの解説を参考に，準備したデータをリッジ回帰分析により分析せよ．

▶ データの概要（数行程度），最適な正則化パラメータ，及び，最適なモデルの汎化誤差を報告せよ