データサイエンスの復習

(1)

機械学習論（ 02 回）

データサイエンスの復習

竹内一郎

名古屋工業大学

(2)

1. 回帰問題と線形回帰分析

(3)

回帰問題（単回帰）

▶ （例題）広告宣伝費から販売台数を予測する

番号(i) 広告宣伝費（x_i万円）販売台数（y_i台）

1 1000 3500

2 2000 4300

3 2500 6300

4 2500 5300

5 3000 7100

6 3300 7200

7 3400 8400

8 4000 9500

9 4400 9200

10 5000 9800

(4)

線形単回帰モデル

020004000600080001000012000

Sales

(5)

回帰問題（重回帰）

▶ （例題）広告宣伝費と燃費から販売台数を予測する

番号(i) 広告宣伝費（x_i1万円）燃費（x_i2km/litter）販売台数（y_i台）

1 1000 20.51 3500

2 2000 30.60 4300

3 2500 38.20 6300

4 2500 28.50 5300

5 3000 30.25 7100

6 3300 25.80 7200

7 3400 32.45 8400

8 4000 35.12 9500

9 4400 26.40 9200

10 5000 31.20 9800

(6)

線形重回帰モデル

0 2 4 6 8 10

0 2 4 6 810

0 2

4 6

8 1000

x2 E[y]

(7)

線形回帰分析

▶ 訓練データ（n事例，d入力, 1出力）

事例番号入力変数出力変数 x1 x2 · · · xd y 1 x₁₁ x₁₂ · · · x_1d y₁ 2 x₂₁ x₂₂ · · · x_2d y₂ ... ... ... . .. ... ... n xn1 xn2 · · · xnd yn

(8)

線形（重）回帰分析

▶ 線形回帰モデル

yi=β0+

∑d

j=1

βjxij+εi,E[εi] = 0,V[εi] =σ²

▶ 最小二乗法

( ˆβ0,βˆ1, . . . ,βˆd) = arg min

β₀,β₁,...,β_d

∑n

i=1

(yi−(β0+

∑d

j=1

βjxij))²

▶ 予測（テスト入力x₀:= [x₀₁, . . . , x_0d]^⊤に対して）

ˆ

y0= ˆβ0+

∑d

βˆjx0j

(9)

（注）定数項

β

0について

▶ 定数項β₀を省略することがある

y_i=

∑d j=1

β_jx_ij+ε_i, ( ˆβ₁, . . . ,βˆ_d) = arg min

β₀,β₁,...,β_d

∑n i=1

(y_i−

∑d j=1

β_jx_ij)²

▶ 入力ベクトルを

1→xi1, xi1→xi2, xi2→xi3, . . . , xid →xi,d+1, d+ 1→d と再定義すれば

β0+

∑d j=1

βjxij →

∑d j=1

βjxij

▶ 以降，必要ない場合は定数項β₀を省略し，必要ある場合のみ明記

(10)

訓練データの行列・ベクトル表現

▶ データ

X =







x11 x12 · · · x1d

x21 x22 · · · x2d

... ... . .. ... x_n1 x_n2 · · · x_nd





∈Rⁿ^×^d, y=





 y1

y2

... y_n





∈Rⁿ.

▶ パラメータと誤差

β=





 β₁ β2

... βd





∈R^d, ε=





 ε₁ ε2

... εn





∈Rⁿ

(11)

線形モデルと最小二乗法

▶ 線形モデル

y=Xβ+ε

▶ 最小二乗法

βˆ= arg min

β∈R^d(y−Xβ)^⊤(y−Xβ)

(12)

演習問題１

▶ 以下の関係を示せ．

∑n i=1

(yi−

∑d j=1

βjxij)²= (y−Xβ)^⊤(y−Xβ)

(13)

二次関数の最小化

▶ 二乗誤差和

E= (y−Xβ)^⊤(y−Xβ)

▶ 最適性条件

∂E

∂β

_{β= ˆ}_β =0

▶ 正規方程式

(X^⊤X) ˆβ=X^⊤y

(14)

演習問題２

▶ 最小化問題

βˆ= arg min

β∈R^d(y−Xβ)^⊤(y−Xβ) の最適解が

βˆ= (X^⊤X)⁻¹X^⊤y

と表わされることを示せ．ただし，以下の微分規則を利用してよい（A∈R^k^×^k,b∈R^k,z ∈R^k）

∂b^⊤z

∂z =b, ∂z^⊤b

∂z =b, ∂b^⊤z

∂z^⊤ =b^⊤, ∂z^⊤b

∂z^⊤ =b^⊤, ∂(z^⊤Az)

∂z = 2Az.

(15)

2. 分類問題とロジスティック回帰分析

(16)

分類問題

▶ （例題）価格から自動運転装置の有無を予測する

価格(xi) 自動運転(yi)

1.25 0

1.36 0

1.52 1

1.55 0

1.64 0

1.74 1

1.82 0

2.01 1

2.27 1

2.35 1 ^1.0 ^1.5 ^2.0 ^2.5

01

Car Price

Auto−Driving Equipment

(17)

分類問題

1.25 0

1.36 0

1.52 1

1.55 0

1.64 0

1.74 1

1.82 0

2.01 1

2.27 1

2.35 1

1.0 1.5 2.0 2.5

01

Car Price

(18)

分類問題

1.25 0

1.36 0

1.52 1

1.55 0

1.64 0

1.74 1

1.82 0

2.01 1

2.27 1

2.35 1

1.0 1.5 2.0 2.5

01

(19)

二値変数の確率モデル

▶ パラメータq∈[0,1]のベルヌーイ分布

P[yi= 1] =q, P[yi= 0] = 1−q.

▶ ロジスティック回帰モデル

P[yi= 1|xi] =h(β^⊤xi)

▶ ロジスティック関数

h(z) = 1

1 + exp(−z)

0.20.40.60.81.0

Logistic Function

(20)

ロジスティック回帰モデルの学習

▶ 尤度

L(β) =

∏n

i=1

P[yi|xi] = ∏

i:yi=1

h(β^⊤xi)× ∏

i:yi=0

(1−h(β^⊤xi))

▶ ロジスティック回帰モデルの学習 βˆ= arg max

β∈R^d

∑n i=1

(

yilog 1

1 + exp(−β^⊤x_i)+ (1−yi) log exp(−β^⊤xi) 1 + exp(−β^⊤x_i)

)

(21)

演習問題３

▶ ロジスティック回帰モデルの学習が最適化問題 βˆ= arg max

β∈R^d

∑n i=1

(

y_ilog 1

1 + exp(−β^⊤x_i)+ (1−y_i) log exp(−β^⊤xi) 1 + exp(−β^⊤x_i)

)

の解として表わされることを示せ．

(22)

線形分類境界

▶ （例題）遺伝子A, Bの活動量に基づいて癌か健康かを分類したい

ID gene A gene B cancer (1) ornot (0)

1 310 150 1

2 190 160 1

3 280 120 1

4 310 170 1

5 290 120 1

6 200 100 0

7 180 130 0

8 240 110 0

9 150 150 0

10 150 110 0 ⁸⁰

100 120 140 160 180 200

100 150 200 250 300 350 400

Activity of gene B

Activity of gene A

(23)

線形分類境界

1 310 150 1

2 190 160 1

3 280 120 1

4 310 170 1

5 290 120 1

6 200 100 0

7 180 130 0

8 240 110 0

9 150 150 0

10 150 110 0 ⁸⁰

100 120 140 160 180 200

100 150 200 250 300 350 400

Activity of gene B

Activity of gene A

(24)

線形分類境界

1 310 150 1

2 190 160 1

3 280 120 1

4 310 170 1

5 290 120 1

6 200 100 0

7 180 130 0

8 240 110 0

9 150 150 0

10 150 110 0 ⁸⁰

100 120 140 160 180 200

100 150 200 250 300 350 400

Activity of gene B

Activity of gene A

(25)

２クラス分類問題の誤差

▶ 2クラス分類

y0=

{ 1 ifP[y0|x0] =h( ˆβ^⊤x0)>0.5, 0 ifP[y0|x0] =h( ˆβ^⊤x0)≤0.5

▶ 分類誤差

E= ∑

i:y_i=1

1{h( ˆβ^⊤xi)≤0.5}+ ∑

i:y_i=0

1{h( ˆβ^⊤xi)>0.5}

▶ ロジスティック回帰では代理誤差として負の対数尤度を利用

E= ∑

i:yi=1

logP[yi= 1|xi] + ∑

i:yi=0

logP[yi= 0|xi]

(26)

3. モデルの選択と評価

(27)

モデルの学習と評価

▶ 訓練データ（過去のデータ）

{(x_i, y_i)}ⁿi=1

▶ ステップ１：訓練データを使ってモデルを学習する βˆ= arg min

β∈R^d

∑n i=1

(y_i−β^⊤x_i)²

▶ テストデータ（新しいデータ）

{(x^′_i, y^′_i)}ⁿi=1^′

▶ ステップ２：評価データを使ってモデルを評価する

E=

n^′

∑(y_i^′−βxˆ ^′_i)²

(28)

チューニングパラメータ

▶ ほとんどの実用的な機械学習モデルの誤差関数は

E=（訓練データへの適合度）+λ（モデルの滑らかさ）

と表わされる．

▶ ハイパーパラメータλの選択

λ：小 λ：中 λ：大

(29)

交差確認法（

Cross Validation

）

学習データ評価データ

１回目２回目３回目４回目５回目

(30)

交差確認法の例

(31)

(32)

(33)

(34)

(35)

1

つ抜き交差確認法（

leave-one-out CV

）

１回目２回目

n回目

n – 1 回目

学習データ評価データ

(36)

訓練データ，評価データ，テストデータ

▶ 訓練データ：モデルのパラメータβの決定に利用

▶ 評価データ：モデルのハイパーパラメータλの決定に利用

▶ テストデータ：モデルの汎化性能を知るために利用

(37)

最終課題１

▶ 訓練データを{(xi, yi)}ⁿi=1を用いて，定数モデル f(x_i) =β₀

を推定する問題を考える（すわなち，x_iを使わない）

▶ 定数モデルの最小二乗解が以下のように表わされることを示せ

arg min

β₀∈R

∑n i=1

(y_i−β₀)²= 1 n

∑n i=1

y_i = ¯y

(38)

最終課題２

▶ 定数モデルの訓練誤差と1つ抜き交差確認法（LOOCV）による評価誤差は，それぞれ以下のように表わされる：

TrainErr:=

∑n i=1

(yi− 1 n

∑n j=1

yj)²

ValidErr:=

∑n i=1

(yi− 1 n−1

∑

j̸=i

yj)²

▶ このとき，両者の関係が

ValidErr= ( n

n−1 )2

TrainErr

となることを示せ（この結果は訓練誤差が汎化誤差を過小に見積