ニューラルネットワークの基礎

(1)

機械学習論 Lec05

ニューラルネットワークの基礎

I. Takeuchi, ML-Lec05 1/41

(2)

講義の構成

▶ 適応的基底関数モデル

▶ 最急降下法

▶ バックプロパゲーションによるニューラルネットワークの学習

(3)

一次元入力の非線形モデリング

▶ 入力の定義域x∈[0,10]を5個の局所基底関数で表現

0 0.2 0.4 0.6 0.8 1

0 2 4 6 8 10

一変数基底関数モデルでは基底関数が線形に増える

(4)

多次元入力の非線形モデリング

▶ 各入力の定義域x₁, x₂∈[0,10]をそれぞれ5個の局所基底関数で表現

0

5

10 0

5

10 0.5

1

多変数基底関数モデルでは基底関数が指数的に増える

(5)

適応的基底関数

▶ 高次元空間に潜む低次元空間

0 2.5 5 7.5 10

0 2.5

5 7.5

10 0

2.5 5

7.5 10 0.25

0.5 0.75 1

2次元入力空間適応的な基底関数

(6)

固定基底関数モデル

▶ 固定基底関数：h₁(x), h2(x), . . . , hq(x) ˆ

y=v0+

∑q k=1

vkhk(x)

(7)

適応的基底関数モデル

▶ 適応的基底関数：h₁(x,w1), h2(x,w2), . . . , hq(x,wq) ˆ

y=v0+

∑q k=1

vkhk(x,wk)

(8)

神経細胞モデルとシグモイド関数

0 1

threshold

0 / 1

神経細胞のモデル

(9)

シグモイド関数

▶ シグモイド関数：ψ

hk(x,wk) =ψ



w_k0+

∑d j=1

wkjxj



, k= 1, . . . , q

logistic sigmoid func. tanh sigmoid func.

(10)

３層ニューラルネットワークモデル

(11)

３層ニューラルネットワークモデル

(12)

３層ニューラルネットワークのパラメータ

W

q×(1+d)

=







w10 w11 w12 · · · w1d

w20 w21 w22 · · · w2d

... ... ... . .. ... w_q0 w_q1 w_q2 · · · w_qd





, v

(1+q)×1=





 v0

v1

v2

... v_q







(13)

演習問題１

▶ シグモイド関数

ψ(z) = 1

1 + exp(−z)

がC^∞級関数（すなわち，何回でも微分可能）であることを示せ．

▶ ヒント：シグモイド関数の導関数をシグモイド関数自身を使って表せればよい

(14)

演習問題１の解答

(15)

３層ニューラルネットワークの入出力関係

(16)

分類問題のための３層ニューラルネットワーク

(17)

３層ニューラルネットワーク（回帰）の学習

▶ 学習データ

X=







x₁₁ x₁₂ · · · x_1d x₂₁ x₂₂ · · · x_2d ... ... . .. ... xn1 xn2 · · · xnd





, y=





 y₁ y₂ ... yn







▶ 学習誤差 E=

∑n i=1

[yi− {v0+

∑q k=1

vkψ(wk0+∑

j=1

wkjxij)}]²

▶ パラメータ

W

q×(1+d)

=







w10 w11 w12 · · · w1d

w20 w21 w22 · · · w2d

... ... ... . .. ... w_q0 w_q1 w_q2 · · · w_qd





, v

(1+q)×1=





 v0

v1

v2

... vq







(18)

講義の構成

▶ 最急降下法

(19)

非線形最適化のイメージ（１次元）

目的関数

最適解初期値

パラメータ空間

(20)

非線形最適化のイメージ（１次元）

パラメータ空間初期値最適解

(21)

直線探索アプローチ

▶ 定式化

minz g(z), z∈R^m

▶ 逐次更新

z₀ → z₁ → z₂ → · · · → z_t₋₁ → z_t → z_t+1 →

▶ 更新式

z_t+1=z_t+α_td_t

(22)

テイラー展開

▶ 1次のテイラー展開（単変数）

g(z+ ∆z) =g(z) +g^′(z)∆z

▶ 1次のテイラー展開（多変数）

g(z+ ∆z) =g(z) + ∂f

∂z₁∆z₁+ ∂f

∂z₂∆z₂+. . .+ ∂f

∂z_m∆z_m

=g(z) +∆z^⊤∇f

(23)

探索方向

▶ 探索方向

zt+1=zt+αtdt, g(zt+1) =g(zt+αtdt)≃g(zt) +αtd^⊤∇g(zt)

(24)

演習問題２（その１）

▶ z=z_tの近傍で線形近似

g(zt+αd)≃g(zt) +αd^⊤∇g(zt)

が成り立っている状況をにおいて, 2つのベクトルdと∇g(zt)のなす角度をθ とすると,目的関数が減少する,すなわち,

g(zt+αd)< g(zt)

となるためのθの条件を導出せよ. なお,αはステップ幅で,α >0 である.

(25)

演習問題２（その２）

▶ 前課題と同様に,z =ztの近傍で線形近似

g(zt+αd)≃g(zt) +αd^⊤∇g(zt)

が成り立っている状況を考える. ステップ幅α >0を一定とし,探索方向dの長さを1に固定したとき(||d||= 1),目的関数を最も減少させる探索方向dを求めよ. すなわち,以下の最適化問題を解け:

min

d g(z_t+αd), s.t ||d||= 1.

(26)

演習問題２の解答

(27)

最急降下方向

▶ 最急降下方向

dt=−∇g(zt) =−∂g

∂z

z=zt

(28)

最小二乗法の例：多変数二次関数の最小化

▶ 多変量二次関数の最小化

zmin∈R^m

1

2z^⊤Qz+b^⊤z

▶ 最急降下法 zt+1=zt−αt

∂

∂z (1

2z^⊤Qz+b^⊤z )

=zt−αt(Qzt+b)

(29)

二次関数の最小化

▶ 最急降下法を用いた二次関数の最小化問題

min

z∈R^m

1

2z^⊤Qz+b^⊤z を考える．ステップt+ 1 にて

z_t+1=z_t−α_t(Qz_t+b)

と更新するとき，目的関数を最小にするα_t,すなわち,

arg min

αt

1

2z_t+1^⊤ Qzt+1+b^⊤zt+1

を求めよ.

(30)

二次関数を最小化するステップサイズの導出

(31)

講義の構成

▶ 最急降下法

(32)

３層ニューラルネットワーク（回帰）の学習（再掲）

▶ 学習データ

X=







x₁₁ x₁₂ · · · x_1d x₂₁ x₂₂ · · · x_2d ... ... . .. ... xn1 xn2 · · · xnd





, y=





 y₁ y₂ ... yn







▶ 学習誤差 E=

∑n i=1

[yi− {v0+

∑q k=1

vkψ(wk0+∑

j=1

wkjxij)}]²

▶ パラメータ

W

q×(1+d)

=







w10 w11 w12 · · · w1d

w20 w21 w22 · · · w2d

... ... ... . .. ... w_q0 w_q1 w_q2 · · · w_qd





, v

(1+q)×1=





 v0

v1

v2

... vq







(33)

３層ニューラルネットワークの学習

▶ 最急降下法などでニューラルネットワークを学習するには各パラメータに関する偏微分の計算が必要：

∂E

∂v₀

∂E

∂v_k, k= 1, . . . , q

∂E

∂w_k0, k= 1, . . . , q

∂E

∂w_kj, k= 1, . . . , q, j= 1, . . . , d

(34)

順方向・逆方向計算

xij ⇒ uik ⇒ zik ⇒ yˆi ⇒ ei

∂uik

∂xij ⇐ ∂zik

∂uik ⇐ ∂yˆi

∂zik ⇐ ∂ei

∂yˆi

(35)

偏微分係数の計算（その１）

▶ パラメータv₀に関する勾配

∂E

∂v0

=−2

∑n i=1

(yi−yˆi)

▶ パラメータv_k, k= 1, . . . , qに関する勾配

∂E

∂vk

=−2

∑n i=1

(y_i−yˆ_i)z_ik

(36)

偏微分係数の計算（その２）

▶ パラメータwk0, k= 1, . . . , qに関する勾配

∂E

∂wk0

=−2

∑n i=1

(yi−yˆi)vkψ(uik)(1−ψ(uik))

▶ パラメータw_kj, k= 1, . . . , q, j= 1, . . . , dに関する勾配

∂E

∂wkj

=−2

∑n i=1

(yi−yˆi)vkψ(uik)(1−ψ(uik))xij

(37)

非線形最適化の課題：局所最適解

(38)

非線形最適化の課題：条件数と収束の速さ

(39)

３層ニューラルネットにおけるモデル選択

(40)

演習問題３

次の2変数2次関数

z²₁+z1z2+ 2z₂²+ 3z1+z2

を最小化するz₁, z₂を最急降下法により求めよ. なお, 初期パラメータはz₁=z₂= 0とする. 第1ステップおよび第2ステップのパラメータを小数点以下第2位まで求め,その軌跡を以下に図示せよ．

(41)

ニューラルネットワークの基礎

機械学習論 Lec05