知的学習認識システム特論９.key

(1)

電気通信大学総合情報学専攻庄野逸

[email protected]

知的学習システム(9)

(2)

ディープラーニングの

歴史と背景

(3)

AIのニューストレンド

(4)

AIのニューストレンド

(5)

AIのニューストレンド

(6)

AIのニューストレンド

(7)

なぜ，いま

 

(ディープな)ニューラルネットなのか？

岡之原さんのスライドから

(8)

なぜ，いま Deep Learning なのか？

(9)

Internet Google Facebook Twitter

AI の歴史的背景

2010 2000 1990 1980 1970 1960 第1期第2期第3期(たぶん) inspired from 岡谷貴之(東北大)，麻生英樹(産総研)，岡田真人(東大) 今ココ Perceptron (Rosenblatt 57) Neocognitron (Fukushima 80) Conv. net

(LeCun+ 89) Deep learning (Hinton+ 06) “Linear Separable”  

(Minski & Papert 68)

Back Prop.  (Rumelhart+ 86) SVM  (Vapnik 95) 脳型AI 第5世代コンピュータ  エキスパートシステム知識工学   1982∼92 Watoson(IBM) 記号処理的AI オントロジー semantic web カーネル法の勃興知識獲得の難しさ特徴表現の難しさ理論的な限界

(10)

Deep Learning(深層学習)とは？

神経回路(ニューラルネット)モデルを用いた人工知能技術脳の働きを模した構造と学習方式深い階層構造を持つことが特徴 Input Recognition It’ s “5” It’ s “5”

(11)

ディープラーニングは新技術？

歴史的には 1960 年代くらいまでれる要素技術には新しいことはそれほどない(多分) DeepMind は比較的枯れた技術で成功第2期のブームから大きく変化したものデータの質と量: Internet, SNS, Cloud… 計算機環境: パッケージ化，GPU の勃興…

(12)

(13)

ニューラルネット(NN)の基礎知識

NN を構成する3要素基本ユニット（ニューロン）決定論的ユニット確率的ユニットネットワークアーキテクチャ階層型相互結合型学習ルール教師あり学習教師なし学習

(14)

神経回路モデルのはじまり

ニューラルネットワーク (NN) は脳構造の真似から脳は 140億個の神経細胞(Neuron) から構成される http://ja.wikipedia.org http://www.scholarpedia.org/article/Neuron ニューロンのモデル化ができるか？

(15)

ニューロンの特性

ニューロンは 2値表現 

活性(ON)状態/非活性(OFF)状態閾値処理による発火制御

(16)

McCulloch-Pitts 素子モデル

最初の数理的ニューロンモデル _{(McCulloch&Pitts 43)} 入力は線形重ねあわせ活性化関数 _{f ( ): 閾値制御} u y x₁ _y x₂

Σ

u θ w₁ w₂

(17)

McCulloch-Pits モデルでできること

モデルパラメータ _{{w, θ} の変更→様々な論理素子} u y x₁ _y x₂

Σ

u θ w₁ w₂

w

1

w

2

θ

AND 1 1 1.5 OR 1 1 0.5 NAND -1 -1 -1.5

(18)

y y

モダンNN の基本素子ユニット(1)

決定論的ユニット

内部状態: 入力の線形和出力: 非線形活性化関数 Logistic-Sigmoid Rectiﬁed Linear

Hyperbolic Tangent, etc... y1 y3 x1 x2 x3 y2 u f (u) u_j = 3 X i=1 w_ji x_i + b_j y_j = f ⇣u_j⌘ 内部状態出力

(19)

u _j = 3 X i=1 w _jix_i + b _j y _j _{⇠ p(y}_j _{| u}_j) y y

モダンNN の基本素子ユニット(2)

確率的ユニット

内部状態: 入力の線形和出力: 確率変数値内部状態 _u_j は事後確率の  パラメータとして用いられる x1 x2 x3 y2 z2 内部状態出力 p(y_j _{| u}_j) = 1 1 + e uj など

(20)

ネットワークアーキテクチャ

ニューラルネットワークアーキテクチャとは？素子と素子とをどう繋いでネットワーク構築するか？全体の構成に関する議論階層型アーキテクチャ相互結合型アーキテクチャそれ以外の観点も在る結合がスパース/全結合か？

(21)

階層型アーキテクチャ

入力パターンを順次変換していくアーキテクチャ入出力が層単位で定義され一つの階層が変換された入力を記述素子の状態更新順序は一意に決定 (Feed forward など) Input Output Perceptron

Deep Convolution Net Neocognitron

GoogLeNet などなど

(22)

相互結合型アーキテクチャ

全ての素子が互いに結合することを許すアーキテクチャ素子集合全体で一つの状態を表す素子の更新順序によって状態が変わってくる連想記憶モデル Boltzmann Machine

(23)

u y x₁ _y x₂

Σ

u θ w₁ w₂

NN の学習とは？

モデルパラメータ _{{w, θ} で振る舞いが変化} モデルパラメータをデータから決定する→学習

w

1

w

2

θ

AND 1 1 1.5 OR 1 1 0.5 NAND -1 -1 -1.5

(24)

教師あり学習

 

(supervised learning)

入力データ _{x に対して教師信号 t が設定されている} 出力 _{y が t と一致するように {w,θ} を調整} y x1 w2 w1 t x2 x2 x1 (0,0) (1,0) (0,1) (1,1) AND 素子 1 → 1 → 青だと思う赤です

(25)

教師なし学習

 

(unsupervised learnning)

与えられるのは入力データ _{x のみ} 入力 _{x が似ているかどうかでグループ分け等} （クラスタリング） y x1 w2 w1 x2 x2 x1 1 → 0 → _前見た青に似ている

(26)

Population coding (Desimone+ 84, Tanaka+ 84)

NN の歴史的背景

2010 2000 1990 1980 1970 1960 第1期 inspired from 岡谷貴之(東北大)，麻生英樹(産総研)，岡田真人(東大) 今ココ Perceptron (Rosenblatt 57) Neocognitron (Fukushima 80) Conv. net

Back Prop.  (Rumelhart+ 86) SVM  (Vapnik 95) Boltzmann Mach.   (Hinton+ 85)

Simple / Complex cell (Hubel & Wiesel 59)

(27)

Perceptron

 

(Rosenblatt 57)

(28)

Perceptronがやりたかったこと

パターン認識: 与えられた入力をどうにかして分類入力空間を分離すること線引きはどうやってするか？ 0 0 : 1 1 : 0 0 入力データ→ベクトル新規入力: 赤？青？

(29)

Perceptron のアーキテクチャ

McClloch-Pits ニューロンによる階層型ネットワーク S層 → A層間は固定ランダム結合 A層 → R層間が学習で決定される結合 Response Layer

{x

n

_}

Sensory Layer Associative Layer

x

3n 1

x

2n

x

1n

y

2

(x

n

)

y

1

(x

n

)

y

3

(x

n

)

It's "1"

(30)

単純 Perceptron による識別

２入力１出力単純パーセプトロン

φ

2

φ

1 y = sgn 0 BBBBB B@ X j w_{j j} 1 CCCCC CA = sgn (w₀ + w_{1 1} + w_{2 2}) w₀ + w_{1 1} + w_{2 2} = 0 1 2 y クラス１クラス２ AND 素子

(31)

Perceptronの学習(1): 誤り訂正学習

Hebb 学習則  教師 t と出力 y の関係により w を修正 目標  {xn, tn} が与えられたとき y(xn) = tn としたい正解 _t_n と出力 _y_n が不一致のときのみ _{w を修正} 解が存在する場合，正しい解に収束する→デモ y x w t

(32)

単純パーセプトロンの限界

単純パーセプトロン:一本の直線での境界分離(線形分離)

XOR 問題は解けない _{(Minsky & Papert 68)}

→ NN 第1次冬の時代

クラス１クラス２

φ

2

(33)

単純パーセプトロンの限界の打破

XOR 問題の解法複数の分離直線を使えば分離可能各線の分離結果を合成→階層化は妥当(多分) クラス１クラス２

x

2

x

1

{x

n

_}

{z

n

}

x

1

x

2

x

0

z

0

z

1

z

2

1

1 y

(34)

Original Perceptron のやっていること

中間層での表現 (上手くいった場合) 入力空間での表現

y

2

(x

n

)

y

1

(x

n

)

y

3

(x

n

)

{x

n

_}

x

3n

1 x

2n

x

1n

Sensory Associative Response

(35)

中間層の訓練はどうすれば？

固定ランダム結合

 

部分はどう学習させるのか？

y

2

(x

n

)

y

1

(x

n

)

w

20 w21 w22

w

23

y

3

(x

n

)

{x

n

_}

x

3n 1

x

2n

x

1n Sensory Layer Associative Layer Response Layer It's "1"

(36)

Population coding (Desimone+ 84, Tanaka+ 84)

NN の歴史的背景

2010 2000 1990 1980 1970 1960 第1期 inspired from 岡谷貴之(東北大)，麻生英樹(産総研)，岡田真人(東大) 今ココ Perceptron (Rosenblatt 57) Neocognitron (Fukushima 80) Conv. net

Back Prop.  (Rumelhart+ 86) SVM  (Vapnik 95) Boltzmann Mach.   (Hinton+ 85)

Simple / Complex cell (Hubel & Wiesel 59)

(37)

Multi-Layer Perceptron

 

(Rumelhart+ 86)

(38)

多層Perceptron

 

(MultiLayer Perceptron: MLP)

単純 Perceptron の線形分離問題→

階層性

による打破

入力

_x

,

出力

_y

の他以外に

中間層（隠れ層）

_z

を持つ

信号は一定方向（入力から出力へ向けて）で処理

x0 x1 xD z0 z1 zM y1 yK w_{M D}(1) w_KM(2) w₁₀(2) hidden units inputs outputs

(39)

MLP にできること

適切な設定（隠れ層の素子数，結合重み）を選べば  任意の関数を任意精度で表現できる．_{(Irie 88, Funahashi 89)}

{x

n

_}

{z

n

_}

x

1

x

0

z

0

z

1

z

2

1

1 z

3

y

x

1

y

x

1

y

x

1

y

x

1

y

(40)

どんな解でも表現出来る

こと

と

どうやったら解に到れるか

(41)

多層ネットワークの学習の難しさ

誤り訂正教師信号 _{t は1階層であれば対応可能} 中間層 _z₁, _z₂ に対する教師信号はどう生成する？ u y x₁ _y x₂ Σ u θ w₁ w₂ u y x₁ _y x₂ Σ u θ w₁ w₂ u y x₁ _y x₂ Σ u θ w₁ w₂ x1 x2 z1 z2 y t w11(1) w22(1) w12(1) w21(1) w1(2) w2(2) z1 θ z2 θ u u _OK! NG!

(42)

Error Back-propagation

単純 Perceptron の線形分離問題  → 階層性による打破多層Perceptron (MLP)の学習則基本アイディアは勾配法微分の連鎖則を活用 x0 x1 xD z0 z1 zM y1 yK w_{M D}(1) w_KM(2) w₁₀(2) hidden units inputs outputs

(43)

線形Perceptronの勾配学習法(1)

2乗誤差の勾配を用いる学習則  デルタ則，adaline 則 _{(Widrow-Hoff 60)} 勾配を使うには微分可能性が必要  →活性化関数に線形関数を使う u y x₁ _y x₂

Σ

u w₁ w₂ u y x₁ _y x₂ Σ u θ w₁ w₂ McCuloch-Pitts

t

(44)

線形Perceptronの勾配学習法(2)

E(w) = 1 2 _n tn y(xn) 2 コスト関数パラメータ更新則

E(w)

w

@E @w > 0 @E @w < 0

{x

n

_}

t

1n

t

2n

t

3n

{t

n

_}

y

2

(x

n

)

y

1

(x

n

)

y

3

(x

n

)

x

3n

1 x

2n

x

1n

w

(1)

_w

(2)

(45)

MLPでの勾配学習(1)

線形ニューロンであれば勾配を用いた学習は可能微分の連鎖則(chain-rule) を適用ただし線形写像の多重適用なので実用的な意味は余りない u y x₁ _y x₂ Σ u θ w₁ w₂ u y x₁ _y x₂ Σ u θ w₁ w₂ u y x₁ _y x₂ Σ u θ w₁ w₂ x1 x2 z1 z2 y t w11(1) w22(1) w12(1) w21(1) w1(2) w2(2) z1 u z2 u y u @E(w) @w(1)₂₂ @E(w) @w(2)₂

(46)

MLP の勾配学習に線形性ではなく微分可能性では？微分の連鎖則(chain-rule) を適用多層に意味を持たせるためには  微分可能な非線形活性化関数であれば良い u y x₁ _y x₂ Σ u θ w₁ w₂ u y x₁ _y x₂ Σ u θ w₁ w₂ u y x₁ _y x₂ Σ u θ w₁ w₂ x1 x2 z1 z2 y t w11(1) w22(1) w12(1) w21(1) w1(2) w2(2) z1 u z2 u y u @E(w) @w(1)₂₂ @E(w) @w(2)₂ z1 u z2 u y u

MLPでの勾配学習(2)

(47)

MLP アーキテクチャの具例

yk tk k j wkj i wji 入力層 _x 隠れ層 _z 出力層 _y

３層 Multi Layer Perceptron(MLP) アーキテクチャ隠れ層を中間層表現として持つ

信号の処理方向は一方向

(48)

n 番目の出力値 回帰問題 2値分類多値分類: Softmax 関数

MLP 学習のコスト関数例

yk tk k j wkj i wji 入力層 _x 隠れ層 _z 出力層 _y yn_k = y_k(xn; w) En(w) = 1 2 X k ⇣ tn_k yn_k⌘2

(49)

連鎖則による微分の導出(1)

コスト関数

y

k

t

k

j

w

kj

i

w

ji j

微係数

割と面倒

(に見える…)

(50)

連鎖則による微分の導出(2)

コスト関数

y

k

t

k

j

w

kj

i

w

ji j

微係数

誤差

_{δ の導入ですっきり}

誤差

_{δ は，上位層からの逆方向の伝達}

(Back propagation) で記述可能

(51)

誤差逆伝搬法の実装

xi yk uzjj uk δj Feed forward を一旦計算 k = 0(uk)(yk tk) Back Prop. を計算勾配を計算 xi yk zj uj δk tk uk

(52)

誤差逆伝搬法の適用

コスト関数

_E

_n

_{(w) はパターン事に定義可能}

1サンプルごとに動かす

(Online learning)

 

→ 局所解の問題

平均勾配で動かす

(Batch learning)

 

→ 学習が遅い

確率的降下法(Stochastic GD)

_{(Amari 67, Bottou+11,12)}

(53)

誤差逆伝搬法の適用

準ニュートン法や，共益勾配法 _(Le+11)

AdaDelta_{(Zeiler 12)}, AdaGrad_(Duchi+11), Adam_(Kingma+15) など 

学習係数最適化

(54)

Back prop. の応用先

XOR 問題 _{(Rumelhart+ 86)}

Auto-Encoder _{(Ackley+ 85), 画像圧縮(Cottrell+ 87)} NETtalk _{(Sejnowski & Rosenberg 87)}

ソナー音識別_{(Gorman & Sejnowski 88)}

(55)

まとめ

ディープラーニングの要素技術は比較的枯れている単層の Perceptron のやっていることは，  線形分離問題の解決階層を深くすることは，入力表現の変換による線形分離能力の向上が期待出来るでもチューニング難しい→ので SVM が主流に学習はもっと問題ターゲットが決まっているのであれば，  コスト関数＋勾配法のアプローチが取れる 55