ニューラルネット

(1)

ニューラルネット

（

Neural Network)

宮西洋太郎

2016

年

5

月

26

日

近未来研究会（第回）

(2)

2

機械学習（

Machine Learning)

の中のニューラルネット

•

機械学習のレビュー

•

ニューラルネットの概要

•

飛躍を支えた技法

– バックプロパゲーション – ホップフィールド

– ボルツマンマシン – コホーネント

– 畳み込みニューラルネット

(3)

機械学習（

Machine Learning)

とは

http://ja.wikipedia.org/wiki/%E6%A9%9F%E6%A2%B0%E5%AD%A6

%E7%BF%92

• 人工知能(Artificial Intelligence)研究テーマの１つ

http://ja.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E7%9F%A5%E8%83%BD

• 人間のもつ学習能力と同様の機能をコンピュータで実現しようとする技術・手法

• 1959年、アーサー・サミュエル

「明示的にプログラムしなくても学習する能力をコンピュータに与える研究分野」

• トム・M・ミッチェル

「コンピュータプログラムがある種のタスクTと評価尺度P において経験Eから学習するとは、タスクTにおけるその

(4)

4

機械学習

(Machine Learning)

とは

%E7%BF%92

• トム・M・ミッチェル

「コンピュータプログラム（マシン）がある種のタスクTと評価尺度Pにおいて経験Eから学習するとは、タスクTにおけるその性能をPによって評価した際に、経験Eによってそれが改善されている場合である」

経験E

マシンマシン

タスク付与

タスクT タスクT

タスク付与タスク達成

評価尺度P1

タスク達成

評価尺度P2 評価尺度P2

評価尺度P1 ＜学習過程

学習効果

時間軸

評価尺度が改善されている

(5)

一般化

(Generalization)

%E7%BF%92

• 一般化

学習用データセットを使って訓練した後に新たな見たことのない例について正確に判断できるアルゴリズムの能力をいう

マシン

学習

（訓練）

一般化

時間軸

タスク実行結果

マシン

タスク実行結果正確な判断

(6)

6

データマイニング

(Data Mining)

との関係

http://ja.wikipedia.org/wiki/%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%

BF%92

• 機械学習の目的は、訓練データから学んだ「既知」の特徴に基づく予測である。

既知の知識を再生成できるかどうかで性能を評価する

• データマイニングの目的は、それまで「未知」だったデータの特徴を発見することである。

それまで「未知」だった知識を発見することが重視される機械学習

マシン

訓練データ既知の知識関連つける

データマイニングマシン

単なるデータ未知の知識発見する

(7)

アルゴリズムの分類

BF%92

• 教師あり学習（昔は、教師つき学習ともいったが）

• 入力とそれに対応すべき出力（人間の専門家が訓練例にラベル付けすることで提供されることが多いのでラベルとも呼ばれる）を写像する関数を生成する。例えば、統計分類問題では入力ベクトルと出力に対応する分類で示される例を与えられ、それらを写像する関数を近似的に求める。

A^{（クラス）}

B

Aですよ Aですよ

Bですよ Bですよ

訓練終了

A

B

さあ、自分でやってみなさい

これはです訓練の結果

(8)

8

BF%92

• 教師なし学習

• 入力のみ（ラベルなしの例）からモデルを構築する。データマイニングとも共通する。

A

B

教師なし学習の訓練

訓練終了もあいまい

実践

A

B

最初から、自分でやってみなさい

これはBです日々、自分で訓練

訓練データにラベルなし（教師なし）

最初は、少し様子をみて、自分なりに分

類方法を考える

(9)

BF%92

• 半教師あり学習

• ラベルありの例とラベルなしの例をどちらも扱えるようにしたもので、それによって近似関数または分類器を生成する。

A^{（クラス）}

B

Aですよ

Bですよ

訓練終了

A

B

さあ、自分でやってみなさい訓練の結果

ラベルなしの訓練データ

(10)

10

BF%92

• 強化学習

• 周囲の環境を観測することでどう行動すべきかを学習する。行動によって必ず環境に影響を及ぼし、環境から報酬という形でフィードバックを得ることで学習アルゴリズムのガイドとする。例えばQ学習がある。

実践

A

B

これはBです

マシン

（分類器）

正解？

YES

NO 報酬

報酬なしまたはマイナスの

報酬

(11)

BF%92

• トランスダクション（トランスダクティブ推論）

• 観測された具体的な（訓練）例から具体的かつ固定の（テスト）例の新たな出力を予測しようとする。

• マルチタスク学習

• 関連する複数の問題について同時に学習させ、主要な問題の予測精度を向上させる。

(12)

12

技法

BF%92

• 決定木(decision tree)学習

• 観測データから決定木（予測モデル）を求めるための学習であり、アイテムについての観測をそのアイテムの目標値についての結論とマッピングする。具体例としてID3やRandom forestがある。

• http://ja.wikipedia.org/wiki/%E6%B1%BA%E5%AE%9A%E6%9C%A8

実践観測データ

訓練

新たな観測（変数の集合）

ルート（根）

訓練の結果得られた決定木

これに新たな観測を適用することにより予測結

果を得る

節点

予測結果

(13)

技法

BF%92

• 相関ルール (association rule)学習

• 大規模データベースにおける変数間の興味深い関係を発見するための技法。

• マーケットバスケット分析とも呼ばれる。

データマイニングに活用される例が多い。

有名な例は、スーパーマーケットのバスケット分析（おむつとビール）

因果関係を追求するのに向いていそう。

例：農作物の生育や病気と肥料の関係など。

私見

(14)

14

技法

BF%92

• ニューラルネットワーク (NN)

• 人工ニューラルネットワーク (ANN) とも呼ばれ、生物の神経ネットワークの構造と機能を模倣するという観点から生まれた学習アルゴリズムである。人工神経を相互接続したもので計算を構造化し、コネクショニズム的計算技法で情報を処理する。現代的ニューラルネットワークは非線形な統計的データモデリングツールである。入力と出力の間の複雑な関係をモデル化するのに使われ、データのパターン認識や観測された変数間の未知の同時分布における統計的構造を捉えるなどの用途がある。

1958年 Rosenblattのパーセプトロンが起源。ながらく≒30年沈没。

ディープラーニング（深層学習）はニューラルネットワークを使っている。ディープラーニングは、最近目立った成果をあげている。

（例：Googleの猫画像の認識）

人間の脳の構造に他の方法より、近い。

以上から今後、有望な技法であろう。

私見

(15)

技法

BF%92

• 遺伝的プログラミング (GP：Genetic Programming)

• 生物の進化を模倣した進化的アルゴリズムに基づく技法であり、ユーザーが定義したタスクを実行するプログラムを探索する。遺伝的アルゴリズムを拡張・特化させたものである。所定のタスクを実行する能力によって適応度地形を決定し、それによってコンピュータプログラムを最適化させていく機械学習技法である。

若干異質なアプローチ。

ニューロが人間の一時期の学習（現実の人間の学習）を模擬したものに比べ、GPは、人類の進化過程を模擬したもの。

私見

(16)

16

技法

BF%92

• 帰納論理プログラミング (ILP：Inductive Logic Programming)

• 例、背景知識、仮説を一様な表現とし、論理プログラミングを使って学習を規則化する技法である。既知の背景知識と例の集合をコード化して事実の論理データベースとし、全てのポジティブな例を含み、ネガティブな例を全く含まない仮説的論理プログラムを生成する。

• https://www.jstage.jst.go.jp/article/jssst/23/2/23_2_2_29/_pdf 京大山本

• 帰納論理プログラミングとは、論理プログラムを用いた機械学習法であり、構造化データからのデータ分析と知識獲得への応用が進められている。

• https://www.math.kyoto-u.ac.jp/~susumu/ppl_ss05/yamamoto-online.ppt 京大山本

• 帰納論理プログラミングとは、具体的な観測事例から、それを一般的に説明する規則性を論理プログラムの形で構成する手法を対象とする研究分野である。

ともかくむつかしい。せめて、オープンソフトがあれば、利用もできるが。（電気工学ではなく、やはり計算機科学、数理論理学の知識が必要）むつかしさに見合う効用がありや否や。

私見

(17)

技法

BF%92

• サポートベクターマシン (SVM)

• 統計分類や回帰分析に使われる一連の教師あり学習技法である。訓練例のラベルは2値（2つに分類される）であり、訓練アルゴリズムによってモデルを構築し、新たな例がどちらに分類されるかを予測する。

• http://home.hiroshima-u.ac.jp/tkurita/lecture/svm.pdf

• カーネルトリックにより非線形の識別関数を構成できるように拡張したサポートベクターマシンは、現在知られている多くの手法の中でも最も認識性能の優れた学習モデルの一つである。サポートベクターマシンが優れた認識性能を発揮できるのは、未学習データに対して高い識別性能を得るための工夫があるためである。

(18)

18

技法

BF%92

• クラスタリング

• クラスタリングは、観測された例をクラスタと呼ばれる部分集合に振り分けるもので、振り分けは事前に指示された基準に従って行う。クラスタリングはデータの構造についての仮説（基準）の立て方によって結果が異なる。仮説は「類似尺度」で定義され、「内部コンパクト性」（同一クラスタ内のメンバー間の類似性）や異なるクラスタ間の距離によって評価される。「推定密度」や「グラフ接続性」に基づく技法もある。クラスタリングは教師なし学習技法であり、統計的データ解析でよく使われる。

(19)

技法

BF%92

• ベイジアンネットワーク

• 確率変数群とそれらの条件付き独立性を有向非巡回グラフ (DAG) で表した確率論的グラフィカルモデルである。例えば、病気と症状の関係を確率的に表すことができる。そのネットワークに症状を入力すれば、

考えられる病気の一覧を確率付きで出力できる。これを使って推論と学習を行う効率的アルゴリズムが存在する。

(20)

20

技法

BF%92

• 強化学習

• 「エージェント」が「環境」の中でどのような「行動」をとるべきかを、何らかの長期的「報酬」を最大化するよう決定する。環境の「状態」からエージェントの行動への写像を行う「方針」を求めるのが強化学習アルゴリズムである。正しい入出力例は与えられないし、最適でない行動が明示的に訂正されることもないので、教師あり学習とは異なる。

(21)

技法

BF%92

• 表現学習

• 教師なし学習アルゴリズムの一部は、訓練中に提供された入力のよりよい表現を発見しようとする。古典的な例として主成分分析やクラスタ分析がある。入力の持つ情報は保持したまま、分類や予測の前に入力をより便利な表現に変換するアルゴリズムもある。その際に入力データが従っている未知の確率分布から入力を再建できるようにするが、その確率分布においては信じがたい例も忠実に再現する必要はない。例えば多様体学習アルゴリズムは、何らかの制約下で入力の次元を低く変換して表現する。スパースコーディングアルゴリズムでは、入力が疎ら（ゼロが多い）という制約下で同様の表現の変換を行う。ニューラルネットワークの深層学習は複数レベルの表現または特徴の階層を発見するもので、低いレベルで抽出した特徴から高いレベルの抽象化した特徴までを求める。知的機械は、観測されたデータを説明する偏差の潜在的要

(22)

22

その他の参考

http://lab.synergy-marketing.co.jp/blog/tech/machine-learning-stanford-5

(23)

馬場則夫、小島史男、小澤誠一、「ニューラルネットの基礎と応用」

• 生物のニューロン(McCulloch &Pitts 1943)

軸索 (axon) ニューロン(neuron)

シナプス(synapse)

樹状突起(dendrite) 細胞体(soma)

(24)

24

• ニューロンのモデル(McCulloch &Pitts 1943)

時間 t ごとに繰り返す 2 1

3

j

J

ニューロ i

・

wi1 wi2

wiJ wij

結合強度

・

・ x1 x2

xj

・

・ xJ

時点 t

Σ

時点 t+1

xi

ステップ関数

θi

閾値

xi

(25)

• ニューロンのモデル(McCulloch &Pitts 1943)

wi1 wi2

wij

結合強度

・

・ x1 x2

xj

・

Σ

時点 t+1

xi

ステップ関数

θi

xi

] )

( [

1 ) 1 (

i j

j ij i

t x w t

x











(26)

26

• パーセプトロン(Rosenblatt 1961)

3層（Sユニット、Aユニット、Rユニット）

・

・ Sユニット

Aユニット

Rユニット

結合強度：可変結合強度：一定

欠点が指摘された例：EOR

線形分離不可能

→下火に

(27)

• 逆誤差伝播法（Back Propagation, BP法 Rumelhart 1986)

・

・ s-1層

s層

yj xi

(28)

28

• 逆誤差伝播法、問題のイメージ

例：手書き大文字アルファベットA・・・・Zの認識（クラス分類）

・

・ s-1層

出力s層

y1

A

Z 学習期間

y2

yJ

B

学習パターン wij

y11

yj1 y21

yJ1

y1p

yjp y2p

yJp

y1P

yjP y2P

yJP 1 ･･･ p ･･･ P

教師データ標本ベクトル

1 ･･･ p ･･･ P

学習後,クラスに属するパターンに対する理想的な出力

1 0

0

・

A ･･･ M ･･･ K

0 1

0

・

0 0

1

・

学習とは：

学習パターンを分類して、できるだけ理想的な出力になるようにwijを調節する

･･･

(29)

・

• 逆誤差伝播法（Back Propagation, BP法 Rumelhart 1986) または誤差逆伝播法

・

・ s-1層 j

s層 i

xi yj1

入力パターン

yjp

出力

yj y1

・

第p番目入力パターン

・

・ xi1

xip

第p番目入力パターンに対する出力

yj xi

x1

i jp

ij

ip w y

z 



^

wij

(30)

30

– 第s層の出力

– 誤差関数

w：結合強度ベクトル – 総誤差関数



^



j

i jp

ij ip

ip i

ip

y w z

z h x

 )

( ^(2.1)

xip

dip

教師信号



^



i

ip ip

p x d

E ( )²

2 ) 1

(w

) ,

, , , ,

, , , , , , , , , ,

, ,

(w₁₁ w₁₂   w₁_j   w₁_J   w_i₁ w_i₂   w_ij   w_iJ   w_I₁ w_I₂   w_Ij   w_IJ

 w





p

Ep

E(w) (w)

hi：シグモイド関数など (2.2)

(2.3)

(2.4)

(31)

– 最急降下法(steepest descent method) パラメータの求め方

• E(w)を最小化する

• そのために、Ep(w)を最小化する（p番目の教師ありデータに対する誤差）

ij ip ip

p ij

p

w z z

E w

E



 



 (w) (w)

jp ip

p ij

p y

z E w

E



 



 (w) (w)

ip ip ip

p ip

p

z x x

E z

E



 



 (w) (w)



(2.5)

(2.6)

(2.7) )

( )

(

ip i

ip ip ip

ip

ip i ip

z dz h

dx z

x

z h x

 

 





(32)

32

– 最急降下法(steepest descent method)

• そのために、Ep(w)を最小化する

jp ip

i ip

p ij

p h z y

x E w

E ( ) ( ) ( )



 



 w w

jp ip ij

p y

w

E  



 (w) )

) ( (

ip i

ip p

ip h z

x

E 



  w



wijの変化が誤差Epに与える影響の度合い

ij p

w E



 (w)

前段の値yjpに対する比例係数

ip

(2.8)

(2.10) (2.9)

(33)

• を求める

– 第s層第Iニューロンが出力層に属している場合

ip



^



i

ip ip

p x d

E ( )²

2 ) 1 (w

ip ip

ij

p x d

w

E  



 (w)

) ( ) (

) ) (

(

ip i

ip ip

ip i

ip p

ip h z x d h z

x

E     



  w

 (2.11)

(34)

34

• を求める

– 第s層第Iニューロンが出力層に属していない場合

ip

ip k p

k k p

p ip

p

x z z

E x

E



 



 ⁽^w⁾



⁽^w⁾

第s層第s+1層

xi Σ zk xk

kは第s+1層における添字

(2.12)

(35)

• を求める

ip

ip k p

k k p

p ip

p

x z z

E x

E



 



 ⁽^w⁾



⁽^w⁾

) ) (

( )

(

kp k

kp p kp

kp kp

p kp

p h z

x E z

x x

E z

E 



 



 



 w w w

(2.13)

(36)

36

• を求める

ip

kp ip

p

z

E  



 (w)

k i ip

k p w

x z 









k

k i k p ip

i

ip h z  w

 ( )

を、から、

求めることができる

k p

ip

s層 s+1層

Back propagation ^(2.15)

(2.16)

(37)

• を求める

– このようにして、すべての層について、を求める

– そして、最急降下法により、すべての層について、を求める結合強度変更則

繰り返し計算第kステップステップ幅η（固定）

– 十分総誤差関数E(w)の値が小さくなると繰り返し計算を終わる – これにて、学習をおわる

ip

wij

) (

)

) (

( )

1 (

k

k p

k E

w

w w

w w w







 

  (2.17)

(38)

38

• を求める

– このようにして、すべての層について、を求める

– そして、最急降下法により、すべての層について、を求める結合強度変更則

繰り返し計算第kステップ

ステップ幅η（固定、一次元探索を行わない）

– 勾配ベクトル∇（ナブラ）による表現

ip

wij

) (

)

) (

( )

1 (

k

k p

k E

w

w w

w w w







 

  (2.17)

) ( ⁽ ⁾

) ( )

1

( k

p k

k w E w

w ^  

(39)

• を求める（すべての層）

• そして、最急傾斜法により、結合強度ベクトルを求める（すべての層）

• これで、Ep(w)の最小化が実現できた

• では、これをどのようにして、E(w)に到達するのか単純な平均なのか？（疑問が残る）

• 学習データ（ベクトル）xpから結合強度ベクトルwpが求まる x1，・・・・，xp,・・・・ → w1，・・・・，wp，・・・・

• 学習結果としての総合結合強度ベクトルwは？下記でよいのか？

ip

wij





p

P wp

w 1

(40)

40

• 逆誤差伝播法（BP法）の問題点

– 大域的最小値ではなく局所的最小値への収束することがある

– ステップ幅が固定（一元探索しない）でるので、E(w)の単調減少性が保証されない

– 収束性能で、共役勾配法、擬似ニュートン法などよりも劣る

• BP法の改善

– 慣性項を用いたアルゴリズム – 忘却を考慮にいれたアルゴリズム – ランダム探索法

– 改良型BP法

– バイブリッドアルゴリズム

(41)

• ランダム探索法(Matyas 1965)

– Step1：現在の点を中心として乱数を発生して、新しい点を生成する

– Step2：生成された点における総誤差関数の値と現在のそれを比較する

・前者が小さければ、新しい点に移る・そうでなければ、元の点にとどまる

– Step3：探索回数が指定回数に達したら、探索をやめる

• ランダム探索法(Solis & Wets 1981)

– 乱数を発生し、新しい点が改善されていないなら、反対側を試す、そちらが改善されていれば、そちらに移る

– 新しい点も反対側の点も改善していないなら、元の点にとどまる

• 改良型BP法

– いくつかある – 共役勾配法

(42)

42

• ニューラルネットの汎化能力

– 過剰適合(overfitting)、過学習(overtraining) – 訓練データに対して、適切に学習できているが、

未知データに対して、適合できない（汎化できていない）

– ニューラルネットの簡略化とも関係する – たとえ：回帰曲線をもとめるとき、

• 直線近似にするか

• 高次元曲線近似にするか

かえって、直線近似のほうがよい場合もある

– 適切な訓練の量

やりすぎると、かえって逆効果

(43)

• Caffe

• http://caffe.berkeleyvision.org/

実験環境

(44)

44

• 階層型（ツリー状）ではないもの

• 再帰型ニューラルネット（Recurrent Neural Network RNN）ともいう

• 時刻ｔでの出力（状態）は、その時刻の入力だけではなく、時刻t-1における状態の影響をうける。

• すなわち、振る舞いは動的（dynamic）となる。

• ホップフィールドネット Hopfield network

• Jordan型

• Elman型

相互結合ニューラルネット

(45)

• 隠れ（中間）ユニットをもたない

• 入力ユニットと出力ユニットが同じ

• 有限時間内で状態が安定状態になるようにする

ホップフィールドネット

入力

(46)

46

• 隠れ（中間）ユニットをもたない

• 入力ユニットと出力ユニットが同じ

• 有限時間内で状態が安定状態になるようにする

ホップフィールドネット