• 検索結果がありません。

ニューラルネットの基礎数理(1)

N/A
N/A
Protected

Academic year: 2021

シェア "ニューラルネットの基礎数理(1)"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)

座州

鶴川

載州

連川

ニューラノレネットの基礎数理(1)

上坂吉則

1111111111111111111111111111111111111111111111111111111111111111111111111111111111111111川1"'111111111"'"'11剛1"'"'"'川11川11剛11111目刷111川川11川111刷1111111刷111111附111目11刷IIII11U聞1111附H帥11附附1111剛11捌H聞H川1111111附H附l側1111側11111111111111刷1111111111川川1111川11川川111川11川1111川川11川IIMIIIIIIIIIIIIII刷111101111111111111111111111111111111

1

.

はじめに ニューラルネットに関する研究は約半世紀前の Mc­

Cu

I

l

och and P

i

t

t

s

[

9

J に遡ることができる.この論 文11 ,ニューロンを論理素子と見立てたとき,ニューラ ノレネットはどんな論理関数をも実現できるという,ニュ ーロンの万能性を示したものである.と同時に,数学者 と生理学者の共同研究によるもので,今日で L 、う学際的 な仕事のはしりでもある. その後, 60年代にパーセプトロンと呼ばれる世界最初 の学習機械が心理学者 Rosenblatt[12J によって提唱さ れると,ニューラルネットへの関心が世界的な規模で高 まることになる.日本でも多くの研究者がこの分野に参 入し,パターン認識,学習,認知,記憶,生体情報, イオニックスといった言葉が通信工学や計算機工学のな かで頻繁に聞かれるようになった.しかし,約 10年後に はひと握りの研究者を残して,大部分は当時興隆しつつ あった人工知能 (A I)やコンピュータサイエンスへと 移っていく.

その主たる原因は Minsky

and Papart の書物 [10J

の初版においてパーセプトロン限界説が唱えられたから だとよくいわれているが,これは必ずしも当を得ていな い.実際,彼らが論じたのはごく特殊なパーセプトロン の族の能力評価であり,後にふれるように,ニューラル ネットは H煩序機械としても万能性をもっていることが古 くから知られている [8J のである.むしろ,パーセプト ロンに代表されるこの種の研究が狙った課題が,認識や 学習などいわゆるプレイン・サイエンスの中でも難問中 の難問に属していたからだといえよう.こうした課題は 一朝一夕で片がつくとは考えられない. この事情は, 80年代に入ってからのいくつかの新しい アプローチの提唱に始まるニューロブームにおいても変 うえさか よしのり 東京理科大学理工学部 干 278 野悶市山崎2641

2

8

0

わるものではない.このブィーパーが多くの人々の関心 を呼び,ふたたび多数の研究者を呼び寄せているが,再 度氷河期に陥らないためには,扱っている課題が内包し ている困難さをよ〈認識しておくことが肝要だと思われ る. それはともかく,今日ニューラルネットの研究は非常 に活発化している.その結果,ニューラルネットの F イ プも多岐にわたり,したがってその様相を一口で捉える ことは難しくなってきている.そこで,この小文では種 々のニユ}ラルネットをその原理的側面から眺めること によって分類し,その中から基本的な 3 つのニューラル ネット:学習認識機械,決定論的最小値探索機械,確率 論的最小値探索機械を取り上げることにする.そして, 本誌の読者は数理的な取扱いにも慣れ親しんでおられる と思われるので,これらのニューラルネットの数理的枠 組みを紹介することによってその基本的な仕組みを理解 することを手助けできればと考えている.紙数の制約か ら詳細な証明などは一部省略せざるを得ないが,これら については拙書 [17J を参照していただきたい. 人工のニューラルネットは“ニューロンモデル"と呼 ばれる多入力一出力の情報処理素子から成っている.こ れは生体がもっている本物のニューロンのある種の性質 を取り入れ,他の性質を捨象することによって得られる いわば“ニューロンもどき"であり,次のように 3 つの 観点から分類することができる.

1

0 扱う情報が 2 値をとるデジタルタイプと連続値を とるアナログタイプ, 20 情報の伝達に遅れのなし、静的タイプと内部に記憶 をもっ動的タイプ, 30 出力が入力に対して一意に定まる決定論的タイプ とランダムに定まる砲率論的タイプ. したがって原理的には 8 種類のニューロンモデルを考 えることができる(個々のニューロンモデルの動作の詳 細はそれらが使われるニューラルネットのところで説明 するのでそちらを参照されたし、).

(2)

一方,回路のトポロジーあるいはアーキテクチャから 見ると,ニューラルネットは情報が入力側から出力側へ と一方向に流れるフィードフォワード型とループを持つ フィードパヴク型に大きく分けることができる. フィードパック型のニューラルネットに静的モデルを 用げても,情報が回路の中を一瞬の内にかけめぐってし まうので,議論のしよ、うがない.また,フィードフォワ ード型のニューラルネットに動的モデルを用いてもあま り面白いことは期待できない.とし、うわけで,静的モデ ルを素子とするフィードフォワード型回路が 4 種類と動 的モデルを素子とするフィードパック型回路が 4 種類, Z十 8 種類のニューラルネットが原理的に考えられること になる. この 8 種類のニューラルネットによってできる典型的 なマシン,つまり,ニューロコンビュータとしては次の ものを挙げることができる. ( 1 ) フィードフォワード型回路 (a) デジタル型静的決定論的モデルを用いたもの ・学習認識機械としての古典パーセプトロン (Rosenblatt

,

1961) ・静的連想記憶としてのアソシアトロン (Nakano.

,

1972) (b) デジタル型静的確率論的モデんを用いたもの ・(信頼性の低い部品から信頼性の高い、ンステム を構築できるという理論 (von Neumann, 1956) ) (c) アナログ型静的決定論的モデルを用いたもの ・学習認識機械としての現代パーセプトロン (Rumelhart et a1., 1986) ・静的連想記憶としての一般化されたアソシアト ロン (Uesaka & Ozeki

,

1972)

(d) アナログ型静的確率論的モデルを用いたもの ・(特になし) ( 2 ) フィードパ.~ク型回路 (a) デジタノレ型動的決定論的モデルを用いたもの ・動的連想記憶としてのアトラクタマシン (Hop­ 五eld , 1982) (b) デジタル型動的確率論的モデルを用いたもの ・最小値探索機械としてのボルツマンマシン (Ackley et a1., 1985) (c) アナログ型動的決定論的モデルを用いたもの ・最小値探索機械としてのホップフィールドマシ ン (Hop五 eld & Tank

,

1985)

1991 年 6 月号 (d) アナログ型動的確率論的モデルを用いたもの ・最小値探索機械としてのガウシアンマシン (Akiyama et a1., 1988) これらのニューラルマシンを数理的なシステムとして 考えたとき,その原理的側面が浮かび上がってくる.デ ジタル型静的決定論的モデルで織成される学習機械は多 変数の論理関数であり,任意の論理関数がこのシステム によって実現できることがわかっている [9 J.デジタル 型動的決定論的モデルによる連想記憶マシンは本質的に は有限オートマトン(あるいは離散力学系)であり,任 意のオートマトンがこのシステムによって実現できるこ とがずいぶん前から知られている [8 J. デジタル型動的 確率論的モデルを用いた最小値探索機械は数学的には有 限マルコフ連鎖であり [18J ,“焼きなまし"と呼ばれる 物理現象に由来するシミュレーティッドアニーリングの 手法の範膚に入る[1 J. アナログ型静的決定論的モデん から成る学習認識機械は多変数の実数値関数であり,任 意の多変数関数が任意の精度でこのシステムによって近 似できることがわかっている [5 J. アナログ型動的決定 論的モデルによる最小値探索機械は勾配系と呼ばれる古 くから知られた力学系(あるいは微分方程式系)によく 似たシステムである [15J. そしてこれにガウシアンノイ ズを加えて改良した,アナログ型動的確率論的モデルに よる最小値探索機械は確率微分方程式で記述されるタイ プのシステムである [3 J.この他に,主として甘利によ って精力的に展開されてきた統計力学的アプ戸ーチがあ るが,これについては文献 [4J に優れた解説を見ること ができる. このように,ニューラルネットはさまざまな数理的側 面を持っているが,ここでは関数近似としての現代パー セプトロン,力学系としてのホップフィールドマシンお よび有限マルコフ連鎖としてのボルツマンマシン(とア ニーリング)の 3 つについて,その基本的な仕組みを紹 介し,今後解かれるべき課題について考えてみたいと思 う.

2

.

学習認識機械

関区間 (0, 1 )の n 個の直積集合を X で表わす.つま り, X の元 z は値が (0, 1) に属する n 個の実数の組 (x}, … , xn) として書くことができる. このとき,次の ように定められる X から (0, 1) への関数: (2.1) f(x)= σ( 加。+叩 lXl+ …十叩nXη) を考える.ここに, σは実数全体Rから(0, 1 )への関数:

2

8

1

(3)

入力 x Xl X2 x. 出力

j

(

x

)

図 2.

1

アナログ型静的決定論的エユーロンモデル

(2.2)σ (u)= ._._1

l+exp(-u) であり,加。, Wh … , W偽は実数を値に持つ定数である. この関数 f をアナログ型静的決定論的ニューロンモデ ルという.情報処理素子としては入力 X=(Xh ''', xn) を Xl 入 力局 Tn , z 出カ 図 2.2 n 入力 l 出力を持つ 2 段のフィードプオワ ード型ニューラルネット 出力 f(x) に変換するプロセッサと見ることができる(図 パーセプトロンとは“ perception ぺすなわち,“知

2

.

1

)

.

覚"という心理学用語に由来した名称であって,図形な このような関数をどうしてニューロンのモデルと考え どのパターンを認識する機械のことである.たとえば, るかはユユーロンの生理学的性質による.つまり,生体 関数 h の値域 (0, 1) を (0, 0.5) と [0.5 ,1)の 2 つに分割 のニューロンは多入力一出力の情報処理素子であり,情 し,その h による逆像: 報はニューロンの活動を表わすインパルスの頻度で表現 されていると考えられているからである.加えて,入力 はニューロン固有の定数却0,叩1.…,叩π によって重み付 きで加算され,それがニューロンの内部電位を定め,内 部電位は関数 σ によって非線形に変換されて出力される ことが知られている.つまり , f(x) は入力 z によって 引き起こされた出力としてのパルス頻度である.この意 味で叩h …,叩η をニューロンの重み係数,却。(の符号を 変えたもの)をしきい値と呼んでいるが,ここでは簡単 に両者を重みと呼ぶことにする. このようなニューロンの出力を他のニューロンの入力 に接続することによってニューロンを素子とする回路, すなわちューラルネ..,卜ができる. ここでは簡単のため n 個の入力と 1 個の出力を持つ 回路を考える(図 2.2). すなわち m 個のニューロン j=l , … , m に対して: (2.3) 的=乃 (X)= σ (WOj+ 叩 ljXl+ … +WnjXn) が層状に並んでおり n 個の入力が各ニューロンに入 り,それらの出力 Yb "', y閉がもう 1 つのニューロン: (2.4) z=g(y)=σ( 町 +VIY1+ … +VmYm) の入力となって,そこから出力 z が出ると考える. これは典型的な 2 段のフィードフォワード裂ユューラ ルネットであり,その入出力関係は式 (2.3) と (2.4) から 明らなように関数 fh "',j,日と g の合成として (2.5) h(X)=g

(f

l(X)

,

.!m(X)) と与えられ, Xから (0, 1) への関数となっている.この h はパーセプトロンとも呼ばれる.

2

8

2

(2.6) (X1= ド ((0,

O

.

5}}={xlh(x) ε(0, 0 列}

X

2=h-1(

[

0

.

5

,

1)

)={xlh(x) ε[0.5 , 1

)

}

をとると, これらは X を 2 つの部分集合 X1 とX2に分 割する.したがって , X をパターンの集合と考えると, h(x) の値を見ることによって, パターン z が 2 つのカ テゴリ Xh X2 のいずれに属しているかがわかる.この ことはhによってパターン露織ができることを意味して おり h はしばしば認織関数と呼ばれる(図 2.3). たと えば, X1が文字パターン“A" の集合であり, X2が “A" 以外のパターンの集合であれば h は文字“ A" を 認識できることになる. 逆に,文字“ A" を認識できる関数 h を作ることを考 えてみよう.この場合,実際的場面ではカテゴリ X1が 陽に与えられることはなく , t 、くつかの文字パターンが X1やX2の元であるとL 、う事例が得られるに過ぎない. いいかえれば,パターン集合Xの“有限"部分集合Sと S に属するパターンのカテゴリ名が与えられ,それをも ハタ /集合 ノ〈ーセ7叫トロン の出力 図 2.3 認識関数 h によってパターン集合は 2 つの カテゴリ XhX2 Vこ分割される

(4)

とにして認識関数を作り上げるということを考えなけれ ばならない. このことを数学的に捉えれば, X から (0, 1) への未知 の関数 d があり,有限集合 S ç; X の各元 z に対する d の 値 d(x) だけが与えられたとき, X 全体にわたって d を できるだけよく近似する関数 h: X → (0, 1) を求めよと いう,関数補聞の問題に帰着される . d を目標関数,

S

を学習パターンの集合という. 関数 h の目標関数 d に対する近似の良きとしては,通 常,学習パターンにおける両者の値の平均 2 乗誤差: (2.7) E:::

.

J

"

I

:

[h(x)-d(x)J2

I

S

I

.

.

.

"

e

'

s

が用いられる.ここに I

S

I は S の元の個数である.学習 パターンから認識関数 h を設計するには,この誤差 E が 最小となるように,重み Wij と町を決めればよい.し かし , E の形から明らかなように,望ましい重みは解析 的には求めようがない.そこで逐次的に近似解を求める ことになるが,その 1 つの数値計算法を与えるのが眼差 逆伝徹法[13] であり,解を求めるプロセスを学習と呼ん でいる.この種のニューラルネットが学習機繊と呼ばれ るのはこのことに由来している. 具体的には,非線形な関数の最小解を求める手法とし て古くから知られている勾配法ないしは最急降下法を用 いればよい.すなわち,重み WijoVj .を時間 t の関数と 考え,誤差 E をポテンシャルとする力学系: (2.8)

豆竺!L:::-

E

豆丘 =_3

E (1t-- メWij' dt メVj を用意する.このとき , E は却i J> Vj を介して時間の関 数となるが,却り, Vj が上の微分方程式系の解であれば,

(

2

.

9

)

dE(wuz) ,川)孟 O が成り立ち,等号が成り立つ条件は

E

E

(

2

.

1

0

)

AV

一一

=0, τ十 =0 OWij OVj で与えられることが容易に示される. したがって,ムを十分小さい正の定数にとり,適当な 初期値町0(0) , 円 (0) から出発して漸化式:

E

(

2

.

1

1

)

町j(t+ ム)=町 j (t)ーム百玩7

E

(

2

.

1

2

)

町(t+ム )=Vj(t) ーム石7 を用いて点列切り (kð.), vj(kム) (k:::l

,

2, 3,…)を生成 すると,これは誤差 E の最小点(一般には極小点)に収 束することになる(図 2.4). いま,偏微分 òE/ò即りと òE/òVj を実行してみると,

重み加ij, Vj (乃空間 図 2.4 誤差E の曲面上を移動して力学系の状態は E の極小点に到達する この漸化式はより具体的に , i=O

, …,

n; j=l , ・ .., m に 対して

(2.13)

四ijn仰 =uげld_~主I:

Olj(x)x

- - ' J ISI ",~s-'J

j=O

, …,

m

に対して

(2.14)

町n間 =V;otd_~主,I: δ2(x)f白 (x)

-J ISI :r~s-&.\-'JJ

と計算される.ここに (2.15) 01j(X)= ゐ (X) 町fj(x) (1 ーん (X)) , (2.16) ゐ (x)=[h(x)-d(x)]h(x) (I-h(x)) であり , Xo 三fo(x) 三O と既約しである.この偏微分の 計算の過程で式 (2.2) の導関数が (2.17)

弓竺=σ(u) (1 ーσ(u))

au

で与えられることを積極的に利用していることを注意し ておし ここでゐをみると,これはパーセプトロンの出力 h(x) の目標関数 d(x) に対する誤差にほぼ相当しており,ま た δlj を求めるのに δz を用いていることがわかる.つま り,入力側の重み叩 ij の修正に出力側の誤差を利用して いる.このように重みの修正のさいに誤差が,入力情報 の流れとは逆に,出力側から入力側に伝搬していくこと が誤差逆伝搬法の命名の由来になっているわけである. ここでは典型的な 2 段のパーセプトロンを取り上げた が,こうした考えは段の数がもっと多くても通用する. また回路が層状になっていなくても,回路にループが存 在しない任意のフィードフォワード型のニューラルネッ トに適用することができる. この意味では誤差逆伝搬法 は万能の学習法だということができる.そしてこのこと が80年代にふたたび爆発的な関心がニューラルネットに 寄せられたことの大きな要因の 1 つになっているといっ てよいであろう.

2

8

3

(5)

参芳文献

[

1

J Aarts

,

E. and Korst

,

J

.

:

Simulated

annea-[9 J McCulloch

,

W.

S

.

and Pitts

,

W.

H. :

A

l

o

g

i

c

a

l

c

a

l

c

u

l

u

s

o

f

the i

d

e

a

s

immanent i

n

neural nets

,

B

u

l

l

.

Math. Biophys.

,

5

(

1943)

,

l

i

n

g

and Boltzmann machines: A s

t

o

c

h

a

s

t

i

c

1

1

5

-

1

3

3

.

aρþroach

t

o

combinatorial o

p

t

i

m

i

z

a

t

i

o

n

and

[

1

0

J

Minsky

,

M. L. and Papert

,

S

.

A. :

Percep-neural computing

,

Wiley

,

1

9

8

8

.

trons

,

An i

n

t

r

o

d

u

c

t

i

o

n

t

o

computational

geo-[

2

J Ackley

,

D. H.

,

Hinton

,

G. E. and Sejnow-

metry

,

expanded edition

,

The MIT Press

,

ski

,

T. J

.

:

A learning algorithm f

o

r

Boltz-

1

9

8

7

.

mann machines

,

Cognitive Science

,

9

(1985

),

[

I

I

J

Nakano

,

K. :

Associatron-a model o

f

a

s

s

-1

4

7

-

1

6

9

.

o

c

i

a

t

i

v

e

memory

,

IEEE

Trans. on SMC

,

[3J

秋山,山下,梶浦,安西,相磯:ガウシアンマシ

SMC-2 (1972)

,

3

8

0

-

3

8

8

.

ンによる組合せ最適化,電子情報通信学会技術研究

[

1

2

J

Rosenblatt.

,

F.:

P

r

i

n

c

i

p

l

e

s

of neurodyna一

報告,

MBE

88-183 (

1

9

8

8

)

.

mics-Perceρtrons

and t

h

e

theory of Brain

[4J

甘利:神経回路網の数理一脳の情報処理様式ー Mechanisms ,

Spartan.

,

1

9

6

1.

産業図書,

1

9

7

8

.

[

1

3

J

Rumelhart

,

D. E.

,

Hinton

,

G. E. and W i

1

l

-[

5

J Funahashi

,

K. :

On the approximate r

e

a

1

i

-

iams

,

R. J

.

:

Learning representations by

z

a

t

i

o

n

of continuous mappings by neural

back-propagating errors

,

Nature

,

323

,

9

networks

,

Neural Networks

,

2

,

3

(

1

9

8

9

)

.

(1986)

,

5

3

3

-

5

3

6

.

[

6

J Hopfield

,

J

.

J

.

:

N

e

u

r

a

l

networ

ks and phy-

[

1

4

J

上坂,尾関:連想型記憶の二,三の性質,電子通

s

i

c

a

l

systems with emergent c

o

l

l

e

c

t

i

v

e

com一 信学会論文誌,

55-D(1972)

,

2

2

3

-

2

3

0

.

p

u

t

a

t

i

o

n

a

l

abilities

,

Proc. Natl. Acad. S

c

i

.

[

1

5

J

上坂 2 値変数の実数値関数から導かれるエネル

USA

,

7

9

(1982)

,

255

2558.

ギーを持つニューロン回路網の安定性について,電

[7] Hopfield

,

J

.

J

.

and Tank

,

D. W.

:“

Neural"

子通信学会技術研究報告,

PRU

88-6 (

1

9

8

8

)

.

computation o

f

d

e

c

i

s

i

o

n

s

i

n

optimization

[

1

6

J

上坂,塚田:シミュレーティッドアニーリングの

problems

,

B

i

o

l

.

Cybern.

,

5

2

(1985)

,

1

4

1

-

1

5

2

.

ための受理関数の族について,電子情報通信学会技

[

8

J Kleene

,

S

.

C. :

Representation o

f

events i

n

術報告,

NC

89-66 (1990)

,

3 ト36.

nerve n

e

t

s

and 五nite

automata

,

i

n

Shannon

,

[

1

7

]

上坂,尾関:パターン認識と学習のアルゴリズ

C. E

.

and McCarthy

,

J

.

(

e

d

s

.

)

:

Automata

Å. 文一総合出版,

1

9

9

0

.

Studies

,

Annals of Mathematical Studies

[

1

8

J

上坂:ニューロダイナミックスの数理,電子情報

No.34

,

Princeton Univ." (1956)

,

3

-

4

1

.

通信学会誌,

73

,

2

(

1990)

,

1

3

1

-

1

3

6

.

参照

関連したドキュメント

これらの協働型のモビリティサービスの事例に関して は大井 1)

「文字詞」の定義というわけにはゆかないとこ ろがあるわけである。いま,仮りに上記の如く

はある程度個人差はあっても、その対象l笑いの発生源にはそれ

しい昨今ではある。オコゼの美味には 心ひかれるところであるが,その猛毒には要 注意である。仄聞 そくぶん

・紫色に対するそれぞれの印象は、F「ミステリアス」が最も多い回答結果になり、両者ともに

「心理学基礎研究の地域貢献を考える」が開かれた。フォー

これは基礎論的研究に端を発しつつ、計算機科学寄りの論理学の中で発展してきたもので ある。広義の構成主義者は、哲学思想や基礎論的な立場に縛られず、それどころかいわゆ

本県は、島しょ県であるがゆえに、その歴史と文化、そして日々の県民生活が、