河合雅．弘＊　谷岡　　　　　（平成3年8月31日受付）

(1)

NDC 549． 92

多層ニューラルネットワークの高速化学習法の検討

河合雅．弘＊谷岡

（平成3年8月31日受付）

守＊

Study on a High−Speed Lerning Method for Multi−Layered Neural Network

Masahiro KAWAI and Mamoru TANIOKA

（Received August 31，1991）

概要

多層ニューラルネットワークの学習アルゴリズムとしては一般に誤差逆伝播学習アルゴリズムがよく用いられているが，学習が収束するまでに多数の繰り返し学習が必要である。また，学習時の条件により収束までの学習回数は大きく変化し，対象とする問題に合わせて最適な条件を見つけなければならない。今回，われわれはワークステーション上にC言語によるシミュレータを構築し，文字認識や排他的論理和の学習を例題として，学習を高速化する最適条件を解析するとともに，安定化係数αおよびニューロンの特性関数の傾きθの働きに着目し，学習の進行にあわせて

これらを最適条件の範囲で変化させる学習法を考案し，学習の高速化を実現した。

1．はじめに

新しい情報処理のシステムとして神経回路網をモデルとしたニューラルネットワークによる情報処理の研究が注目されている。1） 2）ニューラルネットワークでは多数のニューロンを互いに結合させ，繰り返し学習によってニューmン間の結合の重みとして情報を蓄える。

多層ニューラルネットワークにおける学習アルゴリズムとしては一般に誤差逆伝播アルゴリズムがよく用いられているが，一回の学習量を小さく設定する必要があるため，

学習が完了するまでに多くの繰り返し学習が必要であ

る。3）

そこで，学習を高速化するための最適条件について解析し，．これらの結果をもとに高速化学習の方法について検討

したσ

2．学習条件の最適化 2．1 誤差逆伝播アルゴリズム

図1のような多層ニューラルネットワークにおいて，．誤差逆伝播アルゴリズムによる学習では順方向の信号の伝播および逆方向への学習は次式のように求められる。

中間層（h）の出力信号Ohl

Oh，＝f（Ih，1）＝f（EWikh，・Oik）（1）

出力層（o）の出力信号O。m

oo．＝f（Io．）＝f（2wh，e．・ohl）（2）

なお；ニューロン素子の入出力特性は（3）式および図2のようなシグモイド関数を用いる。

1

（3）

f（x）一

1十exP（一（x十h））

hはしきい値 n回目の学習において，学習パターンXpに対する出力信号を00m（Xp）（n）とし，それに対する教師信号をT皿（X

p）として，その誤差Ep（Xp）（n）を（4）式のように2乗誤差で定義する。

E，（x，）〈）＝一ll一・ 2（T．（x，）一〇〇．（x．）（n））2

〈4）

誤差Ep（Xp）（n）を最小にするための学習信号δ（Xp）

（n）は

出力層から中間層への学習信号

＊情報工学科

6 o．h 1 （x p）（n）＝（T．（x p）一〇〇．（x p）（n）一）． f，

（1 O．（x p）（n））

(2)

津山高専紀要第29号（1991）

入力

一一一一j・

．

T 一堰f

逆方向ぐ＝＝学翫号

一一一一一j）F

出力

．

一一一一一一一j・

入力層（i）

．

〈iL一

教師信号

e〈｛一一

中間層（h）出力層（o）

・＝→順方向

図1 3層ニューラルネットワークの構造

1． 0

0 5

︵×ζ ﹂5⁰

o 入力 x

図2 ニューロンの入出力特性

5

＝（T．（X ．）一〇〇．（xp）（n））・ oo．（x．）（n）．

（1−Oo．（x，）（n））

（5）

中間層から入力層への学習信号

Oh1 i，（X，）（n）＝f （Ih1 （X，））・￡Wikh 1 （n）・ 60．b 1

（X．）（n）

＝＝ Oh1 （x．）（n

2 wikh 1 （n）一 o o．h 1（x ．）（n）

）・（1−Ohi （x，）（n））．

（6）

学習信号δ（Xp）（n）から各ニューロン問の結合係数W

（Xp）（n）は次のように変更する。

出力層から中間層への結合係数Wh 10m（Xp）（n＋1）は

Whlom（Xp）（n＋1）＝Wh 1 o．（Xp）（n）十△Whiom（Xp）（n）

（7）

Awh 1 o．（x，）（n）＝ 7 ・ so．h 1 （x，）（n）・ oh1 （x，）（n）

（8）

中間層から入力層への結合係数wikh l（Xp）（n＋1）は

Wi，h 1 （X，）（n＋1）＝Wikh 1 （X．）（n）十Awi，h 1 （X，）（n）

（9）

AWi，h 1 （X，）（n）＝ V ・ Ohl i，（X．）（n）・Oi，（X，）（n）

（10）

ηは学習係数と呼ばれ1より充分小さい正の数にとり，繰り返し学習を行えば任意の精度で誤差を最小にすることができる。

しかし，ηを小さくするため学習回数が多くなる欠点がある。また，学習のアルゴリズムからわかるように学習がある程度進行すると誤差の減少により学習信号も小さくなりますます学習が遅くなってしまう。逆にηを大きくすると学習が振動したり，ローカルミニマムに落ち込み収束しなくなる。

そこで，次のように前回の学習量の一部を次の学習量に加算し，学習量の変化を緩やかにするとともに学習を加速化させる方法が一般によく用いられている。4）その場合（8），

㈲式は次のように変形させて用いる。

Aw（）＝ n ・ 6 （x，）（）・o （x，）（n）一t一 a ・ Aw（x，）（n i）

〈11）

（但し cr＜1）

ここで，αは安定化係数と呼ばれ1より小さい正の数でる。

この場合，ηをある程度大きくしてもαの項の影響で学習の振動が起きにくくなる。しかし，逆にαの値を大きくして行くと過去の学習の影響を受け過ぎてローカルミニマムに陥ってしまい収束しない場合がでてくる。従ってηと αを適切な値に設定する必要がある。

2．2 学習係数nと安定化係数αの最適値の範囲学習係数ηと安定化係数αの最適値を調べるために，

ワークステーション上にC言語によるニューラルネットワークのシュミレータを構築し，文字認識および排他的論理和の学習のシミュレーションを行った。シミュレーションではηとαをパラメータとして学習が収束するまでの学習回数を調べた。文字認識の場合は図3の例に示すような 3×5ドットのアルファベット20文字（A〜T）を識別させた。また，排他的論理和の学習は図4に示す入力と出力の関係を学習させるものである。学習結果を図5（a），（b）

および図6（a）〜（d）に示す。いずれも5回の実験を行いその平均値を収束までの学習回数としている。

図5は安定化係数の値と収束までの学習回数の関係を示したもので（a）は文字認識，（b）は排他的論理和の学習である。図5では（a），（b）ともにηが一定の場合は学習回数とαは比例関係にありαの増加にともない直線的に学習回数は減少している。ただし，αが1．0に近くなると収束しない場合が出てくる。これはαが1．0またはそれ以上では前回の学習量が常に残ってしまい適切な方向に学習が進まないためである。

図6はαを一定とした場合のηの値に対する収束までの学習回数の変化を表している。学習回数はηに反比例して

(3)

多層ニューラルネットワークの高速化学習法の検討河合・谷岡

いることがわかる。

一方，図6においてη＋α＝K（一定）とした場合の学習回数について見てみると，全体としてKの値が大きくなると学習回数は減少している。しかし，Kの値が大きすぎてもあるいはαの値が1．0に近すぎても学習回数が急激に増加または収束しない場合があり，K＝1．0〜1．4程度が適切な範囲である。

園圏』審

議回知卦6質桶悩 4000

2000

o o

学習

二．H凹

効率η

n＝ O・ 2 n＝ O・ 4 n＝ O． 6 n＝ e． s

O． 5 安定化係数α

1． 0

（b）腓他的詮理和の学習中間層のニューロン数＝8

図3 文字パターンの方図5（b）安定化係数αと収束までの学習回数

入力出力

X Y ^Z

1 0 ¹

0 ¹ 1

0 0 0

1 1 0

図4 排他的論理和

顛回節齢6汐幅慨

le o o

IO O

20

0． 1

L

安定化係数α

怦鼈鼈黶怐@ α＝ o． 2．

?鼈鼈黶ｨ（ α二〇， 4

｢一一△ αコ0，6 g］ α＝ 0・ 8 p一一Q α＝0，9

一一

K嵩0．9 j撃｛，σ 自」

DKミ1．4・

弓 †

1． 0 学習係数η

（a）文字認識中間層のニューロン数＝＝0

図6（a）学習係数ηと収束までの学習回数

0 0 0 1

0 0 5

戴回節糺唱S粒悦藤軽

o o

学習効率η

● ●一一一● η＝0，夏

H η＝ 0． 2

△一一△ η軍0．4

［レー→コ η； 0． 6 O一一一〇 η＝ 0， 8

O． 5 安定化係数α

1． 0

（a）文宇認識中間層のニューロン数＝20

1000

0 0

1

叛回瓢紳e臼価悩軽

28．藍

安定化係数α

怦鼈鼈黶怐@α＝0． 2

?鼈黶ｨ〈 α＝0． 4

｢一一△ α＝0． 6 mトー一口 α＝0， 8 gO α＝0． 9

−一一一 K・o．9

j篭1．O j司．2

− K電α＋

聰． 0 学習係数η

（b）文宰認識中間層のニユーロン数＝20

図5（a）安定化係数αと収束までの学習回数図6（b）学習係数ηと収束までの学習回数

(4)

裏0000

薔睾二禦

翼OOO

i 0 W．L−1 k需1ρ

』

安定化係敵α

?鼈鼈黷?@α鴇0． 4

@ α＝ 0． 6 mトー一口 α＝0．8

@K置朕†ク k判

篭

1． 0 学習係敵n

（C）排他的論理和の掌習中聞層のニューロン数＝4

図6（c）

10000

薔睾

む＝犠

1。W．正

学習係数ηと収束までの学習回数

k＝1．o

ヤ

安定化係戯α・

?鼈黶ｨ（ α＝ 0・ 4．

｢紬 α．＝0．6

香[一一一｛コ α＝ 0． 8 j＝ぴ．噛琴1．2

k＝1

且． 0 学習係数η

（d＞排他的論理和の学習中問層のニューロン数＝8

図6（d）学習係数ηと収束までの学習回数

また，文字認識の例ではK＝1．0以上ではαが大きい方が学習回数の値が小さい。逆に，K』1．0未満ではηが大きい方が学習回数の値が小さくなっている。排他的論理和の学習の例ではK−1．2を境にして同様の関係となっている。従って，KはK≧1．0（またはK≧1．2）としαをα＜

0．9の範囲で大きくして行けば収束までの学習回数の値を小さくできることがわかる。

これらの結果より，K＝1．O〜1．4の範囲でη＜α＜0．9 の条件が収束までの学習回数の値が小さくなる良好な範囲と言える。

2．3 中間層のニューロン数

多層ニューラルネットワークの場合，中間層のニューロン数を増やすと収束までの学習回数も減少することがこれ

までの実験で確かめられている。5） 6）そして，中間層のニューロン数がある値までは急激に学習回数も減少するが，その値を過ぎると変化が緩やかになり，この時のニューロン数が学習速度から見た場合の最適値となる。

図7に文字認識の場合の中間層のニューロン数に対する収束までの学習回数の変化を示す。9×11ドットの文字パターンに対する実験結果は文献（6）の結果を書き直したものである。図7の文字認識のシミュレーション．ではニューロン数10〜20の範囲に最適なニューロン数があることがわかる。

1000

O O 1

癒回臨卦eP幅催軽

2 0

1

3×5ドツトﾅ＝0． 2 ｿ需0． 8 怦鼈黶怐@20文字 XXI星ドツト

ﾅ＝0． 25 ｿ＝ 0． 8

｢一一△ 且0文字香[一ロ 26文字

10中問層のニューロン数

100

図7 中間層のニューロン数と収束までの学習回数

3．高速化学習法の検討

3．1 安定化係数αを増加させる方法

誤差逆伝播学習アルゴリズムでは，学習の進行にともない誤差が小さくなってくると（5），（6）式における学習信号δ も減少し，後半の学習速度が遅くなる。従って，この部分の学習をより加速化すれば学習は速くなる。

2．2節で述べたように，η＋α＝Kを1．0以上としα をη＜α＜0．9の範囲で大きい値に取った場合，収束までの学習回数の値を小さくすることができるが，図6の（a），

（b）のα＝0，8あるいはcr ＝＝o．9の場合をみると，ηの値により学習回数が増加する場合が出てくることがわかる。これは学習の方向が定まっていない初期の段階の学習信号が

⑳式のαの項により，その後の学習に大きく影響し過ぎたためと考えられる。

このような状態を緩和するには，初期の学習ではαをやや小さく設定し，学習の進行に合わせて徐々にαを大きくする方法が有効と考えられる。図8は誤差の減少にともない直線的にαを増加させた場合の学習回数と働式で表される平均誤差AEpの関係を示したものである。αの値を固

(5)

多層ニュラルネットワークの高速化学習法の検討河合・谷岡

刑した場合に比べ後半の学習がさらに加速化されているのがわかる。

誤差Ep 平均誤差AEp＝

（12）

出力層のニューロン数

X lo−i

2

1

︒国く網路齪叶

o o

O一一一〇 α＝0．6固定

v＝O． 6 H a＝O． 6NO． 8 n＝O． 6

50

学習回数

10 0 ^且5 0

図8 学習に伴いαを変えた場合の学習回数と平均誤差 AEp

3．2 ニューロンの特性関数の傾きを増加させる方法ニューロンの特性関数であるシグモイド関数の傾きとし

てθ．考え，この場合のシグモイド関数を⑯式に示す。

1

f（X）＝S，A hf ／．，i （13）

1十eXP（一（θ・x十h））

θは傾き hはしきい値これまでの実験ではθ ・＝1．Oとしてシミュレーションを行ってきたが，このθを大きくすると入力の変化に対しよ

り敏感な出力特性となる。図9のAはシグモイド関数の傾きθを大きくした場合の収束までの学習回数を調べたものである。なお，誤差に対する学習信号は（5），（6）式により従来のまま計算した。

loeo

0 0

1

鐵回即朴eゆ価怯軽

（｝一一〇A（θを固定値で学習）

怦鼈黶怩a（θを学習に伴いLo〜

@ θ旧猟まで変えて学習）

ｶ字認識（h率20＞

ﾅ＝0、 2 α＝0．8

B A

図9のAでは，θ＝＝・2．0までは学習回数は減少するがそれ以上では学習回数が急激に増加している。これは入出力特性が敏感過ぎて，初期の学習で最適な結合へ向けての方向付けが充分でき．ないまま最終的にローカルミニマムに落ち込んだものと思われる。

これを回避するには，学習がある程度すすんだ時点でθ を大きくすればよいと考えられる。図9のBは誤差が減少するのにあわせてθを直線的に大きくする方法で学習させた場合の結果である。なおθの初期値はi．0として，学習の進行によりθmaxまで増加させている。θmax＝4．0で最小の学習回数となっている。

3．3 αおよびeを学習にともない増加させる方法上記の3．1．，3．2で確認した高速化の方法を両方取

り入れた学習法（以下『新学習法』）で文字認識，排他的論理和の学習のシミュレーション実験を行った。学習時の条件は次の通りである。

条件

20

0． 1 1． 0 10． 0

シグモイド関数の傾き θ またはemax

図9 シグモイド関数の傾きθまたはθmaxと収束までの学習回数

K＝1．O〜1．2（学習時に増加）

7 ＝O．4

α ＝O．6〜O，8（学習時に増加）

θ ・・1．O〜3．0（学習時に増加）

中間層のニューロン数

文字認識一一一一一一一20 排他的論理和の学習一一4 収束時の平均誤差AEp＜0．00125

新学習法による学習結果を従来学習法と比較しながら表1 および表2に示す。また，図10の（a），（b）に平均誤差 AEpの変化を従来学習法の場合と比較しながら示す。

表1 文字認識における新学習法と従来学習法の比較

収束までの学習回数実験No ¹ ² ³ ⁴ ⁵ 平均従来学習法 72 71 72 79 78 74．4 新学習法 58 59 55 58 58 _57．6

学習回数（新学習法）

学習回数（従来学習法） ^0，774 中間層のニューロン数＝20

従来学習法の条件

V ：＝＝O．4 a ＝：O．8 e ＝＝1．o

新学習法の条件

n ＝＝o．4 a ＝o．6−O．8 e ＝1．o−3．o

これらの結果より，新学習法では従来学習法に比べ77．4

〜42．5％の学習回数で学習が収束していることがわかる。

言い替えれば新学習法により従来学習法に比べ1．29−2．35 倍に学習が高速化されたと言える。

(6)

表2 排他的論理和の学習における新学習法と従来学習法の比較収束までの学習回数実験No ¹ ² ³ ⁴ ⁵ 平均従来学習法 842 788 943 762 711 809．2

新学習法 307 298 274 413 429 344

学習回数（新学習法）

学習回数（従来学習法） ^0，425 中間層のニューロン数＝4

X 正0曽2

2

1

店口く網覇紐時

o o

従来学習法の条件 n＝o．4

a ＝＝O．8 e ＝1．o

新学習法の条件 7 ＝O．4

cr ＝ O．6一一〇．8

e＝1．o−3．o

50

学習回数 100 15 0 （a）文字認識中間層のニューロン数＝20

図10（a）新学習法と従来学習法による学習回数と平均誤差

AEpの比較

X lO−3

且． 0

獣_澤

O， 5

o

学習回数 500

（b＞排他的論理和の学習中間層のニューロン数＝4

図10（b）新学習法と従来学習法による学習回数と平均誤差

AEpの比較

4．まとめ

多層ニューラルネットワークの高速化学習について，学習時の最適条件の解析と高速化の手法について検討を行っ

た。

その結果をまとめると次のようになる。

（1）学習を高速化するための学習係数ηおよび安定化係数α

の最適範囲は次の通りである。

（a）η＋α＝K（一定）として

K ＝1．0一一一1．4

（b） 7〈a〈O．9 （O．5〈a〈O．9）

②中間層のニューロン数については問題により最適値が変わるので定量的に特定できなかった。

（3）高速化学習の方法として，次の2点を取り入れた新学習法により高速化が実現できた。

（a）安定化係数αを変化させる

学習時，誤差の減少にともない直線的に安定化係数α を上記（1）の最適条件の範囲で増加させ，後半における学習を加速化する。

（b）ニューロンの特性関数の傾きθを変化させる学習時，誤差の減少にともない直線的にシグモイド関数の傾きθを増加させ，後半における学習を加速化する。ただし，θの最大値はθ皿。。≦4．0である

そして，（3）の新学習法を使うことにより，従来学習法に比べ1．29〜2．35倍の高速化ができることが確認できた。

なお，今回は文字認識，排他的論理和の学習において高速化を確認したが，他の問題に対しても高速化の効果があるかどうか確認が必要である。また，この新学習法は学習の後半部分での高速化を行った．ものであるので，学習の高速化により収束までの学習回数の値が相対的に小さくなってくれば，今後は初期から前半における学習の高速化の検討が必要となってくる。

文

献

1）甘利俊一：神経計算学の勃興，bit，Vol．120No．2

（1988）， 4−8

2）稲葉則男：ニューラルネットをパターン認識，信号処理，

．知識処理に使う，日経エレクトロニクス，No．427

（1987．8．10）， 115−124

3）D．E．ラメルハート， J．L．マクレランド， PDPリサーチグループ：PDPモデル認知科学とニューロン回路網の探索，産業図書，（1989）

4）麻生英樹：ニューラルネットワー一一ク情報処理，産業図書，

（1988）

5）河合雅弘，谷岡守：多層ニューラルネットワークにおける学習過程について，津山工業高等専門学校紀要，

No．27 （1989）

6）河合雅弘，谷岡守：多層ニューラルネットワークの学習過程における中間層の影響について，津山工業高等専門学校紀要，No．28（1990）

河合雅．弘＊ 谷岡 （平成3年8月31日受付）

河合雅．弘＊　谷岡　　　　　（平成3年8月31日受付）