NDC 549. 92
多層ニューラルネットワークの高速化学習法の検討
河合雅.弘* 谷岡
(平成3年8月31日受付)
守*
Study on a High−Speed Lerning Method for Multi−Layered Neural Network
Masahiro KAWAI and Mamoru TANIOKA
(Received August 31,1991)
概 要
多層ニューラルネットワークの学習アルゴリズムとしては一般に誤差逆伝播学習アルゴリズムがよく用いられてい るが,学習が収束するまでに多数の繰り返し学習が必要である。また,学習時の条件により収束までの学習回数は大 きく変化し,対象とする問題に合わせて最適な条件を見つけなければならない。今回,われわれはワークステーショ ン上にC言語によるシミュレータを構築し,文字認識や排他的論理和の学習を例題として,学習を高速化する最適条 件を解析するとともに,安定化係数αおよびニューロンの特性関数の傾きθの働きに着目し,学習の進行にあわせて
これらを最適条件の範囲で変化させる学習法を考案し,学習の高速化を実現した。
1.はじめに
新しい情報処理のシステムとして神経回路網をモデルと したニューラルネットワークによる情報処理の研究が注目 されている。1) 2)ニューラルネットワークでは多数の ニューロンを互いに結合させ,繰り返し学習によって ニューmン間の結合の重みとして情報を蓄える。
多層ニューラルネットワークにおける学習アルゴリズム としては一般に誤差逆伝播アルゴリズムがよく用いられて いるが,一回の学習量を小さく設定する必要があるため,
学習が完了するまでに多くの繰り返し学習が必要であ
る。3)
そこで,学習を高速化するための最適条件について解析 し,.これらの結果をもとに高速化学習の方法について検討
したσ
2.学習条件の最適化 2.1 誤差逆伝播アルゴリズム
図1のような多層ニューラルネットワークにおいて,.誤 差逆伝播アルゴリズムによる学習では順方向の信号の伝播 および逆方向への学習は次式のように求められる。
中間層(h)の出力信号Ohl
Oh,=f(Ih,1)=f(EWikh,・Oik) (1)
出力層(o)の出力信号O。m
oo.=f(Io.)=f(2wh,e.・ohl) (2)
なお;ニューロン素子の入出力特性は(3)式および図2のよ うなシグモイド関数を用いる。
1
(3)
f(x)一
1十exP(一(x十h))
hはしきい値 n回目の学習において,学習パターンXpに対する出力 信号を00m(Xp)(n)とし,それに対する教師信号をT皿(X
p)として,その誤差Ep(Xp)(n)を(4)式のように2乗誤 差で定義する。
E,(x,)〈 ) = 一ll一 ・ 2(T.(x,)一〇〇.(x.)(n))2
〈4)
誤差Ep(Xp)(n)を最小にするための学習信号δ(Xp)
(n)は
出力層から中間層への学習信号
* 情報工学科
6 o.h 1 (x p) (n)= (T.(x p) 一〇〇. (x p) (n)一) . f,
(1 O. (x p) (n))
津山高専紀要第29号 (1991)
入力
一一一一j・
.
T 一堰f
逆方向ぐ==学翫号
一一一一一j)F
出力
.
一一一一一一一j・
入力層(i)
.
〈iL一
教師信号
e〈{一一
中間層(h) 出力層(o)
・=→順方向
図1 3層ニューラルネットワークの構造
1. 0
0 5
︵×ζ ﹂50
o 入力 x
図2 ニューロンの入出力特性
5
= (T.(X .) 一〇〇. (xp) (n)) ・ oo. (x.) (n).
(1−Oo.(x,) (n))
(5)
中間層から入力層への学習信号
Oh1 i,(X,) (n)=f (Ih1 (X,))・£Wikh 1 (n)・ 60.b 1
(X.) (n)
== Oh1 (x.) (n
2 wikh 1 (n)一 o o.h 1(x .) (n)
)・ (1−Ohi (x,) (n)).
(6)
学習信号δ(Xp)(n)から各ニューロン問の結合係数W
(Xp)(n)は次のように変更する。
出力層から中間層への結合係数Wh 10m(Xp)(n+1)は
Whlom(Xp)(n+1)=Wh 1 o.(Xp)(n)十△Whiom(Xp)(n)
(7)
Awh 1 o. (x,) (n)= 7 ・ so.h 1 (x,) (n)・ oh1 (x,) (n)
(8)
中間層から入力層への結合係数wikh l(Xp)(n+1)は
Wi,h 1 (X,) (n+1)=Wikh 1 (X.) (n)十Awi,h 1 (X,) (n)
(9)
AWi,h 1 (X,) (n)= V ・ Ohl i, (X.) (n) ・Oi, (X,) (n)
(10)
ηは学習係数と呼ばれ1より充分小さい正の数にとり,繰 り返し学習を行えば任意の精度で誤差を最小にすることが できる。
しかし,ηを小さくするため学習回数が多くなる欠点が ある。また,学習のアルゴリズムからわかるように学習が ある程度進行すると誤差の減少により学習信号も小さくな りますます学習が遅くなってしまう。逆にηを大きくする と学習が振動したり,ローカルミニマムに落ち込み収束し なくなる。
そこで,次のように前回の学習量の一部を次の学習量に 加算し,学習量の変化を緩やかにするとともに学習を加速 化させる方法が一般によく用いられている。4)その場合(8),
㈲式は次のように変形させて用いる。
Aw( ) = n ・ 6 (x,) ( )・o (x,) (n) 一t一 a ・ Aw(x,) (n i)
〈11)
(但し cr<1)
ここで,αは安定化係数と呼ばれ1より小さい正の数でる。
この場合,ηをある程度大きくしてもαの項の影響で学 習の振動が起きにくくなる。しかし,逆にαの値を大きく して行くと過去の学習の影響を受け過ぎてローカルミニマ ムに陥ってしまい収束しない場合がでてくる。従ってηと αを適切な値に設定する必要がある。
2.2 学習係数nと安定化係数αの最適値の範囲 学習係数ηと安定化係数αの最適値を調べるために,
ワークステーション上にC言語によるニューラルネット ワークのシュミレータを構築し,文字認識および排他的論 理和の学習のシミュレーションを行った。シミュレーショ ンではηとαをパラメータとして学習が収束するまでの学 習回数を調べた。文字認識の場合は図3の例に示すような 3×5ドットのアルファベット20文字(A〜T)を識別さ せた。また,排他的論理和の学習は図4に示す入力と出力 の関係を学習させるものである。学習結果を図5(a),(b)
および図6(a)〜(d)に示す。いずれも5回の実験を行い その平均値を収束までの学習回数としている。
図5は安定化係数の値と収束までの学習回数の関係を示 したもので(a)は文字認識,(b)は排他的論理和の学習で ある。図5では(a),(b)ともにηが一定の場合は学習回 数とαは比例関係にありαの増加にともない直線的に学習 回数は減少している。ただし,αが1.0に近くなると収束 しない場合が出てくる。これはαが1.0またはそれ以上で は前回の学習量が常に残ってしまい適切な方向に学習が進 まないためである。
図6はαを一定とした場合のηの値に対する収束までの 学習回数の変化を表している。学習回数はηに反比例して
多層ニューラルネットワークの高速化学習法の検討 河合・谷岡
いることがわかる。
一方,図6においてη+α=K(一定)とした場合の学習 回数について見てみると,全体としてKの値が大きくなる と学習回数は減少している。しかし,Kの値が大きすぎて もあるいはαの値が1.0に近すぎても学習回数が急激に増 加または収束しない場合があり,K=1.0〜1.4程度が適切 な範囲である。
園圏』審
議回知卦6質桶悩 4000
2000
o o
学習
二.H凹
効率η
n= O・ 2 n= O・ 4 n= O. 6 n= e. s
O. 5 安定化係数α
1. 0
(b)腓他的詮理和の学習 中間層のニューロン数=8
図3 文字パターンの方 図5(b)安定化係数αと収束までの学習回数
入力 出力
X Y Z
1 0 1
0 1 1
0 0 0
1 1 0
図4 排他的論理和
顛回節齢6汐幅慨
le o o
IO O
20
0. 1
L
安定化係数α
怦鼈鼈黶怐@ α= o. 2.
?鼈鼈黶ィ( α二 〇, 4
「一一△ αコ0,6 g] α= 0・ 8 p一一Q α=0,9
一 一
K嵩0.9 j撃{,σ 自 」
DKミ1.4・
弓 †
1. 0 学習係数η
(a)文字認識 中間層のニューロン数==0
図6(a)学習係数ηと収束までの学習回数
0 0 0 1
0 0 5
戴回節糺唱S粒悦藤軽
o o
学習効率η
● ●一一一● η=0, 夏
H η= 0. 2
△一一△ η軍0.4
[レー→コ η; 0. 6 O一一一〇 η= 0, 8
O. 5 安定化係数α
1. 0
(a) 文宇認識 中間層のニューロン数=20
1000
0 0
1
叛回瓢紳e臼価悩軽
28.藍
安定化係数α
怦鼈鼈黶怐@α=0. 2
?鼈黶ィ〈 α=0. 4
「一一△ α=0. 6 mトー一口 α=0, 8 gO α=0. 9
−一 一一 K・o.9
j篭1.O j司.2
− K電α+
聰. 0 学習係数η
(b)文宰認識 中間層のニユーロン数=20
図5(a)安定化係数αと収束までの学習回数 図6(b)学習係数ηと収束までの学習回数
津山高専紀要 第29号 (1991)
裏0000
薔睾二禦
翼OOO
i 0 W.L−1 k需1ρ
』
安定化係敵α
?鼈鼈黷?@α鴇0. 4
@ α= 0. 6 mトー一口 α=0.8
@K置朕†ク k判
篭
1. 0 学習係敵n
(C)排他的論理和の掌習 中聞層のニューロン数=4
図6(c)
10000
薔睾
む =犠
1。W.正
学習係数ηと収束までの学習回数
k=1.o
ヤ
安定化係戯α・
?鼈黶ィ( α= 0・ 4.
「紬 α.=0.6
香[一一一{コ α= 0. 8 j=ぴ.噛 琴1.2
k=1
且. 0 学習係数η
(d>排他的論理和の学習 中問層のニューロン数=8
図6(d)学習係数ηと収束までの学習回数
また,文字認識の例ではK=1.0以上ではαが大きい方 が学習回数の値が小さい。逆に,K』1.0未満ではηが大 きい方が学習回数の値が小さくなっている。排他的論理和 の学習の例ではK−1.2を境にして同様の関係となってい る。従って,KはK≧1.0(またはK≧1.2)としαをα<
0.9の範囲で大きくして行けば収束までの学習回数の値を 小さくできることがわかる。
これらの結果より,K=1.O〜1.4の範囲でη<α<0.9 の条件が収束までの学習回数の値が小さくなる良好な範囲 と言える。
2.3 中間層のニューロン数
多層ニューラルネットワークの場合,中間層のニューロ ン数を増やすと収束までの学習回数も減少することがこれ
までの実験で確かめられている。5) 6)そして,中間層の ニューロン数がある値までは急激に学習回数も減少する が,その値を過ぎると変化が緩やかになり,この時のニュー ロン数が学習速度から見た場合の最適値となる。
図7に文字認識の場合の中間層のニューロン数に対する 収束までの学習回数の変化を示す。9×11ドットの文字 パターンに対する実験結果は文献(6)の結果を書き直したも のである。図7の文字認識のシミュレーション.ではニュー ロン数10〜20の範囲に最適なニューロン数があること がわかる。
1000
O O 1
癒回臨卦eP幅催軽
2 0
1
3×5ドツト ナ=0. 2 ソ需0. 8 怦鼈黶怐@20文字 XXI星ドツト
ナ=0. 25 ソ= 0. 8
「一一△ 且0文字 香[一ロ 26文字
10中問層のニューロン数
100
図7 中間層のニューロン数と収束までの学習回数
3.高速化学習法の検討
3.1 安定化係数αを増加させる方法
誤差逆伝播学習アルゴリズムでは,学習の進行にともな い誤差が小さくなってくると(5),(6)式における学習信号δ も減少し,後半の学習速度が遅くなる。従って,この部分 の学習をより加速化すれば学習は速くなる。
2.2節で述べたように,η+α=Kを1.0以上としα をη<α<0.9の範囲で大きい値に取った場合,収束まで の学習回数の値を小さくすることができるが,図6の(a),
(b)のα=0,8あるいはcr ==o.9の場合をみると,ηの値に より学習回数が増加する場合が出てくることがわかる。こ れは学習の方向が定まっていない初期の段階の学習信号が
⑳式のαの項により,その後の学習に大きく影響し過ぎた ためと考えられる。
このような状態を緩和するには,初期の学習ではαをや や小さく設定し,学習の進行に合わせて徐々にαを大きく する方法が有効と考えられる。図8は誤差の減少にともな い直線的にαを増加させた場合の学習回数と働式で表され る平均誤差AEpの関係を示したものである。αの値を固
多層ニュ ラルネットワークの高速化学習法の検討 河合・谷岡
刑した場合に比べ後半の学習がさらに加速化されているの がわかる。
誤差Ep 平均誤差AEp=
(12)
出力層のニューロン数
X lo−i
2
1
︒国く網路齪叶
o o
O一一一〇 α=0.6固定
v=O. 6 H a=O. 6NO. 8 n=O. 6
50
学習回数
10 0 且5 0
図8 学習に伴いαを変えた場合の学習回数と平均誤差 AEp
3.2 ニューロンの特性関数の傾きを増加させる方法 ニューロンの特性関数であるシグモイド関数の傾きとし
てθ. 考え,この場合のシグモイド関数を⑯式に示す。
1
f(X)=S,A hf /. ,i (13)
1十eXP(一(θ・x十h))
θは傾き hはしきい値 これまでの実験ではθ ・=1.Oとしてシミュレーションを 行ってきたが,このθを大きくすると入力の変化に対しよ
り敏感な出力特性となる。図9のAはシグモイド関数の傾 きθを大きくした場合の収束までの学習回数を調べたもの である。なお,誤差に対する学習信号は(5),(6)式により従 来のまま計算した。
loeo
0 0
1
鐵回即朴eゆ価怯軽
(}一一〇A(θを固定値で学習)
怦鼈黶怩a(θを学習に伴いLo〜
@ θ旧猟まで変えて学習)
カ字認識(h率20>
ナ=0、 2 α=0.8
B A
図9のAでは,θ==・2.0までは学習回数は減少するがそ れ以上では学習回数が急激に増加している。これは入出力 特性が敏感過ぎて,初期の学習で最適な結合へ向けての方 向付けが充分でき.ないまま最終的にローカルミニマムに落 ち込んだものと思われる。
これを回避するには,学習がある程度すすんだ時点でθ を大きくすればよいと考えられる。図9のBは誤差が減少 するのにあわせてθを直線的に大きくする方法で学習させ た場合の結果である。なおθの初期値はi.0として,学習 の進行によりθmaxまで増加させている。θmax=4.0で 最小の学習回数となっている。
3.3 αおよびeを学習にともない増加させる方法 上記の3.1.,3.2で確認した高速化の方法を両方取
り入れた学習法(以下『新学習法』)で文字認識,排他的論 理和の学習のシミュレーション実験を行った。学習時の条 件は次の通りである。
条件
20
0. 1 1. 0 10. 0
シグモイド関数の傾き θ またはemax
図9 シグモイド関数の傾きθまたはθmaxと収束まで の学習回数
K=1.O〜1.2(学習時に増加)
7 =O.4
α =O.6〜O,8(学習時に増加)
θ ・・1.O〜3.0(学習時に増加)
中間層のニューロン数
文字認識 一一一一一一一20 排他的論理和の学習 一一4 収束時の平均誤差AEp<0.00125
新学習法による学習結果を従来学習法と比較しながら表1 および表2に示す。また,図10の(a),(b)に平均誤差 AEpの変化を従来学習法の場合と比較しながら示す。
表1 文字認識における新学習法と 従来学習法の比較
収束までの学習回数 実験No 1 2 3 4 5 平均 従来学習法 72 71 72 79 78 74.4 新学習法 58 59 55 58 58 57.6
学習回数(新学習法)
学習回数(従来学習法) 0,774 中間層のニューロン数=20
従来学習法の条件
V :==O.4 a =:O.8 e ==1.o
新学習法の条件
n ==o.4 a =o.6−O.8 e =1.o−3.o
これらの結果より,新学習法では従来学習法に比べ77.4
〜42.5%の学習回数で学習が収束していることがわかる。
言い替えれば新学習法により従来学習法に比べ1.29−2.35 倍に学習が高速化されたと言える。
津山高専紀要第29号 (1991)
表2 排他的論理和の学習における 新学習法と従来学習法の比較 収束までの学習回数 実験No 1 2 3 4 5 平均 従来学習法 842 788 943 762 711 809.2
新学習法 307 298 274 413 429 344
学習回数(新学習法)
学習回数(従来学習法) 0,425 中間層のニューロン数=4
X 正0曽2
2
1
店口く網覇紐時
o o
従来学習法の条件 n=o.4
a ==O.8 e =1.o
新学習法の条件 7 =O.4
cr = O.6一一〇.8
e=1.o−3.o
50
学習回数 100 15 0 (a)文字認識 中間層のニューロン数=20
図10(a)新学習法と従来学習法による学習回数と平均誤差
AEpの比較
X lO−3
且. 0
獣澤
O, 5
o
学習回数 500
(b>排他的論理和の学習 中間層のニューロン数=4
図10(b)新学習法と従来学習法による学習回数と平均誤差
AEpの比較
4.ま と め
多層ニューラルネットワークの高速化学習について,学 習時の最適条件の解析と高速化の手法について検討を行っ
た。
その結果をまとめると次のようになる。
(1)学習を高速化するための学習係数ηおよび安定化係数α
の最適範囲は次の通りである。
(a)η+α=K(一定)として
K =1.0一一一1.4
(b) 7〈a〈O.9 (O.5〈a〈O.9)
②中間層のニューロン数については問題により最適値が変 わるので定量的に特定できなかった。
(3)高速化学習の方法として,次の2点を取り入れた新学習 法により高速化が実現できた。
(a)安定化係数αを変化させる
学習時,誤差の減少にともない直線的に安定化係数α を上記(1)の最適条件の範囲で増加させ,後半における 学習を加速化する。
(b)ニューロンの特性関数の傾きθを変化させる 学習時,誤差の減少にともない直線的にシグモイド関 数の傾きθを増加させ,後半における学習を加速化す る。ただし,θの最大値はθ皿。。≦4.0である
そして,(3)の新学習法を使うことにより,従来学習法に比 べ1.29〜2.35倍の高速化ができることが確認できた。
なお,今回は文字認識,排他的論理和の学習において高 速化を確認したが,他の問題に対しても高速化の効果があ るかどうか確認が必要である。また,この新学習法は学習 の後半部分での高速化を行った.ものであるので,学習の高 速化により収束までの学習回数の値が相対的に小さくなっ てくれば,今後は初期から前半における学習の高速化の検 討が必要となってくる。
文
献
1)甘利俊一:神経計算学の勃興,bit,Vol.120No.2
(1988), 4−8
2)稲葉則男:ニューラルネットをパターン認識,信号処理,
.知識処理に使う,日経エレクトロニクス,No.427
(1987.8.10), 115−124
3)D.E.ラメルハート, J.L.マクレランド, PDPリサー チグループ:PDPモデル 認知科学とニューロン回路 網の探索,産業図書,(1989)
4)麻生英樹:ニューラルネットワー一一ク情報処理,産業図書,
(1988)
5)河合雅弘,谷岡守:多層ニューラルネットワークにおけ る学習過程について,津山工業高等専門学校紀要,
No.27 (1989)
6)河合雅弘,谷岡守:多層ニューラルネットワークの学習 過程における中間層の影響について,津山工業高等専門 学校紀要,No.28(1990)