EBP― EWLS学
習 ア ル ゴ リ ズ ム の 応 用
∼ 正 弦 関 数 と文 字 認 識 ∼
山本祥弘・坂本和洋
*】。松 田直樹
*1高塚峰人キ
1・奥谷拓生・
2.福
本壮志キ
3知能情報工学科
B工1鳥取大学大学院
■
2松江計算 セ ンター・・
3富士通関西通信 システム
ApplicatiOns of the EBP‐
EWLS Learning Algorithm
∼ SinusoidaI Function and Literal Recognitions∼
Yoshi
ro YAMAMOTO, KazuhiЮ SAKAWIOTO
Ⅲl, Naoki MATSUDA*】
Mineto TAKATSUKA・
1, Takuo OKUTANIキ
2 and TSuyoshi FtlKL「MOTO学
3Department of hfolmation and Knowledge Engineeing,Faculty of亭 4gineeing Toiori University,Tottori,680-8552 Japan
E―mail yamamoto@ike,tOtto
―
u.ac.jp*l Graduate School of Engineeing,TottOri University,680… 8552,Japan *2 Mttsue Computing Center,ふ 江atsue,Shi:nane,690-0835 Japan *3 F itsu Kanstt Communic on Systems,Suita,Osaka,565-0816 Japan
Absttact:A ncw crЮ r back propagation(EBP)lcarning algOrithm proposcd by hc authors is a mchod to assign a rlcitious tcachcr signal for cach output Of hiddcn units by an crror back propagation mcthod Many mcthods can bo considcrcd for updaing thc wcight paramctcrs Thc E8P‐ EWLS algorithm using an cxponcntial wcightcd lcast squarcs(EWLS)mcthod fOr hc
wcight corrcctions is oxarincd by thc cxamplcs of thc sinusoidal Function lcarning and thc pattcrn rCcognition of Arabic numerals
Kcy wordtt ErroF baCk pЮpagatiOn,Lcarntig algorithm,Mulllaycr ncurai nctwork,Exponcnially wcightcd lcast squarcs mcthod,
Sinusoidai function,Litcral FCCognitiOns
1.は じめ に 階層型ニ ュー ラルネ ッ トワーク
(NN)に
対す る 教 師あ り学習 アル ゴ リズム と しては誤差逆伝搬法(BP法
)[1]およびその拡張である慣性項を用 いた B P tt12]を始 め と して非常 に多 くの提案[3]∼[5] がな されている。 しか し、BP法
には多 くの欠陥 が指摘 されてお り、その改良に多 くの努力が払わ れてい るが、勾配法 によるBP法
を基 に した改良 では、限界が あると思われ る。そこで、筆者 らは この勾配法か ら脱却 した新 しい学習アル ゴ リズム [6]∼ [10]を提案 して きた。 これ は最小二乗法 によ る解であ り、 この流れは、適応制御の適応 アル ゴ リズムの歴史 とまさに一致す る。すなわち、適応 制御 において も初期 の頃には勾配法が その適応ア ル ゴ リズムに用 い られていたが、勾配法ゆえに派 生す る局所性 の問題か ら脱皮す る一連の研究を経 て、現在では、最小二乗法 によるアルゴ リズムが 知 られてい る[11]。 問題 は、 どの よ うに最小二乗 法 を適用す るかである。 提案す る方法 は次 の二つか ら構成 され る。A)各
中間層へ の仮 の教 師信号を、NNの
出力誤 差か ら順 に決定す る(誤差逆伝搬法:EBP)。
B)与
え られた仮の教 師信号 との誤差を減少(零と) す るよ うに重みパ ラメータを修正す る(最小2 乗法)。 ここで → のEBP法
によ りNNの
出力 のみな らず各 中間層の出力 に対 して も仮の教 師信号が与 え られ るので、階層型NNは
2層NNの
積み重ね と考え られる。 この結果、B)の重み修正法 には種 々の方法が考え られ る。仮の教 師信号 との誤差を 活性化関数の逆 関数を用いて重みパ ラメータの空 間で考 え ることによ りこの B)の問題 は線形 問題 とな る。そこで重みパ ラメータの現時点での推定値 か ら解 集 合 を表 す 超平 面へ の直 交射 影法 を用 い る逐 次 型 EBP‐
OP法
、 お よび任 意個 数 のデ ー タを 一 括処 理す る一括型 EBP―OP法
を提案 して きた。 しか しなが ら先 に記 した適応 制御 での最小2乗法 等 で は、解 の評価 は一括 的で あ り、 そ のパ ラメー タの更新 処理 は逐 次 的で あ る最小2乗
法 に よ るア ル ゴ リズ ムが知 られ てい る。学習 に対 して も同様 な特性 を持つ アル ゴ リズ ムが 開発 されれ ばオ ンラ イ ンで の学 習 には適切 な もの とな る。 そ こで本論 文 で は最 小2乗
法 の一つ で あ る指数 重 み付 き最小2乗
(EWLS)法を用 いたEBP―EWLSア
ル ゴ リズムを提案 し、正 弦 関数 の学 習 と文字 認識 の学 習 に応 用 した結 果 を述べ る。正 弦 関数 の学習 に関 しては す で に参 考 文 献[12]で発 表 され て い るが 、 こ こで は正 弦波 に高調 波 が加 わ った場合 の特性 を調べ て い る。 一方文字認識 に関 して はまだ基礎 的な段 階 で あ り、0∼ 9の数 字 の学 習結 果 を報告す る。
2.学
習 ア ル ゴ リズ ム の 導 出2,1ニ
ュ ー ラル ネ ッ トワー ク 本論 では、以 下 の3層NNを
考 え る。Ck=f(Zk), Zk=Wk-lT a k, (り
aに=f(yk),yK=Vk-lT b k (lb)
a kT=(1,a kT),WkT=(Wok,WkT),
百kT=(1, b kT),▼ kT=(v Ok, VkT).(lC) ここにc,bは
NNの
p次
元 出力 とn次
元入力で あ り、aは m次
元 中間層 出力 であ る。 またz,y
はそれ ぞれ出カユニ ッ ト、中間層ユニ ッ トの内部 状態を表 し、W,Vは
重みパ ラメー タを表す行列 であ り、そのサイズは適切な もの とす る。添え字 klま学習データの番号であるが、動的 システムを 対象の ときは時刻 と考えてよい。各ユニ ッ トの活 性化 関数f(・ )は連続単調増加 の非線形 関数であ り、逆 関数が存在す るもの とす る。wOkと v Okは しきい値であ り、上付きバーは しきい値を含む こ とを示 して い る。重 みパ ラメー タWと
Vの
調 整 を、dkを教 師信号(目標信号)と して、 Ek=(dК― Ck)T(dk―Ck) (2)
を最小 とす ることを 目的 とす る場合が逐次処理法 であ り、 M‐ 1 Ek=j乳(dk¬一
Ck¬)T(dk→一Ck_j) (3)
を最 小 とす る こ とを 目的 とす る場 合 が一 括 処 理 法 で あ る。 それ に対 して本 論 文 で は k‐ 1 E=1乳 ρ'(dk一j― Ck¬)T(dk¬ 一Ckコ) (4)
を最小 とす る こ とを 目的 とす る場合 を新 たに提案 す る。 これ は指数 重 み付 き最小2乗
法 と して知 ら れ て い るが、 この結 果 、評 価 は一括 的で あ リパ ラ メー タ調整 は逐 次 的であ る こ とが特徴 であ る。2.2逐
次 修 正 法 (1)式に お い てW,Vの
修 正 量 を そ れ ぞ れ ИW,
ИVと
す る。 この とき(1_2)式か ら、 ベ ク トルa に 必aの
修正 が な され、(1‐1)式よ り C ktt Zl c k=f(zkttИZk), (5a)
zk十 zl z k=(Wk二
十 ИWK_1)T(aktt Иak) (5b)
ИakT=(o,
ИakT) (5c)
となる。すなわち、z、 従 ってcの値 はWと
a の修正を受 けることにな る。逆 に、出力(5の式 の 値が(2)式を最小 にす るため、すなわち dkと 一致 す るたつ に必要在修正量 2 ckか ら、(5b)式を満 たす ИWklと
И akを 求めよ うとす るのが、日3P 学習アル ゴ リズムの考え方である。 また本方法で は、o)式 を減少 させ るのではな く、その値 をゼ ロとす るように決めるの も一つの特徴である。そ のためには、 ckttИck=dk (6)
を満たす ことであるが、 これはまた、zkttZ zk=f 1(dk) (7)
と等価である。ただ し、関数 fの 逆関数の存在を 仮定 している。以上 よ り、 (Wkェ 十zl Wk_1)T(a ktt Zl a k)=f l(dk)(8) が条件式 となる⑤ここで、塑Wは
任意であるが、 Иaに
は制 限が付 く。す なわ ち、新 しいaNk、a Nk!=a ktt zl a k (9)
は 次 の 層(lb)式に た いす る教 師信 号 の役 割 を す る こ と に な る の で 、a NKIは 非 線 形 関 数 f(・ )の値 域 に属す ることが必要 とな る。 そこでまず仮の教 師信 号 を求 め るた め に、(8)式において Иw=o
k鳥 取 大 学 工 学 部 研 究 報 告 第 29巻 とした Wk_ュ T(a ktt Zl a k)=f-1(d監) か らИ akを 決定す る。(10)式は Tzl a k=f-1(d監 )―Wk-lT a監 と表 され る。ここに(5c)式の関係 を利用 している。 (11)式の右辺 は
NNの
出力誤 差 であ り、仮 の教 師信号が 出力誤差 の逆伝搬 crrOr back pЮpagadon,
EBP)で
定 ま ることにな る。従 って この方法か ら 得 られ るアル ゴ リズムをEBPア
ル ゴ リズムと総 称 して い る。 ちなみ にBP法
と して良 く知 られて い る従来 の誤差逆伝搬法 は、 出力誤差の感度を逆 伝 搬 して い るにす ぎな い。行列Wk_Iは
一般 に正 則 でな いが フル ラ ンクを仮定す る。 この とき(11) 式 の解 を求 め る ことがで きる。この結果式(lo,(lb) それ ぞれ に教 師信号が与 え られ、二組の2層NN
問題 と して 、 重 みWと
Vの
修 正 を行 うこ とが で き る。 この とき 重 み の修 工 法 と して直 交射 影(Ortl10gollal Pttecuo■
oP)法
を用 い るのが以下のアル ゴ リズムで あ る。 [逐次 型 EBP-OP学 習 アル ゴ リズ ム] 1)И ak‐ Wk-1(WK-lTWk_1)―
leL
塑ak=(Wk_lWk_lT) lWk―
】ek
ek=f 1(dК
)―Wx―IT a k2)a Nkt=ax+zl a k
3)a Nk=H*a Nk'
4)ZIVК -1=bk(b kT bk) l e vkT e vk=f― I(a Nx) Vk-lT b k5)Vk=Vk―
二十酒Vk_1
6)辺 Wp-1=a NK(a NkT a N監 ) l ewhT e wk=f-1(dk)― Wk-lTaN監
7)Wk=Wk-1+И
wh_1 この アル ゴ リズ ムにおいて 1)の (12つ式 はp≦mの
場合 で あ り、(12b)式 はp≧mの
場合 である。 また 、(15)ぅ(17)式は現 時点のみのデータに基づ く 場 合 で あ り、直交射影法 と呼んで いる。す なわ ち (17)式は、超平面 f一'(dk)=WTak
また、蓄積された過去のデータをも利用する方法 として、正規直交化法μ]を提案 している。一方、 過去のデータを一括 して処理する方法は次節で示 す。ところで、(11)式の意味は、 a Nk∈ range(f(y)) とす ることであ る。f(y)の値域 は通常 区間で与 え られ るので、その方法 として、Hl)値
域を越えた分 をカ ッ トす る方法。 H2)f(0)を 中心 に してa NКを縮小す る方法。 の二つが考え られる。また、非線形関数 fと して、Fl)<y)=
1+exp(―
my)
(20) (10) 勒 叩
=
01) (22) を考 え る。 ただ し通常 はm=1と
す る。ol)式 は シグモイ ド関数 と呼ばれてお り、その値域は開区 間(0,1)であ る。一方(22)式は双 曲線 関数 の一つで tanhCm y/2)で あ り、その値域 は開区間(-1,1)で あ る。2,3-括
処理法 (1)式はk番
目の学習デ ータにたいす る応答を 表 してい るが、本節では、 このデータをM組
一括 して処理す ることを考え る。そのために以下の記 号 を導入す る。 (12つ (12aう (12b) (13) (14) (15o (15b) (16) (17め (17b) (18) CX=(C監, Ckキ1,。Zk=(Zk,Zk・
1,. Aに=(ak,ak+1,. , ,Ch+M_1) . ,Zk+M-1) . ,ak↓M_1) (23つ (23b) (23c) (23の (23の (24o (24b) (25)Yk=(yk,ykキ
1,...,y kttM_1) Bk=(bk, bk+ⅢⅢ . . ,bk+M-1) (19) Dk=(dk, dk+1,● . . ,d HttM_っ(23つ
上付 きバ ーが付 いたの も同様 である。 この とき、 (1)式に対応 して、 C監=f(Zk)、ZL=Wk-lTAに
, A監 =f(Yk)、Yk=V監
―】TBk
と表 され、 この ときの学習の 目的は
D監
=Ch
あるいは等価な
f 1(Dk)=Zk
(26) で ある。 この とき逐次学習アル ゴ リズム と同様 に して、以下 の結果が導かれ る。 [―括 型 EBP-OP学 習 アル ゴ リズ ム]1)p≦ mの
とき ИAk=Wk_1(Wに
一二T`Vk_1)―I E aF p≧mの
とき И Ak=(Wk一 二Wk-lT)-lWk-l E akE3k=f 1(Dk)― Wk-lTAk
2)ANkt=Aに
十И Ak3)ANk=H*ANk'
4)M≦
n+1の
とき ИVk_1=Bk(BkTBk) I Evk
M≧
n+1の
とき ZIVk二=(BkBkT) lBkEvk
Ev監=f 1(ANk) Vk―
】TBk
S)Vk=VH-1+zlVk l
6)M≦
m+1の
とき zlWk_ェ=ANk(ANkTANh) l Ewk
M≧
m+1の
とき ИWk_1=ANK(ANkTANk) 】 Ewk
E wk=f 1(Dk)― Wk―】TAk
7)Wpk=Wk-1+zl Wk_l
(19)式以下 の注意 が この場合 に も適用 され る。 ただ しこの場 合 には、行 列Bkの
フル ラ ンクを仮 定 して い る。 問題 は行 列AKの
フル ラ ンクを仮定 で きな い ことであ る。 そのために、 この フル ラ ン ク性 を満たす よ うに、学習 デ ー タの選別[13]が必 要 とな る。2.4EBP― EWLSア
ル ゴ リズ ム2.2節
で述べ た逐次型修正法 では各学習時 に その時点でのデー タのみを用 いてい るので、デー タ処 理 と して は一 般 に非効 率 で あ る。 また、 2.3節
の一 括 型 は その処 理方法 が煩雑 であ り、 ま たオ ンライ ンでの処理 には向いていない。そ こで、 両者 の利 点を兼ね備 えた もの と して、学習パ ラメ ー タの修正 に指数重み付 き最小2乗
法 を用 いる方 法を以下 に述べ る。 これは、学習の評価 に関 して は一括的であ り、学習パ ラメータの更新 は逐次的 とな っている。各学習毎 に中間層 出力 に対す る仮 の教 師信号が(12)∼ (14)式で与 え られた とす る。 この とき3層NNは
二組の2層NNか
ら構成 され るので、NNの
出力誤差 と中間層の出力誤差 に対 す る評価 を以下 の式で与 え る。 まずNNの
出力誤 差 に対 しては(4)式と等価なEwょ=ギ
乳
ρ
jew,監引
Tew,K_j ew,k=f-1(dk)―WTak*
であり、中間層出力に対 しては k‐ 1 Evょ=jttρ〕
e Lk―j ev“_, ev.k=f 1(a Nk) Vk-lT b【 を評 価 とす る。 ただ し ak*はV修
正後 の実際 の 中間層 出力 とす る。 この とき逐次型 EBP中OP学
習 アル ゴ リズム と同様 に して、以下のアル ゴ リズム が得 られ る。 (27つ (27a) (27b) (28) (29) (30の (30aう (31) (32) (33の (33a) (33b) (34) [EBP―EWLS学 習7ル
ゴ リズA]
1)」ak=Wk-1(Wk_lTWk-1)― lex
酒a監=(Wk_】Wk_lT) 】 WК―leh
eに=f 1(dk) Wk-lT a k
2)a NKt=a ktt zl a k3)a Nk=H*a Nk:
Pk_lbk
4)ИVk-1=
ρ tt b kTPk_lb L ev,kT (42al (37) (38) (39o (39a) (39b) (40) (41) (35) (36) (42b) (42c) (43) (44al (44b) (44c) (45)ev,K=f 1(aNk) Vk-lTb k
5)Vk=Vk― 二十ZI V k一 I 6)ИVk-1
Qk― 】a NkPk=生 (Pk_1_
ρPk_lbkbに
TPk-1 ρ+5kTPk_lb К ew,k 百NKTQk-l JNk Qk―l aNk aNkTQ監―
ρ十万
N【TQk―la Nk ρ 十 QК =二 (Qk_1 ρ e wk=f 1(dk) Wk-lT a Nk7)Wκ
=WK― 汁ZWk-1
4.正
弦 関数 の 学 習 本節 で は、先 に記 したEBP― EWLS学
習 ア ル ゴ リズ ムを用 いて正 弦関数 の学習を行 った結果 を述べ る。 これ は、提案す るアル ゴ リズムの有効 性 を調べ る と同時 に、学習 の特性 を調べ ることを 目的 と してい る。単 に正 弦 関数を学習 した結果 は 参 考文 献[12]に詳 し く述 べ られ てい るの で、本論 文 で は、正 弦波 に高調波が加 わ った場合の特性を 調べ てみ る。す なわ ち教 師信号 として yk=siヵ(x監 )十 監 ヵ(n xk) を考 え る。 ただ し、K=0.05,0.1,0.2,0.4お
よびn=6,12,18,24と
してい る。用 いるNNは
スヵ ラー入 出力 で あ り、種 々の中間層ユニ ッ ト数mを
試 み る。出カ ユニ ッ トの活性化 関数 は線形 であ り、 中間層 ユニ ッ トは双 曲線 関数 とす る。また、 学 習 デ ー タ と しての入力xkは閉区間[0,2π] を等 間隔 にT-1分
割 した 鳥 取 大 学 工 学 部 研 究 報 告 第 29巻 (47) た だ 学習 (48) めのテス ト誤差を(48)および(49)式でT=looと
したElおよび E10を 定義す る。以上の準備の も とで行 った種々の数値計算結果を以下に記す。た だ し、 用 い た ア ル ゴ リズ ム は 閉P‐EWLS学
習 ア ル ゴ リズムであ り、ぃ2b),(44b)式 の初期値をP0
=Qo=α
I、 α=l o9ぉ
ょび ρ=o,9と
してい る。次のTabに
1は
中間層ユエ ッ ト数m=50,T
=12,n=12,
ε=0,001の 場合 の結果である。最後の列 は学習回数を表 している。
TablttFimulatiOn ResuhiOf Sin■ ,aming
m‐
50,T‐
12.n=12.ε
=0.001 K E E0 Et E10 0,05 0,0006 0,0023 0.3779 0.2544 21 0,1 0.0005 0,0042 1,1692 0.6729 0.2 0.0008 0.0223 4.3887 2.4097 21 0.4 0.0006 0,0788 16.437 8.5114 hputtr●J.,Fig。
l The Case i n=6,k=0.1,T=20,m=50
(46) れ=器
,…
… … のT点
と し、 これ を学習点数 と呼ぶ。 し、T=lo,12,14,16,18,20と
す る。 の評価 は,kを
NNの
出力 と してE=■
甚
i(,k―
y→ 2 を最小 とす ることであ り、(47)式の入力 とそ の ときの(46)式の出力を学習データとしてぃ る。Kあ
るいはn=0の
ときの正弦関数の学 習において、学習点数が正弦波の一周期 に対 して最低7が
必要であることが文献[12]で調 べ られている。 このことは有名なサ ンプ リン グ定理か らも当然の ことである。それでは0 でないKお
よびnの
値 に対 してはNNが
何を 学習す るのかが興味の対象 となる。また学習 点数は多ければ多いほど良いのか も問題 とな る。従 って、←8)式とは別に (デ k―sip(Xk))2 等9) ]
を設定 し、学習がEお
よびEOの どちらを先 に小 さ くす るかを考える。すなわち、学習の 終了条件をE Or EO<ε
=o,001 (50)
とす る。 次 に、 学 習 結 果 の汎化 能力 をみ るた 3.ヽ4 lnput【ぃo.J 三 3 T. Σ 俸 1 一 2Tm=50
ノ/
` ・い`くく`「
1輌
側
│ノ
―――y ― ―●In+kBIn(nx) ・ ヽ 、 、 一 \ 、 ヽ ︶ ︵ \ \χ
― ― BIn+k● In(nxl ……・ ●Inこの場 合 には学習 目的で ある
Eを
打 ち切 り誤 差 0,001以 下 と して学習が終 了 してい るが、 関数全体 を 眺め ることにな る汎化能力 に対 し て は、高調 波を含 まないE10のほ うがよ り小 さ くな って いる。 その他 の場合 には、学習はEOの
値 によ り終 了す る場合 も多 々見 られ る が、汎化能力 に関 しては多 くの場合E10のほ うが小 さい場合 が多 い。Table 2は 中間層ユ ニ ッ ト数 を 25と し、他 はTable lと 同 じ条件 で ある。 この結果をTable lと 比較す ると、Table 2 Sittutttio事 _Result 2_of Sin■。aming m=2う . 1==12_ n=12_ ε=0.00 K E E0 Et E.0 0.05 0.0005 0.0016 0,2939 0.1693 0.1 0,0005 0.0040 0.9293 0,4309 0.2 0.0003 0.0184 3.9710 1.9888 0.4 0.0004 0.0723 15.742 7.8050 31 すべ て の評 価 の値が小 さ くな ってい るが、学 習 回数 は増加 してい る。 しか し、 この傾 向は 他 の例 では必ず しも正 しいわ けではないので 一般 的傾 向 とは言えない。一方、 ε=0,01と し、他 はTable lと 同 じ条件 の場合 がTable 3 Table 3 Simulttdo■_Rcsultョ_of Sin>,a―g
m=50_T=12. n=12. ε O.0 K E E0 Et E tO 0.05 0.0089 0.0139 1.6307 1.5078 19 0.1 0,0031 0.0108 1,5647 1,0396 20 0.2 0.0045 0.0327 5.5176 3.5402 20 0,4 0.0071 0.1043 19.199 11.288 20 である。 このとき評価の値がすべて悪化 して いるのは基準値 によるもので当然である。こ れ ら何れの
TabLに
おいて もKの
増加に対 し て学習はうま くい くものの、汎化能力は大き く後退 している。 このとき汎化能力を良 くす るためには学習点数の増加が必要である。さ らに種 々の場合の学習結果については文献 [14]を参照 されたい。なお、 これ らの数値結 果の一部ををグラフ化 した ものがFig,1∼ Fig.5で
ある。図中丸印(O)が学習点を表 してい る。 これ らのグラフか ら、高調波成分の学習 点における値が、正弦波のまわ りをば らつい ていれば、それ らを内挿す る形で学習結果は 正弦波を構成 している(就 Fig.1,2)。 すなわち、 学習点が偏 りな くほぼ平均零で正弦波のまわ りをば らつ いていれば、高調波を含む正弦波 の学習は、高調波を含まない正弦波によ り近 くなっていると言える。言い換えれば、NN
■ . . \ \ ツ / i・\ざノ
In,ui ra」.I ― ' ― ― ●htk●In(nXI ・・…・CinO I●a,nina polnt
Fig,3 The Case i n=2,k=0,4,T=20,m=50
Fig.4 The Case i n=18,k=
T=20,m=50
に よる学 習 は、平均 零 の雑音 を炉波す る働 きを し て い る ことにな る。 ただ し、 この ことは学習点数 に大 き く依存 す る ものであ り、 あま り大 き くし過 ぎ ると、雑音成分 の影響 を受 ける ことにな る。 あ るいは、高調 波成 分 を雑 音 と してではな く、意味 のあ る確 定信 号 と見 な され る場合 には、その高調 波 に応 じた学習 点数 の選択が必要 である。例 えば、 Fig.3は
n=2の
第2調
波 の場合 で あ り、T=20
で精度 良 く学習で きることを示 してい る。一方、 学習点 に高調 波の影響 による偏 りが あ る場合 に も それ ら学習点 を内挿す ることにな るが、学習結果 は、学 習 点か ら近似 され る最 も近 い正弦波を構成 す る ことにな る(ci Fig.4,5)。 5。 文 字 認 識 本節 で は、提案す るEBP― EWLS学
習アル ゴ リズムを用 いて、0∼ 9のアラ ビア数字の学習 を行 った結果 を述べ る。学習す る文字をTable 4 の第1行
に示す。 それぞれの文字 は 5× 5の ビッ トマ ップで表 され る。第2行
以降 は汎化能力のた め のテス トデ ータで あ り、学習データに対 して、 1∼5ビ
ッ ト反転 させ た ものであ る。従 ってNN
の入力 は25入
力 とな り、黒 のプ ロックを1,白
の プ ロ ックを0と して入力 してい る。 出力 は0∼9の
識 別 のた め に4出
力 と し、それぞれの文字を 鳥 取 大 学 工 学 部 研 究 報 告 第 29巻Table 4 Bimps of Arabic Numerals(5X
表す
10個
の25次
元入カベク トルに対 して、10個
の異なる4次
元教師信号ベ ク トルを対応 させ る。 この対応関係 に も種 々の方法が考え られ、 こ こではTおL5に
示す3パ
ター ンを採用 した。 Pattem lは2進
法 表 示 で あ り、Pattem 2は 文 献 [15]で用 い られ た もので あ る。Pattem 3が新 た に 筆者 らが考えた ものであ り、0-1の
反転度数を 多 くした ものである。以上の準備の もとに、 α=
106,ε
=0.001お よび ρ=o,3,0.6,0,9と し、重 みの初期値を(0, 1)の 乱数100通
りに対 して行 った結果をTabに 6に 記す。中間層ユニ ッ ト数はm=3∼
10,20に 対 して行 った。able 5 PattcFrlS Of Teacher
Pattem l Patten1 2 Pattern 3
0
0000
0001
0000
0001
0010
0011
20010
0100
0101
30011
1000
0001
40100
0011
0110
50101
0110
1001
60110
1100
1100
70111
1001
1010
81000
0101
1110
91001
1010
1111
°
団 興 郎 霊 凹 露
田 駆
打
団 闘 餌 盟 盟 盟
皿 蠅
2団
醐 弱 田 凹 閲
巴 蠅
3■
翻 弱 田
MlllE4
XEIMl
4■
即 田 熙 瓢 田
田 田
↓
蠅
蠅
即
鰯
即
熙
田
団
団
田
Ⅲ
田
3田
即 田 興
M田
■ 田
Tabお 6説mllltton警 躊 品 ∵ 掩Nurne』s Lae 埓 ρ
=0.3
ρ=0.6
ρ=0,9
m C A L U C A L U C A L U 10 95.3 27 ●と︵V 5 272.0 138 455 0 4 34 53.6 230 41 110,3 10 589 34 249,7 10 955 5 74 561 10 259 67 1478 10 679 39 303,7 10 997 6 92 37.8 ︵V 96 78,8 678 79 186.1 10 978 7 99 19,3 10 80 100 40,9 10 354 95 111,0 10 910 8 100 13.7 10 100 15.9 10 69 100 308 10 474 9 100 10.0 10 10 100 10.0 10 12 100 10.0 10 10 10 100 10.0 10 10 100 10.0 10 10 100 10.0 10 10 20 100 10,0 10 10 100 10.0 10 10 100 10,0 10 10 Φ)Pattem 2 ρ=0.3
ρ=0,6
p=0,9
m C A L U C A L U C A L U 4 98.5 74 149 19 280.1 41 654 9 516,0 225 891 4 59 52.1 10 251 70 85.4 10 581 58 177.5 10 790 5 76 43.2 10 220 90 99.9 10 649 69 149,8 10 871 6 93 27.6 10 119 97 54,1 10 510 87 107.3 10 730 7 100 17,7 10 240 99 19,5 10 84 99 61.0 10 906 8 100 13.8 10 120 100 16.1 10 166 100 36.8 10 619 9 100 10.0 10 12 100 10,ユ 10 14 100 10.1 10 20 10 100 10,0 10 10 100 10.0 10 10 100 10.0 10 10 20 100 10.0 10 10 100 10.0 10 10 100 10,0 10 10 (C)Patem 3 ρ=0.3
ρ=06
ρ=0,9
m C A L U C A L U C A L U 0 0 0 4 46 72.2 10 243 66 108.9 10 658 41 240.5 10 827 5 80 37,4 10 201 91 69.5 10 631 87 164,6 10 679 6 98 24.1 10 120 100 37.2 10 257 98 125.0 10 822 7 100 18.0 10 た∪ 100 25.3 10 290 100 62.1 10 579 8 100 11.7 10 17 100 12,8 10 27 100 OO 10 118 9 100 10.0 10 12 100 10.0 10 10 100 10,0 10 10 10 100 10.0 10 10 100 10.0 10 10 100 10,0 10 10 20 100 10.0 10 10 100 10,0 10 10 100 10.0 10 10 これ らの結果か ら、学習回数は中間層ユニ ッ ト 数m、 指数重み ρの値に大き く依存 していること が分か る。指数重み ρはこの問題に対 してはρ=
0.6あた りが良いようである。mの
値は10く らい は必要である。 これ らの値を適切 に選ぶと、任意 の重みの初期値か らすべて10回
の学習で収束 し ていることは大きな特徴である。BP法
は勿論の こと、EBP―
OPア
ルゴリズムでもこのような 結果は得 られていない。教師信号 に対するパター ンによる違いは、あまり大き く影響 していないが、 すべての初期値に対 して10回
で収束す るm、 あ るいは収束率が100%と
なるmを
比較すると、 Pattem 3が若千良いようである。 次に、学習 して得 られた重みを用いて、Table 4 に示すテス トデータに対する汎化能力を調べてみ た。ただ し、汎化能力の判定基準 として、NNの
出力Cの値により、鳥 取 大 学 工 学 部 研 究 報 告 第 29巻
(A)C≧ 0.7→
1、 C≦o3→
0oc≧
0.5→
1、c<o.5→
0 の2種
類 で行 った。体)の方が よ り正 しい(厳しい) 判定で あ るが、0∼ 9のどれで もない とい う判定 不 可能 な場合 を含 んでい る。 これを避 け、 とにか く何か の数字 に判定 しよ うとす るのがo)で
ある。 しか し何 れの場合 に も4次
元 出カ ベ ク トル には、 教 師信号ベ ク トル に含 まれない ものが あ る。 判定結果 をTable 7に示す。表 中の数字 はNN
の 出力結果であ り、誤 り判定 には薄い黒幕が掛 け て あ る。 また、数 字 の左側 の星 印(*)はぃ によ っ ては判定 されず、(B)による判定結果である。そ れで も判定不可能な ものは、 ×が記 してある。学 習する文字により大き く異なるが、全体 として、 あ る程度の汎化能力が認め られ る。テス トデータ において 同 じ1ビッ トの違 いで も、 どの1ビッ ト を反転 させ るかで結果が異な ることは当然であ る。特 に数字1, 2の
よ うに1ビッ トの違 いに対 して正 しい判定ができない理 由の一つ と して、 こ の文字認識が 5× 5の ビッ トマ ップに対 して行わ れていることが考え られ る。0∼ 9に対 して正 し く判定 した個数を Table 8に 示す。*印
のつ いたTable 8 A List of Corections Table 7 Generalization Usillg Test Nun∝ 江s
ρ=0.3 ρ
=0,6
ρ=0.9
P.1 P2 P3 Pl P2 P3 Pl P2 P3 正 17 21 17 21 17 21 コE* うと 21 うと 21 うと 21 誤 9 6 9 6 5 9 6 5 誤* 27 29 27 29 19 27 29 19のはo)によ る判定であ り、正解 も増 え るが、そ れ以上 に誤解答が増 えてい る。 これ らの結果か ら は Pahem 3が 一番良い教 師信号 であると言 え る。 一方、指数重み ρによる違いは見 られない。 この ことは、学習回数の早 さと、学習結果 による汎化 能力 とは関係がない ことを示 している。 さ らにこ の ことは、 どの学習 アル ゴ リズムを用いるか に対 して も言 えるのではないか と思われ る。また、汎 化能力 に対す る結果 は、学習で用 いた
100通
り の重みの初期値 に対す る結果の一つの例であ り、 従 って、絶対的な強 い主 張は言 えない。6
おわ りに 本論文 では、階層型ニ ュー ラルネ ッ トワークの 学習アル ゴ リズム と して新 しく開発 しているEB
P学
習 アル ゴ リズムの一つ と してEBP―
EWL
S学
習 アル ゴ リズムを提案 し、その有効性 を検討 す るた め に正 弦 関数 と0∼9の
文字認識 を行 っ た。EBP― EWLS学
習アル ゴ リズムは、従来 の逐次処理法および一括処理法 とは異 な り、学習 の評価 に関 しては一括的であ り、一方、重みの更 新 は逐次 的である。従 って、実用 的に使 い易 く、 特 に、オ ンライ ン学習 に向いている。 例題 と して用 いた正弦関数 の学習に関 しては、 非常 に高速な学習が実行 されている。特 に ここで は、高調波成分が加わった場合の学習 について検 討 した。一方、文字認識 に対 して も学習が 良好 に 行 われ ることが分か った。さ らにその汎化能力 に つ おいて も検討 した。 ここで用いた学習データは5X5の
ビッ トマ ップで表 される場合であ り、ま だ基礎的な段階である。よ り実用化を 目指 して10X10の
ビッ トマ ップに拡張 し、さらに種 々の検 討 を現在行 っている。 ここに示 した二つの例題か らも分か るように、EBP一 EWLS学
習アル ゴ リズムは指数重み最 小2乗
法を用 いているので、指数重み ρの決定が 重要である。線形 システムに対す るパ ラメータ推 定では ρの値を0,9∼ 0.95あた りが良いとされて いるが、学習問題の多 くは非線形であ り、適切な ρの値 の選択 は、 さ らに多 くの例題か ら決定 され なければな らない。現時点では、 ρの値は学習デ ータの長 さに比例す ることは確かなようである。 参 考文献1)D.E.Rllmelllart and J.L.ヽ こcClemalld Eds.I Pamllel
Distibuted PЮcessing,Vol l,MIT Press, 1986
2)RA.Jacobs:I“reased Rates of CoⅣ ergcnce through Learlullg Rate Adaptation,Newal
Nettorks,1,pp295‐ 307,1988
3)石
川 :忘却 を 用 い た コネ ク シ ョニ ス トモ デ ル の構 造 学 習 アル ゴ リズ ム、 人 工 知 能 学 会 誌 、5巻
,5号,pp595‐603,1991.4)渡
辺 他 :学 習係数の道応調整 によるニ ュー ラルネ ッ トワー ク学習の高速化、計測 自動制 御学会論文集、30巻,9号
,pp1093‐1099,1994. 5)A.J.Sllepllerd i Sccond‐ Order Metllods for NeumlNettorks,sp llgeL 1996.
6)山
本 :ニ ュー ロ回路の学習規貝」と適応 アル ゴ リズム、システム制御情報学会論文誌、7巻
タ 12号,pp47‐49,1994.7)山
本 :多層ニ ュー ロ回路の新 しい誤差逆伝搬 法 とその代数学 的性質 、 システム制御情報学 会論文誌、9巻
,5号
,ppl‐9,19968)山
本 :正 規直交化法 による多層 ニ ューラルネ ッ トワークの学習 アル ゴ リズム、 システ ム制 御情報学会論文誌、9巻
,10号,pp33‐39,1996.9)山
本、坂本 :指 数重み付 き最小2乗
法 によるEBP学
習アル ゴ リズム、第8回
計沢」自動制 御学会 中国支部 学術講 演会論 文集 、pp26-27, 1997. 山本、松 田:EBP― EWLS学
習 アル ゴ リ ズムによる論理 関数 の学習、第8回計測 自動 制御学会 中国支部学術 講 演会論 文集 、pp28‐ 29, 1997.K.J.Astrom and B.Witttllmark:Adapt e ContЮl, AddisomいWesley,1989,