－オンライン文字認識を対象として－

(1)

2004 年度卒業論文

全結合リカレントネットの応用可能性についての考察

－オンライン文字認識を対象として－

提出日 :2005 年 2 月 2 日

指導 : 山名早人助教授

早稲田大学理工学部情報学科学籍番号 : 1G01P028-5

糟谷勇児

(2)

概要

本研究では、全結合リカレントネットを用いた筆跡からの文字認識について報告する。

リカレントネットとはフィードバック結合を持つニューラルネットであり、全結合リカレントネットは、入力層へのフィードバックを除くあらゆる結合を許したモデルである。全結合リカレントネットは、脳のモデルとして信頼を得ており、これを応用すれば人工知能等の分野に貢献できると考えられる。しかし全結合リカレントネットを応用した研究は少なく、パラメータの設定法や時系列認識における性能などの応用に関する情報が十分に得られていない。そこで本研究では、全結合リカレントネットを用いたオンライン文字認識システムを通して、全結合リカレントネットの応用可能性および応用上の注意点を探ることを目的とする。オンライン文字認識というタスクを選択したのは、文字認識という課題が誰にでもわかりやすく、適度に複雑なので全結合リカレントネットの性能を評価するタスクとして適しているからである。

筆者の提案する文字認識システムでは、数字0～9の筆跡を学習させた全結合リカレントネットを用いて、ユーザの入力した筆跡から書かれた数字を判定する。この認識システムを東京農工大学中川研究室オンライン手書きデータベース「TUAT Nakagawa Lab.

HANDS– kuchibue_ｄ-97-06-10」の数字データ300個によって評価したところ、最大認

識率が 91％となる性能を示した。また全結合リカレントネットの様々な学習法やパラメー

タについて、認識率や学習時間の面から実験・評価を行い、これらの設定法に関する考察を行った。特に全結合リカレントネットの学習法であるBPTT（Back Propagation Through Time）に慣性項を用いることにより、学習を高速化できることを実験データから示した。

これらの成果に加えて本研究では、全結合リカレントネットを並列に用いた場合と単一に用いた場合の認識性能の差や、同じタスクをパーセプトロンを用いて行った場合の認識性能など、多角的に全結合リカレントネットの応用可能性についての考察を行った。

これらの実験の結果から、全結合リカレントネットが時系列認識に対して優れた応用可能性を持つことを示した。また全結合リカレントネットを応用する上で重要となる様々な情報を示した。

(3)

１．はじめに...4

２．関連研究...6

２２２２．．．．１１１１ニューラルネットニューラルネットニューラルネットニューラルネットとはとはとはとは...6

２２２２．．．２．２２２ニューラルネットニューラルネットニューラルネットニューラルネットののモデルののモデルモデルとモデルととと学習法学習法学習法学習法...6

２．２．１マカロックとピッツのモデル...6

２．２．２パーセプトロン...8

２．２．３パーセプトロンとパターン認識...10

２．２．４パーセプトロンの学習...11

２．２．５慣性項を用いたバックプロパゲーションの改善手法...15

２２２２．．．．３３３３リカレントネットリカレントネットリカレントネットリカレントネットとはとはとはとは...17

２２２２．．．４．４４４リカレントネットリカレントネットリカレントネットリカレントネットのののの研究研究の研究研究ののの歴史歴史歴史歴史とととと現状現状現状現状...18

２２２２．．．５．５５５オンラインオンライン文字認識オンラインオンライン文字認識文字認識文字認識とはとはとはとは...20

２２２２．．．．６６６６関連研究関連研究関連研究のまとめ関連研究のまとめのまとめのまとめ...21

３．リカレントネットのアルゴリズム...23

３３３３．．．１．１１１離散時間離散時間リカレントネット離散時間離散時間リカレントネットリカレントネットのリカレントネットのののダイナミクスダイナミクスダイナミクスダイナミクス...23

３３３３．．．２．２２２離散時間離散時間リカレントネット離散時間離散時間リカレントネットリカレントネットリカレントネットののの学習の学習学習学習...24

３．２．１ RTRL(Real Time Recurrent Learning)[25]による学習...25

３．２．２ BPTT(Back Propagation Through Time)[27]による学習...27

３３３３．．．．３３３３連続時間連続時間連続時間連続時間リカレントネットリカレントネットリカレントネットリカレントネット...29

３．３．１ Hodgikin Huxleyのモデル[5]...29

３．３．２連続型リカレントネットのダイナミクスと学習[3] ...31

４．リカレントネットを用いたオンライン文字認識システム...34

４４４４．．．．１１１１全結合リカレントネット全結合全結合全結合リカレントネットリカレントネットのリカレントネットのののオンラインオンライン文字認識オンラインオンライン文字認識文字認識文字認識システムシステムシステムへのシステムへの応用へのへの応用応用応用のののの意義意義意義意義....34

４４４４．．．２．２２２文字認識文字認識システム文字認識文字認識システムシステムのシステムののの概要概要概要...35 概要４４４４．．．．３３３３システムのシステムシステムシステムののインターフェースのインターフェースインターフェースインターフェース...37

４４４４．．．．４４４４リカレントネットリカレントネットリカレントネットのリカレントネットののの構成構成構成構成...39

４．４．１リカレントネットへの入力...39

４．４．２リカレントネットの出力...42

４．４．３リカレントネットの学習...45

４．４．４学習マスク関数の設定...46

４４４４．．．５．５５５リカレントネットリカレントネットのリカレントネットリカレントネットののの並列化並列化並列化並列化...47

５．実験...49

５５５５．．．１．１１１実験項目実験項目とその実験項目実験項目とそのとそのとその方法方法方法...49 方法５５５５．．．２．２２２学習法学習法学習法学習法にに関にに関関関するするするする実験実験実験実験...50

(4)

５．２．１各学習法における重み更新時間の比較...50

５．２．２慣性項を用いたBPTTと通常のBPTTの比較...52

５５５５．．．．３３３３パラメータパラメータパラメータパラメータ設定設定に設定設定にに関に関関関するするするする実験実験実験実験...55

５．３．１学習マスク関数の設定...56

５．３．２隠れ層ニューロンの数に関する実験...58

５．３．３サンプルの種類とサンプル数に関する実験...59

５５５５．．．４．４４４リカレントネットリカレントネットのリカレントネットリカレントネットののの並列化並列化並列化並列化...61

５５５５．．．５．５５５パーセプトロンパーセプトロンとのパーセプトロンパーセプトロンとのとの比較との比較比較比較...64

５５５５．．．．６６６６実験実験実験のまとめ実験のまとめのまとめのまとめ...66

６．まとめ...67

６６６６．．．．１１１１まとめまとめまとめまとめ...67

６６６６．．．．２２２２考察考察考察考察...67

６６６６．．．３．３３３今後今後の今後今後のの目標の目標目標目標...68

参考文献...69

(5)

１．はじめに

人間や他の生物の脳には、ニューロンと呼ばれる神経細胞を、シナプスと呼ばれる結合でつないだ神経回路網が存在する。ニューラルネットとは、この脳の中の神経回路網を、

コンピュータ上や電子回路上でモデル化したものである。ニューラルネットは脳のモデルとして完全とはいえないが、ニューラルネットを用いることでコンピュータでは難しい認識や制御などの様々なタスクを行うことが可能であることが知られている。ニューラルネットに関する研究は1940年代に始まり、1990年代には俗にニューロブームとも呼ばれる盛り上がりを見せた。しかしその後、目立って新しい改良がなされず、ニューラルネット研究は沈静化してきた感がある。そして近年、ニューラルネット研究に再び注目が集まりつつある。この理由として

・近年計算機の性能が爆発的に増大し、ほぼリアルタイムでニューラルネットの学習が出来るようになってきたこと

・ロボット市場の拡大や、高性能なゲーム機の登場によってエンターテイメントの分野では学習機械としてのニューラルネットに、期待が集まっていること

・近年、脳の研究が盛んに行われるようになり、人間の脳に関する様々な発見がなされていること

等があげられる。特に脳研究の分野で、ニューラルネットが果たす役割は大きい [5][9][23][33]。

このようなニューラルネットの現状において、ニューラルネットの応用に関する研究を行うことは重要である。この理由として

（１）応用研究はロボットやゲームなどのより高度な応用への足がかりとなること

（２）応用研究はどのような分野の研究者や、あるいは一般人にとっても目で見てわかりやすく、議論しやすいものであること

等が挙げられる。特に（２）は生物学、物理学、心理学など様々な分野をまたいだニューラルネット研究においては、重要である。

現在応用の分野で最も研究されているニューラルネットは、パーセプトロンとリカレントネットである。パーセプトロンはニューロンを層状に結合したモデルであり、リカレントネットはフィードバック結合を持つニューラルネットである。パーセプトロンは数学的取り扱いが容易であり、学習が短時間で行えるため、様々な分野に応用されている。ただし脳のモデルとして考えたときに、フィードバック結合がないなどの問題があり、実際の脳を正しく表しているとは言いがたい。そこで脳のモデル化の研究では、リカレントネットが主に用いられている[9][33]。またパーセプトロンは時系列データの処理に向いていないと考えられており、時系列処理の分野ではリカレントネットの応用研究も多数発表され、

成果を残している[4][8][13][28][31][33]。

(6)

リカレントネットには層状のモデルと、全結合のモデルがある。層状のリカレントネットはパーセプトロンにフィードバック結合を追加したモデルであり、様々な応用に用いられている。一方、全結合のリカレントネットは入力層へのフィードバックを除くあらゆる結合を考慮したモデルであり、しばしば脳のモデル化の分野において用いられている。しかし、全結合のリカレントネットを用いた応用研究は少数であり、しかも応用研究の多くはタスクが専門分野に特化されすぎていて一般性がない。そのため認識や予測などのタスクにどの程度の性能を発揮するのか、パラメータをどのように設定すると性能が向上するのか等の、応用に関する情報が十分に得られていない。全結合リカレントネットは層状リカレントネットと比較して、より生物の脳に近いモデルであり、人工知能の分野への応用が期待できるなど、様々な可能性を秘めている。これらの可能性を引き出すためには、より一般的で分かりやすいタスクをリカレントネットに行わせ、応用上の注意点や応用可能性を探っていく必要がある。

そこで本研究では、全結合リカレントネットを筆跡の時系列データからの文字認識（オンライン文字認識）に応用することで、全結合リカレントネットの応用可能性について考察することを提案する。文字認識という課題をタスクとして選んだのは、文字認識が誰にでもわかりやすく、適度に複雑なので、全結合リカレントネットの性能を評価するタスクとして適しているからである。本研究の目的は、全結合リカレントネットを用いたオンライン文字認識システムを通して、全結合リカレントネットの応用可能性および応用上の注意点を探ることである。

本稿の2章以下では構成は次の通りである。まず第 2章でニューラルネット全般に関する基本的な研究の流れについて、大まかに解説する。次に第 3 章でリカレントネットの動作と、学習のアルゴリズムについて詳しく説明する。第 4 章ではリカレントネットを用いた文字認識システムの構成法について提案する。第5章では第 4章で提案した構成法に関する実験と、その結果についてまとめる。第6章では第 5章で得た実験結果を含め、リカレントネットの応用可能性に関する考察を行う。

(7)

２．関連研究

２２

２２．．．１．１１１ニューラルネットニューラルネットニューラルネットとはニューラルネットとはとはとは

ニューラルネットとは、ニューロンという神経細胞をシナプスという結合で結ぶことによって作られた、神経回路網である。人間や動物の脳の中には、ニューロンと呼ばれる神経細胞がシナプスという結合でつながれた回路網が存在していることが知られている。また、人間や動物の脳の様々な機能は、この神経回路網によって行われていると考えられている。もし、この神経回路網が、コンピュータや電子回路で完全にモデル化できたとしたらどうなるだろう。そうなれば、人間の脳の仕組についての解明が進み、人間のような高度な知的処理を行うコンピュータを作ることが可能になるに違いない。ニューラルネット研究には、このような壮大な可能性が秘められているのである。

一般に、人間や動物の持つ実際の脳の中のニューラルネットを生体ニューラルネット、

コンピュータや電子回路でモデル化されたニューラルネットを人工ニューラルネットと呼んで区別する。ただし、本稿では主に人工ニューラルネットに絞って話をすすめるため、

単にニューラルネットというときは、人工ニューラルネットを指すものとする。

人工ニューラルネットは、生体ニューラルネットをモデル化し、あたかも電子回路のように扱ったものである。この人工ニューラルネットを構築する際に問題となるのは、ニューロンとシナプスをどのようにモデル化するのか、回路網をどのように形成するのか、ということである。ニューロンやシナプスのモデルとしては、現在までに様々なものが提案されている。また、一般にニューラルネットの回路網は、アルゴリズムによって自動で生成される。この生成操作を生物の学習にちなんでニューラルネットの学習と呼び、このアルゴリズムを学習則、あるいは学習法と呼ぶ。学習則についても、現在までに様々なものが提案され、その中には実際の脳の学習を意識したものもあれば、完全に工学的な構成となっているものもある。以下の２．２では歴史に沿って、ニューラルネットのモデルと学習法について簡単に説明する。

２２

２２．．．２．２２２ニューラルネットニューラルネットニューラルネットニューラルネットののモデルののモデルモデルモデルととと学習法と学習法学習法学習法

２．２．１マカロックとピッツのモデル

ニューラルネットの歴史は、1943年マカロック（W.S.McCulloch）とピッツ(W.H.Pitts) のモデルによって始まった。生体のニューロンは、刺激を受け、それがある閾値に達すると活動電位という電圧変化を生じる。この電圧変化がシナプスを介して、他のニューロンに伝わることにより、ニューロン同士が通信を行うことが知られている。マカロックとピッツは、ニューロンのそのような性質を、単純な回路としてモデル化した。以下の図２．

(8)

２－１は、マカロックとピッツによるニューロンのモデルである。

図２．２－１マカロックとピッツのモデル

このマカロックとピッツのモデルでは、ニューロンとシナプスの動作を単純な演算でモデル化している。生体のシナプスの結合には強さがあり、この結合が強いシナプスからの刺激にはニューロンは強く反応する。この性質をモデル化するために、マカロックとピッツのモデルでは結合重みという値を定義している。この結合重みは通常実数値

w

^{で表され、}

これと入力との積をニューロンへの刺激とする。生体のニューロンにはいくつかのシナプスがつながっていて、それぞれのシナプスから刺激を受けている。これらの刺激の和が、

ある閾値に達するとニューロンは活動電位を生成する（発火するとも言う）。

マカロックとピッツのモデルでは、これらのニューロンの動作を以下の式で定義する。

) (

, y f s

x w

s = ∑

_k _k

− ^θ =

(2-1) ここでsは刺激の総和から閾値を引いたものであるが、ニューロンの内部状態と呼ぶことにする。また

w

_kは k 番目のシナプスの結合重み、

x

_kはニューロンへの k 番目のシナプスからの入力、yはニューロンの出力、θは閾値である。また

f

は出力関数であり、当時はヘビサイドの階段関数

 



≤

= >

) 0 ( 0

) 0 ( ) 1

( x

x x

f

(2-2) がよく使われた。

このマカロックとピッツモデルでは、ニューロンへの刺激を、シナプスからの入力にシナプスの結合重みを掛け、加算したものと考える。その刺激が閾値を超えていれば 1 を出力し、そうでなければ 0 を出力する。このニューロンの出力が次のニューロンへと、シナプスを介して伝達される。マカロックとピッツのモデルを用いたニューラルネットでは、

このような単純な演算がそれぞれのニューロンで次々と行われていく。単純な演算が組み合わさって、実際に意味のある情報処理がなされていくのは、電子回路の処理と似ている。

ニューロン

シナプス次のニューロンへ

加算

w

1

w 2

w 3

x

2

x

3

) ( x

₁

w

₁

+ x

₂

w

₂

+ x

₃

w

₃

− θ f

力入

− θ 出力

x

1

(9)

実際、マカロックとピッツによりモデル化されたニューロンは、デジタル回路の一般化であると考えることが出来る。例えば以下の図２．２－２のように、結合重み

w

₁

, w

₂と閾値

θ

を設定することにより、それぞれの回路素子を形成することが出来る。

図２．２－２マカロックとピッツのモデルによる回路素子の形成

図２．２－２の左上のように

w

₁

= 1 , w

₂

= 1 , θ = 1 . 5

と設定すると、入力(1,1)に対して出力は

1、どちらかあるいは両方が0ならば出力は0となり、AND 回路を形成していることがわ

かる。同様に、図２．２－２の右上はOR回路を、左下はNOT回路を形成している。よってマカロックとピッツのモデルによるニューロンはデジタル回路素子を形成することが出来、このモデルで作られた回路網は、電子回路で可能なあらゆる処理が可能である。このようにマカロックとピッツのモデルはニューロンをあたかも電子回路のように扱うことで、

神経回路の工学的な取り扱いを簡便にした。マカロックとピッツのモデルは現在でも多くのニューラルネットにおけるニューロンのモデルとして使われている。

ただしこのモデルは、実際のニューロンの多くの機能を削ぎ落とした、荒いモデルであるという指摘もある。とはいえ、このマカロックとピッツのモデルよりも高い機能性と、

脳のモデルとしての信頼性を兼ね備えたモデルが、依然存在しないこともまた事実である。

そこでこの章では、ニューロンのモデルとして、マカロックとピッツのモデルを用いることとする。

２．２．２パーセプトロン

さて、ニューロンのモデルはマカロックとピッツによるモデルを用いるとして、それをどのように結合してニューラルネットを作るべきだろうか。ニューロンを闇雲に結合しても、意味のある回路にはならないであろう。この疑問に対するひとつの答えとして、1958 年アメリカの心理学者ローゼンブラッド（F.Rosenblatt）によりパーセプトロンが提案され

(10)

た。パーセプトロンは以下の図２．２－３のようにニューロンを層状に結合し、左側の第一層から入力を行い、右側の第 T 層から出力を行う。入力は一方通行で、必ず左から右に向かって信号が伝達される。

図２．２－３ T層のパーセプトロン

このパーセプトロンの動作（ダイナミクス）を、式で表すと以下のようになる。

) (

¹

1 0

1 ,

1 + +

= +

+

= ∑

^N ⁱ^t

=

ⁱ^t

k

t k t t ik t

i

w y y f s

s

t

=

1 , 2 , 3 ... T

i i

input

y

¹

=

(2-3)

ここで

s

_i^tはt番目の層のi番目ニューロンの内部状態、

y

_i^tはt番目の層のi番目のニューロ

ンの出力、

w

_ik^t^,^t⁺¹はt層目のi番目のニューロンからt＋１層目のk番目のニューロンへの結

合重み、

input

_iはi番目のニューロンへの外部入力である。またここでは第t層のニューロ

ンの数を

N

_t、最上位層を第T層とした。

またパーセプトロンのダイナミクス(2-3) とマカロックとピッツのモデルの式(2-1)とを比較すると、閾値 θ がなくなっていることに気づくであろう。パーセプトロンではニューロンの扱いを単純化するために、閾値 θ をシナプス結合重みのひとつとして考える。すなわち、各層の0番目のニューロンの出力を、常に1に固定しておけば

1 , 1 1

1 , 0

1 ,

1 +

= +

+

= ∑ = ∑

^N

+

ⁱ^t^t

k

t k t t ik N

k

t k t t ik t

i

w y w y w

s

t t

(2-4)

となり、この式で

w

_i^t₁^,^t⁺¹ =−

θ

_i^t⁺¹^（

θ

_i^t^は^t^層ⁱ番目のニューロンの閾値）とすればマカロックとピッツのモデル(2-1)と同じになることが分かる。

パーセプトロンは、シナプス結合重みを調整することで、第一層の入力に対して、所望

(11)

の出力を最上位層から行うことを目的とする。パーセプトロンは脳の機能が層状になっていること（例えば視覚野は第１次視覚野、第２次視覚野などいくつかの層に分かれている）

をモデル化したものである。とはいえ、もちろん実際の脳はこのように単純なものではなく、フィードバック結合（前の層に戻る結合）や自己結合（自分自身への結合）を持っていることが知られている。しかし逆に、パーセプトロンの単純さが２．２．４に述べる学習法を単純なものにし、ニューラルネットの研究を促進させたということが出来る。

２．２．３パーセプトロンとパターン認識

パーセプトロンの主な応用分野はパターン認識である。パターン認識とは、入力された画像や文字などの情報から特徴を抽出し、その入力が属するクラスに振り分ける作業である。パターン認識では、この抽出された特徴を数値化してベクトルにしたものを特徴ベクトルと呼ぶ。例えば「あ」の文字が入力されたら、その線の長さと画数から「あ」のクラスに振り分け、「い」の文字が入力されたら、線の長さと画数から「い」のクラスに振り分けるなどである。ここでは特徴ベクトルは線の長さと画数となる。

以下ではパーセプトロンを用いてこのパターン認識を行う方法を説明する。

１．あらかじめどのクラスに属するかが分かっている特長ベクトルをサンプルとして多数用意する。

２．これらのサンプルの特徴ベクトルをパーセプトロンに入力した際に、そのサンプルが属するクラスを表す出力を行うように、結合重みを調整（学習）する。クラスを表す出力とは、人間（あるいはコンピュータ）が見て、簡単にどのクラスであるか分かるような出力である。例えば「あ」ならば1、「い」ならば0などである。

３．このようにパーセプトロンを学習しておけば、学習したサンプル以外の入力であっても、学習したサンプルと近い入力であればそのサンプルと同じクラスに分類されることが期待できる。十分に多数のサンプルに対して学習を行えば、入力を高い精度でクラス分けすることが可能になる。

このようにパーセプトロンを用いれば、多数のサンプルとそれが属するクラスから、自動的に学習によって、パターン認識を行うことが可能になるのである。一般にパーセプトロンは、入力を本質的な構造に作り変え、それを基に認識を行う能力（汎化能力）に優れているといわれている。

(12)

２．２．４パーセプトロンの学習

パーセプトロンの学習とは、ある入力に対して所望の出力を行うように、結合重みや閾値を適切に調整する作業である。所望の出力とは、例えば文字「あ」の特徴を表す入力があれば１を出力し、そうでなければ 0 を出力するなどである。学習は多数の学習サンプルと、そのサンプルを入力したときの理想の出力（教師信号）を基に行う、教師あり学習である。ただし、この学習という作業を人手で行うとしたら、それは電子回路となんら変わるところがない。学習はアルゴリズム（学習則）によって自動で行いたい。

パーセプトロンが発表された当時、学習はヘブの法則やそれを応用したデルタ則によって行われていた。ヘブの法則は、発火したニューロンとその発火に貢献したニューロン（発火したニューロンに刺激を与えたニューロン）の間のシナプス結合が強まるという、実際の脳の性質をモデル化した法則である。ヘブの法則は実際の脳において、その存在が確認されており、脳のモデル化においては重要である。しかし本稿ではこれを直接使用しないため、説明は割愛させていただく。へブの法則やデルタ則については良書[6][21][32]などを参考にされたい。

このヘブの法則やデルタ則による学習によって、パーセプトロンは当時、自動で認識が出来る万能認識機であるとして注目を集めた。しかし1969年ミンスキー（M.Minsky）とパパート（S.Papert）によってパーセプトロンの限界説が指摘された。これはパーセプトロンでは、EXOR 問題（すなわち入力(1,0),(0,1)に対しては出力 1 を、入力(1,1),(0,0)に対しては出力 0 を行うように学習する問題）を解くことが出来ないなど、パーセプトロンでは非線形的な問題を解くことができないというものである。

この問題を解決する学習法であるバックプロパゲーションは、パーセプトロンの発表からおよそ30年後に、ラメルハート（D.E.Rumelhart）によって提案された。バックプロパゲーションは、脳の知見から生まれた学習則というよりは、ニューラルネットの学習を数学的な最適化問題として捉えたものである。以下ではバックプロパゲーションについて、

簡単に説明を行う。

バックプロパゲーションは、微分演算に基づくアルゴリズムであるので、マカロックとピッツのモデルにおけるニューロンのモデルを、微分可能な関数を用いたものに変更しなければいけない。一般にバックプロパゲーションにより学習を行う場合、マカロックとピッツのモデルにおける出力関数を(2-2)で定義したものから、以下のシグモイド関数に変更する。

e

x

f

₋

= +

1 ) 1

(

(2-5)

シグモイド関数のグラフは以下の図２．２－４のようになる単調増加関数である。

(13)

図２．２－４シグモイド関数

また、あるサンプルを入力したときの、k番目の出力層ニューロンの教師信号（理想の出力）

を

d

_kとする。このとき二乗誤差Ｅを、以下の式で定義する。

2 1

) 2 (

1

k T k n

k

d y

E

=

∑

−

=

(2-6)

ただし、

y

^T_kは第T層（最上位層）のk番目のニューロンの出力であり、ｎは最上位層（第 T層）のニューロンの数とした。つまり、第 T 層には

n

個のニューロンがあるということである。(2-6)式で表される二乗誤差とは、理想の出力と実際の出力の差を二乗して、全てのニューロンに対して足し合わせたものである。この二乗誤差が小さくなれば、学習サンプルを入力したときの出力は教師信号に近い値であるはずである。また二乗誤差は連続関数なので、二乗誤差が小さいときに学習サンプルと似たような入力を行うと、その学習サンプルの出力と近い出力がなされると考えられる。

よって、パーセプトロンの学習とは、シナプスの結合重みを二乗誤差が十分小さくなるように調整する事であると捕らえることができる。ここで、二乗誤差を小さくするために最急行下法を用いる。最急行下法とは、目的の関数の勾配を求め、その勾配の逆方向に変数を更新することで、関数の値を小さくしていく手法である。

(14)

図２．２－５最急行下方の概念

ここで言う勾配は、二乗誤差関数 E を偏微分することで得ることが出来る。E は入力と教師信号、結合重みの関数である。ここで入力と教師信号を固定すると、Eは結合重みの関数となる。また E は微分可能なシグモイド関数の合成関数なのでやはり微分可能である。

このためEは

w

^t_kl^,^t⁺¹により偏微分可能である。よって図２．２－５のように、二乗誤差の偏微分係数∂ ,+1

∂

t t

w

kl

E

が正ならば、負の方向

1 ,+

∂

− ∂_t_t

w

kl

α E

^{に結合重み}

w

_kl^t^,^t⁺¹を更新することにより、

Eの値を小さくすることが出来る。そこで結合重みを、以下の式で勾配の逆方向に更新する。

1 , 1

,

+ +

∂

− ∂

=

∆ _t_t

kl t

t

kl

w

w α E

(2-7)

1 , 1 , 1

,^t+ = ^t_kl^t+ +∆ ^t_kl^t+ t

kl

w w

w

(2-8)

ここで∆

w

_kl^t^,^t⁺¹は重みの更新量を表す。また

α

は学習係数といい、重みの更新量を表す正の定数である。この α は一般に小さな値であり、大きすぎると更新を行う際に、最小となる点を飛び越えてしまい、学習が進まない。

この式で結合重みを、勾配の逆方向に更新していくことで、ボールが坂を転がり落ちるように、関数をその勾配に沿って小さくしていくことが出来る。この更新を全ての学習サンプルに対して多数回繰り返すことにより、二乗誤差Eを極小（最小ではないことに注意）

に導くことが出来る。

(15)

ただしここで問題になるのは偏微分

1 ,+

∂

t t

w

kl

E

をどのように計算するかということである。

この偏微分

1 ,+

∂

t t

w

kl

E

をいきなり計算することは出来ない。これを計算するためにまず二乗誤

差Eの、各層でのニューロンの出力

y

^t_kによる偏微分

t

y

k

E

∂

∂ を求める。連鎖微分則からこの偏

微分は

∑

⁺

=

+

+ ∂

∂

= ∂

∂

∂ ¹

1

1 1 Nt

l

t k t l t l t

k

y

y y

E y

E

(2-9) となる。ここで(2-3)式より

1 , 1 1

1 , 1

) ( )

(

⁺ ⁺

= + +

= ′

 

 





∂

= ∂

∂

∂ ∑

^N ^l^t ^t^kl^t

s

t s t t t sl

k t

l

f w y f s w

y y

y

^t

(2-10)

と計算できる。また出力関数がシグモイド関数である場合は、出力関数の微分は

( 1 ( ) )

) ( )

( x f x f x

f ′ = −

(2-11) と計算できる。よって

∑

⁺ ⁺ ⁺

=

+ + +

+

=

+ + +

=

+

+ −

∂

= ∂

∂ ′

= ∂

∂

= ∂

∂

∂ ¹ ¹ ¹

1

1 , 1 1

1 1

1 , 1 1 1

1

( ) ( )( 1 ( ))

t t

t N

l

t t kl t l t

t l l N

l

t t kl t t l l N

l

t k t l t l t

k

w s f s

y f w E

s y f

E y

y y

E y

E

∑

⁺

=

+ + +

+ −

∂

= ¹ ∂

1

1 , 1 1

1

( 1 )

Nt

l

t t kl t l t

t l l

w y y y

E

(2-12)

となる。この式からt層での偏微分

t

y

k

E

∂

∂ はt+1層での偏微分 ₁

1

1 , 2 , ,

₊

+ =

∂

t t k

N y k

E

K _と

t+1層の出力

y

_l^t⁺¹、t層とt+1層の結合重み

w

_kl^t^,^t⁺¹によって求めることが出来ることがわかる。

また最上位層における偏微分は

)

(

_k^T _k

T k

d y y

E

= −

∂

∂ (2-13)

と表される。よって実際にパーセプトロンにサンプルを入力し、観測した出力と (2-12),(2-13)式によって、二乗誤差の出力による偏微分

t

y

k

E

∂

∂ を再帰的に計算することが出来

る。またこの(2-12),(2-13)から計算できる偏微分から、勾配は

t k t t l

l t

t kl

t l t l t

t kl

t m N

m t m t

t kl

y s y f

E w

y y

E w

y y

E w

E

^t

) (

¹

1 1

, 1 1 1

, 1

1 1 1

,

+ +

+ + + +

+

= +

+ ′

∂

= ∂

∂

= ∂

∂

= ∂

∂

∑

(2-14) と計算できる。この(2-14)式による勾配から式(2-7),(2-8)により多数回更新を行うことで誤差を極小化できる。以上のように最上位層の誤差を、上位の層から順に微分していき、誤差を少なくする方向に重みを更新するという一連の手法を、バックプロパゲーション（誤

(16)

差逆伝播法）という。このバックプロパゲーションによる学習は数学的に優れている。へブの法則による学習ではパーセプトロンでは、非線形の問題を解くことができなかったが、

バックプロパゲーションにより学習されたパーセプトロンでは、任意の非線形関数を近似できることが知られている。

ただし、バックプロパゲーションという学習は、実際の脳のモデルとして正しいかということについては疑問が残る。この学習を実際の脳のニューロンが行うためには、上位層での誤差を下位の層に伝播し、下位の層のニューロンでは伝播された誤差から自己の誤差を計算し、さらに下位層に伝播するという仕組みが必要である。しかし実際の脳ではそのような仕組みは発見されていない。とはいえ、微分演算などのバックプロパゲーションに必要な計算を(2-7)~(2-14)式を用いて行うのではなく、ニューラルネットの関数近似能力を用いて行うという研究[17]も発表されており、一概に脳の仕組みとしてバックプロパゲーションが存在しないとは言い切れない。

いずれにしても、バックプロパゲーションによる学習は現在ニューラルネットの学習則として、最もポピュラーなものとなっている。

２．２．５慣性項を用いたバックプロパゲーションの改善手法

バックプロパゲーションは有効な学習法であるが、学習に時間がかかることや、最適解に収束するとは限らないことなど、いろいろな問題がある。そこでバックプロパゲーションの発表以来、様々な改善手法が提案されてきた。この流れは現在も続き、様々な研究がなされている。しかし最も有名で効果的な改善手法は、慣性項を用いた学習法である。慣性項を用いた学習では、最急降下法において(2-7)式すなわち

1 , 1

,

+ +

∂

− ∂

=

∆ _t_t

kl t

t

kl

w

w α E

によって重みを更新していたところを

( ) ( ) ( ) ( )

_



 





∂ + ∂ +

∂ − + ∂

∂

− ∂

=

∆

+

− +

+ +

+

1 ...

2 1

) (

1 , 1 1

, 2 1

, 1

, 1 ,

t t kl k t

t kl t

t kl t t kl

w k E

w E k w

λ λ

λ

α

(2-15)

によって重みを更新する。

ここで∆

w

_kl^t^,^t⁺¹

( k )

^は^k回目の学習における重みの更新量、

( ) ^k

w E

t t kl

1 ,+

∂

∂ はk回目の学習におけ

る勾配であり、

λ

^は¹より小さい正の定数である。

すなわち(2-15)式による更新は、今までの更新時の勾配を古さにあわせて

λ

^{を乗じて足し}

合わせたものである。以下の図２．２－６で慣性項の効果を簡単に説明する。

(17)

図２．２－６慣性項を加えた最急行下方の概念

①の点では更新が同じ方向になされており、ここでは勾配が足しあわされていき、学習が高速に進む。②の点は極小点であり通常のバックプロパゲーションではこの極小点にはまってしまって学習が進まない。しかし、慣性項を用いると今までの勾配を足し合わせているので、この極小点を乗り越えて学習が進む。③の点では関数の値が最小になる。ただしここで、α の値と λ の値が大き過ぎると、この最小となる点も飛び越してしまい学習が収束しなくなる可能性がある。

このように慣性項を学習に用いることにより、学習が高速化され、局所的な最小点を抜けて大域的な最小点に到達することが出来るようになる。ただし α の値や λ の値が大きすぎると、逆に学習が収束しなくなるという欠点もある。また(2-15)式による更新は今までの全ての更新を記憶しておかなければならないという欠点もある。そこでさらに(2-15)式を計算すると、

( ) ( ) ( ) ( )

_









∂ + ∂ +

∂ − + ∂

∂ −

− ∂

∂

− ∂

=









∂ + ∂ +

∂ − + ∂

∂ −

− ∂

∂

− ∂

=

∆

+

− +

+ +

+

− +

+ +

+

1 ...

2 1

1 ...

2 1

) (

1 , 2 1

, 1

,

1 , 1 1

, 2 1

, 1

,

t t kl k t

t kl t

t kl

t t kl k t

t kl t

t kl

w k E

w E

w k E

w

λ λ

αλ α

λ λ

λ α α

( ) (

^, ¹

⁽ ¹ ⁾ )

1

, − ∆ −

∂

− ∂

= ₊

k w

⁺

k

w

E

_t_t

t kl t kl

λ

α

(2-16)

となり、(2-15)式での更新を前回の重みの更新だけから計算することが出来る。さらに前回

の重みの更新は、現在の結合重みと更新を一回行う前の結合重みの差分から、以下の(2-17) のように計算することが出来る。

(18)

) 2 ( )

1 ( )

1 (

^, ¹ ^, ¹

1

, − = − − −

∆

w

_kl^t^t⁺

k w

_kl^t^t⁺

k w

_kl^t^t⁺

k

(2-17) この(2-17)式を(2-16)式に代入することで、前回の更新量を記憶しておく代わりに、更新を 1回行う前の結合重みを覚えておくことでも、この慣性項を用いた学習を実装することが可能である。

２２

２２．．．３．３３３リカレントネットリカレントネットとはリカレントネットリカレントネットとはとはとは

これまで説明してきたパーセプトロンは、左から右に一方通行に信号の伝達が行われるモデルであった。これと対照的なモデルとしてリカレントニューラルネットがある。リカレントニューラルネット（以下リカレントネット）とは、フィードバック結合を持つニューラルネットである。通常の層状パーセプトロンでは、1回目に入力した情報は2回目に入力した情報に影響を与えない。しかしリカレントネットでは、情報をフィードバックすることで、1回目と2回目の入力を統合して出力を行うことが出来る。これによりリカレントネットでは、過去の入力と現在の入力を総合した情報解析、つまり時系列情報の解析が可能である。図２．３－１にパーセプトロンとリカレントネットの違いを示した。

図２．３－１層状パーセプトロン（左）とリカレントネット（右）

リカレントネットには層状のもの（エルマンネット、ジョーダンネットなど）と全結合を持つものがある（図２．３－２）。

(19)

図２．３－２層状リカレントネット（左）と全結合リカレントネット(右)

層状のリカレントネット（以下層状リカレントネットと呼ぶ）は、パーセプトロンにフィードバック結合を持たせたモデルであり、全結合を持つリカレントネット（以下全結合リカレントネットと呼ぶ）は、入力層へのフィードバックを除く全ての結合を持つモデルである。よって全結合リカレントネットは、層状のリカレントネットよりも一般化されたモデルである。層状のリカレントネットは、通常のバックプロパゲーションで学習可能であるが、全結合リカレントネットは特別な方法が必要である。学習法の詳細については３章で詳しく説明する。また全結合リカレントネットには、時間を離散的に扱ったもの（以下離散時間全結合リカレントネットと呼ぶ）と、時間を連続的に扱ったもの（以下連続時間全結合リカレントネットと呼ぶ）がある。連続時間のリカレントネットは、ニューロンの入力や出力を連続時間の関数として表現したモデルであり、実際には離散時間のモデルを細かく差分化したものとなる。よって連続時間のモデルでは計算時間と学習サンプルのデータ量が膨大となるという欠点がある。脳の研究という観点からは、連続時間のモデルが良く用いられるが、応用研究には離散時間のモデルのほうが便利である。連続時間のモデルと離散時間のモデルの詳しい関係については３章で詳しく説明する。

２２

２２．．．４．４４４リカレントネットリカレントネットのリカレントネットリカレントネットののの研究研究の研究研究のの歴史の歴史歴史歴史とととと現状現状現状現状

リカレントネットすなわちフィードバックを持ったニューラルネットという発想は、バックプロパゲーション以前から存在した。中野馨によるアソシアトロン(1969)、Hopfield によるホップフィールドネットワーク(1982)などはその有名な例である。これらのニューラルネットのモデルは歴史的にも重要であり、多くの良書で詳しく解説されている。アソシアトロンは[21]を、ホップフィールドネットワークは[6] [32][33]等を参照されたい。

バックプロパゲーションが発表されて以降、M.Jordan J.Elman [11] 等により、リカレントネットをバックプロパゲーションで学習すると言う発想が生まれた。これらのネットワークは、層状パーセプトロンに結合重みを固定したフィードバック結合を設けたもので

(20)

ある。これらの層状リカレントネットは、通常のバックプロパゲーションにより学習が可能であるため、様々な応用に用いられた。また、層状パーセプトロンにフィードバック結合を用いた様々なモデルが提案された。これらのモデルついては文献[30] にまとめられている。

このJordan、Elman等による層状のリカレントからすぐ後、すなわち80年代後期から

90 年代初頭には全結合リカレントネットの学習法である RTRL（Real Time Recurrent Learning）[25]、BPTT (Back Propagation Through Time) [27]がR.WilliamsやD.Zipser 等によって提案された。また同時期に、カルマンフィルターの理論を応用した学習法であ

るEKF（Extended Kalman Filter）[26]もWilliamsによって提案された。全結合リカレ

ントネットの学習法に関しての基礎はこの時期にほぼ完成したといえる。90 年代前半には日本でもリカレントネットは注目を集め、様々な応用や学習法に関する提案がなされた。

ただし当時はまだコンピュータの性能が高くなかったことや、リカレントネットが広く普及していなかったことにより、大規模なリカレントネットを用いた応用は行われなかった。

当時の応用としては、リカレントネットに音声の揺らぎを学習させた研究[28]や、カオス的力学起動を学習させた研究[19]等がある。

90 年代中番になると、リカレントネットの学習法が広く普及し、より専門的な応用や学習の改善手法が議論された。全結合リカレントネットを用いた例としては、脳波の解析[8]、

音声の補完[13]などが行われた。さらに同時期には、リカレントネットの学習法の拡張手法などもいくつか研究された。例えば[2]はリカレントネットの学習にアニーリング（焼きなまし法）を適用した研究である。この時期はニューロブームと重なるため、リカレントネットに関するサーベイ論文[3]なども発表されるなど、研究は盛り上がりを見せた。

90年代後半から2000年代には、リカレントネットの文字認識に関する応用もなされた。

文献[30]は層状リカレントネットに静止画を２回入力することにより、認識率を高めた研究であり、文献[31]は静止画を左からスキャンしていくことで時系列情報とみなし、層状リカレントネットに文章を認識させる研究である。これらの研究では層状リカレントネットを認識に用いており、本稿で主に議論する全結合リカレントネットは用いていない。またこの時期には、顔表情からの特徴抽出[7]、経済予測[29]、ロボットハンドの制御[34]などの多彩な応用研究がなされたが、いずれの研究も層状リカレントネットを用いていて、全結合リカレントネットを用いていない。ただしリカレントネットによる電力量予測の研究[33]

など全結合リカレントネットを用いている応用研究も存在する。全結合リカレントネットがよく用いられているのは、脳のモデル化の研究である。例えば、サッケードという反射的眼球運動のモデル化はその有名な例である[9][33]。これらの脳のモデル化は、主に連続時間のリカレントネットを用いて行われた。ただし、離散時間のリカレントネットを用いて行われた研究もあり、文献[23]では海馬のモデル化を、離散時間のリカレントネットを用いて行っている。また近年、リカレントネットの新しい学習法の提案[4]などの基礎的な研究も行われている。

(21)

このように様々な分野から注目を集めているリカレントネットではあるが、詳しい学習法を記した日本語の資料がほとんどないため、一般にとっつきが悪く難解なものとして認識されがちである。特に全結合リカレントネットは、特別な学習法が必要であるため詳細な資料が少ない。近年リカレントネットに関する確率的な学習法[23]や、リカレントネットを用いた自己組織化マップの研究[24]など、リカレントネットに関する新しい研究がなされている。これらの理解を助けるためにも、全結合リカレントネットの動作と学習を理解することは重要である。そこで３章では、リカレントネットの動作と学習に関するアルゴリズムに関して詳しく説明する。

２２

２．２．．５．５５５オンラインオンライン文字認識オンラインオンライン文字認識文字認識文字認識とはとはとはとは

オンライン文字認識とは、時系列筆跡情報から、文字を認識する手法である。一般にオンライン文字認識では時系列筆跡情報として、ペンの平面上での速度（方向を含む）、ペンのジャンプ（ペンを紙から放す動作）、筆圧などの情報を組み合わせて用いる。オンライン文字認識は静止画からの文字認識（オンライン文字認識との対比で、オフライン文字認識と呼ばれることもある）と比較して、

・書き順などの筆跡情報を考慮できること

・対象が画像でないため、データサイズが小さく、認識がすばやく出来ること

などの利点がある。近年、オンライン文字認識に関する研究が盛んに行われている [1][14][22]。これは

・パーソナルコンピュータ用のペンタブレットが安価になり、一般に普及しだしていること

・携帯ゲームやPDAなどの携帯デバイスが普及し、ユーザインターフェースとしてペンやタッチパッドが採用されるようになってきたこと

等が理由である。現在オンライン文字認識の方法として、隠れマルコフモデルを用いた方法[1][22]や辞書とのテンプレートマッチングを行う方法[14]など様々な方法が提案されている。オンライン文字認識の認識精度はいくつかの研究[1][22]において、90％以上と高精度ではあるが完璧とはいえない。今後認識率を高めるためには、新たな認識手法を開発することや、既存の手法の組み合わせで欠点を補い合うことが必要となる。

(22)

２２

２２．．．６．６６６関連研究関連研究関連研究関連研究ののののまとめまとめまとめまとめ

２．２では、ニューラルネットのモデルと、学習法に関する基本的な研究の流れについてまとめた。ニューラルネットのモデルとしては、マカロックとピッツのモデルについて詳しく説明を行い、学習法については、バックプロパゲーションについて詳しく説明を行った。これらのモデルは、本稿で考察する、リカレントネットのモデルや学習法の基礎として重要である。またバックプロパゲーションの改善手法として、慣性項を用いた学習について述べたが、この慣性項を用いた学習はリカレントネットの学習においても有効である（５．２を参照）。本稿では、全結合リカレントネットの性質について考察することが目的であるので、ニューラルネットの基礎研究としては、リカレントネットに関係のあることについてのみをまとめた。その他のより詳しいニューラルネットの研究については、良書が多数[6][21][32][33]あるので参考にされたい。

２．３ではリカレントネットの基礎的な概念についてまとめた。リカレントネットはフィードバックを持つニューラルネットであり、リカレントネットには層状のものと全結合を持つものがあることを述べた。

２．４ではリカレントネットの研究の流れについて述べた。これらの研究と本研究をリカレントネットの種類に合わせて分類すると以下の図２．６－１、表２．６－１のようになる。図２．６－１にはリカレントネット研究の全体的な分類と研究例を示し、表２．６

－１には離散時間全結合リカレントネットに関する研究例をまとめた。また現在までに、

リカレントネットについては様々な研究がなされているが、全結合リカレントネットについては研究が比較的少なく、学習法などのアルゴリズムに関して詳細に解説している文献が少ない。そこで以下３章では全結合リカレントネットのアルゴリズムについては、できるだけ詳細に解説を行った。また４章、５章ではリカレントネットを応用に関してパラメータや学習時間などを出来るだけ具体的に掲載するように心を砕いた。

２．５ではオンライン文字認識についてまとめた。オンライン文字認識は時系列筆跡情報からの文字認識であり、隠れマルコフモデルなどの手法を用いて行われている。本稿ではこのオンライン文字認識を、リカレントネットを用いて実装する。

(23)

*学習法などの基礎的な研究については省略図２．６－１リカレントネットの研究の分類

表２．６－１離散時間全結合リカレントネットの応用研究例離散時間全結合リカレントネットの応用研究例

文献提案者/提案年研究内容 [8] 福田修,辻敏夫

/ (1997)

Long-Linearized Gaussian Mixture Neural Networkとリカレントネットを組み合わせて用いて脳波を分類する研究 [15] K. Kasper,

H. Reininger H. Wust / (1996)

近傍のみとシナプス結合を持つリカレントネット（Locally Recurrent Neural network）による、発話認識の研究

[23] P. Rodriguez W.B. Levy /(2004)

ヘブの法則により学習した、離散時完全結合リカレントネットによる、海馬のモデル化の研究

[33] 須貝康雄/(2002) パーセプトロンとリカレントネットを組み合わせて、翌日

最大電力量を予測する研究

本研究糟谷勇児/(2005) 離散時間全結合リカレントネットを応用したオンライン文字認識の研究

リカレントネット研究

アソシアトロン

ホップフィールド型

バックプロパゲーションの利用

層状リカレントネット

全結合リカレントネット

離散時間型連続時間

新しい研究

エルマンネットジョーダンネット

など

[21]

[6][32]

[7][11][19][29]

[30][31][34]

[8][15][23][33]

本研究本研究本研究本研究

[9][28][33]

[10][24]

－オンライン文字認識を対象として－

2004 年度卒業論文

全結合リカレントネットの応用可能性 についての考察