Gated recurrent unit の局所安定化による勾配爆発の抑制

(1)

Gated recurrent unit の局所安定化による勾配爆発の抑制

金井関利

^†,††^a)

藤原靖宏

^†

岩村相哲

^†††

足立修一

^††

Training of Gated Recurrent Units Constrained to Locally Stable to Prevent the Gradient Exploding

Sekitoshi KANAI

^†,††a)

, Yasuhiro FUJIWARA

^†

, Sotetsu IWAMURA

^†††

, and Shuichi ADACHI

^††

あらまし本研究では，gated recurrent unit（GRU）の学習において勾配爆発を防止する学習法を提案する．

GRUは，recurrent neural network（RNN）のモデル構造の一つであり，学習させることで時系列データの処理を高精度に行うことができる．しかしRNNでは学習に使用する勾配が急激に増大する勾配爆発という現象が生じるため，その学習は困難である．この勾配爆発は学習によって状態の挙動が大きく変化する分岐を起こすときに生じるため，本研究ではGRUの状態の挙動を解析し，分岐が生じないように局所的に安定に制約した学習法を提案する．そして実験として言語と音楽のモデリングを行い，提案法が既存法より効果的に勾配爆発を防げることを示す．

キーワード機械学習，深層学習，Gated recurrent unit，非線形動的システム

1.

^{まえがき}

機械翻訳や音声認識などにおいて高精度にデータを処理できるモデルとして

recurrent neural network

（

RNN

）が注目を集めている

[1]

〜

[3]

．

RNN

はニューラルネットワークのノードの出力（あるいは中間の計算結果）を状態として次の時刻のノードの入力とすることで，時系列データの過去の情報を効率的に扱うことができる．

RNN

の学習はタスクに応じた目的関数を設定し，確率的勾配降下法（

SGD

）によってこれを最適化することで行われる．

SGD

に必要な勾配の計算はフィードフォワード型のニューラルネットワークと同様に逆誤差伝搬を用いるが，

RNN

は時刻方向の結合があるため

back propagation through time

（

BPTT

）

†NTTソフトウェアイノベーションセンタ，武蔵野市

NTT Software Innovation Center, 3–9–11 Midori-cho, Musashino-shi, 180–8585 Japan

††慶應義塾大学理工学部，横浜市

Faculty of Science and Technology, Keio University, 3–14–1 Hiyoshi, Yokohama-shi, 223–8522 Japan

†††北海道大学産学・地域協働推進機構，札幌市

Institute for the Promotion of Business-Regional Collabo- ration, Hokkaido University, North 21, West 11, Kita-ku, Sapporo-shi, 001–0021 Japan

a) E-mail: [email protected] DOI:10.14923/transinfj.2018JDP7082

と呼ばれる

RNN

を時間方向に展開した逆誤差伝搬が用いられる．

しかし，勾配の掛け合わせによる勾配消失や勾配爆発という現象により

BPTT

による

RNN

の学習は困難であることが知られている

[4], [5]

．

BPTT

は数十から数百時刻の時間方向への勾配伝搬が行われるため，

小さな勾配が何度も掛け合わされるとその勾配は非常に小さな値となる．この現象は勾配消失と呼ばれ，これが生じると

RNN

が過去の情報を学習できなくなる．

この問題を回避するために，モデルにゲート構造をもたせた

long short-term memory

（

LSTM

）が提案された

[6]

．更に精度を保ちつつ

LSTM

を簡素化した

gated recurrent unit

（

GRU

）が提案されている

[7]

．

GRU

は二つのゲートのみの簡素な構造をしているにもかかわらず，

LSTM

と同程度の精度を達成できる

[8]

．

一方，勾配爆発は勾配が非常に大きな値となる現象であり，これが生じるとパラメータが非常に大きな値となり学習が失敗してしまう．そこで勾配のノルムがあるしきい値を超えた場合に，勾配の大きさを小さくする勾配クリッピング（

gradient clipping

）が提案された

[4]

．これは簡単でタスクによらず使用できるが，

ヒューリスティックな方法なのでしきい値を試行錯誤的に調整しなければならない．

(2)

本論文では，より効果的に勾配爆発を抑制して

GRU

を学習する方法を提案する^（注1）．勾配爆発は，小さなパラメータ変化によって

RNN

の状態のダイナミックスが劇的に変化する分岐（

bifurcation

）によって生じる．そこで

GRU

のダイナミックスを解析し，分岐点の一つを明らかにする．この分岐点を回避するため，

GRU

の重み行列に制約をつけた学習法を提案し，更にそれを効率的に行う手法を考案する．

RNN

の性能評価によく用いられる言語と音楽のモデリングの実験でこれを評価し，この手法によって勾配爆発が抑えられること，精度が同等以上であることを確認した．

2.

^背 ^景

2. 1 Gated Recurrent Unit

時系列データは過去のデータの値や直近の時刻のデータに複雑に依存しており，そうした長期的なデータの傾向や短期的な変化を表現するためにはモデルは適切に過去の情報の保持，あるいは忘却をしなければならない．そこで

GRU

は過去の情報を更新ゲート，

リセットゲートと呼ばれる二つのゲートを使って調節する（図

1

）．時刻

t

における更新ゲート

z

t

∈ R

^n×¹は

z

t

= sigm( W

xz

x

t

+ W

hz

h

t−1

)

，

(1)

である．ここで

x

t

∈ R

^m×1は入力を，

h

t

∈ R

^n×1は状態を表す．

W

xz

∈ R

^n×mと

W

hz

∈ R

^n×nは重み行列であり，

sigm(·)

は要素ごとのシグモイド関数であり

sigm( x ) = 1 / (1 + exp( −x ))

である．

一方，リセットゲート

r

t

∈ R

^n×¹^は

r

t

= sigm( W

xr

x

t

+ W

hr

h

t−1

)

，

(2)

図1 GRUの概略図

（注1）：国際会議で過去に速報的に発表した論文[9]に対し，本論文は追加の実験と考察を加えてジャーナルにした正式版である．

である．ここで

W

xr

∈ R

^n×mと

W

hr

∈ R

^n×nは重み行列である．状態

h

tは

h

t

= z

t

h

t−1

+ ( 1 − z

t

) ˜ h

t，

(3)

によって更新される．ただし

1

^{は全ての要素が}

1

のベクトルであり，

は要素ごとの積を表す．式

(3)

をみると，更新ゲート

z

tが一時刻前の状態

h

t−1と要素ごとにかけられている．

z

tの要素は

0

から

1

の値をとるため，

z

tが

1

に近いと状態の更新がされず，

0

に近いと新しい状態

h ˜

tに更新される．この新しい状態の候補

h ˜

tは

h ˜

t

= tanh( W

xh

x

t

+ W

hh

( r

t

h

t−1

))

，

(4)

で計算される．ただし

tanh(·)

は要素ごとのハイパボリックタンジェントで

W

xh

∈ R

^n×mと

W

hh

∈ R

^n×n は重み行列である．式

(4)

においてもリセットゲート

r

tと

h

t−1がかけられており，同様に次の状態をどの程度，過去の状態に依存させるかを調節している．なお本研究ではバイアスは全て

0

であるものとする．状態

h

tの初期値は一般に全て

0

，

h

0

= 0

^{とする．その} ため

h

tが

0

^になると

GRU

が過去の情報を全て忘却したことに対応する．

GRU

を含む

RNN

の学習は一般に次の最適化問題となる．

min

θ

1 N

N j=1

C ( x

^(j)

, y

^(j)

; θ )

，

(5)

ここで

θ

^は

W

hhなどのモデルの全てのパラメータを並べたベクトルであり，

x

^(j)^と

y

^(j)^{はそれぞれ}

j

^番目の教師データの入力と出力である．

C ( x

^(j)

, y

^(j)

; θ )

は交差エントロピーなどの損失関数であり，

N

はデータ数である．

式

(5)

の最適化は一般に確率的勾配降下法（

SGD

）によって解かれる．

SGD

はランダムにサンプリングされたミニバッチの勾配に従ってパラメータを反復更新する．

τ

回目のパラメータ更新は

θ

^(τ⁾

= θ

^(τ−¹⁾

− η∇

θ

1 |D

τ

|

(x^(j),y^(j))∈Dτ

C

^(j)，

(6)

である．ただし

D

τ はミニバッチで

|D

τ

|

^はそのサイズを表し，

η

^は

SGD

の学習率，

C

^(j)

= C ( x

^(j)

,

y

^(j)

; θ )

である．勾配クリッピングでは勾配のノル

(3)

ム

∇

θ 1

|Dτ|

(x^(j),y^(j))∈Dτ

C(x

^(j)

, y

^(j)

; θ)

をあらかじめ指定したしきい値でクリップする．

α

^を

GRU

層以外のパラメータ数とすると，重み行列

W

h∗のサイズ

n × n

，

W

x∗のサイズ

n × m

から全パラメータ

θ

の要素数は

3( n

²

+ mn ) + α

であり，勾配クリッピングの計算量は

O(n

²

+ mn + α)

となる．

2. 2

動的システムと勾配爆発

RNN

は次の非線形な動的システム

h

t

= f ( h

t−1

, θ )

，

(7)

とみなせる．ここで

h

tは

t

^{時刻の状態ベクトルで}

θ

^はパラメータ，

f

は非線形関数である．もし状態がある時刻

t

∗において

h

t_∗

= f ( h

t_∗

, θ )

を満たすと，外部から入力が与えられない限り状態は変化せず，そうした点

h

∗は平衡点と呼ばれる．状態が平衡点

h

∗近傍で平衡点に収束するか離れるかは

f

^と

θ

^{に依存し，これは} 安定性と呼ばれる重要な特性である

[10]

．初期値

h

0が

||h

0

−h

∗

|| < ε

^{を満たすときに}

lim

_t→∞

||h

t

−h

∗

|| = 0

となるような定数

ε

が存在するとき，平衡点

h

∗は漸近安定と呼ぶ．一方，

h

∗が安定でなければ，この平衡点は不安定である．安定性や状態

h

tの平衡点近傍での振る舞いは

θ

の滑らかな変化で大きく変化する．この現象は分岐と呼ばれ，分岐を起こすパラメータ点は分岐点と呼ばれる

[10]

．

[4], [11], [12]

は分岐によって

RNN

の学習が失敗することを示した．

SGD

によってパラメータが更新され分岐点に達すると，状態の振る舞いが急激に変化する．この不連続な振る舞いの変化によって損失関数がこの点において不連続となる．その結果として分岐点で勾配が非常に大きな値となり，勾配に基づく

SGD

による学習は失敗する．

2. 3

[13]

は勾配爆発を防ぐために，

RNN

のダイナミックスを状態が安定となるように制約する学習法を提案した．一方，

[14]

はリアプノフ関数から安定となる学習率を求める学習法を提案している．しかしこれらの方法は

Jordan

型や

Elman

型の単純な

RNN

であり，

GRU

のような複雑で長期記憶可能なモデルに対して直接適用することは難しい．更に，これらの方法では平均

2

乗誤差を損失関数として仮定しているが，

我々の方法は

GRU

を対象とし損失関数に依存しない．

[11]

は

BPTT

によって分岐が生じて勾配爆発が発生することを示し，勾配爆発の起こらない

BPTT

に代わる

real-time recurrent learning

（

RTRL

）という学

習法を提案した．しかし

RTRL

は

u

を出力ユニット数とすると各反復ごとに

O((n + u)

⁴

)

という大きな計算量を必要とする

[15]

．最近では勾配爆発と勾配消失を防ぐために

RNN

の重み行列をユニタリ行列に制約する方法

[16]

が提案されているが，実問題にはこの制約が強すぎることが示されている

[17]

．

[18]

は

RNN

の再帰的な結合に対する重み行列を特異値分解後のユニタリ行列と対角行列の形でパラメータを割り当て学習させる方法を提案した．

単純な

RNN

のダイナミックスに関しては様々な解析が行われている

[19]

〜

[23]

が，

GRU

のような最近のモデルに対する解析はいまだ少ない．

[24]

は

ReLU

を使った

RNN

のダイナミックスを解析し，

[25]

は実験的に

LSTM

と

GRU

がカオス的な振る舞いを起こすことを示して安定な新しいモデルを提案している．

[26]

では

LSTM

や

GRU

の重みと状態の局所的な安定性との関係について解析されている．

後述するように本研究では

GRU

の重み行列の最大特異値（スペクトルノルム）を制約する．そのようなスペクトルノルムを制約した学習法の研究が

con- volutional neural network

などのフィードフォワード型のニューラルネットに対して行われており，このことにより画像認識の汎化性能やロバスト性の向上，

generative adversarial networks

の学習が安定することが報告されている

[27]

〜

[30]

．

3.

局所安定化による勾配爆発の抑制

2.

で述べたように分岐が勾配爆発を生じさせる．この節では

GRU

のダイナミックスの解析を通して分岐を回避し勾配爆発を防ぐ方法を提案する．

3. 1

状態を安定に制約し勾配爆発を防ぐ学習法この項では提案する学習法を特異値に関する制約付き最適化問題として定式化する．簡単のため一層の

GRU

の学習法を説明し，その後，複数層の場合に拡張する．

3. 1. 1

^一層

GRU

の学習は式

(5)

のような最適化問題として定式化されるが，前述のように

BPTT

と

SGD

を使った学習は勾配爆発を起こす．そこで勾配爆発を防ぐために一層の

GRU

の学習を次の制約付き最適化

min

θ

1 N

N j=1

C

^(j)^，

s . t . σ

1

( W

hh

) < 2

，

(8)

で行う方法を提案する．ここで

σ

i

( · )

は行列の

i

番目

(4)

に大きな特異値であり

σ

1

(·)

はスペクトルノルムと呼ばれる．式

(8)

の最適化は次の定理のように

GRU

を局所的に安定に保ち，この平衡点の安定性の変化による勾配爆発を防ぐことができる：

［定理

1

］もし

σ

1

( W

hh

) < 2

ならば，一層の

GRU

の平衡点

h

∗

= 0

^{は安定である．}

この定理は式

(8)

による学習法が平衡点

h

∗

= 0

^の安定性を変化させないことを示している．そのため提案法は

h

∗の安定性の変化による勾配爆発を起こさない．この定理を証明するため次の三つの補題を用いる^（注2）：

［補題

1

］一層の

GRU

は

h

∗

= 0

^{に平衡点をもつ．}

［補題

2

］

I

^を

n × n

^{の単位行列とし}

λ

i

( · )

を

i

^番目に絶対値の大きな固有値とし，

J =

¹₄

W

hh

+

¹₂

I

^とする．もしスペクトル半径^（注3）

|λ

1

( J ) | < 1

であるならば，入力のない一層の

GRU

は

h

t

= 0

^{近傍で次のよ} うに線形近似できる：

h

t

= Jh

t−1．

(9)

そしてこのとき平衡点

h

∗

= 0

^{は安定である．}

補題

2

は

|λ

1

(

¹₄

W

hh

+

¹₂

I ) | < 1

という条件を用いれば，平衡点の安定性を変化させないことができることを示している．この制約は固有値に対する制約であり，半正定値計画問題などで解くことも考えられるが，

制約の範囲での学習率の探索などは計算量が大きく困難である．そこで次の補題により式

(8)

のような特異値制約とする：

［補題

3

］

σ

1

( W

hh

) < 2

であるならば

|λ

1

(

¹₄

W

hh

+

1

2

I ) | < 1

が成り立つ．

補題

1

〜

3

を用いると定理

1

は次のように証明できる：

証明補題

1

より，平衡点

h

∗

= 0

が一層の

GRU

に存在する．この平衡点は補題

2

より

|λ

1

(

¹₄

W

hh

+

¹₂

I)| < 1

のとき安定であり，補題

3

より

σ

1

(W

hh

) < 2

であれば

|λ

1

(

¹₄

W

hh

+

¹₂

I ) | < 1

が成り立つ．よって

σ

1

( W

hh

) < 2

であれば，一層の

GRU

の平衡点

h

∗

= 0

は安定な平衡点である．

2

補題

1

は

1

層の

GRU

が平衡点をもつことを示し，

補題

2

はその平衡点を安定に保つ条件を示す．補題

3

は固有値に関する制約の代わりに特異値を使用できることを示し，これらの補題によって定理

1

が証明され

（注2）：本論文中の補題の証明は全て付録に示す．

（注3）：スペクトル半径とは最も大きな絶対値をもつ固有値の値である．

た．この定理は提案法が平衡点の不安定化による勾配爆発を防ぐことを示している．

提案法で注目する平衡点は

h

∗

= 0

^{である．この平} 衡点は通常，状態の初期値として設定される値であり，

2.

で説明したように

0

にリセットされることで

GRU

は完全に過去の情報を忘却する．もし

h

∗

= 0

^が安定であれば，

0

^{近傍の状態が漸近的に}

0

^{に収束する．}

これは，入力なしに十分に時間がたてば

GRU

が過去の情報を完全に忘却できることを示している．一方，

|λ

1

( J ) |

が

1

よりも大きいと

0

の平衡点は不安定となる．これは

h

tが自動的に

0

となることがなく，人為的にリセットしなければ

GRU

が過去の情報を完全に忘却できないことを示している．また

[25]

は状態が

0

に収束する安定な

RNN

のモデルが

LSTM

や

GRU

などに匹敵する性能を達成することを示しており，

GRU

を

h

∗

= 0

が安定となるように学習することは有効だと考えられる．

3. 1. 2

^多層の

GRU

提案法を多層の

GRU

に拡張する．

L

^層の

GRU

を

h

1,t

= f

¹

( h

1,t−1

, x

t

) , h

2,t

= f

²

( h

2,t−1

, h

1,t

)

，

. . . , h

L,t

= f

L

(h

L,t−1

, h

L−1,t

)

，

とする．ここで

h

l,t

∈ R

ⁿ^l^×1^は長さ

n

lの

l

^層の状態であり，

f

lは

l

層の

GRU

（式

(1)

〜

(4)

）である．一層の

GRU

と同様に

h

t

= [h

^T1,t

, . . . , h

^TL,t

]

^T

= 0

^は平衡点であり，次の補題が成り立つ．

［補題

4

］もし

l = 1 , . . . , L

^について

|λ

1

(

¹₄

W

l,hh

+

1

2

I ) | < 1

であれば，多層に接続した

GRU

の平衡点

h

∗

= 0

は安定である．

補題

3

より

σ

1

(W

l,hh

) < 2

のとき

|λ

1

(W

l,hh

+

1

2

I)| < 1

が成り立つ．そこで提案法を

min

θ

1 N

N j=1

C

^(j)

, s . t . (10)

σ

1

( W

l,hh

) < 2 , σ

1

( W

l,xh

) ≤ 2 for l = 1 , . . . , L

．とする．ここで

σ

1

( W

l,xh

) ≤ 2

という制約を加えたのは，入力によって状態が平衡点

h

∗

= 0

の吸引領域を出ないように制約するためである．上記の学習法によって多層の

GRU

を安定に保った学習ができる．

3. 2

アルゴリズム

式

(8)

の最小化問題を解くためには

{W

hh

|W

hh

∈

R

^n×n

, σ

1

( W

hh

) < 2 }

を満たす領域で解を探索しなければならない．そこで

SGD

を修正し，

(5)

θ

^(τ_−W⁾_hh

= θ

^(τ_−W⁻¹⁾_hh

− η∇

θ

C

D_τ

( θ ) ,

W

_hh^(τ⁾

= P

δ

( W

_hh^(τ−¹⁾

− η∇

Whh

C

Dτ

( θ ))

，

(11)

としてパラメータを更新する方法を提案する．ここで

C

D_τ

(θ)

は_|D¹

τ|

(x^(j),y^(j))∈Dτ

C

^(j)であり，

θ

_−W^(τ)_hh は

W

_hh^(τ⁾を除く全てのパラメータである．式

(11)

において

P

δ

( · )

は次の手順で計算する：

Step 1. W ˆ

_hh^(τ)

:= W

_hh^(τ−¹⁾

− η∇

W_hh

C

D_τ

(θ)

を特異値分解により分解する．

W ˆ

_hh^(τ⁾

= U ΣV

^．

(12) Step 2.

しきい値

2 − δ

以上の特異値をしきい値に置換する．

Σ ¯ = diag(min(σ

1

, 2 − δ), . . . , min(σ

n

, 2 − δ))

．

(13)

ここで

σ

1

, . . . , σ

nは

W ˆ

_hh^(τ⁾^{の第一特異値から第}

n

^特異値である．

Step 3. W

_hh^(τ)を

U

と

V

，

Σ ¯

により再構築する．

W

_hh^(τ⁾

← U ΣV ¯

．

(14)

この手順によって

W

hh は

2 − δ

^{以下のスペクトルノ} ルムをもつことが保証される．

δ

を

0 < δ < 2

となるように設定すれば，提案法の

σ

1

(W

hh

)

が

2

より小さいという制約が満たされる．

P

δ

(·)

は

SGD

によってパラメータが実行可能集合の外に出た場合に，実行可能集合に戻すアルゴリズムであり，次の補題に示すように実行可能集合への最適な射影である

[31]

．

［補題

5

］

P

δ

(·)

によって得られる

W

_hh^(τ⁾は最適化問題

min

W_hh^(τ)

|| W ˆ

_hh^(τ)

− W

_hh^(τ)

||

²F

, s . t . σ

1

( W

_hh^(τ)

) ≤ 2 − δ

^，の解である．ここで

|| · ||

²F はフロベニウスノルムである．

補題

5

は提案法が最小のパラメータの変化で

W

hh

を実行可能集合に戻すことを示し，

P

δ

( · )

が損失関数の最小化に最小の影響を与えることを示している．なお提案法は学習率の設定法によらず，

Adam [32]

などともに使用することも可能である．

3. 3

提案法の計算量の低減化

n

^を状態

h

tの大きさとすると，特異値分解には

O ( n

³

)

の計算量が必要である．この節では計算量の低減化を考える．まず

P

δ

( · )

の計算方法について再考す

る．式

(12)

〜

(14)

は

W

_hh^(τ⁾

= ˆ W

_hh^(τ)

−

s i=1

σ

i

( ˆ W

_hh^(τ)

) − (2 − δ )

u

i

v

i^T，

(15)

とみなすことができる．ここで

s

^は

2 − δ

^より大きな特異値の数であり，

u

iと

v

iは

i

^{番目の左右の特異} ベクトルである．式

(15)

は提案法が計算しなければならない特異値，特異ベクトルが

σ

i

( ˆ W

_hh^(τ⁾

) > 2 − δ

を満たす

s

個のみでよいことを示す．そこで計算コストを減らすため高速にトップ

s

^{の特異値，特異ベ} クトルを計算できる特異値分解

[33]

を用いる（以後，

truncated SVD

と呼ぶ）．この方法は

s

^{個の特異値を}

O ( n

²

log( s ))

時間で計算可能である．ただし事前に

s

が必要なため，

σ

i

( ˆ W

_hh^(τ)

) > 2 − δ

である特異値の数を見積もらなければならない．そこで次の補題による上限を使って

s

^{を効率的に見積もる．}

［補題

6

］

W ˆ

_hh^(τ)^{の特異値は}

σ

i

( ˆ W

_hh^(τ)

) ≤ σ

i

( W

_hh^(τ⁻¹⁾

)+

|η|||∇

Whh

C

D_τ

( θ ) ||

F によって上から抑えられる．

この上界を使うことにより，更新前のパラメータの特異値と勾配がわかれば，

2 − δ

より大きな特異値の数

s

の値を推定できる．なおこの上界の計算量は

∇

Whh

C

D_τ

( θ )

のサイズが

n × n

^であり，

τ

ステップで

σ

i

( W

_hh^(τ−¹⁾

)

が既に得られているため，

O(n

²

)

である．もし

τ − K

ステップから

τ − 1

ステップまで過去の特異値を計算しなかった場合は，

σ

i

( W

_hh^(τ−K−¹⁾

) +

_K

k=0

|η|||∇

Whh

C

D_τ−k

( θ ) ||

F

として

σ

i

( ˆ W

_hh^(τ)

)

の上界を計算する．なお，もともとの制約が

σ

1

( W

_hh^(τ⁾

) < 2

であることから，

s

を

σ

i

( ˆ W

_hh^(τ)

) > 2 − δ

の代わりに

σ

i

( ˆ W

_hh^(τ)

) ≥ 2

を満たす特異値の数とすると更に速度を向上できる．以上より提案法は毎ステップ

O ( n

²

)

で

s

^{の大きさを見積} もる．そして

s

^が

1

以上のときだけ，

O ( n

²

log( s ))

の計算量で特異値分解を行う．

4.

^実 ^験

4. 1

実験条件

提案法を評価するため，言語モデリングの実験と音楽のモデリングの実験を行った．

GRU

を学習させ，学習の成功率と検証データに対する損失の平均と分散を評価した．学習の成功は，初期化したモデルに対する検証損失を各エポック終了後の検証損失が一度も超えることなく全エポック終了することとした．各実験条件は以下のとおりである．

(6)

4. 1. 1 Language modeling

本実験では

Penn Treebank

（

PTB

）

[34]

と

WikiText-2 dataset

（

WT2

）

[35]

という二つのデータセットを用いて言語モデリングの実験を行った．これらのデータセットは

RNN

の性能評価に広く用いられている．

PTB

は

training

と

validation

，

test

セットにわかれ，それぞれ約

930k

，

74k

，

80k

単語である．語彙数は

10k

とし，語彙にない単語については特別な単語

< UNK >

^{を割り当てた．一方，}

WT2

は

training

が約

2100k

単語，

validation

が

220k

単語，そして

test

が

250k

単語からなり，語彙数は

33,278

単語である．

実験条件は既存研究の

[36]

をもとに設定した．モデルの一層目を

650 × 10 , 000

のバイアスなしの線形層

（

embedding layer

）とした．提案法で入力が大きすぎると平衡点近傍から状態が離れてしまうことが考えられるので一層の出力に

0.01

倍した．次の層は

650

ユニットの

GRU

層とし，出力にソフトマックス関数を用いた．

50%

のドロップアウトを

GRU

の再帰的な結合を除く各層に適用した

[36]

．学習には予備実験において

Adam

と

RMSprop

の性能が

SGD

に劣ったため，

SGD

を用いた．

まず重み行列の初期化として

W

hhを除く全ての行列を正規分布

N (0 , 1 / 650)

から生成した．

W

hh は乱数生成した行列を特異値分解し，得られた特異ベクトルを用いることで直交行列となるように初期化した

[7], [37]

．ミニバッチの大きさを

20

，

SGD

の学習率は

1

とし，最初の

10

エポックの後は毎ステップ

1.1

で除算して

75

エポックまで学習させた．なお学習時には再帰的な結合の途中で逆誤差伝搬を打ち切る

trun- cated BPTT

を使用し，

35

時間ステップで打ち切った．

提案法において

δ

を

[0.2, 0.5, 0.8, 1.1, 1.4]

としてそれぞれ学習させ，一方，勾配クリッピングでは

[4]

の勾配のノルムの平均に注目するというヒューリスティクスに従って平均を調べたところ

PTB

が約

10

，

WT2

が約

7

であったので，それをもとに

PTB

ではしきい値を

[5, 10, 15, 20]

，

WT2

では

[3.5, 7.0, 10.5, 14]

とした．各エポックの後に

validation

データに対する損失（以後，

validation loss

と呼ぶ）を評価し，

75

エポックの間で最も小さな

validation loss

となったモデルを用いて

test

データで評価した．

4. 1. 2 Polyphonic Music Modeling

この実験では，音楽の

MIDI

データに対して過去のノート番号から次に出てくるノート番号を予測する実験を行った．なお言語モデリングと異なりノート番号

は各時刻で複数出力される．データセットには

1200

のフォーク音楽で構成される

Nottingham

データセット

[38]

を用いた．なおデータセットは

PTB

と同様に

training

と

validation

，

test

セットに分かれる．実験条件は

[8]

をもとに設定した．各時刻のノート番号を

93

次元のバイナリベクトルで表現した．モデルの一層目をバイアスなしの

200 × 93

の線形層（

embedding layer

）とし，言語モデルと同様に出力を

0.01

倍した．

2

層と

3

層を

200

ユニットの

GRU

層とし，出力はロジスティック関数とした．

50%

のドロップアウトを

GRU

の再帰的な結合をのぞく各層に適用した．

学習は言語モデルと同様に

SGD

を使用し，初期化は

W

hhを除く全ての行列を正規分布

N (0 , 10

⁻⁴

/ 200)

から生成し，

W

hhは同様の手順で直交行列となるように初期化した．ミニバッチの大きさを

20

，

BPTT

の打ち切りを

35

とし，

SGD

の学習率は

0.1

として

10

エポック連続して

validation loss

の低下がみられないとき

1.25

で除算した．この手順で学習率が

10

⁻⁴以下となるまで学習させた．提案法は

δ

^を

[0 . 2 , 0 . 5 , 0 . 8 , 1 . 1 , 1 . 4]

とし，勾配クリッピングは勾配のノルムの平均が約

30

であったため

[15, 30, 45, 60]

とした．各エポックの後に

validation

データに対する損失（以後，

validation loss

と呼ぶ）を評価し，最も小さな

validation loss

となったモデルを用いて

test

データで評価した．

4. 2

成功率と精度

表

1

と

2

に言語モデルと音楽モデル，それぞれの学習成功率と

validation

データと

test

データに対する損失の平均と標準偏差を示す．

表

1

より，言語モデリングにおいて勾配クリッピングは勾配のノルムの平均

10

（

PTB

）や

7

（

WT2

）にしきい値を設定しても学習が失敗していることがわかる．しきい値を平均の

0.5

倍とすることで学習は成功するが，

PTB

の場合，しきい値を平均とした結果より

perplexity

が大きくなった．表

2

の音楽のモデリングでは勾配クリッピングにより学習が失敗していないが，しきい値を

60

に設定すると非常に標準偏差が大きい．一方，提案法は言語データで学習が失敗しておらず，

perplexity

，負の対数ゆう度ともに勾配クリッピングよりも小さい．提案法において制約により解空間が小さくなっているにもかかわらず

GRU

の性能が向上したのは状態が安定であるためと考えられる．例えば

[39]

において安定化した

RNN

が複数のタスクで性能が向上することが示されている．また

[5]

では安定な平衡点近傍に状態があるとき，ノイズに対してロバ

(7)

表1 言語モデルの結果：成功率とperplexity．上段はPTBの結果，下段はWT2の結果でありValid.はValidationを表す．

提案法勾配クリッピング

δ 0.2 0.5 0.8 1.1 1.4 しきい値 5 10 15 20

学習成功率 100% 100% 100% 100% 100% 学習成功率 100% 40% 0% 0%

Valid. Loss 102.0±0.3 102.8±0.3 103.7±0.2 105.2±0.2 107.0±0.4 Valid. Loss 109.3±0.4 103.1±0.4 N/A N/A Test Loss 97.6±0.4 98.4±0.3 99.0±0.4 100.3±0.2 102.1±0.2 Test Loss 106.9±0.4 100.4±0.5 N/A N/A

δ 0.2 0.5 0.8 1.1 1.4 しきい値 3.5 7 10.5 14

学習成功率 100% 100% 100% 100% 100% 学習成功率 100% 0% 0% 0%

Valid. Loss 130.4±0.7 130.9±0.9 132.0±0.4 134.0±0.6 135.0±0.6 Valid. Loss 140±1 N/A N/A N/A Test Loss 121.6±0.5 122.0±0.5 123.0±0.8 124.1±0.6 124.9±0.2 Test Loss 134±1 N/A N/A N/A

表2 音楽データのモデリング結果：学習成功率と負の対数ゆう度

提案法勾配クリッピング

δ 0.2 0.5 0.8 1.1 1.4 しきい値 15 30 45 60

学習成功率 100% 100% 100% 100% 100% 学習成功率 100% 100% 100% 100%

Validation Loss 3.46±0.05 3.47±0.07 3.59±0.1 4.58±0.2 4.64±0.2 Validation Loss 3.57±0.01 3.61±0.2 3.88±0.2 5.26±3 Test Loss 3.53±0.04 3.53±0.04 3.64±0.2 4.56±0.2 4.62±0.2 Test Loss 3.64±0.04 3.64±0.2 3.89±0.2 5.36±3

ストになることが指摘されており，

GRU

の

LSTM

に対する優位点であるノイズにロバストという利点

[40]

が提案法により強調されたと考えられる．

4. 3 δ

の大きさと状態の収束

表

2

より，

δ

^を

1.1

あるいは

1.4

に設定すると

GRU

の性能が落ちる．これは

δ

が大きいほど状態の平衡点への収束速度が上がり長期的な依存関係を捉えられなくなるためと考えられる．提案法において

W

hhのスペクトルノルムは

2 − δ

以下である．これはスペクトル半径

|λ

¹

( J ) |

^{の上界であり，}

|λ

¹

( J ) |

^{は線形化した}

GRU

（式

(9)

）の収束性を決める．そのため

h

t

= 0

近傍の状態は

δ

^が

2

に近いほど速く平衡点に収束すると考えられる．

実際に状態の収束性を確認するため，簡単なシミュレーションを行った．提案法のそれぞれ

δ = 0 . 2 , 0 . 8 , 1 . 4

で学習したモデルの

GRU

層に時刻

1

で正規分布

N (0 , 0 . 01 I )

に従うノイズを入力として加え，その後入力を全く与えずに状態を時間変化させて各時刻の状態のノルム

||h

t

||

2を計算した．また特定の入力に対する結果とならないように同様の実験を

50

回行った．

各時刻の状態ベクトルの

l

2ノルムを

50

回の試行に対して平均した結果を図

2

に示す．図

2

より，提案法の

GRU

は状態のノルムが

0

に指数関数的に収束して

h = 0

が安定であるとともに，

δ

が大きくなるに従いその収束が速くなっている．よって提案法は

δ

^の値によって状態の収束性を調整できることがわかる．

収束が速いほど過去のノイズの影響が小さくなりロバストであると考えられるが，一方で

GRU

が過去の情

図2 時刻1で入力を与え，その後入力を与えずに状態を更新させたときのGRUの状態のノルムの時間変化

報を長期間にわたって記憶できなくなる．こうした特性を考慮してノイズの多いデータには大きな

δ

を，長期間の依存性があるデータには小さな

δ

^{を使用する．}

なお同様の実験を勾配クリッピングで学習したモデルで行ったところ，勾配のノルムはほとんど変化せず約

4.7

となり，提案法と比べ非常に大きな値となった．

以上のように提案法の調整パラメータはモデルへの影響が解釈しやすく，また

0 < δ < 2

という範囲に制限されている．一方で勾配クリッピングのしきい値はモデルにどのような影響を与えるかの解釈が困難であり，その範囲も制限されず調整が難しい．

4. 4

勾配とスペクトル半径の関係

提案法は状態の平衡点の安定性の変化が勾配爆発を引き起こすという仮説のもとで状態を安定に制約している．本節ではこの仮説を検証するため，学習の最初の

500

反復の間の安定性を決める

J

のスペクトル

(8)

図3 言語モデルにおいて学習中の勾配爆発

半径の時間変化と勾配のノルムの時間変化（勾配クリッピングの結果はクリップ前の勾配）を図

3

に示す．

図

3 (a)

はしきい値

5

の勾配クリッピングを使用した学習の結果で図

3 (b)

は

δ

^を

0.2

に設定した提案法の学習の様子である．なお勾配のノルムは最大が

1

となるように正規化しており，正規化前の提案法の値は勾配クリッピングと比べ非常に小さい．図

3 (a)

より，勾配のノルムは平衡点が不安定化するスペクトル半径が

1

を横切るときに非常に大きな値になっている．また勾配が非常に大きくなったのちに，スペクトル半径は

1

以下となっており，勾配爆発が生じた際の勾配の方向がスペクトル半径を小さくする方向に動いていることがわかる．一方，提案法は図

3 (b)

より明らかなように，

W

hhのスペクトルノルムを制約することによりスペクトル半径が

1

よりも小さくなるように制約されており，勾配爆発を起こさずに学習が進んでいる．

なお提案法で

δ

を負の値とすると，提案法の制約はスペクトル半径が

1

より大きくなることを許すが，実際に

δ = − 0 . 2

で実験させたところ勾配が非常に大きな値となり学習が失敗することを確認した．

4. 5

計算時間の比較

PTB

の言語モデルの実験において計算時間を比較した結果を表

3

に示す．この表は提案法に通常の特異値分解（

naive SVD

）と

truncated SVD

を用いてそれぞれ学習させた計算時間，そして勾配クリッピン

表3 言語モデル（PTB）の計算時間（δ0.2，

しきい値5）

計算時間（s）

Naive SVD Truncated SVD 勾配クリッピング 5.02×10⁴ 4.55×10⁴ 4.96×10⁴

表4 状態数1300としたPTBの言語モデルの結果

（δ0.2，しきい値5）

Valid. Loss Test Loss 計算時間（s）

Truncated SVD 108.0±0.2 104.2±0.4 10.7×10⁴ 勾配クリッピング 116.5±0.9 115.0±0.6 7.02×10⁴

グの計算時間である．表より

naive SVD

を用いた提案法が勾配クリッピングと同程度の計算時間であり，

truncated SVD

を用いた提案法が最も速かった．

2. 1

で述べたように勾配クリッピングでは，モデル全体のパラメータに対する勾配のノルムを計算するため，言語モデルにおいて語彙数に依存した入出力層の大きなパラメータ数が計算時間に影響をあたえる．一方，提案法は

GRU

の状態ベクトルのサイズのみに依存し，

更に

3. 3

のように制約を超える特異値が存在しなければ高速に計算できる．結果として提案法と勾配クリッピングの計算時間は同程度となった．

4. 6

モデルサイズによる計算時間と精度の変化これまで

[36]

をもとに，状態数

650

の

GRU

による言語モデルによって提案法を評価した．しかし

[41]

ではより大きなサイズの

LSTM

のモデルで言語モデルの実験を行い高い精度の結果を示している．そこで本節ではより大きなモデルサイズに設定した際の提案法の評価を行う．

PTB

の言語モデルにおいて

GRU

の状態数を前節までの実験の倍の

1300

として実験し，

精度と計算時間を評価した結果を表

4

に示す．なお状態数以外の実験条件は変更せず

δ = 0 . 2

，しきい値

5

での結果である．表

4

より，モデルサイズが大きい場合にも提案法が勾配クリッピングより高い精度を達成していることがわかる．ただしこれらは状態数

650

の

GRU

の結果より精度が低い．一方，計算時間は提案法が約

1.5

倍ほど長い．これは提案法の特異値分解の計算量は状態数

n

に対して

O ( n

²

log( s ))

であることが原因である．以上より提案法は

GRU

の状態数の増加によって勾配クリッピングより計算時間が長くなるが，

今回の実験では計算時間が勾配クリッピングを大きく上回るような状態数は必要とせず，また精度において提案法の有効性は状態数の増加によって変化しない．

(9)

5.

^{むすび}

本論文では

GRU

の状態の振る舞いを解析し，勾配爆発を防ぐ新たな学習法を提案した．言語モデルと音楽モデルの実験において提案法が勾配クリッピングと同程度の計算時間で勾配爆発を抑制し，更に勾配クリッピングより高い精度を達成できることを示した．

勾配クリッピングは試行錯誤的にそのしきい値を調整する必要があるが，しきい値がモデルに与える影響は不明瞭であり，またその調整の範囲も限定されていない．一方，提案法の

δ

も多少の調整を必要とするが，

その効果は解釈しやすく，またその範囲も

0 < δ < 2

に限定されるために

GRU

を使ったモデル構築にかかる試行錯誤を削減できる．

文献

[1] A. Graves, A.-R. Mohamed, and G. Hinton, “Speech recognition with deep recurrent neural networks,”

Proc. IEEE International Conf. on Acoustics, Speech, and Signal Processing, pp.6645–6649, May 2013.

[2] T. Mikolov, Statistical Language Models Based on Neural Networks, PhD thesis, Brno University of Technology, 2012.

[3] A. Graves and J. Schmidhuber, “Oﬄine handwriting recognition with multidimensional recurrent neural networks,” Proc. Annual Conf. on Neural Informa- tion Processing Systems, pp.545–552, Dec. 2009.

[4] R. Pascanu, T. Mikolov, and Y. Bengio, “On the dif- ﬁculty of training recurrent neural networks,” Proc.

International Conf. on Machine Learning, pp.1310–

1318, June 2013.

[5] Y. Bengio, P. Simard, and P. Frasconi, “Learning long-term dependencies with gradient descent is diﬃ- cult,” IEEE Trans. Neural Netw., vol.5, no.2, pp.157–

166, Jan. 1994.

[6] S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural Computation, vol.9, no.8, pp.1735–

1780, Nov. 1997.

[7] K. Cho, B. Van Merri¨enboer, C. Gulcehre, D.

Bahdanau, F. Bougares, H. Schwenk, and Y. Ben- gio, “Learning phrase representations using RNN encoder–decoder for statistical machine translation,”

Proc. Conf. on Empirical Methods in Natural Lan- guage Processing, pp.1724–1734, Oct. 2014.

[8] R. Jozefowicz, W. Zaremba, and I. Sutskever, “An empirical exploration of recurrent network architec- tures,” Proc. International Conf. on Machine Learn- ing, pp.2342–2350, July 2015.

[9] S. Kanai, Y. Fujiwara, and S. Iwamura, “Preventing gradient explosions in gated recurrent units,” Proc.

Annual Conf. on Neural Information Processing Sys- tems, pp.435–444, Oct. 2017.

[10] S. Wiggins, Introduction to applied nonlinear dy- namical systems and chaos, vol.2, Springer Science

& Business Media, 2003.

[11] K. Doya, “Bifurcations in the learning of recurrent neural networks,” Proc. IEEE International Sympo- sium on Circuits and Systems, vol.6, pp.2777–2780, May 1992.

[12] P. Baldi and K. Hornik, “Universal approximation and learning of trajectories using oscillators,” Proc.

Annual Conf. on Neural Information Processing Sys- tems, pp.451–457, Dec. 1996.

[13] C.-M. Kuan, K. Hornik, and H. White, “A con- vergence result for learning in recurrent neural networks,” Neural Computation, vol.6, no.3, pp.420–

440, May 1994.

[14] W. Yu, “Nonlinear system identiﬁcation using discrete-time recurrent neural networks with stable learning algorithms,” Inf. Sci., vol.158, pp.131–147, Jan. 2004.

[15] H. Jaeger, Tutorial on training recurrent neural networks, covering BPPT, RTRL, EKF and the “echo state network” approach, GMD-Forschungszentrum Informationstechnik, 2002.

[16] M. Arjovsky, A. Shah, and Y. Bengio, “Unitary evolution recurrent neural networks,” Proc. Inter- national Conf. on Machine Learning, pp.1120–1128, June 2016.

[17] E. Vorontsov, C. Trabelsi, S. Kadoury, and C. Pal,

“On orthogonality and learning recurrent networks with long term dependencies,” Proc. International Conf. on Machine Learning, pp.3570–3578, Aug.

2017.

[18] J. Zhang, Q. Lei, and I. Dhillon, “Stabilizing gra- dients for deep neural networks via eﬃcient SVD parameterization,” Proc. International Conf. on Ma- chine Learning, vol.80, pp.5806–5814, July 2018.

[19] B. Doyon, B. Cessac, M. Quoy, and M. Samuelides,

“Destabilization and route to chaos in neural networks with random connectivity,” Proc. Annual Conf. on Neural Information Processing Systems, pp.549–555, Dec. 1993.

[20] N.E. Barabanov and D.V. Prokhorov, “Stability analysis of discrete-time recurrent neural networks,”

IEEE Trans. Neural Netw., vol.13, no.2, pp.292–303, March 2002.

[21] J.A. Suykens, B. De Moor, and J. Vandewalle, “Ro- bust local stability of multilayer recurrent neural networks,” IEEE Trans. Neural Netw., vol.11, no.1, pp.222–229, Jan. 2000.

[22] R. Haschke and J.J. Steil, “Input space bifurcation manifolds of recurrent neural networks,” Neurocom- puting, vol.64, pp.25–38, 2005.

[23] H. Nakahara and K. Doya, “Dynamics of attention as near saddle-node bifurcation behavior,” Proc. An- nual Conf. on Neural Information Processing Sys-

(10)

tems, pp.38–44, Dec. 1996.

[24] S.S. Talathi and A. Vartak, “Improving performance of recurrent neural network with relu nonlinearity,”

arXiv preprint arXiv:1511.03771, 2015.

[25] T. Laurent and J. von Brecht, “A recurrent neural network without chaos,” Proc. International Conf. on Learning Representations, April 2017.

[26] D.M. Stipanovi´c, B. Murmann, M. Causo, A. Leki´c, V.R. Royo, C.J. Tomlin, E. Beigne, S. Thuries, M.

Zarudniev, and S. Lesecq, “Some local stability prop- erties of an autonomous long short-term memory neural network model,” Proc. IEEE International Sym- posium on Circuits and Systems, pp.1–5, May 2018.

[27] Y. Yoshida and T. Miyato, “Spectral norm regularization for improving the generalizability of deep learning,” arXiv preprint arXiv:1705.10941, 2017.

[28] M. Cisse, P. Bojanowski, E. Grave, Y. Dauphin, and N. Usunier, “Parseval networks: Improving robust- ness to adversarial examples,” Proc. International Conf. on Machine Learning, pp.854–863, Aug. 2017.

[29] T. Miyato, T. Kataoka, M. Koyama, and Y. Yoshida,

“Spectral normalization for generative adversarial networks,” arXiv preprint arXiv:1802.05957, 2018.

[30] H. Sedghi, V. Gupta, and P.M. Long, “The singu- lar values of convolutional layers,” arXiv preprint arXiv:1805.10408, 2018.

[31] S. Lefkimmiatis, J.P. Ward, and M. Unser, “Hes- sian Schatten-norm regularization for linear inverse problems,” IEEE Trans. Image Process., vol.22, no.5, pp.1873–1888, May 2013.

[32] D. Kingma and J. Ba, “Adam: A method for stochastic optimization,” Proc. International Conf.

on Learning Representations, May 2015.

[33] N. Halko, P. Martinsson, and J. Tropp, “Finding structure with randomness: Stochastic algorithms for constructing approximate matrix decompositions,”

arXiv preprint arXiv:0909.4061, 2009.

[34] M.P. Marcus, M.A. Marcinkiewicz, and B. Santorini,

“Building a large annotated corpus of English: The Penn treebank,” Computational Linguistics, vol.19, no.2, pp.313–330, June 1993.

[35] S. Merity, C. Xiong, J. Bradbury, and R. Socher,

“Pointer sentinel mixture models,” Proc. Interna- tional Conf. on Learning Representations, April 2017.

[36] W. Zaremba, I. Sutskever, and O. Vinyals, “Recur- rent neural network regularization,” arXiv preprint arXiv:1409.2329, 2014.

[37] A.M. Saxe, J.L. McClelland, and S. Ganguli, “Ex- act solutions to the nonlinear dynamics of learning in deep linear neural networks,” Proc. International Conf. on Learning Representations, April 2014.

[38] N. Boulanger-Lewandowski, Y. Bengio, and P.

Vincent, “Modeling temporal dependencies in high- dimensional sequences: Application to polyphonic music generation and transcription,” Proc. Interna-

tional Conf. on Machine Learning, pp.1159–1166, June 2012.

[39] D. Krueger and R. Memisevic, “Regularizing RNNs by stabilizing activations,” Proc. International Conf.

on Learning Representations, May 2016.

[40] Z. Tang, Y. Shi, D. Wang, Y. Feng, and S. Zhang,

“Memory visualization for gated recurrent neural networks in speech recognition,” Proc. IEEE Inter- national Conf. on Acoustics, Speech, and Signal Pro- cessing, pp.2736–2740, March 2017.

[41] Z. Yang, Z. Dai, R. Salakhutdinov, and W.W. Cohen,

“Breaking the softmax bottleneck: A high-rank RNN language model,” Proc. International Conf. on Learn- ing Representations, April 2018.

[42] G. Strang, Calculus (2nd ed.), Wellesley-Cambridge Press, 2010.

[43] R.A. Horn and C.R. Johnson, Matrix analysis (2nd ed.), Cambridge University Press, 2012.

[44] R.A. Horn and C.R. Johnson, Topics in matrix analysis, Cambridge University Press, 1991.

付録

1.

補題

1

の証明

証明入力

x

t

= 0

と状態

h

t−1

= 0

を式

(1)

と

(2)

に代入すると，更新ゲートが

z

t

=

¹₂ となり，リセットゲートは

r

t

=

¹₂ となる．そして

x

t

= 0

^と

h

t−1

= 0

^，

r

t

=

¹₂ を式

(4)

に代入すると

˜ h

t

= 0

^{となる．最後に}

h

t−1

= 0

^と

z

t

=

¹₂，

h ˜

t

= 0

^を式

(3)

に代入すると新たな状態が

h

t

= 0

となり，したがって

h

t−1

= h

t

= 0

が成り立つため，

GRU

は平衡点

h

∗

= 0

^をもつ．

2

2.

補題

2

の証明

証明局所的な安定性は平衡点近傍で線形化したシステムの安定性の解析によって判断できる

[10]

．入力がないとき，

h

∗

= 0

^{で線形化した}

GRU

はテイラー展開

[42]

によって

h

t

= Jh

t−1，

(A · 1)

となる．式

(A · 1)

で

J

は

h

tの，

h

t−1

= 0

と

x

t

= 0

における

h

t−1に関するヤコビ行列であり

J = ∂h

t

∂h

t−1

h_t−1=0,xt=0

= 1

4 W

hh

+ 1

2 I

，

(A·2)

である．式

(A·1)

から

h

t

= J

^t

h

0，

(A · 3)

が成り立つ．

J

^t^{はその固有値の}

t

^{乗に依存し，式}

(A · 3)

は

J

の固有値が線形化した

GRU

の振る舞いを決める

Gated recurrent unit の局所安定化による勾配爆発の抑制

Gated recurrent unit の局所安定化による勾配爆発の抑制

金井 関利

藤原 靖宏

岩村 相哲

足立 修一

Training of Gated Recurrent Units Constrained to Locally Stable to Prevent the Gradient Exploding

Sekitoshi KANAI

, Yasuhiro FUJIWARA

, Sotetsu IWAMURA

, and Shuichi ADACHI

1.

recurrent neural network

RNN

[1]

[3]

RNN

RNN

SGD

SGD

RNN

back propagation through time

BPTT

RNN

BPTT

RNN

[4], [5]

BPTT

RNN

long short-term memory

LSTM

[6]

LSTM

gated recurrent unit

GRU

[7]

GRU

LSTM

[8]

gradient clipping

[4]

GRU

RNN

bifurcation

GRU

GRU

RNN

2.

2. 1 Gated Recurrent Unit

GRU

1

t

z

∈ R

z

= sigm( W

x

+ W

h

)

(1)

x

∈ R

h

∈ R

W

∈ R

W

∈ R

sigm(·)

sigm( x ) = 1 / (1 + exp( −x ))

r

∈ R

r

= sigm( W

x

+ W

h

)

(2)

金井関利

藤原靖宏

岩村相哲

足立修一