カオスニューラルネットワークリザバーの音声認識への応用

(1)

カオスニューラルネットワークリザバーの音声認識

への応用

著者

井上理哲人, 福田佳祐, 堀尾喜彦

雑誌名

電子情報通信学会技術研究報告

巻

NLP2019-103

ページ

95-98

発行年

2020

URL

http://hdl.handle.net/10097/00127783

(2)

社団法人電子情報通信学会

THE INSTITUTE OF ELECTRONICS,

INFORMATION AND COMMUNICATION ENGINEERS

信学技報

TECHNICAL REPORT OF IEICE.

カオスニューラルネットワークリザバーの音声認識への応用

井上理哲人

†

福田佳祐

†

堀尾喜彦

†

† 東北大学電気通信研究所〒980–8577 宮城県仙台市青葉区片平 2–1–1

E-mail:

あらまし

リカレントニューラルネットワークを用いた学習ネットワークモデルであるニューラルネットワークリザ

バーのダイナミクスを多様化させる 1 つの手法として，カオスニューラルネットワークリザバーが提案されている．

本稿では，カオスニューラルネットワークリザバーを用いて音声認識を行い，通常のニューラルネットワークリザバー

との比較を行う．シミュレーション結果より，カオスニューラルネットワークリザバーの方が通常のニューラルネッ

トワークリザバーより少ないニューロン数で高い性能を持つ事を示す．

キーワード

リザバーコンピューティング，カオスニューラルネットワークリザバー，音声認識

Application of the Chaotic Neural Network Reservoir to Speech Recognition

Maakito INOUE

†

, Keisuke FUKUDA

†

, and Yoshihiko HORIO

†

† Research Institute of Electrical Communication, Tohoku University 2–1–1 Katahira, Aoba-ku, Sendai,

Miyagi, 980–8577 Japan

E-mail:

Abstract

The neural network reservoir is a learning network model using the recurrent neural network. The

chaotic neural network reservoir has been proposed as an eﬀective method for introducing various dynamics in the

reservoir neural network. In this paper, we use a speech recognition task to compare the performance of the chaotic

neural network reservoir to that of an ordinary reservoir neural network. From simulation results, we conﬁrm that

the chaotic neural network reservoir has better performance with fewer number of neurons than the conventional

reservoir neural network.

Key words

reservoir computing, chaotic neural network reservoir, speech recognition

1. まえがき

脳の情報処理様式にヒントを得た計算モデルであるニューラルネットワークリザバーは，特に時系列処理に適したモデルとして再注目されている[1]，[2]．ニューラルネットワークリザバーは単純なネットワーク構造を有しており，簡素なアルゴリズムで学習可能であるため，ハードウェア実装にも適する．ニューラルネットワークリザバーにおけるダイナミクスの多様性を高める1つの方法として，カオスダイナミクスの導入があるが，従来の方法，すなわち，ネットワーク構造の変更による不安定性の導入では，ネットワークからの一貫した応答が得られない．これに対して我々は，ネットワークの安定性を維持したまま，カオスダイナミクスを導入する手法として，カオスニューラルネットワークリザバー[3]– [5]を提案し，そのダイナミクスの評価を行った[6]．しかしながら，カオスニューラルネットワークリザバーと通常のニューラルネットワークリザバー間の定量的な性能評価はなされていない．本稿では，離散単語認識タスクにより，カオスニューラルネットワークリザバーと通常のニューラルネットワークリザバーの性能を評価・検討する．

2. カオスニューラルネットワークリザバー

図1に入力層，リザバー層，出力層によって構成される，一般的なニューラルネットワークリザバーの構造を示す．図1に示す様に，入力層とリザバー層間における入力結合重みWin ij，および，リザバー層内の内部結合重みWijはランダムかつスパースに設定され，リザバー層と出力層間の出力結合重みWijoutのみを線形回帰などの簡便な学習アルゴリズムで調整する．一方，カオスニューラルネットワークリザバー[3]– [5]は，図 1中のリザバー層のニューロンとしてカオスニューロンモデル[7]を用いる．カオスニューラルネットワークリザバーにおけるリザバー層のi番目のニューロンの状態更新式は以下で与えられる． — 1 —

95

-一般社団法人電子情報通信学会 THE INSTITUTE OF ELECTRONICS,

INFORMATION AND COMMUNICATION ENGINEERS

信学技報

This article is a technical report without peer review, and its polished and/or extended version may be published elsewhere.

IEICE Technical Report NLP2019-103(2020-01)

(3)

ー

Ϩδώʖ૜

೘ྙ૜

ड़ྙ૜

u

i

(t)

x

_i

(t)

y

_i

(t)

yout_(t) yteach_(t)

W

_ijin

W

ij

W

_ijout 図 1 ニューラルネットワークリザバーの構造 xi(t + 1) = kxi(t) + L

∑

j=1 Wijinuj(t + 1) + N

∑

j=1 Wijf (xj(t))− αf (xi(t)) + θ (1) yi(t + 1) = f (xi(t + 1)) (2) f (x) = 1 1 + exp(−x/ϵ) (3) ここで，xi(t)，yi(t)は，それぞれ，時刻tにおけるi番目のニューロンの内部状態と出力，WijinとWijは，それぞれ，j番目の入力層内のニューロンからi番目のリザバー層内のニューロンへの入力結合重みと，リザバー層内のニューロン間の結合重み，uj(t)はj番目の外部入力，kとαはカオスニューロンの不応性のパラメータ，Lは外部入力の総数，Nはリザバー内のニューロン数，θは外部バイアス，f (·)はニューロンの出力関数，ϵは出力関数のゲインである．また，i番目の出力層のニューロンの出力yout i は以下の式で与えられる． youti (t + 1) = f

(

_K

∑

j=1 Wijoutyj(t + 1)

)

(4) ここで，Wout ij はj番目のリザバー層のニューロンからi番目の出力層のニューロンへの出力結合重み，Kは出力層のニューロンの総数である．また，Wout_{は教師信号}_yteach_{によって適} 当な学習則を用いて調整される．

3. シミュレーション

カオスニューラルネットワークリザバーの性能を評価するため，国立情報学研究所が提供する雑音重畳日本語連続数字音声認識評価環を使用した離散単語認識タスクを用いる．タスクは 0∼9の10種類の音声の分類とし，雑音無しの同一話者の音声を用いて訓練・試験を行う．以下では音声認識タスクのための前処理の方法と，用いるネットワークのパラメータ等について述べる． 3. 1 前処理音声の特徴量としてメル周波数ケプストラム係数（mael frequency cepstral coeﬃcient; MFCC）を用いる．

はじめに，高域における音声パワーの減衰を補償するため，図 2 メルフィルタバンクの特性以下の1次有限インパルス応答フィルタH(z)を施す． H(z) = 1− αz−1 (5) ここで，z = exp(jω)，ω = 2πf /fsで，fは周波数，fsはサンプリング周波数(8 kHz)である．次に，音声データをフレーム周期30 ms，フレーム長60 ms で分割し，分析窓として(6)式のハミング窓をかける． WH(n) = 0.54−0.46 cos

(

_2nπ M− 1

)

, n = 0, ..., M−1 (6) ここで，M は窓内のサンプル数である．さらに，得られた音声フレームのスペクトル解析を(7)式に示した離散時間フーリエ変換を用いて行う． XN(k) = N

_∑

−1 n=0 xN(n)e−j2πnk/N, 0≤ k < N (7) ここで，Nは信号の1周期のビン数である．この時，周波数分解能∆fは(8)式で表され，∆f を30 Hz程度にするため，N を256とする． ∆f = fs N (8) 次に，個別の周波数ビンの値をグループ化するために，メルフィルタバンクをかける．この時のフィルタの次数は20である．このメルフィルタバンクの特性を図2に示す．ここで，周波数をメル尺度に直すため(9)式を用いる． M el(f ) = 2959 log 10

(

1 + f 700

)

(9) 最後に得られた値を離散コサイン変換する．データ長をL，クロネッカーのデルタをδklとした時の離散コサイン変換の式を示す． y(k) =

√

2 L L−1

∑

n=0 x(n)√ 1 1 + δk1 cos

(

_π 2L(2n + 1)(k− 1)

)

(10) — 2 —

96

(4)

-ここで，低次の項に声道のインパルス応答が含まれているため， 1∼12次の項を取り出し，ニューラルネットワークリザバーの入力とする[8], [9]． 3. 2 シミュレーション条件表1にシミュレーションに用いたネットワークパラメータ等を示す．ここで，Kは出力層のニューロン数である．学習則には，次式で与えられる線形回帰を用いた．

Wout= f−1(yteach)youtT(youtyoutT)−1 (11)

式(11)において，Wout_{は出力結合重み行列，}_y teach，youtは，それぞれ，教師信号およびネットワークの出力ベクトルである．以下では，出力層のニューロンの出力の内，最も大きい値を出力したニューロンの番号を最終的な出力として，正答率を計算した．

4. シミュレーション結果

図3に各ニューロン数における正答率の最大値を示す．図より，通常のニューラルネットワークリザバーに比べてカオスニューラルネットワークリザバーの方が少ないニューロン数で高い正答率を示す事が分かる．また，各ニューラルネットワークリザバーが最大の正答率を示した時のパラメータを表2，表 3に示す．表2より，カオスニューラルネットワークリザバーにおいては，kとϵの値が大きい場合に良い性能を発揮していることが分かる．次に，最大正答率が得られた時のパラメータを用いたネットワークのリザバー層中の，9番目のニューロンへの外部入力波形を図4に，通常のニューラルネットワークリザバーのニューロンの内部状態を図5に，さらに，カオスニューラルネットワークリザバー内のニューロンの内部状態を図6に示す．ここで，リザバー層のニューロン数N は100とし，カオスニュー表 1 音声認識タスクにおけるシミュレーション条件

N

100, 200, 500, 1000, 2000, 5000

L

12 K

10 u(n)

12 次元の MFCC

Transient length 100 steps

x(0)

Uniform[

−1, 1]

W

ijin

0 (80 %) or Uniform[

−1, 1] (20 %)

W

ij

0 (80 %) or Uniform[

−1, 1] (20 %)

W

ijout

(initial)

0 (80 %) or Uniform[

−0.01, 0.01] (20 %)

Spectral radius

0.98ϵ

k

通常リザバー : 0

カオスリザバー : 0.1∼0.9(0.1 刻みで変化)

α

通常リザバー : 0

カオスリザバー : 1

θ

−0.5∼0.5(0.1 刻みで変化)

ϵ

0.01∼0.07(0.01 刻みで変化)

0 1000 2000 3000 4000 5000 20 30 40 50 60 70 80 90 100

>ಶ@

>@

ࢽ࣮ࣗࣛࣝࢿࢵࢺ࣮࣡ࢡ ࡢࢽ࣮ࣗࣛࣝࢿࢵࢺ࣮࣡ࢡ 図 3 リザバー層内のニューロン数に対する最大正答率表 2 カオスニューラルネットワークリザバーの最大正答率におけるパラメータ

N

正答率

k

ϵ

θ

100 74 %

0.9 0.07

−0.1

200 79 %

0.9 0.07

−0.5

500 86 %

0.9 0.07

−0.1

1000

90 %

0.9 0.07

−0.1

2000

90 %

0.9 0.07

−0.1

5000

90 %

0.8 0.07

−0.1

表 3 通常のニューラルネットワークリザバーの最大正答率におけるパラメータ

N

正答率

k

ϵ

θ

100 28 %

0 0.02

−0.1

200 31 %

0 0.03

−0.1

500 38 %

0 0.04

0 1000

41 %

0 0.03

0 2000

48 %

0 0.03

0 5000

54 %

0 0.02

0

ラルネットワークリザバーと通常のニューラルネットワークリザバーで入力結合重みと内部結合重みを同じにした．図4と図5より，通常のニューラルネットワークリザバーではリザバー層内のニューロンの内部状態が外部入力とほぼ一致している事が分かる．一方，図5では，内部状態はカオス的にはなってはいないが，入力が入った後も緩やかに変化しており，パラメータkの影響が大きいものと推測される．

5. おわりに

本稿では，カオスニューラルネットワークリザバーを音声認識に応用し，通常のニューラルネットワークリザバーとの比較

(5)

図 4 リザバー層内の 9 番目のニューロンへの入力波形．図 5 通常のニューラルネットワークリザバーのリザバー層内の 9 番目のニューロンの内部状態．図 6 カオスニューラルネットワークリザバーのリザバー層内の 9 番目のニューロンの内部状態．を行った．シミュレーション実験より，カオスニューラルネットワークリザバーの方が通常のニューラルネットワークリザバーより高い性能を持つ事を示した．本稿の実験ではカオスダイナミクスの有効性は示されていないが，カオスニューロンが内包する内部状態の減衰特性が有効であると推測される．また，カオスニューラルネットワークリザバーを用いる事で，音声認識に必要なニューロン数を減らす事が出来るため，ハードウェア実装に適していると考えられる．今後は，本稿で得られた知見を基に，カオスニューラルネットワークリザバーのハードウェア実装を行う予定である．

謝

辞

本研究は東北大学電気通信研究所における共同プロジェクト研究(H29/A21)による．文献

[1] M. Lukoševičius and H. Jaeger, “Reservoir comput-ing approaches to recurrent neural network traincomput-ing,” Computer Science Review, vol. 3, pp. 127–149, 2009. [2] H. Jaeger,“The "echo state" approach to analysing and

training recurrent neural networks,”Technical Report GMD, Report 148, German National Research Center for Information Technology, 2001.

[3] T. Tassy and Y. Horio,“Time series prediction through chaotic neural network reservoir,” 信学総大, N-1-2, 2018.

[4] Y. Horio, “A brainmorphic computing hardware paradigm through complex nonlinear dynamics,” in Understanding Complex Systems, V. In, P. Longhini, and A. Palacios, eds., Springer, IBSN 978-3-030-10891-5, Chapter 978-3-030-10891-5, pp.36-43, DOI: 10.1007/987-3-030-10892-2_5.

[5] Yoshihiko Horio, “Chaotic neural network reservoir,” The International Joint Conference on Neural Net-works, Budapest, Hungary, 2019.

[6] 福田佳祐,井上理哲人,堀尾喜彦, “カオスニューラルネットワークリザバーにおけるダイナミクスとリザバー性能に関する検討,”信学総大, N-1-23, 2019.

[7] K. Aihara, T. Tanabe, and M. Toyoda,“Chaotic neu-ral network,”Physics Letters A, vol. 144, pp. 333–340, 1990.

[8] T. Kinjo and K. Funaki, “On HMM speech recognition based on complex speech analysis,” Annual conference on industrial electronics, pp. 3477-3480, 2006.

[9] 篠田浩一,“音声認識（機械学習プロフェッショナルシ

リーズ）”，講談社, pp. 11-24, 2017.

— 4 —

カオスニューラルネットワークリザバーの音声認識への応用

カオスニューラルネットワークリザバーの音声認識

への応用

著者

井上 理哲人, 福田 佳祐, 堀尾 喜彦

雑誌名

電子情報通信学会技術研究報告

巻

NLP2019-103

ページ

95-98

発行年

2020

URL

http://hdl.handle.net/10097/00127783

カオスニューラルネットワークリザバーの音声認識への応用

井上理哲人

福田 佳祐

堀尾 喜彦

† 東北大学 電気通信研究所 〒980–8577 宮城県仙台市青葉区片平 2–1–1

E-mail:

†[email protected]

あらまし

リカレントニューラルネットワークを用いた学習ネットワークモデルであるニューラルネットワークリザ

バーのダイナミクスを多様化させる 1 つの手法として，カオスニューラルネットワークリザバーが提案されている．

本稿では，カオスニューラルネットワークリザバーを用いて音声認識を行い，通常のニューラルネットワークリザバー

との比較を行う．シミュレーション結果より，カオスニューラルネットワークリザバーの方が通常のニューラルネッ

トワークリザバーより少ないニューロン数で高い性能を持つ事を示す．

キーワード

リザバーコンピューティング，カオスニューラルネットワークリザバー，音声認識

Application of the Chaotic Neural Network Reservoir to Speech Recognition

Maakito INOUE

, Keisuke FUKUDA

, and Yoshihiko HORIO

† Research Institute of Electrical Communication, Tohoku University 2–1–1 Katahira, Aoba-ku, Sendai,

Miyagi, 980–8577 Japan

E-mail:

†[email protected]

Abstract

The neural network reservoir is a learning network model using the recurrent neural network. The

chaotic neural network reservoir has been proposed as an eﬀective method for introducing various dynamics in the

reservoir neural network. In this paper, we use a speech recognition task to compare the performance of the chaotic

neural network reservoir to that of an ordinary reservoir neural network. From simulation results, we conﬁrm that

the chaotic neural network reservoir has better performance with fewer number of neurons than the conventional

reservoir neural network.

Key words

reservoir computing, chaotic neural network reservoir, speech recognition

1.

ま え が き

2.

カオスニューラルネットワークリザバー

95

Ϩδώʖ૜

೘ྙ૜

ड़ྙ૜

u

(t)

x

(t)

y

(t)

W

W

W

∑

∑

(

∑

)

3.

シミュレーション

(

)

∑

(

)

√

∑

(

)

井上理哲人, 福田佳祐, 堀尾喜彦

福田佳祐

堀尾喜彦

† 東北大学電気通信研究所〒980–8577 宮城県仙台市青葉区片平 2–1–1

まえがき

_∑

>@