カオスニューラルネットワークリザバーの音声認識
への応用
著者
井上 理哲人, 福田 佳祐, 堀尾 喜彦
雑誌名
電子情報通信学会技術研究報告
巻
NLP2019-103
ページ
95-98
発行年
2020
URL
http://hdl.handle.net/10097/00127783
Copyright (C)2020 by IEICE社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
TECHNICAL REPORT OF IEICE.
カオスニューラルネットワークリザバーの音声認識への応用
井上理哲人
†福田 佳祐
†堀尾 喜彦
†† 東北大学 電気通信研究所 〒980–8577 宮城県仙台市青葉区片平 2–1–1
E-mail:
†[email protected]
あらまし
リカレントニューラルネットワークを用いた学習ネットワークモデルであるニューラルネットワークリザ
バーのダイナミクスを多様化させる 1 つの手法として,カオスニューラルネットワークリザバーが提案されている.
本稿では,カオスニューラルネットワークリザバーを用いて音声認識を行い,通常のニューラルネットワークリザバー
との比較を行う.シミュレーション結果より,カオスニューラルネットワークリザバーの方が通常のニューラルネッ
トワークリザバーより少ないニューロン数で高い性能を持つ事を示す.
キーワード
リザバーコンピューティング,カオスニューラルネットワークリザバー,音声認識
Application of the Chaotic Neural Network Reservoir to Speech Recognition
Maakito INOUE
†, Keisuke FUKUDA
†, and Yoshihiko HORIO
†† Research Institute of Electrical Communication, Tohoku University 2–1–1 Katahira, Aoba-ku, Sendai,
Miyagi, 980–8577 Japan
E-mail:
†[email protected]
Abstract
The neural network reservoir is a learning network model using the recurrent neural network. The
chaotic neural network reservoir has been proposed as an effective method for introducing various dynamics in the
reservoir neural network. In this paper, we use a speech recognition task to compare the performance of the chaotic
neural network reservoir to that of an ordinary reservoir neural network. From simulation results, we confirm that
the chaotic neural network reservoir has better performance with fewer number of neurons than the conventional
reservoir neural network.
Key words
reservoir computing, chaotic neural network reservoir, speech recognition
1.
ま え が き
脳の情報処理様式にヒントを得た計算モデルであるニューラ ルネットワークリザバーは,特に時系列処理に適したモデル として再注目されている[1],[2].ニューラルネットワークリザ バーは単純なネットワーク構造を有しており,簡素なアルゴ リズムで学習可能であるため,ハードウェア実装にも適する. ニューラルネットワークリザバーにおけるダイナミクスの多様 性を高める1つの方法として,カオスダイナミクスの導入があ るが,従来の方法,すなわち,ネットワーク構造の変更による 不安定性の導入では,ネットワークからの一貫した応答が得ら れない. これに対して我々は,ネットワークの安定性を維持したまま, カオスダイナミクスを導入する手法として,カオスニューラル ネットワークリザバー[3]– [5]を提案し,そのダイナミクスの評 価を行った[6].しかしながら,カオスニューラルネットワーク リザバーと通常のニューラルネットワークリザバー間の定量的 な性能評価はなされていない. 本稿では,離散単語認識タスクにより,カオスニューラルネッ トワークリザバーと通常のニューラルネットワークリザバーの 性能を評価・検討する.2.
カオスニューラルネットワークリザバー
図1に入力層,リザバー層,出力層によって構成される,一般 的なニューラルネットワークリザバーの構造を示す.図1に示 す様に,入力層とリザバー層間における入力結合重みWin ij,お よび,リザバー層内の内部結合重みWijはランダムかつスパー スに設定され,リザバー層と出力層間の出力結合重みWijoutの みを線形回帰などの簡便な学習アルゴリズムで調整する. 一方,カオスニューラルネットワークリザバー[3]– [5]は,図 1中のリザバー層のニューロンとしてカオスニューロンモデ ル[7]を用いる.カオスニューラルネットワークリザバーにお けるリザバー層のi番目のニューロンの状態更新式は以下で与 えられる. — 1 —95
-一般社団法人 電子情報通信学会 THE INSTITUTE OF ELECTRONICS,INFORMATION AND COMMUNICATION ENGINEERS
信学技報
This article is a technical report without peer review, and its polished and/or extended version may be published elsewhere.
IEICE Technical Report NLP2019-103(2020-01)
ー
Ϩδώʖ
ྙ
ड़ྙ
u
i(t)
x
i(t)
y
i(t)
yout(t) yteach(t)W
ijinW
ijW
ijout 図 1 ニューラルネットワークリザバーの構造 xi(t + 1) = kxi(t) + L∑
j=1 Wijinuj(t + 1) + N∑
j=1 Wijf (xj(t))− αf (xi(t)) + θ (1) yi(t + 1) = f (xi(t + 1)) (2) f (x) = 1 1 + exp(−x/ϵ) (3) ここで,xi(t),yi(t)は,それぞれ,時刻tにおけるi番目の ニューロンの内部状態と出力,WijinとWijは,それぞれ,j番 目の入力層内のニューロンからi番目のリザバー層内のニュー ロンへの入力結合重みと,リザバー層内のニューロン間の結合 重み,uj(t)はj番目の外部入力,kとαはカオスニューロン の不応性のパラメータ,Lは外部入力の総数,Nはリザバー内 のニューロン数,θは外部バイアス,f (·)はニューロンの出力 関数,ϵは出力関数のゲインである. また,i番目の出力層のニューロンの出力yout i は以下の式で 与えられる. youti (t + 1) = f(
K∑
j=1 Wijoutyj(t + 1))
(4) ここで,Wout ij はj番目のリザバー層のニューロンからi番目 の出力層のニューロンへの出力結合重み,Kは出力層のニュー ロンの総数である.また,Woutは教師信号yteachによって適 当な学習則を用いて調整される.3.
シミュレーション
カオスニューラルネットワークリザバーの性能を評価するた め,国立情報学研究所が提供する雑音重畳日本語連続数字音声 認識評価環を使用した離散単語認識タスクを用いる.タスクは 0∼9の10種類の音声の分類とし,雑音無しの同一話者の音声 を用いて訓練・試験を行う.以下では音声認識タスクのための 前処理の方法と,用いるネットワークのパラメータ等について 述べる. 3. 1 前 処 理 音声の特徴量としてメル周波数ケプストラム係数(mael frequency cepstral coefficient; MFCC)を用いる.はじめに,高域における音声パワーの減衰を補償するため, 図 2 メルフィルタバンクの特性 以下の1次有限インパルス応答フィルタH(z)を施す. H(z) = 1− αz−1 (5) ここで,z = exp(jω),ω = 2πf /fsで,fは周波数,fsはサン プリング周波数(8 kHz)である. 次に,音声データをフレーム周期30 ms,フレーム長60 ms で分割し,分析窓として(6)式のハミング窓をかける. WH(n) = 0.54−0.46 cos
(
2nπ M− 1)
, n = 0, ..., M−1 (6) ここで,M は窓内のサンプル数である. さらに,得られた音声フレームのスペクトル解析を(7)式に 示した離散時間フーリエ変換を用いて行う. XN(k) = N∑
−1 n=0 xN(n)e−j2πnk/N, 0≤ k < N (7) ここで,Nは信号の1周期のビン数である.この時,周波数分 解能∆fは(8)式で表され,∆f を30 Hz程度にするため,N を256とする. ∆f = fs N (8) 次に,個別の周波数ビンの値をグループ化するために,メル フィルタバンクをかける.この時のフィルタの次数は20であ る.このメルフィルタバンクの特性を図2に示す.ここで,周 波数をメル尺度に直すため(9)式を用いる. M el(f ) = 2959 log 10(
1 + f 700)
(9) 最後に得られた値を離散コサイン変換する.データ長をL, クロネッカーのデルタをδklとした時の離散コサイン変換の式 を示す. y(k) =√
2 L L−1∑
n=0 x(n)√ 1 1 + δk1 cos(
π 2L(2n + 1)(k− 1))
(10) — 2 —96
-ここで,低次の項に声道のインパルス応答が含まれているため, 1∼12次の項を取り出し,ニューラルネットワークリザバーの 入力とする[8], [9]. 3. 2 シミュレーション条件 表1にシミュレーションに用いたネットワークパラメータ等 を示す.ここで,Kは出力層のニューロン数である. 学習則には,次式で与えられる線形回帰を用いた.
Wout= f−1(yteach)youtT(youtyoutT)−1 (11)
式(11)において,Woutは出力結合重み行列,y teach,youtは, それぞれ,教師信号およびネットワークの出力ベクトルである. 以下では,出力層のニューロンの出力の内,最も大きい値を 出力したニューロンの番号を最終的な出力として,正答率を計 算した.
4.
シミュレーション結果
図3に各ニューロン数における正答率の最大値を示す.図 より,通常のニューラルネットワークリザバーに比べてカオス ニューラルネットワークリザバーの方が少ないニューロン数で 高い正答率を示す事が分かる.また,各ニューラルネットワー クリザバーが最大の正答率を示した時のパラメータを表2,表 3に示す.表2より,カオスニューラルネットワークリザバー においては,kとϵの値が大きい場合に良い性能を発揮してい ることが分かる. 次に,最大正答率が得られた時のパラメータを用いたネット ワークのリザバー層中の,9番目のニューロンへの外部入力波 形を図4に,通常のニューラルネットワークリザバーのニュー ロンの内部状態を図5に,さらに,カオスニューラルネット ワークリザバー内のニューロンの内部状態を図6に示す.ここ で,リザバー層のニューロン数N は100とし,カオスニュー 表 1 音声認識タスクにおけるシミュレーション条件N
100, 200, 500, 1000, 2000, 5000
L
12
K
10
u(n)
12 次元の MFCC
Transient length 100 steps
x(0)
Uniform[
−1, 1]
W
ijin0 (80 %) or Uniform[
−1, 1] (20 %)
W
ij0 (80 %) or Uniform[
−1, 1] (20 %)
W
ijout(initial)
0 (80 %) or Uniform[
−0.01, 0.01] (20 %)
Spectral radius
0.98ϵ
k
通常リザバー : 0
カオスリザバー : 0.1∼0.9(0.1 刻みで変化)
α
通常リザバー : 0
カオスリザバー : 1
θ
−0.5∼0.5(0.1 刻みで変化)
ϵ
0.01∼0.07(0.01 刻みで変化)
0 1000 2000 3000 4000 5000 20 30 40 50 60 70 80 90 100>ಶ@
>@
ࢽ࣮ࣗࣛࣝࢿࢵࢺ࣮࣡ࢡ ࡢࢽ࣮ࣗࣛࣝࢿࢵࢺ࣮࣡ࢡ 図 3 リザバー層内のニューロン数に対する最大正答率 表 2 カオスニューラルネットワークリザバーの最大正答率における パラメータN
正答率
k
ϵ
θ
100
74 %
0.9 0.07
−0.1
200
79 %
0.9 0.07
−0.5
500
86 %
0.9 0.07
−0.1
1000
90 %
0.9 0.07
−0.1
2000
90 %
0.9 0.07
−0.1
5000
90 %
0.8 0.07
−0.1
表 3 通常のニューラルネットワークリザバーの最大正答率における パラメータN
正答率
k
ϵ
θ
100
28 %
0 0.02
−0.1
200
31 %
0 0.03
−0.1
500
38 %
0 0.04
0
1000
41 %
0 0.03
0
2000
48 %
0 0.03
0
5000
54 %
0 0.02
0
ラルネットワークリザバーと通常のニューラルネットワークリ ザバーで入力結合重みと内部結合重みを同じにした. 図4と図5より,通常のニューラルネットワークリザバーで はリザバー層内のニューロンの内部状態が外部入力とほぼ一致 している事が分かる.一方,図5では,内部状態はカオス的に はなってはいないが,入力が入った後も緩やかに変化しており, パラメータkの影響が大きいものと推測される.5.
お わ り に
本稿では,カオスニューラルネットワークリザバーを音声認 識に応用し,通常のニューラルネットワークリザバーとの比較図 4 リザバー層内の 9 番目のニューロンへの入力波形. 図 5 通常のニューラルネットワークリザバーのリザバー層内の 9 番 目のニューロンの内部状態. 図 6 カオスニューラルネットワークリザバーのリザバー層内の 9 番 目のニューロンの内部状態. を行った.シミュレーション実験より,カオスニューラルネッ トワークリザバーの方が通常のニューラルネットワークリザ バーより高い性能を持つ事を示した.本稿の実験ではカオスダ イナミクスの有効性は示されていないが,カオスニューロンが 内包する内部状態の減衰特性が有効であると推測される.また, カオスニューラルネットワークリザバーを用いる事で,音声認 識に必要なニューロン数を減らす事が出来るため,ハードウェ ア実装に適していると考えられる. 今後は,本稿で得られた知見を基に,カオスニューラルネッ トワークリザバーのハードウェア実装を行う予定である.
謝
辞
本研究は東北大学電気通信研究所における共同プロジェクト 研究(H29/A21)による. 文 献[1] M. Lukoševičius and H. Jaeger, “Reservoir comput-ing approaches to recurrent neural network traincomput-ing,” Computer Science Review, vol. 3, pp. 127–149, 2009. [2] H. Jaeger,“The "echo state" approach to analysing and
training recurrent neural networks,”Technical Report GMD, Report 148, German National Research Center for Information Technology, 2001.
[3] T. Tassy and Y. Horio,“Time series prediction through chaotic neural network reservoir,” 信 学 総 大, N-1-2, 2018.
[4] Y. Horio, “A brainmorphic computing hardware paradigm through complex nonlinear dynamics,” in Understanding Complex Systems, V. In, P. Longhini, and A. Palacios, eds., Springer, IBSN 978-3-030-10891-5, Chapter 978-3-030-10891-5, pp.36-43, DOI: 10.1007/987-3-030-10892-2_5.
[5] Yoshihiko Horio, “Chaotic neural network reservoir,” The International Joint Conference on Neural Net-works, Budapest, Hungary, 2019.
[6] 福田佳祐,井上理哲人,堀尾喜彦, “カオスニューラルネッ トワークリザバーにおけるダイナミクスとリザバー性能 に関する検討,”信学総大, N-1-23, 2019.
[7] K. Aihara, T. Tanabe, and M. Toyoda,“Chaotic neu-ral network,”Physics Letters A, vol. 144, pp. 333–340, 1990.
[8] T. Kinjo and K. Funaki, “On HMM speech recognition based on complex speech analysis,” Annual conference on industrial electronics, pp. 3477-3480, 2006.
[9] 篠田浩一,“音声認識(機械学習プロフェッショナルシ
リーズ)”,講談社, pp. 11-24, 2017.
— 4 —