音声識別課題

第 4 章時空間神経ダイナミクスに基づく時系列信号分類 49

4.3 音声識別課題

4.3.1 TI-46 データセット

培養神経回路のダイナミクスに reservoir computingの枠組みを適用し．音声信号の識別を行った．音声信号として，Texas Instruments社が販売を行っているTI-46データセットを用いた [42]．これは，計16人の男性話者および女性話者が発声した音声データを集めたもので，”Yes”等の簡単な英単語や英数字を含め，計46種類の音声データが含まれている．この内，本研究では女性話者5^名の”Zero”^から”Nine”^までの10^種類の音声データから学習・性能評価を行った [43, 44]．前処理として，各音声データはLyon passive cochlear filterによって78 ch の周波数スペクトル強度に変換した [45]．図4.2

図4.2 Lyonフィルタにより変換された”Zero”の音声スペクトル（上）及び”One”の音声スペクトル（下）．

に，Lyonフィルタにより変換された”Zero”の音声スペクトル及び”One”の音声スペクトルを示す．この時，音声信号の時間ステップは0.4 ms^とした．

4.3.2 Reservoir computing の全体構成

Lyonフィルタにより変換して得られた音声スペクトルを，定数倍したのちに入力層のニューロンに電流として入力する．この時，入力層のニューロン数は音声スペクトルのch 数と一致させるように78とする．入力層のニューロンの挙動はこれまでの培養神経細胞を模倣した興奮性のニューロンモデルと同様の式に従うとした．発火した入力層のニューロンのシナプス電流は，Reservoir層のニューロンに伝搬する．Reservoir層の構造は，これまでに議論してきたランダムネットワークやモジュラーネットワークとし，Reservoir 層の構造の差異が識別性能に及ぼす影響を評価する．なお，細胞の自発的な発火を誘起するノイズ電流は，ここではすべてのニューロンで0とした．細胞の発火を単純にスパ

図4.3 reservoir computingシステムの全体構成

イク列に変換すると，ニューロンの状態が0と1で急速に変化してしまうが，reservoir

computingで高い性能を得るためには，Reservoir層のニューロンの活動はある程度の時

間幅を持って緩やかに減衰することが望ましい．そこで，ニューロンの状態xはスパイク列に指数フィルタを乗じたものとした．ニューロンj の時刻tにおける状態x_j は次の式で計算される．

dxj(t)

dt =δ(t−tj,k)− xj(t) τx

, (4.1)

ここで，δ(t)はクロネッカーのデルタで，δ(0) = 1，それ以外の場合は0である．tj,k はニューロンjがk回目に発火した時刻を示す．τx は減衰の時定数で，ここでは200 msとした．出力層（または，Readout layer）は，識別する音声信号の種類と同数である10とし，出力層のニューロンiの膜電位u_i をReservoir層のニューロンの重み付き積和から計算した．

u_i(t) =w_jix_j(t), (4.2)

ここで，w_jiはReservoir層のニューロンj と出力層のニューロンi間の結合荷重値である．この膜電位をSoftmax関数に代入し，出力層のニューロンの最終的な出力とする．

y_i(t) = exp(u_i(t))

∑

kexp(uk(i)), (4.3)

Softmax関数の性質より，y_i(t) は0 ∼ 1の範囲に収まり，また ∑

iy_i(t) = 1となる．

よってy_i(t)はネットワークが推定した，入力がクラスiである確率とみなすことが出来る．図4.3に，本シミュレーションで用いたreservoir computingシステムの全体構成を示す．

4.3.3 ^{出力荷重値の計算}

学習の最終的な目標は，所望の出力をyˆとしたときに，出力yがyˆに一致するように出力荷重値行列W を調整することである．yを出力ベクトルとしたとき，

y= Softmax(W ·x) (4.4)

となる．この時，平均二乗誤差eは

e= 1 N

∑N

( ˆyi−yi)² (4.5)

となる．この誤差eが0に近づくようにW の学習を進める. 以下に，本研究で用いた2 種類の荷重値の学習方法を示す.

・確率的勾配降下法

確率的勾配降下法はオンライン学習の一種で，荷重値の更新式は以下の式で計算される．

wji ←wji+ηxi(t)(ˆyi(t)−yi(t)), (4.6) ここで，ηは学習係数である．本実験ではη = 0.01とした．状態変数xの値が大きいほど，またyˆ^とyの差が大きいほど更新量が増加し，所望の出力に近づくほど更新量が減少する．確率的勾配降下法ではシミュレーションの実行中，ある時間間隔毎に逐次的に荷重値の更新が行われる．この更新頻度は10 msとした．

・Ridge回帰

Ridge回帰はオフライン学習の一種で，状態ベクトルx，及び出力ベクトルyの時間変

化を列方向に結合して行列X,Y を作成した時，荷重値は以下の式で計算される．

W =Y Xˆ ^T(XX^T +λI)⁻¹, (4.7)

ここで，λはスケール定数，I はN ×N の単位行列である．これは線形回帰における正規方程式に，荷重値が出来るだけ小さくなるような制約を加えたものである．なお，ここではλ = 1とした．この方法では，入力に対する応答とその時の所望の解をすべて保存しておく必要がある．オンライン学習では初期荷重値から最適な荷重値へ徐々に漸近していくが，オフライン学習は初期荷重値から最適な荷重値へ一度に遷移する．

図4.4 ”One”の音声スペクトルに対するネットワークの応答

4.3.4 ^{入力応答と正否の判定}

本シミュレーションでは，トレーニングフェーズで荷重値の更新を行い，テストフェーズで正答率を評価した．トレーニングフェーズでは，各話者毎に”Zero”から”Nine”までの10^{種類の音声データを各}10^{回ずつ，計}500 wordsのトレーニングデータを用いて学習を行った．なおオンライン学習の場合，500 wordを1 epochとした．テストフェーズでは，各話者毎に”Zero”から”Nine”までの10種類の音声データを各2回ずつ，計100

wordsのテストデータを用い，100 word^{中の正答数から正答率}CR^{を評価した．図}4.4

に，”One”の音声データに対するネットワークの応答を示す．この時，Reservoir 層の

ニューロンのIDは1∼ 100，入力層のニューロンのIDは101 ∼178に対応する．入力層のニューロンの応答は，音声スペクトルの値が大きい部分で発火し，発火時系列の形状は音声スペクトルと良く対応する．一方で，Reservoir層の応答は入力層のニューロンの

発火及びreservoir内部の発火を反映した発火となっている．ネットワークが推定した解

は，ネットワークの期間中の発火回数から求めた．ラスタープロットの右側に示したヒストグラムは，この期間中の発火回数に対応しており，これをx^′ とする．この時系列に対するネットワークが推定した解をy^′ とすると．

y^′ = Softmax(W ·x^′) (4.8)

図4.5 入力に対するreservoir層の状態行列．ランダムネットワーク（左），モジュラーネットワーク（右）

と求められる．y^′ の中で最大値を持つ成分をネットワークの最終的な推定解とし，これが所望の解と等しければ正解とする．

ドキュメント内時空間神経ダイナミクスの数理モデリングと脳型計算機応用に関する研究 (ページ 57-62)

第 4 章 時空間神経ダイナミクスに基づく時系列信号分類 49