第 4 章 時空間神経ダイナミクスに基づく時系列信号分類 49
4.3 音声識別課題
4.3.1 TI-46 データセット
培養神経回路のダイナミクスに reservoir computingの枠組みを適用し.音声信号の 識別を行った.音声信号として,Texas Instruments社が販売を行っているTI-46デー タセットを用いた [42].これは,計16人の男性話者および女性話者が発声した音声デー タを集めたもので,”Yes”等の簡単な英単語や英数字を含め,計46種類の音声データが 含まれている.この内,本研究では女性話者5名の”Zero”から”Nine”までの10種類の 音声データから学習・性能評価を行った [43, 44].前処理として,各音声データはLyon passive cochlear filterによって78 ch の周波数スペクトル強度に変換した [45].図4.2
図4.2 Lyonフィルタにより変換された”Zero”の音声スペクトル(上)及び”One”の 音声スペクトル(下).
に,Lyonフィルタにより変換された”Zero”の音声スペクトル及び”One”の音声スペクト ルを示す.この時,音声信号の時間ステップは0.4 msとした.
4.3.2 Reservoir computing の全体構成
Lyonフィルタにより変換して得られた音声スペクトルを,定数倍したのちに入力層の ニューロンに電流として入力する.この時,入力層のニューロン数は音声スペクトルのch 数と一致させるように78とする.入力層のニューロンの挙動はこれまでの培養神経細胞 を模倣した興奮性のニューロンモデルと同様の式に従うとした.発火した入力層のニュー ロンのシナプス電流は,Reservoir層のニューロンに伝搬する.Reservoir層の構造は,こ れまでに議論してきたランダムネットワークやモジュラーネットワークとし,Reservoir 層の構造の差異が識別性能に及ぼす影響を評価する.なお,細胞の自発的な発火を誘起 するノイズ電流は,ここではすべてのニューロンで0とした.細胞の発火を単純にスパ
図4.3 reservoir computingシステムの全体構成
イク列に変換すると,ニューロンの状態が0と1で急速に変化してしまうが,reservoir
computingで高い性能を得るためには,Reservoir層のニューロンの活動はある程度の時
間幅を持って緩やかに減衰することが望ましい.そこで,ニューロンの状態xはスパイク 列に指数フィルタを乗じたものとした.ニューロンj の時刻tにおける状態xj は次の式 で計算される.
dxj(t)
dt =δ(t−tj,k)− xj(t) τx
, (4.1)
ここで,δ(t)はクロネッカーのデルタで,δ(0) = 1,それ以外の場合は0である.tj,k は ニューロンjがk回目に発火した時刻を示す.τx は減衰の時定数で,ここでは200 msと した.出力層(または,Readout layer)は,識別する音声信号の種類と同数である10と し,出力層のニューロンiの膜電位ui をReservoir層のニューロンの重み付き積和から 計算した.
ui(t) =wjixj(t), (4.2)
ここで,wjiはReservoir層のニューロンj と出力層のニューロンi間の結合荷重値であ る.この膜電位をSoftmax関数に代入し,出力層のニューロンの最終的な出力とする.
yi(t) = exp(ui(t))
∑
kexp(uk(i)), (4.3)
Softmax関数の性質より,yi(t) は0 ∼ 1の範囲に収まり,また ∑
iyi(t) = 1となる.
よってyi(t)はネットワークが推定した,入力がクラスiである確率とみなすことが出来 る.図4.3に,本シミュレーションで用いたreservoir computingシステムの全体構成を 示す.
4.3.3 出力荷重値の計算
学習の最終的な目標は,所望の出力をyˆとしたときに,出力yがyˆに一致するように出 力荷重値行列W を調整することである.yを出力ベクトルとしたとき,
y= Softmax(W ·x) (4.4)
となる.この時,平均二乗誤差eは
e= 1 N
∑N
i
( ˆyi−yi)2 (4.5)
となる.この誤差eが0に近づくようにW の学習を進める. 以下に,本研究で用いた2 種類の荷重値の学習方法を示す.
・確率的勾配降下法
確率的勾配降下法はオンライン学習の一種で,荷重値の更新式は以下の式で計算される.
wji ←wji+ηxi(t)(ˆyi(t)−yi(t)), (4.6) ここで,ηは学習係数である.本実験ではη = 0.01とした.状態変数xの値が大きいほ ど,またyˆとyの差が大きいほど更新量が増加し,所望の出力に近づくほど更新量が減少 する.確率的勾配降下法ではシミュレーションの実行中,ある時間間隔毎に逐次的に荷重 値の更新が行われる.この更新頻度は10 msとした.
・Ridge回帰
Ridge回帰はオフライン学習の一種で,状態ベクトルx,及び出力ベクトルyの時間変
化を列方向に結合して行列X,Y を作成した時,荷重値は以下の式で計算される.
W =Y Xˆ T(XXT +λI)−1, (4.7)
ここで,λはスケール定数,I はN ×N の単位行列である.これは線形回帰における正 規方程式に,荷重値が出来るだけ小さくなるような制約を加えたものである.なお,ここ ではλ = 1とした.この方法では,入力に対する応答とその時の所望の解をすべて保存し ておく必要がある.オンライン学習では初期荷重値から最適な荷重値へ徐々に漸近してい くが,オフライン学習は初期荷重値から最適な荷重値へ一度に遷移する.
図4.4 ”One”の音声スペクトルに対するネットワークの応答
4.3.4 入力応答と正否の判定
本シミュレーションでは,トレーニングフェーズで荷重値の更新を行い,テストフェー ズで正答率を評価した.トレーニングフェーズでは,各話者毎に”Zero”から”Nine”まで の10種類の音声データを各10回ずつ,計500 wordsのトレーニングデータを用いて学 習を行った.なおオンライン学習の場合,500 wordを1 epochとした.テストフェーズ では,各話者毎に”Zero”から”Nine”までの10種類の音声データを各2回ずつ,計100
wordsのテストデータを用い,100 word中の正答数から正答率CRを評価した.図4.4
に,”One”の音声データに対するネットワークの応答を示す.この時,Reservoir 層の
ニューロンのIDは1∼ 100,入力層のニューロンのIDは101 ∼178に対応する.入力 層のニューロンの応答は,音声スペクトルの値が大きい部分で発火し,発火時系列の形状 は音声スペクトルと良く対応する.一方で,Reservoir層の応答は入力層のニューロンの
発火及びreservoir内部の発火を反映した発火となっている.ネットワークが推定した解
は,ネットワークの期間中の発火回数から求めた.ラスタープロットの右側に示したヒス トグラムは,この期間中の発火回数に対応しており,これをx′ とする.この時系列に対 するネットワークが推定した解をy′ とすると.
y′ = Softmax(W ·x′) (4.8)
図4.5 入力に対するreservoir層の状態行列.ランダムネットワーク(左),モジュ ラーネットワーク(右)
と求められる.y′ の中で最大値を持つ成分をネットワークの最終的な推定解とし,これ が所望の解と等しければ正解とする.