• 検索結果がありません。

a) b) c) Speech Recognition of Short Time Utterance Based on Speaker Clustering Hiroshi SEKI a), Daisuke ENAMI, Faqiang ZHU, Kazumasa YAMAMOTO b), and

N/A
N/A
Protected

Academic year: 2021

シェア "a) b) c) Speech Recognition of Short Time Utterance Based on Speaker Clustering Hiroshi SEKI a), Daisuke ENAMI, Faqiang ZHU, Kazumasa YAMAMOTO b), and"

Copied!
12
0
0

読み込み中.... (全文を見る)

全文

(1)

話者クラスタリングに基づく短時間発話音声認識

博史

a)

榎並

大介

発強

山本

一公

b)

中川

聖一

c)

Speech Recognition of Short Time Utterance Based on Speaker Clustering

Hiroshi SEKI

†a)

, Daisuke ENAMI

, Faqiang ZHU

, Kazumasa YAMAMOTO

†b)

,

and Seiichi NAKAGAWA

†c)

あらまし 音声認識システムにおいて話者の多様性は認識精度を低下させる大きな要因となるため,システム を対象話者に適応させる話者適応に関する研究がこれまで活発に行われてきた.しかし,提案されている多くの 話者適応手法は数十秒から数分程度の適応データを想定しており,短時間発話に対する適応は考慮されていない. そこで本研究では,短時間発話を対象とした話者適応技術の提案を行う.そのために,学習データのクラスタリ ングを基に話者クラスを定め,この話者クラス群をモデル化した混合ガウス分布と発話との間の対数ゆう度で話 者の情報を表現する.これらの対数ゆう度を話者情報として使用し,かつ話者情報推定に使用する発話長を発話 先頭0.5 秒と制限することで,短時間発話認識のための話者適応技術の評価を行う.評価実験の結果,話者情報

を音響特徴量とともにDNN (Deep Neural Network) へ入力することで,話者情報を使用しない場合と比較し

て7%の相対誤り削減率を得ることができ,短時間発話に対する本手法の有効性が明らかになった.

キーワード 不特定話者音声認識,短時間発話音声認識,Deep Neural Network,話者クラスタリング

1.

ま え が き

スマートフォンが普及した今,多くのユーザが音声 検索や音声アシスタントなどの音声認識技術を使用す るようになった.これらの状況で使用される音声認識 システムは,老若男女どのような話者の発話に対して も高い認識精度を示すことが望まれる.しかし,話者 の多様性は,モデルを学習する際に使用する音響特徴 量の変動へとつながり,認識精度を低下させる大きな 要因となっている[1].そのため,音声認識システムを 対象話者に適応させる話者適応や,話者に頑健な音響 特徴量を利用する不特定話者音声認識などが活発に研 究されている. GMM-HMM音響モデルに対する適応手法として は,学習データのクラスタリングや話者適応技術が 豊橋技術科学大学情報・知能工学系,豊橋市

Department of Computer Science and Engineering, Toyo-hashi University of Technology, ToyoToyo-hashi-shi, 441–8580 Japan a) E-mail: seki@slp.cs.tut.ac.jp b) E-mail: kyama@slp.cs.tut.ac.jp c) E-mail: nakagawa@slp.cs.tut.ac.jp DOI:10.14923/transinfj.2016JDP7063 ある.学習データのクラスタリング手法では,学習 データを音響的に類似する話者群で構成するクラス に分割し,類似話者クラスごとに音響モデルを作成 する.認識時には,テスト発話と類似する話者クラス の音響モデルを使用し,認識を行う.この方法を用い ることで,話者性の問題に対処でき,認識精度が向 上することが知られている[2].類似話者の選択方法 としては,GMMを用いて話者クラスモデルを表現 する方法[3]や,音素HMMを用いる方法[4]がある. また,話者選択手法として,話者の声道長パラメー タ[5]や固有声[6],発話速度[7],i-vector [8]を用い る方法も提案されている.他にも,異なる複数の識別 器を学習し組み合わせることで汎化能力の向上を目 指す,アンサンブル法も提案されている[9], [10].話 者適応技術では,音響モデルの話者適応や特徴量空 間での適応がある.GMM-HMMにおける話者適応

技術としては,MAP (Maximum a posterior prob-ability)適 応[11] やMLLR (Maximum Likelihood Linear Regression)適応[12],VTLN (Vocal Tract Length Normalization)適応[13],fMLLR (feature space MLLR)適応[14]が広く用いられている.

(2)

Neural Network; DNN)を音声認識に用いる研究が活 発に行われ,従来手法であるGMM-HMMの性能を大 きく上回ることが数多く報告されている[15].しかし, 不特定話者DNN-HMMでも,特定話者のみを用いて 学習したDNN-HMMと比較し認識精度の低下が見 られるため,現在DNN-HMMにおける話者適応技術 が広く研究されている.先行研究では,GMM-HMM で用いられる特徴量ベースの適応手法を施しDNNを 学習する手法や,話者情報をDNNへ入力することで 話者情報を考慮したネットワークの学習を目指す手法 が採られている.これらの研究では,i-vector [16]や 話者コード[17],DNNを使用したボトルネック特徴 量[18]を補助的な情報として入力している.その他に も,ネットワークの重みを線形結合により足し合わせ ることで,話者依存ネットワークを構築する手法[19] や,話者クラス別DNN-HMMの作成と複数DNNの 出力確率統合[20]も提案されている. 一方で,音声検索や音声アシスタントで音声認識を 用いる場合,入力発話は1∼数単語(0.5秒∼数秒程度) となることが予想できる.しかし,上で述べた話者適 応技術の多くは数十秒から数分程度の適応データを想 定しており,短時間発話に対する考慮がなされていな い.例えば,文献[21]では短時間発話からのi-vector の推定を提案しているが,0.5秒程度の発話から話者 を識別するために十分な情報を推定することは困難で あることが報告されている.また,i-vectorを補助情 報として入力する研究も数多くなされているが,著者 らの知る限りでは,話者情報の推定のため少なくとも 5.0秒以上の発話時間を要する[22].更に文献[22]で は,学習データに含まれない話者を認識すると認識精 度が低下することが報告されている.そのため,従来 の話者適応技術の短時間発話認識への適用は困難であ る.そこで本論文では,GMM-HMMで広く用いられ ている学習データのクラスタリングを基にした話者 適応技術を参考に,短時間発話からの話者情報の抽出 と話者情報を用いたDNN-HMMの学習手法を提案す る.本手法でははじめに学習データをクラスタリング し,音響的に類似する話者群で構成するクラスタに分 割する.その後,各クラスタを話者クラスとみなし, GMMを用いてモデル化を行う.そして,発話と話者 クラスGMMとの間で類似度を計算し,これを話者を 表現する補助情報として使用する.本手法では,これ を話者クラス情報と呼ぶ. 伝送特性差の相違を抑える手法として,ケプストラ ム正規化[23]がある.また,話者正規化を行う目的で も,ケプストラム正規化がしばしば用いられる.本論 文では,作成した話者クラス単位のケプストラム正規 化を行い,話者クラス情報の入力との併用手法につい ても検討する.また,ケプストラム平均のオンライン 学習法とも比較検討する. 評価には短時間発話で構成される老若男女のコーパ スが必要であるが,このような短時間発話コーパスは 存在しないため一文発話単位のコーパスを使用した. そのため,話者クラス情報を推定するために使用する 発話の時間長を0.5秒に制限し,これを発話全体から 推定した話者クラス情報とみなす.これにより,任意 語彙の短時間発話を認識対象とする現在の音声認識の 使用状況に適ったシステムの改善を目指す. 本論文の構成は以下のとおりである.まず2.でケ プストラム正規化について述べる.次に3.で,学習 データのソフトクラスタリング手法と作成したクラス タを用いた音響モデルの作成について述べる.4.では 実験条件について,5.では不特定話者データベースを 用いた提案手法の結果を示す.最後に6.にて,結論 を述べる.

2.

特徴量の正規化

音声認識システムの動作環境の違いにより,学習 データとテストデータの間の音響特徴量にミスマッチ が生じることは多くあり,認識精度の低下を招く一因 となっている.その中で伝達特性の相違を抑える手法と して,発話単位ケプストラム正規化(Cepstral Mean

Normalization; CMN, Cepstral Variance Normal-ization; CVN) [23]がある.フレーム時刻tにおけるi 次元目のケプストラム音響特徴量ci(t)に対するCMN 及びCVNは, CMN : ˆci(t) = ci(t) − μi (1) CV N : ˆci(t) = ci(t) σ2 i (2) μi= 1 T T  t=1 ci(t), σi2= 1 T T  t=1 (ci(t) − μi)2 (3) となる(Tは発話フレーム数).両者を組み合わせると, ˆ ci(t) = ci(t) − μi σ2 i (4) を得る. しかし,上記手法では音素の出現に偏りのある短時

(3)

間発話から特徴量空間全体に対する平均と分散を推定 することは難しく,認識精度が低下する.これを解決 する手法として,フレームごとに逐次的に平均・分散 を更新しながらCMVNを実行する逐次CMVN [24] や,あらかじめ学習データを類似したクラスタへ分割 した後,先頭任意フレームを用いて発話の属するクラ スタを推定し,推定したクラスタの平均及び分散を用 いてケプストラム正規化を行うクラスタ単位ケプスト ラム正規化[25]が提案されている.そのため,話者単 位でクラスタを作成することで,話者クラス単位ケプ ストラム正規化を行うことも可能である.本研究では, 話者クラスに基づく音響特徴量の正規化を行い,正規 化後の音響特徴量をDNN-HMMの学習に用いること で,話者の違いにより生じる音響特徴量の変動の抑制, 認識精度の改善を図る.本論文では比較手法として, 短時間発話でも適用可能な文献[24]の逐次CMVNを 用いる.なお,文献[24]では,以下の式を用いて平均 と分散の更新を行っている. μi[t] = βμi[t − 1] + (1 − β)ci[t] (5) σ2 i[t] = βσi2[t − 1] + (1 − β)(ci[t] − μi[t])2 (6) β = 0.992 (7)

3.

ソフトクラスタリングと話者クラス情報

3. 1 クラス選択とモデル選択 学習データを複数クラスに分割しモデル化すること で,話者の違いにより生じる音響特徴量の変動を抑制 することができる.学習データの分割を行う際,各ク ラスの学習データ量の減少を防ぐため,Algorithm 1 に示す手法を用いてクラス間のオーバーラップを許し た学習データのソフトクラスタリングを行う[26], [27]. このクラスタリング手法では,最ゆうクラスのゆう度 とj番目のクラスのゆう度の差がしきい値rsよりも 小さい場合に,学習データiをクラスjにも割り当て ることでソフトクラスタリングを実現している.更に mminmmaxを導入することで,nが取りうる最小 値・最大値を制限し極端な割り振りを防いでいる. 学習データの話者クラスへの割振り,及びテスト データが属する話者クラスの推定には,話者クラスs のGMMを用いて

L(o|λs) = logp(o|λs) = T  t=1 logp(ots) (8) によりゆう度を計算し,最大ゆう度となる話者クラス Algorithm 1学習データのソフトクラスタリング 1:for 発話 i = 1 to I(学習データ数) do 2: n = 1 3: M個のモデル (クラス) を用い,発話i に対するゆう度を 求める. 4: 求めたクラスを,ゆう度sc に対して降順に並べる.(クラ ス順:1, . . . , mmin, . . . , mmax, . . . , M) 5: for j = 2 to M do 6: if sc(1)− sc(j)< rs then 7: n = n + 1 8: end if 9: end for 10: if n < mminthen 11: i を 1∼mminクラスに分類. 12: else if n > mmaxthen

13: i を 1∼mmaxクラスに分類. 14: else if mmin≤ n ≤ mmaxthen

15: i を n 個のクラスに分類. 16: end if 17: end for を対応クラスとする.ここで,o = o1, o2, . . . , oTは1 発話の入力系列,λsはクラスsのGMMである. また,新しくクラスタリングを行った後,直前のク ラスタリングから変動した発話数をカウントし,これ をクラスタリング後の各クラスタの総発話数で割るこ とで,クラスタごとに変動した発話の割合を求める. 話者クラスを構築する際には,全てのクラスタで変動 した割合を求め,変動率が減少しなくなるまで学習 データのソフトクラスタリングとGMMの更新を繰 り返す. 3. 2 話者クラス情報の利用 システムの全体像を図1に示す.まずはじめに,3. 1 のソフトクラスタリング手法を用いて学習データから 話者クラス別GMMを作成し,入力発話ごとに話者ク ラス情報を得る.この話者クラス情報を用いて,話者 クラス単位CMVN及び補助情報としての話者クラス 情報の利用を行う.本研究では学習するDNNの数は 一つで,以下の三つの話者クラス情報の使用方法につ いて比較を行った. a ) 話者クラス単位ケプストラム正規化 GMMを用いて計算した“発話が属する可能性が最 も高いクラス”の特徴量の平均及び分散を用いて特徴 量を正規化し,DNNの学習に使用する.学習時には1 発話の全てのフレームを用いて話者クラス選択を行う. b ) 話者クラス情報のDNNへの入力 DNNは高い表現能力をもち,話者情報をDNNへ の入力として与えることで話者情報を考慮したモデル がネットワーク内で学習される.そこで,DNNの入力

(4)

図 1 システムの全体像

Fig. 1 Overview of speaker class incorporation.

層に話者クラス情報を入力するためのユニットを追加 し,推定した話者クラス情報を入力する.発話から話 者情報を抽出する代表的な手法として,i-vectorが挙 げられる[28].i-vectorは,話者やチャネルに依存し たGMMスーパーベクトルを,因子分解を用いて低次 元空間へ写像することにより計算される.本研究では, 短時間発話による話者適応を目指しており,i-vector の使用は適さない.そこで,式(8)を用いて話者クラ スごとのゆう度を計算し,話者クラス情報として使用 する.話者クラス情報の入力方法として,以下の4通 りの手法を用いた.なお,学習時には1発話の全ての フレームを用いて話者クラス情報の推定を行う. b-1)対数ゆう度:各GMMを用いて発話に対する 各話者クラスのゆう度(対数ゆう度)を計算し,DNN へ入力する. b-2)最ゆうクラス:ケプストラム正規化のネット ワーク内部でのモデル化が可能か調査するため,最ゆ うクラスを1,それ以外の話者クラスを0としてDNN へ話者クラス情報として入力する. b-3)事後確率:対数ゆう度はGMMを用いて計算 しているが,発話によってゆう度の絶対値の振れ幅が 大きく,安定した話者クラスのモデル化が行えない可 能性がある.そこで,ソフトマックス関数を用いて話 者クラス情報の総和を1としてDNNへ話者クラス情 報として入力する. b-4)隠れ層への入力:DNNでは,層が上がるにつ れより高次な特徴抽出が行われる.しかし,DNNの 学習では正解として音節ラベルのみを与えているため, それ以外の個人性に関する情報は削減される.ここで は話者クラス情報を入力層以外に直接高次の隠れ層へ 入力し,高次の層での話者情報のモデル化を検討する. c ) 上記手法の併用 手法(a)の話者クラス単位ケプストラム正規化及び (b)の話者クラス情報のDNNへの入力の併用を行う. 3. 3 多 段 学 習 評価実験により示されるが,多次元の特徴パラメー タと少次元の話者クラス情報を連結して大規模なネッ トワークを学習するとき,多次元の特徴パラメータに 対する学習が主となるため,少次元の話者クラス情報 を反映したネットワークは学習されにくい(従来学習 法).そのため,はじめに話者クラス情報の入力無し でDNNを学習しておき,それを初期値として話者ク ラス情報つきで再学習を行うことで話者クラスを反映 したDNNを学習する.本研究では,これを多段学習 (stepwise training)と呼ぶ.これにより,音響特徴量 を用いて音響モデルを学習し安定した後,更に話者ク ラス情報を基にしたより適切な解の探索を目指す.な お,第一段目では話者クラス情報を入力するユニット に0を入力する.

4.

実 験 条 件

4. 1 データベース 年齢・性別非依存の不特定話者音声認識システムを 評価するため,三つの年齢層(成人/子供/老人)と性別 (男性/女性)ごとにデータベースを用意した.実験に 用いたコーパスを,表1に示す.成人用のデータには ASJ (研究用連続音声データベース)コーパス[29]と JNAS (新聞記事読み上げ音声)コーパス[30]を,老

(5)

表 1 各クラスで使用される学習データ Table 1 Training data.

ASJ+JNAS 性別 男性 女性 年齢 18-59 18-59 話者数 133 164 発話数 20,337 (33h) 25,056 (44h) 未知語率 0.45% 0.45% S-JNAS 性別 男性 女性 年齢 60-90 60-90 話者数 151 150 発話数 24,081 (53h) 24,061 (53h) 未知語率 2.07% 2.05% CIAIR-VCV 性別 男性 女性 年齢 6-12 6-12 話者数 140 138 発話数 7,538 (+3993,11h) 7,744 (+3910, 11h) 未知語率 13.81% 13.64% 人用のデータにはJNASの老人版であるS-JNAS (新 聞記事読み上げ高齢者音声)コーパス[31]を,子供用 のデータには,CIAIR-VCV (子供の声データベース) コーパス[32]を用いる.学習データ時間は,成人クラ スは男性が約33時間,女性が44時間,老人クラスは 男性・女性ともに約53時間,子供クラスは男性・女性 とも約11時間である.これ以降では成人男性はAM, 成人女性はAF,老人男性はEM,老人女性はEF,子 供男性はCM,子供女性はCFと表す.テストデータ は,各クラスとも100文である.テスト文の発話者は,

それぞれAM: 23人,AF: 23人,EM: 10人,EF: 10

人,CM: 7人,CF: 8人である.子供用コーパスはお もに童話の読み上げ文から構成されているが,実験で 用いている言語モデルは新聞記事から学習している. そのため,子供クラスのテストデータの未知語率は約 14%である.このため,成人,老人クラスの未知語率 はそれぞれ約0.5%,2.1%であるが,未知語以外が完 全に正しく認識できても,全体での単語正解精度は約 94.5%であり,これが性能上限となる.また,話者ク ラス情報推定のために使用する発話先頭0.5秒が無音 とならないように,テストデータは全て手動で音声区 間の切り取りを行った. 4. 2 特徴パラメータと音響モデル 4. 2. 1 特徴パラメータ GMM-HMM及びDNN-HMM,話者クラス分類の ために用いるクラスごとのGMMの学習には,フレー ム長25msでフレーム周期10msごとに求めた12次 元MFCC,ΔMFCC,ΔΔMFCC,Δパワー,ΔΔ パワーの計38次元の特徴量を用いる.また,短時間 発話の認識を目標としているため,5. 3で明示的に記 述する場合以外では発話単位CMVNを行っていない. 4. 2. 2 GMM-HMM クラスごとの音節GMM-HMMは,音節単位の left-to-right型で,各HMMは4出力状態をもち,各出 力分布は32混合の対角共分散正規分布からなる.ま た,学習データのクラスタリングを行わない1クラス モデルの場合は128混合としている.116音節のコン テクスト独立HMMを学習した後,左コンテクスト依 存HMM (116× 8 = 928種類)をMAP推定により 学習した[27].なお,モデルの学習にはHTK (HMM Toolkit) [33]を使用した. 4. 2. 3 DNN-HMM DNNへの入力フレーム数は当該フレームに前後5フ レームを加えた11フレームとした.学習データのアラ イメントは,4. 2. 2で述べたGMM-HMMに対して 後半3状態の結びを行ったモデルを用いて行った[34]. ネットワークの構造は,入力層:418 (= 38×11)ユニッ ト,隠れ層:3層,各2,048ユニット,出力層:1,276 (= 928 + 116× 3)ユニットとした.話者クラス及び発 話単位CMVNを行わない場合は,学習データ全体で

特徴量の正規化(zero mean, unit variance)を行い, それ以外の場合は学習データ全体での特徴量の正規化 を行っていない. また,活性化関数としてRectifier function (f(x) = max(0, x))を用いることで,事前学習を行わなくて も事前学習を行った場合と同等の精度が得られるこ とが報告されている[34], [35].したがって,学習時間 短縮のため,本研究でも活性化関数としてRectifier functionを用いて事前学習は行わず,バックプロパ ゲーションのみによりDNNの学習を行った.ネット ワークの初期値は,各層とも±√ 6 nj+nj+1を上,下限 値としてとる一様分布からサンプリングした値を用い た[36].njは,DNNの第j層目のユニット数である. 多段学習を行う場合も同様に初期値を設定した. 4. 3 言語モデル及びデコーダ 言語モデルの学習には,毎日新聞の記事[37]のうち 1991年1月から1994年9月までの45ヶ月及び1995 年1月から1997年6月までの30ヶ月分,計75ヶ月 分を使用した.語彙として学習データの中で出現頻度 が高い上位20,000語を使用し,tri-gram言語モデル を学習した.カットオフは全て1であり,バックオフ の計算にはウィッテンベル法を用いた.また,デコー

(6)

ダにはWFST版SPOJUSを用いた[38]. 4. 4 クラス分類GMM クラス分類のために用いるクラスごとのGMMは, 混合数8の初期GMMの作成には各クラスとも10,000 発話のみを使用し,その後,全ての学習データを用い て,混合数を上げながらモデルを学習した.最終的な GMMの混合数は64混合とした.パラメータrsは, 各クラスに分類されたデータが,少なくとも表1のオ リジナルクラスよりも多くなるように設定した.更に, 本実験では6クラスから12クラスへとソフトクラス タリングを行う.これ以降,それぞれを6 class soft及 び12 class softと呼ぶ.これらのクラスタリングの際 のmminmmaxrsは,それぞれ1,3,0.6とした. また,6クラスでソフトクラスタリングを行った後の 各クラスタに割り当てられている発話をランダムに2 分割し,これを12クラスの初期値として使用した.

5.

実 験 結 果

5. 1 ベースライン 話者情報を使用しないベースラインとなる単語正解 精度を表2に示す.学習データを一つの音響モデルで 学習することで,GMM-HMMの場合84.6%, DNN-HMMの場合88.8%の平均単語正解精度を得た.先行 研究と同じく,音響モデルとしてDNN-HMMを用い ることでGMM-HMMと比べ大幅な精度の改善が得 られている. 5. 2 話者クラス単位モデル化 コーパスに従い六つの音響モデルを学習し,話者ク ラス別に認識した際の単語正解精度を表3に示す.な お,ここでは発話が属する話者モデルが既知であると して実験を行った.GMM-HMMに着目すると,学習 データを類似するクラスに分割してそれぞれをモデル 表 2 話者クラス情報を使用しないベースラインの単語正 解精度 [%]

Table 2 Word accuracy of the baseline system [%].

Acoustic Model AM AF EM EF CM CF Ave. GMM-HMM 90.8 91.7 89.6 91.7 67.7 75.8 84.6 DNN-HMM 94.5 95.5 92.9 93.8 76.5 80.0 88.8

表 3 話者クラス別モデリングと単語正解精度 (クラス既 知) [%]

Table 3 Word accuracy of the speaker-class dependent models (class-known).

Acoustic Model AM AF EM EF CM CF Ave. GMM-HMM 93.5 93.6 89.6 93.4 73.2 78.9 87.0 DNN-HMM 93.9 95.1 92.9 94.7 77.2 78.9 88.8 化することで,精度が向上することが分かる.特に, 他のクラスと音響的差異が大きいと考えられる子供ク ラスで比較的大きな正解精度の改善が得られた. 音響モデルとしてDNN-HMMを用いた場合,平均 単語正解精度は88.8%となった.GMM-HMMと異な り,全ての学習データを用いて一つのモデルを学習し た場合と正解精度は変わらず,DNN-HMMは話者の 多様性に対して頑健であることが分かる.ただし,ク ラス数の増加は各モデルで使用される学習データ量の 減少へとつながるため,話者クラス数と学習データ量 はトレードオフの関係にあり,モデルの汎化能力に影 響を与える可能性があることに注意が必要である. 学習データを分割することで精度が改善した GMM-HMMに関しては,更に分割数を増やし単語正解精度 の変化を調査した.実験結果を表4に示す.なお,こ こでは発話が属する話者クラスを未知とし,全ての フレーム(all frames)若しくは先頭50フレーム(50 frames)を用いて使用する音響モデルの選択を行った. GMMの学習には,コーパスに従う初期6クラスと 12クラスにソフトクラスタリングしたデータを用い

た.それぞれ表の6 class initと12 class softに対応 する.クラス未知として認識実験を行うことでクラス 既知の場合と比べ正解精度が低下するが,6クラスの 場合でも1発話全体(all frames)を用いてクラス分類 することで,表2のGMM-HMMの精度(84.6%)を 上回る結果(85.9%)が得られた.話者クラスの選択に 使用する発話長を50フレームに制限することで話者 クラス選択結果にばらつきが見られた.そのため,話 者クラス選択の精度低下が単語正解精度の83.9%への 低下に影響を与えていると考えられる.話者クラス数 を12クラスに増やすことで,6クラスモデルと比較 し更なる精度の改善を得ることができた.そして,12 クラスモデルにおいては先頭50フレームだけを用い た話者クラス分類を行うことで表2 のベースライン GMM-HMMを上回る精度(85.6%)を得た.以上の 結果より,音響的特徴に基づいたクラスタリングによ る複数GMM-HMM音響モデルの有効性が示された. ただし,話者情報を使用しないDNN-HMMを上回る 精度は得られなかった.そこで,これ以降は話者の多 様性に対してより頑健なDNN-HMMのみを音響モデ ルとして使用し,更なる精度の改善を目指す. 5. 3 ケプストラム正規化 (a) 話者クラス単位ケプストラム正規化 DNN-HMMの学習の際に,話者クラス単位でケプス

(7)

表 4 話者クラス数の増加と単語正解精度の変化 (クラス未知)[%]

Table 4 Increase of speaker-class and changes in Accuracy (class-unknown) [%].

Acoustic Model Training data All frames 50 frames

AM AF EM EF CM CF Ave. AM AF EM EF CM CF Ave.

GMM-HMM 6 class init (6 GMMs) 93.2 92.5 88.8 90.9 72.0 77.7 85.9 91.7 89.8 82.8 91.8 71.1 76.1 83.9 12 class soft (12 GMMs) 92.9 94.1 91.2 93.0 71.6 79.6 87.1 91.3 94.0 88.7 91.9 71.1 76.3 85.6

表 5 話者クラス単位ケプストラム正規化と単語正解精度 (クラス未知)

Table 5 Word accuracy based on speaker-class-dependent CMVN (class-unknown) [%].

Acoustic Model Training data All frames 50 frames

AM AF EM EF CM CF Ave. AM AF EM EF CM CF Ave. DNN-HMM 1 class (Table 2) - - - 94.5 95.5 92.9 93.8 76.5 80.0 88.8 6 class init 94.3 95.6 93.5 94.5 76.7 80.5 89.2 94.5 95.7 93.5 94.7 76.7 79.8 89.1 6 class soft 94.3 95.4 92.8 94.5 75.1 79.5 88.6 94.3 95.4 92.8 94.5 75.1 79.5 88.6 12 class soft 94.7 95.3 92.5 95.1 75.4 79.7 88.8 94.5 95.3 93.2 95.1 75.6 79.1 88.8 表 6 ケプストラム正規化の正規化単位と単語正解精度の 変化 (クラス既知) [%]

Table 6 Word accuracy comparison on the cepstral normalization (class-known).

CMVN unit #. normalization unit Ave. Acc.[%]

corpus 3 88.9

6 class init 6 88.8

speaker 81 89.4

utterance (all frames) 6×100 89.8

トラム正規化を行った結果を表5に示す.本手法では, 全てのフレーム若しくは先頭50フレームを用いて使 用する平均及び分散の選択を行った.初期クラス(6 class init)ごとにケプストラム正規化を行うことで, 平均単語正解精度は89.2% (全フレーム使用),89.1% (50フレーム使用)となり,表2のベースラインとな るDNN-HMM (88.8%)に対して約4%の精度の相対 改善を得た.一方で,学習データのソフトクラスタリ ングにより平均単語正解精度は,6クラスソフトクラ スタリングの場合88.6%,12クラスソフトクラスタ リングの場合88.8%と改善は見られなかった.これら の結果から,DNNの学習において学習データのソフ トクラスタリングは必要なく,より細かいレベルでの ケプストラム正規化がDNNの学習に悪影響を与えて いることが分かる. (b) ケプストラム正規化の正規化単位の調査 比較実験としてケプストラム正規化を行う単位を男女 混合のコーパス,初期6クラス,話者及び発話として, ケプストラム正規化の正規化単位と単語正解精度の比 較を行った.実験結果を表6に示す.ただし,ここで はいずれもテストデータに対する平均と分散を既知と して認識を行った.コーパス単位CMVN (corpus)を 行うことで6クラスの平均単語正解精度は88.9%,初 期6クラス(6 class init)に従いCMVNを行うことで 表 7 発話単位の逐次ケプストラム正規化による単語正解 精度の比較

Table 7 Word accuracy based on utterance-based online cepstral normalization.

Training Test Ave. Acc.[%] Online Online 89.3 Batch Online 87.7 88.8%となり,表2のベースラインと同等の精度を示 した.一方で,ベースラインモデルや初期6クラス単 位CNVNに関する実験ではコーパス単位CMVNを 行っておらず,伝送特性差が認識精度に影響を与える 可能性もある.しかし,これらはコーパス単位CMVN と同等の精度を示しており,CMVNにより補正される データベース間の録音環境の違いは少ないと推測され る.話者単位CMVN (speaker)を行うことで平均単 語正解精度は89.4%に,発話単位CMVN (utterance) を行うことで平均単語正解精度は89.8%にまで改善し た.しかし,これらは同一話者のテスト発話群若しく は1発話全体(平均5.4秒)から平均及び分散を推定 しており,本論文の目的である短時間発話認識に用い ることはできない. (c) 逐次ケプストラム正規化 式(5)∼(7)の実験条件に従い,逐次CMVNを行った 際の認識結果を表7に示す.表内のOnlineでは,前 フレームで使用した平均及び分散と当該フレームの データを用いてパラメータを逐次的に更新し,Batch では,発話既知としてケプストラム正規化を行う前に 平均及び分散を一括して更新した. 学習データに対しても逐次的に平均・分散の更新を 行った場合,89.3%の平均単語正解精度を得ることが できた.一方で,テストデータのみを逐次更新した 場合,平均単語正解精度は87.7%に低下した.一般的

(8)

表 8 話者クラス情報の入力による単語正解精度の変化 (クラス未知) Table 8 Word accuracy using speaker-class-information (class-unknown) [%].

Training method Training data All frames 50 frames

AM AF EM EF CM CF Ave. AM AF EM EF CM CF Ave.

Baseline 1 class (Table 2) - - - 94.5 95.5 92.9 93.8 76.5 80.0 88.8 w/o stepwise training

6 class init 94.7 95.7 93.3 94.8 76.9 80.1 89.2 94.7 95.7 93.3 94.8 76.9 80.1 89.2 6 class soft 94.2 95.6 93.5 95.0 76.9 79.9 89.2 94.2 95.6 93.5 95.0 76.9 79.9 89.2 12 class soft 94.9 95.3 92.7 93.8 77.0 80.9 89.1 94.3 95.3 92.9 93.5 76.7 81.3 89.0 w/ stepwise training 6 class init 94.5 95.9 93.8 95.1 78.1 79.4 89.4 94.4 95.9 94.0 95.1 77.8 79.3 89.4 6 class soft 94.3 95.4 93.7 94.9 77.8 80.4 89.4 94.4 95.9 94.1 95.4 77.8 79.8 89.6 12 class soft 94.9 95.6 93.6 95.4 78.0 80.0 89.6 94.9 95.6 93.6 95.4 78.0 80.0 89.6 に,逐次CMVNはテストデータに対してのみ行われ る(学習データはBatch).これは,学習データが多様 な話者や異なった録音環境で構成されている場合,全 学習データで学習した平均・分散から発話に適したパ ラメータに更新されるまでの間,適切ではない平均・ 分散に基づいてCMVNが行われる時間が生じるため である.今回の結果では,学習データに対しても逐次 CMVNを行うことで,ベースラインより良い認識性 能を得ることができた.これは,CMVNにより補正 されるデータベース間の録音環境の違いが少なく,発 話単位でどの程度話者の変動を補正できるかが精度の 違いとして現れているためと考えられる.本研究の目 的である短時間発話に対する精度の改善については, 5. 6で検討する. 5. 4 話者クラス情報のネットワークへの入力 話者クラス情報として対数ゆう度をDNNの入力に 付加した際の平均単語正解精度を表8に示す.本手法 では,全てのフレーム(all frames)若しくは先頭50 フレーム(50 frames)のみを用いて各話者クラスに対 する対数ゆう度を求め,話者クラス情報として入力し た.話者クラス情報は,入力層にのみ追加している. (a) 従来学習法の場合 従来学習法の単語正解精度を表 8 のw/o stepwise trainingの欄に示す.初期クラスを用いてクラスGMM を学習した6 class initに着目すると,話者クラス情 報を入力することで,89.2%の単語正解精度を得た. 話者クラス情報推定のために先頭50フレームのみを 用いた場合も正解精度の低下は見られておらず,何も 前処理を行わない従来手法となるDNN-HMM (表2) よりも良い結果を得ることができた.なお,表2の DNN-HMM (88.8%)と話者クラス情報つき6クラ スモデルDNN (50 frame, 89.2%)の有意差を符号検 定[39]を用いて調べた結果,p = 0.084となり有意傾 向が得られた.また,話者クラス数を12まで増加さ せ,より詳細な話者クラス情報が精度に与える影響を 調査した.音響モデルとしてGMM-HMMを使用し た場合には,5. 2で示したようにクラスタ数を6から 12に増やすことで精度の改善を得ることができたが, DNN-HMMの場合,クラスタ数を増加させることで 精度の改善を得ることはできなかった.これは,クラ スタ数を増加させることでより詳細な情報を記述でき るが,それを汎化させるだけの学習データが十分にな く,汎化能力と学習データ量にトレードオフが生じて いるためと考えられる. (b) 多段学習ありの場合 多段学習を使用しモデルを作成した際の正解精度を 表8のw/ stepwise trainingの欄に示す.評価実験 の結果,6クラスにソフトクラスタリングして得られ る対数ゆう度を補助情報として使用することで最高性 能を示し,平均単語正解精度は89.6%となった.この 改善は,表5の話者クラス単位CMVN (6 class init, 89.1%)と比較し,有意水準1%で有意であった.DNN の初期重みは実数をとり活性化関数としてRectified Linear Unitを用いているため,幾つかのユニットは 学習が進まない恐れがある.しかし,従来学習法と比 較し精度が向上した.これは,今回用いたDNNの各 層のユニット数が十分に多いためと考えられる.言い 換えると,多段学習の際に細かく初期重みをチューニ ングする必要はなく,比較的汎用性のある手法である と考えられる. 次に,多段学習時の更新層の検討を行った.DNN の特徴として階層的な特徴量の学習があり,DNNの 下位層は特徴量抽出に対応する役割を担っていると考 えられる.そこで,補助情報付きでDNNの下位層を 更新することで特徴量抽出部のみを再学習し,DNN 全体を更新する場合と比較を行った.実験結果を表9 に示す.retrain layerに示す層のみを,第二段目の再 学習で更新した.1層または2層のみを更新した場合 の平均単語正解精度は89.0%となり,1層と2層を更 新した場合の単語正解精度は89.3%となった.全層を

(9)

再学習した場合の精度を上回ることはできず,特定層 のみではなく分類器としての全体最適化が必要である ことが分かる. 5. 5 話者クラス情報の利用方法の検討 本節では,3. 2で述べた話者クラス情報の利用方法 について比較検討する.なお,話者クラスGMMの学 習には6 class softの結果を用い,話者情報の推定に は発話先頭50フレームのみを使用した. a ) 話者クラス単位ケプストラム正規化 表5に示したように,平均単語正解精度88.6%を 得た. b ) 話者クラス情報のDNNへの入力 b-1)対数ゆう度の入力 表8で示したように,話者クラス情報として対数ゆ

う度(6 class soft; 50 frames)を用いることで,従来 学習法で89.2%,多段学習法で89.6%の平均単語正解 精度を得ることができた. b-2)最ゆうクラスの入力 最ゆうクラス情報(0/1)を話者クラス情報として使 用した.このとき,平均単語正解精度は従来学習法で 87.8%,多段学習法で89.3%となった. b-3)話者クラス情報の事後確率化 話者クラスの対数ゆう度の事後確率を話者クラス情 報として使用した.このとき,平均単語正解精度は従 来学習法で88.4%,多段学習法で89.4%となった. b-4)話者クラス情報の隠れ層への入力 話者クラス情報の隠れ層への入力では,対数ゆう度 を隠れ層第3層目にも追加入力し実験を行った.こ のとき,6クラスの平均単語正解精度は従来学習法で 表 9 話者クラス情報を用いて多段学習を行った場合の単 語正解精度 [%] (クラス未知)

Table 9 Word accuracy using stepwise training (class-unknown) [%].

retrain layer 50 frames

AM AF EM EF CM CF Ave. all 94.4 95.9 94.1 95.4 77.8 79.8 89.6 1 93.8 95.7 93.8 94.3 76.8 79.4 89.0 2 94.3 95.3 93.5 95.2 76.3 79.5 89.0 1 and 2 93.7 95.6 93.8 95.2 77.3 80.4 89.3 表 10 先頭発話のみを対象とした単語正解精度 [%]

Table 10 Word accuracy focusing on the first word of a sentence [%].

method AM AF EM EF CM CF Ave.

baseline (1class, 1DNN) 95 92 85 88 85 89 89.0 stepwise training (6 class soft, 50 frames) 95 92 87 91 87 90 90.3 online CMVN (training: online, recognition: online) 93 94 86 88 84 88 88.8 online CMVN (training: batch, recognition: online) 94 90 84 88 76 88 86.7

88.7%,多段学習法で89.5%となった. c ) CMVN及び話者クラス情報入力の併用 話者クラス単位ケプストラム正規化と話者クラス 情報(対数ゆう度)の入力を併用しモデルを学習した. 単語正解精度は従来学習法で88.8%,多段学習法で 89.3%となった.併用による精度の改善は見られず,両 手法には相補関係がないことが分かる. これらの結果から,多段学習の有効性が分かる.ま た,多段学習を行った場合は,最ゆうクラスの入力や 事後確率化した話者クラス情報の入力でも対数ゆう度 と同等の精度が得られることが分かった. 5. 6 先頭一単語のみを用いた評価 本研究の目的は短時間発話認識であるが,多様な話 者(成人,老人,子供)が発声した単語音声データベー スは存在しない.そこで,これまでの認識実験で得ら れた認識結果の先頭単語のみを対象として単語正解精 度を求めた.なお,先頭一単語の未知語率は0.0% (全 て既知語),GMM-HMMで強制アライメントをとっ たときの平均発話時間は0.88秒であった.単語正解 精度を表10に示す.表のmethodのbaselineは話者 クラス情報を使用しない場合,stepwise trainingは6 クラスにソフトクラスタリングされた話者クラスをも とに学習したGMMを用いて発話先頭50フレームか ら話者クラス情報を推定し,多段学習を行ったモデル で認識した場合,online CMVNは全てのフレームを 対象に逐次CMVNを行った場合である(先頭一単語 の認識時には先頭一単語分のデータでオンライン正規 化される).表から,話者クラス情報を使用すること で先頭発話のみを対象としても正解精度が改善してい ることが分かる.一方,逐次CMVNでは学習データ から推定した平均及び分散に対して数音節分(0.5秒) の音響特徴量を用いて再更新を行っても,その話者の 平均及び分散を頑健に推定することは難しく,ベース ラインの精度を下回る結果となった.これらの結果は 6クラス× 100発話(計600単語)のみから求めてお り,テストサンプル数が少ないためこの結果のみでは ベースラインと提案手法(多段学習)の間で符号検定 を用いて有意差を示すことはできなかったが,6クラ

(10)

ス中4クラスで正解精度が向上し,低下したクラスが なかったことにより,本提案法は有効と考えられる.

6.

む す び

本論文では,話者非依存DNN-HMMに対する話者 クラス情報の利用手法を提案した.このとき,短時間 発話認識を想定し,話者情報推定時に使用可能なフ レーム数は発話先頭0.5秒と制限した.評価実験の結 果,DNN-HMMにおける話者クラス単位ケプストラ ム正規化,話者クラス情報のDNNへの入力,これら のいずれも従来手法と比較し正解精度の改善を得る ことができた.また,i-vectorを用いた手法とは異な り,推定に用いる発話時間長が0.5秒と短い場合でも ベースラインの88.8%から89.6% (先頭単語だけの場 合89.0%から90.3%)と相対誤り削減率7% (12%)を 得た.そのため,提案する話者適応手法は,任意語彙 の短時間発話を認識対象とする音声検索や音声アシス タント,音声コマンド入力に用いることが可能である と考えられる. 文 献

[1] J.G. Wilpon and C.N. Jacobsen, “A study of speech recognition for children and the elderly,” Proc. Inter-national Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.349–352, 1996.

[2] M. Padmanabhan, L.R. Bahl, D. Nahamoo, and M.A. Picheny, “Speaker clustering and transformation for speaker adaptation in large-vocabulary speech recog-nition systems,” Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.71–77, 1998.

[3] 芳澤伸一,馬場 朗,松浪加奈子,米良祐一郎,山田実一, 李 晃伸,鹿野清宏,“十分統計量と話者距離を用いた 音韻モデルの教師なし学習法,”信学論(D),vol.J85-D, no.3, pp.382–389, March 2002.

[4] K. Konno, M. Kato, and T. Kosaka, “Speech recog-nition with large-scale speaker-class-based acoustic modeling,” Proc. APSIPA, pp.1–4, 2013.

[5] M. Naito, L. Deng, and Y. Sagisaka, “Speaker clus-tering for speech recognition using vocal tract param-eters,” Speech Commun., pp.305–315, 2002. [6] R. Faltlhauser and G. Ruske, “Robust speaker

clustering in eigenspace,” Proc. Automatic Speech Recognition and Understanding, pp.57–60, 2001. [7] H. Nanjo and T. Kawahara, “Speaking-rate

depen-dent decoding and adaptation for spontaneous lec-ture speech recognition,” Proc. International Con-ference on Acoustics, Speech and Signal Processing (ICASSP), pp.725–728, 2002.

[8] Y. Zhang, J. Xu, Z.J. Yan, and Q. Huo, “An i-vector based approach to training data clustering

for improved speech recognition,” Proc. Interspeech, pp.789–792, 2011.

[9] 篠崎隆宏,“音響モデルのアンサンブル学習,”情処学音声 言語情報処理研報,pp.1–3, 2009.

[10] T. Sinozaki, Y. Kubota, and S. Furui, “Unsupervised acoustic model adaptation based on ensemble meth-ods,” IEEE J. Selected Topics in Signal Processing, vol.4, pp.1007–1015, 2010.

[11] 中川聖一,越川 忠,“最大事後確率推定法を用いた連続出 力分布型 HMM の適応化,”音響誌,pp.721–728, 1993. [12] C.J. Leggetter and P.C. Woodland, “Maximum

likeli-hood regression for speaker adaptation of continuous density hidden Markov models,” Computer Speech and Language, vol.9, pp.171–185, 1995.

[13] E. Eide and H. Gish, “A parametric approach to vocal tract length normalization,” Proc. Interna-tional Conference on Acoustics, Speech and Signal (ICASSP), pp.346–348, 1996.

[14] M.J.F. Gales and P.C. Woodland, “Mean and vari-ance adaptation within the MLLR framework,” Com-put. Speech Lang., vol.10, pp.249–264, 1996. [15] G. Hinton, L. Deng, D. Yu, G.E. Dahl, A.R.

Mohamed, N. Jitaly, A. Senior, V. Vanhoucke, P. Ngyyen, T.N. Sainath, and B. Kingsbury, “Deep neu-ral networks for acoustic modeling in speech recog-nition: The shared views of four research groups,” IEEE Signal Process. Mag., vol.29, pp.82–97, 2012. [16] A. Senior and I. Lopez-Moreno, “Improving DNN

speaker independent with i-vector inputs,” Proc. In-ternational Conference on Acoustics, Speech and Sig-nal Processing (ICASSP), pp.225–229, 2014. [17] O.A. Hamid and H. Jiang, “Fast speaker

adapta-tion of hybrid NN/HMM model for speech recog-nition based on discriminative learning of speaker code,” Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.7942– 7946, 2013.

[18] H. Huang and K.C. Sim, “An investigation of aug-menting speaker representations to improve speaker normalization for DNN-based speech recognition,” Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4610–4613, 2015.

[19] T. Tan, Y. Qian, M. Yin, Y. Zhuang, and K. Yu, “Cluster adaptive training for deep neural net-work,” Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4325– 4329, 2015.

[20] T. Kosaka, K. Konno, and M. Kato, “Deep neu-ral network-based speech recognition with combi-nation of speaker-class models,” APSIPA, pp.1203– 1206, 2015.

[21] 川美沙貴,西川剛樹,松井知子,“i-vector による短い 発話の話者識別の検討,”信学技報,pp.65–70, 2015. [22] Y. Liu, P. Karanasou, and T. Hain, “An investigation

(11)

into speaker informed DNN front-end for LVCSR,” Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4300–4304, 2015.

[23] O. Viikki, D. Bye, and K. Laurila, “A recursive fea-ture vector normalization approach for robust speech recognition in noise,” Proc. International Confer-ence on Acoustics, Speech and Signal Processing (ICASSP), pp.733–736, 1998.

[24] P. Pujol, D. Macho, and C. Nadeu, “On real-time mean-and-variance normalization of speech recogni-tion features,” Proc. Internarecogni-tional Conference on Acoustics, Speech and Signal Proccesing (ICASSP), 2006.

[25] A.Y. Nakano, S. Nakagawa, and K. Yamamoto, “Dis-tant speech recognition using a microphone array net-work,” IEICE Trans. Inf. & Syst., vol.E93-D, no.9, pp.2451–2462, Sept. 2010.

[26] 朱 発強,山本一公,中川聖一,“トレーニングデータの ソフトクラスタリングに基づく不特定話者の音声認識,” 音響春季講論集,pp.159–160, 2010.

[27] D. Enami, F. Zhu, K. Yamamoto, and S. Nakagawa, “Soft-clustering technique for training data in age-and gender-independent speech recognition,” Proc. APSIPA, pp.1–4, 2012.

[28] P. Kenny, G. Boulianne, P. Ouellet, and P. Dumouchel, “Joint factor analysis versus eigenchan-nels in speaker recognition,” IEEE Trans. Audio Speech Language Process., vol.15, pp.1435–1447, 2007.

[29] 日 本 音 響 学 会 研 究 用 連 続 音 声 デ ー タ ベ ー ス (ASJ- JIPDEC),http://research.nii.ac.jp/src/ASJ-JIPDEC.html

[30] K. Itou, M. Yamamoto, K. Takeda, T. Takezawa, T. Matsuoka, T. Kobayashi, K. Shikano, and S. Itahashi, “Japanese speech corpus for large vocab-ulary continuous speech recognition research,” J. Acoustical Society of Japan (E), pp.199–206, 1999. [31] 新聞記事読み上げ高齢者音声コーパス (S-JNAS), http://research.nii.ac.jp/src/S-JNAS.html [32] CIAIR,子供の声データベース (CIAIR-VCV), http://research.nii.ac.jp/src/CIAIR-VCV.html [33] HTK, http://htk.eng.cam.ac.uk/ [34] 関 博史,中川聖一,“音節単位 DNN-HMM における音 声認識の検討,”情処学 音声言語情報処理研報,pp.1–6, 2013.

[35] X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier networks,” International Conference on Ar-tificial Intelligence and Statistics, pp.315–323, 2011. [36] X. Glorot and Y. Bengio, “Understanding the diffi-culty of training deep feedforward neural networks,” International Conference on Artificial Intelligence and Statistics, pp.249–256, 2010.

[37] http://www.nichigai.co.jp/sales/mainichi/mainichi-series.html

[38] Y. Fujii, K. Yamamoto, and S. Nakagawa, “Large vo-cabulary speech recognition system: SPOJUS++,” Proc. International Conference MUSP, pp.110–118, 2011. [39] 中川聖一,高木英行,“パターン認識における有意差検定と 音声認識システムの評価法,”音響誌,vol.50, pp.849–854, 1994. (平成 28 年 4 月 25 日受付,8 月 27 日再受付, 9月 28 日早期公開) 関 博史 平成 26 年豊橋技術科学大学工学部情報 知能工学課程卒業.平成 28 年同大学大学 院工学研究科情報知能工学専攻終了.平成 28年同大学院博士後期課程情報・知能工学 専攻入学,現在在籍中. 榎並 大介 平成 24 年豊橋技術科学大学大学院工学 研究科情報工学専攻修了.在学中は音声認 識に関する研究に従事. 朱 発強 平成 19 年豊橋技術科学大学工学部情報 工学課程研究生.平成 21 年同大大学院工 学研究科情報工学専攻修了.在学中は音声 認識に関する研究に従事. 山本 一公 (正員) 平成 7 年豊橋技術科学大学工学部情報工 学課程卒業.平成 9 年同大学大学院修士課 程情報工学専攻修了.平成 12 年同大学院 博士後期課程電子・情報工学専攻修了.同 年信州大学工学部助手.平成 19 年豊橋技 術科学大学情報工学系助教.平成 25 年豊 橋技術科学大学情報・知能工学系准教授.現在に至る.平成 24 年カーネギーメロン大学客員研究員.博士(工学).音声言語 情報処理,主として音声認識に関する研究に従事.日本音響学 会,情報処理学会,ISCA 各会員.

(12)

中川 聖一 (正員:フェロー) 昭和 51 年京都大学大学院博士課程修了. 同年京都大学情報工学科助手.昭和 55 年 豊橋技術科学大学情報工学系講師.平成 2 年同大学教授.平成 26 年同大学リーディ ング大学院特任教授.昭和 60∼昭和 61 年 カーネギメロン大学客員研究員.音声情報 処理,自然言語処理,人工知能の研究に従事.工学博士.昭和 52年電子通信学会論文賞,昭和 63 年 IETE 最優秀論文賞,平 成 13 年,平成 24 年電子情報通信学会論文賞,平成 27 年日 本音響学会功績賞,平成 27 年電子情報通信学会業績賞,各受 賞.電子情報通信学会,情報処理学会各フェロー.著書『確率 モデルによる音声認識』(電子情報通信学会編),『音声聴覚と神 経回路網モデル』(共著,オーム社),『情報理論の基礎と応用』 (近代科学社),『パターン情報処理』(丸善),『Spoken Language Systems』(編著,IOS Press),『音声言語処理と自然言語処理』 (編著,コロナ社) 等.

図 1 システムの全体像
表 1 各クラスで使用される学習データ Table 1 Training data.
表 4 話者クラス数の増加と単語正解精度の変化 (クラス未知)[%]
表 8 話者クラス情報の入力による単語正解精度の変化 (クラス未知) Table 8 Word accuracy using speaker-class-information (class-unknown) [%].
+2

参照

関連したドキュメント

平均的な消費者像の概念について、 欧州裁判所 ( EuGH ) は、 「平均的に情報を得た、 注意力と理解力を有する平均的な消費者 ( durchschnittlich informierter,

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

パキロビッドパックを処方入力の上、 F8特殊指示 →「(治)」 の列に 「1:する」 を入力して F9更新 を押下してください。.. 備考欄に「治」と登録されます。

のうちいずれかに加入している世帯の平均加入金額であるため、平均金額の低い機関の世帯加入金額にひ

今回の調査に限って言うと、日本手話、手話言語学基礎・専門、手話言語条例、手話 通訳士 養成プ ログ ラム 、合理 的配慮 とし ての 手話通 訳、こ れら

排出量取引セミナー に出展したことのある クレジットの販売・仲介を 行っている事業者の情報

排出量取引セミナー に出展したことのある クレジットの販売・仲介を 行っている事業者の情報

※ 本欄を入力して報告すること により、 「項番 14 」のマスター B/L番号の積荷情報との関