合成音声の利用

第 3 章尤度特徴量次元数削減による頑健性向上に関する検討 27

3.5 合成音声の利用

学習データ量の不足に対処するため，本研究では合成音声を学習に用いることも試みた．通常，HMMを生成する場合，合成音声を学習データとして扱うことはされない．しかし，本研究では音声データそのものではなく，確率モデルが与える尤度パターンを特徴量とし，学習に用いている．合成音声により，認識対象語彙の単語発話を生成し，それから得られる尤度パターンを学習に利用すること

第3章尤度特徴量次元数削減による頑健性向上に関する検討 34

! "#$%&'())* +

,-./--,--0 1/

35476$698;:=<93>3 ?&?A@B8;:!CEDF3 ?&?A@8;:=CED=3!8HGJI 35476$6987KL<93>3

図 3.4 学習データ量を変化させたときのLLPに基づく手法，次元削減を行った LLPに基づく手法，および単語HMMに対する単語誤り率．

を試みた．

3.5.1 HMM 音声合成の概要

本研究では，HMMに基づいて生成される合成音声を用いた．周波数スペクトル，

基本周波数，持続時間がHMMによってモデル化されており，音声波形はHMM 自体が最尤法により生成する．

3.5.2 _実験条件

(a)音声データ

実験に使用した音声データは，2.4.1と同様である．

第3章尤度特徴量次元数削減による頑健性向上に関する検討 35 (b)合成音声の生成

合成音声を生成するにあたり，まずHMMを実際の人の音声から生成する．合成音声生成用の HMM は2.4.1で述べたASJ-PBの音素バランス文を学習データとして用いる．一人の話者モデルを生成するにあたり，一人の話者が発話した音声を利用する．発話数は一人あたり約150発話を用いており，29話者のHMMを生成した．なお音声合成用のHMMの生成にはHTS [18]を利用した．生成した HMMを用いて，各話者モデルごとに単語発話を生成する．生成する単語発話は，

認識対象語彙であるATRの音素バランス単語216単語である．単語発話の生成にはGalatea talk [19]を使用した．

(c)LLP-wSVM-fsによる識別

前段の尤度特徴ベクトルを抽出する際に用いた音響モデルは，2.4.2と同様である．本実験では，3.3で述べた方法で尤度特徴次元数を20次元，10次元，5次元まで削減した場合について実験を行った．このとき，誤認識されやすい単語群は，

人の音声ではなく合成音声を尤度特徴ベクトル抽出用の音響モデル(人の音声から生成)で認識し，その認識結果をもとに統計を取った．評価は音素連鎖バランス単語21600発話全てに対して行った．このとき，SVMは“one versus rest”法で学習し，カーネル関数は，線形カーネルを用いた．

(d)実験結果

図3.5にそれぞれの次元数での単語誤り率を示す．図3.5のss-LLP-wSVM-fsは合成音声から得られた尤度パターンを学習に用いた場合の単語誤り率を表す． MFCC-pHMMは2.4と同一の識別器である．合成音声に関しては，尤度特徴を5次元，10 次元，20次元選択した場合について実験を行ったが，いずれの場合もベースライ

ンであるMFCC-pHMMよりも悪い認識性能を示す結果となった．

第3章尤度特徴量次元数削減による頑健性向上に関する検討 36

"#!! !!$

'')(*(,+-/.1032145-)67' 498;:<:=-,>,?=4@4

図3.5 合成音声から得られる尤度パターンを学習に用いた場合の単語誤り率．5 次元，10次元，20次元の特徴選択を行った場合について実験を行った．

ドキュメント内尤度パターンの非対称性を利用した音声認識に関する研究 (ページ 39-42)

第 3 章 尤度特徴量次元数削減による頑健性向上に関する検討 27

3.5 合成音声の利用

3.5.1 HMM 音声合成の概要

3.5.2 実験条件

第 3 章尤度特徴量次元数削減による頑健性向上に関する検討 27

3.5.2 _実験条件