• 検索結果がありません。

第 3 章 尤度特徴量次元数削減による頑健性向上に関する検討 27

3.5 合成音声の利用

学習データ量の不足に対処するため,本研究では合成音声を学習に用いること も試みた.通常,HMMを生成する場合,合成音声を学習データとして扱うこと はされない.しかし,本研究では音声データそのものではなく,確率モデルが与 える尤度パターンを特徴量とし,学習に用いている.合成音声により,認識対象 語彙の単語発話を生成し,それから得られる尤度パターンを学習に利用すること

第3章 尤度特徴量次元数削減による頑健性向上に関する検討 34

! "#$%&'())* +

,-./--,--0 1/

2

35476$698;:=<93>3 ?&?A@B8;:!CEDF3 ?&?A@8;:=CED=3!8HGJI 35476$6987KL<93>3

図 3.4 学習データ量を変化させたときのLLPに基づく手法,次元削減を行った LLPに基づく手法,および単語HMMに対する単語誤り率.

を試みた.

3.5.1 HMM 音声合成の概要

本研究では,HMMに基づいて生成される合成音声を用いた.周波数スペクトル,

基本周波数,持続時間がHMMによってモデル化されており,音声波形はHMM 自体が最尤法により生成する.

3.5.2 実験条件

(a)音声データ

実験に使用した音声データは,2.4.1と同様である.

第3章 尤度特徴量次元数削減による頑健性向上に関する検討 35 (b)合成音声の生成

合成音声を生成するにあたり,まずHMMを実際の人の音声から生成する.合 成音声生成用の HMM は2.4.1で述べたASJ-PBの音素バランス文を学習データ として用いる.一人の話者モデルを生成するにあたり,一人の話者が発話した音 声を利用する.発話数は一人あたり約150発話を用いており,29話者のHMMを 生成した.なお 音声合成用のHMMの生成にはHTS [18]を利用した.生成した HMMを用いて,各話者モデルごとに単語発話を生成する.生成する単語発話は,

認識対象語彙であるATRの音素バランス単語216単語である.単語発話の生成に はGalatea talk [19]を使用した.

(c)LLP-wSVM-fsによる識別

前段の尤度特徴ベクトルを抽出する際に用いた音響モデルは,2.4.2と同様であ る.本実験では,3.3で述べた方法で尤度特徴次元数を20次元,10次元,5次元 まで削減した場合について実験を行った.このとき,誤認識されやすい単語群は,

人の音声ではなく合成音声を尤度特徴ベクトル抽出用の音響モデル(人の音声から 生成)で認識し,その認識結果をもとに統計を取った.評価は音素連鎖バランス単 語21600発話全てに対して行った.このとき,SVMは“one versus rest”法で学習 し,カーネル関数は,線形カーネルを用いた.

(d)実験結果

図3.5にそれぞれの次元数での単語誤り率を示す.図3.5のss-LLP-wSVM-fsは合 成音声から得られた尤度パターンを学習に用いた場合の単語誤り率を表す. MFCC-pHMMは2.4と同一の識別器である.合成音声に関しては,尤度特徴を5次元,10 次元,20次元選択した場合について実験を行ったが,いずれの場合もベースライ

ンであるMFCC-pHMMよりも悪い認識性能を示す結果となった.

第3章 尤度特徴量次元数削減による頑健性向上に関する検討 36

!

"#!! !!$

%#

&

'')(*(,+-/.1032145-)67' 498;:<:=-,>,?=4@4

図3.5 合成音声から得られる尤度パターンを学習に用いた場合の単語誤り率.5 次元,10次元,20次元の特徴選択を行った場合について実験を行った.

関連したドキュメント