修 士 論 文 概 要 書
年
2008 2 月提出 学籍番号 3606U029 4 CD
専攻名
情報・ネットワーク専攻氏名 加藤 健一 指導
教員 小林 哲則 印
研究
題目 HMM
における尤度パターンの非対称性を利用した音声認識に関する研究1 はじめに
本稿では,
HMM
における尤度パターンの非対称性 を利用した音声認識システムにおいて,学習データ量と 認識性能の関連の調査,および特徴選択に基づく尤度特 徴の次元削減法について述べる.音響モデルは,正解カテゴリのデータに対して高い 尤度を与えるように学習されるが,不正解のカテゴリで あっても音韻的に類似しているカテゴリのデータであれ ば,不当に高い尤度を与える可能性がある.このように,
異なるカテゴリに同等の尤度が与えられた場合,最大の 尤度を与えるカテゴリを推定する最尤識別の枠組では,
認識誤りを劇的に減じることは困難である.このような 誤りを減じるために,本研究では
HMM
が出力する各 カテゴリに対する尤度のパターンを特徴として捉え,静 的にパターン認識を行うことで,音声認識性能を向上さ せる.本研究が対象とする,確率モデルが与える尤度のパ ターンを特徴量として識別を行う枠組は
2
通りに大別 できる.一方は,音素や状態などの比較的短い時間構造 を持つ確率モデルを用いて,複数フレームの情報を保持 したスペクトルに基づく特徴ベクトルの尤度パターン を抽出し,それらの時系列に対してHMM
を用いた動 的な認識を行う枠組である.もう一方は,単語などの比 較的長い時間構造を持つ確率モデルを用いて,単語発話 に対して尤度パターンを抽出し,それらを特徴として静 的な認識を行う枠組である.本研究においては,この枠 組を採用する.後者の手法で採用されている単語などの 長い時間構造を持つHMM
から得られた尤度のパター ンは,音韻的に類似する単語カテゴリであっても類似す るパターンを与えるとは限らず,非対称なパターンを示 す.そのため,これをパターン認識の特徴量として利用 することで,特に誤り易い識別カテゴリ同士の識別精度 の向上が期待できる.本稿では,まず,HMM
が与える 尤度の非対称性に注目し,長い時間構造を持つHMM
から得られる尤度パターンの非対称性,およびそれを 認識の特徴量として利用することの妥当性について述 べる.この手法のように,単語のような長い時間長を持つ単 位に対する尤度パターンを用いた場合,学習データの収 集が困難になる.そのため,大語彙を扱うタスクでは学 習データを十分に得ることができず,モデルの信頼性が 低下することで,高い認識性能が得られない可能性があ る.そこで本稿では,単語
HMM
から得られた尤度パ ターンを特徴量として用いた階層的な音声認識手法に おいて,学習データ量と音声認識性能の関係について調 査を行う.また,この手法では,識別対象語彙に対する 尤度を特徴量としているため,大語彙を扱うタスクでは 特徴量の次元数が膨大になり,計算量の観点で問題とな る.本稿では,上記の枠組に,特徴選択に基づく尤度特 徴ベクトルの次元数削減を適用した場合についても評価 を行う.2 尤度パターンの非対称性
本研究で扱う尤度パターンについて述べる.尤度パ ターンとは,音声データに対して各々のクラスの確率モ
"!" "!# "!" "!#$&%% %%')(+*')(+*')(+*')(+*
,$-. ,$-. ,$-. ,$-./&%% %%'' ''+(( ((+** **
02134 02134 02134 02134
X
"!" "!# "!" "!#$&%% %%')(+*')(+*')(+*')(+*
,$-. ,$-. ,$-. ,$-./&%% %%'' ''+(( ((+** **
02134 02134 02134 02134
X
図
1:
尤度パターンの非対称性.デルが与える尤度の値である.単語発話に対して識別 対象カテゴリである単語の尤度を
HMM
を用いて計算 し,それらの値をパターンとして捉え,認識の特徴量と して利用する.この尤度パターンは,類似する単語同士 であっても図1
のように非対称性を示す.ここで,未知 発話をHMM
に入力した際,図1
の破線のような尤度 パターンを示した場合を考える.従来の最尤基準の識別 では,尤度の大小で正解カテゴリを推定するが,図のよ うに高い尤度が複数のHMM
から出力されている場合 に推定された結果の信頼度は低いと言える.しかし,本 研究で採用する尤度パターンの非対称性を利用した認識 手法では尤度の大小ではなく尤度パターンの形で正解カ テゴリを推定するため,従来の識別法では認識が困難な カテゴリ間の識別精度を向上できることを期待できる.3 尤度パターンを用いた単語音声認識
尤度パターンを特徴とした,階層型単語音声認識手 法について述べる.まず前段において,あらかじめ設 定したカテゴリ群
(
本実験では単語)
が入力データに対 して与える尤度を計算する.ここで,単語などの長い時 間構造を持つ発話に対してHMM
から得られる尤度パ ターンをlong-time structure based likelihood pattern (LLP)
と呼ぶことにする.後段では,得られた尤度パ ターン(LLP)
を特徴ベクトルとして,識別対象カテゴ リ(
単語)
の認識を行う.図2
に,尤度パターンを特徴 ベクトルとして用いた,階層型音声認識の概要を示す.4 尤度特徴の次元削減
LLP
を用いた認識法では,語彙中の全ての単語カテ ゴリの尤度から尤度パターンを生成している.そのた め,小語彙のタスクには比較的容易に適用出来るが,大 語彙のタスクに適用することは,後段の認識において特 徴ベクトルの次元数が膨大になるため,計算量の観点か ら現実的ではない.そこで,尤度特徴量の次元数削減方 法について検討する.単語ごとに誤り易い単語の集合を 予め調査し,その集合に含まれる単語に対してのみ計算 される尤度パターンを特徴量として利用することを試み る.尤度特徴の次元数削減方法,学習手順,および評価 手順については以下の通りである.1
Spectrum feature vector
sequence
Word Utterance
N W -dim
Category : word Likelihood
pattern vector (each word)
SVM-based static recognition Calculate likelihoods for
word templates
Number of templates:
N W
…
ikioi vs. rest iyoiyo vs. rest omoshiroi vs. rest
…
kakurepyu:ritaN vs. rest result
Category : word ikioi (15-states)
iyoiyo (18-states)
omoshiroi (24-states)
…
kakurepyu:ritaN
(39-states)
…
Spectrum feature vector
sequence
Word Utterance
N W -dim
Category : word Likelihood
pattern vector (each word)
SVM-based static recognition Calculate likelihoods for
word templates
Number of templates:
N W
…
ikioi vs. rest iyoiyo vs. rest omoshiroi vs. rest
…
kakurepyu:ritaN vs. rest
…
ikioi vs. rest iyoiyo vs. rest omoshiroi vs. rest
…
kakurepyu:ritaN vs. rest result
Category : word ikioi (15-states)
iyoiyo (18-states)
omoshiroi (24-states)
…
kakurepyu:ritaN
(39-states)
……
図
2:
階層型単語音声認識システムの概要.尤度特徴量次元数削減手順
1.
単語単位のHMM
を用いて,学習データ(
単語音 声)
の認識を行う.2.
語彙数をN
としたとき,単語w i
に誤認識され易い(
つまり,w i
に対して高い尤度が与えられる)
単語 カテゴリの上位n
個(n < N )
のカテゴリから構成 される単語カテゴリの部分集合W i = (w i 1 , · · · , w n i )
を考え、それらに対する尤度パターンを,単語w i
に対する尤度特徴量とする.すなわち,単語カテゴ リごとに固有の
n
次元の尤度から成る部分空間を 構築する.これを,単語w i
に対する尤度部分空間 と呼ぶ.学習手順
1.
単語w i
のモデルを構築する際,w i
の発話に対し て,単語カテゴリの部分集合W i
に対する尤度を 計算する.2.
単語w i
に対するSVM
は,単語カテゴリ部分集 合W i
に対する尤度から成る部分空間上で構成さ れる.ここで,W i
の尤度パターンによって形成さ れる部分空間上では,W i
を構成する単語カテゴリ に対してのみ識別器(SVM)
を構築する.評価手順
1.
前段の認識で最大の尤度を出力した単語カテゴリ を求める.2.
最大尤度を出力した単語カテゴリに対する尤度部 分空間上において特徴ベクトルを計算し,これをn
次元のLLP
特徴量とする.3. n
次元のLLP
特徴量とSVM
を用いて単語音声認 識を行う.このとき,後段の認識対象カテゴリは,前段の
MFCC-HMM
による認識で最大尤度を出力 した単語カテゴリw i
に対する尤度部分空間を構成 するn
個の単語カテゴリのみである.5 孤立単語音声認識実験
LLP
に基づく認識法の妥当性を示すため,また,提 案した尤度特徴次元数削減手法の有効性を示すため,孤 立単語音声認識実験を行なった.
! "#$%&'())*
+,- ./--,--0 1/
2
35476$698;:=<93>3 ?&?A@B8;:!CEDF3 ?&?A@8;:=CED=3!8HGJI 35476$6987KL<93>3
図
3:
学習データ量による単語誤り率.5.1
評価項目評価項目は以下の
4
通りの識別方法である.• MFCC
を用いたトライフォンHMM
による識別(MFCC-pHMM)
•
単語発話を学習に用いて生成した単語単位のHMM
による識別(MFCC-wHMM)
•
語彙中の全ての単語カテゴリの尤度パターンを用 いたSVM
による識別(LLP-wSVM)
•
特徴選択により次元数を削減した尤度パターン特 徴を用いたSVM
による識別(LLP-wSVM-fs)
評価用の孤立単語音声データは,ATR
の音素バランス 単語216
単語を男性20
話者がそれぞれ5
回発話した 計21600
発話を用いた.5.2
実験結果図
3
に,単語あたりの学習データ数に対する単語誤り 率を示す.これより,75
発話のように比較的多くの単語 発話を学習に用いた場合は,LLP
を用いた手法(LLP- wSVM)
は,単語HMM (MFCC-wHMM)
と同等の性能 しか与えない.しかし,学習データが25
発話のように 少量の場合,LLP-wSVM
はMFCC-wHMM
に比べて64%
の誤りを削減した.また,LLP-wSVM
は,MFCC- pHMM
の誤りも43%
削減した.また,LLP-wSVM
で 用いた216
次元の特徴量から,そのわずか4.6%
に相 当する10
次元の特徴量を選択して用いたLLP-SVM-fs
は,25
発話を用いて学習した場合で,MFCC-wHMM
,MFCC-pHMM
の誤りを各々61%
,35%
削減した.こ のように,LLP-wSVM
は,少量の学習データを用いた 場合,および尤度特徴を削減した場合において,MFCC- pHMM
,MFCC-wHMM
の誤りを削減していることか ら,大語彙を扱うタスクにおいても有効であることが期 待できる.6 まとめ
本稿では,