修士論文概要書

(1)

修士論文概要書

年

2008 2 月提出学籍番号 3606U029 4 ^CD

専攻名

^{情報・ネットワーク}_専攻

氏名加藤健一 ^指導

教員小林哲則 ^印

研究

題目 ^HMM

における尤度パターンの非対称性を利用した音声認識に関する研究

1 はじめに

本稿では，

HMM

における尤度パターンの非対称性を利用した音声認識システムにおいて，学習データ量と認識性能の関連の調査，および特徴選択に基づく尤度特徴の次元削減法について述べる．

音響モデルは，正解カテゴリのデータに対して高い尤度を与えるように学習されるが，不正解のカテゴリであっても音韻的に類似しているカテゴリのデータであれば，不当に高い尤度を与える可能性がある．このように，

異なるカテゴリに同等の尤度が与えられた場合，最大の尤度を与えるカテゴリを推定する最尤識別の枠組では，

認識誤りを劇的に減じることは困難である．このような誤りを減じるために，本研究では

HMM

が出力する各カテゴリに対する尤度のパターンを特徴として捉え，静的にパターン認識を行うことで，音声認識性能を向上させる．

本研究が対象とする，確率モデルが与える尤度のパターンを特徴量として識別を行う枠組は

2

通りに大別できる．一方は，音素や状態などの比較的短い時間構造を持つ確率モデルを用いて，複数フレームの情報を保持したスペクトルに基づく特徴ベクトルの尤度パターンを抽出し，それらの時系列に対して

HMM

を用いた動的な認識を行う枠組である．もう一方は，単語などの比較的長い時間構造を持つ確率モデルを用いて，単語発話に対して尤度パターンを抽出し，それらを特徴として静的な認識を行う枠組である．本研究においては，この枠組を採用する．後者の手法で採用されている単語などの長い時間構造を持つ

HMM

から得られた尤度のパターンは，音韻的に類似する単語カテゴリであっても類似するパターンを与えるとは限らず，非対称なパターンを示す．そのため，これをパターン認識の特徴量として利用することで，特に誤り易い識別カテゴリ同士の識別精度の向上が期待できる．本稿では，まず，

HMM

が与える尤度の非対称性に注目し，長い時間構造を持つ

HMM

から得られる尤度パターンの非対称性，およびそれを認識の特徴量として利用することの妥当性について述べる．

この手法のように，単語のような長い時間長を持つ単位に対する尤度パターンを用いた場合，学習データの収集が困難になる．そのため，大語彙を扱うタスクでは学習データを十分に得ることができず，モデルの信頼性が低下することで，高い認識性能が得られない可能性がある．そこで本稿では，単語

HMM

から得られた尤度パターンを特徴量として用いた階層的な音声認識手法において，学習データ量と音声認識性能の関係について調査を行う．また，この手法では，識別対象語彙に対する尤度を特徴量としているため，大語彙を扱うタスクでは特徴量の次元数が膨大になり，計算量の観点で問題となる．本稿では，上記の枠組に，特徴選択に基づく尤度特徴ベクトルの次元数削減を適用した場合についても評価を行う．

2 尤度パターンの非対称性

本研究で扱う尤度パターンについて述べる．尤度パターンとは，音声データに対して各々のクラスの確率モ

"!" "!# "!" "!#$&%% %%')(+*')(+*')(+*')(+*

,$-. ,$-. ,$-. ,$-./&%% %%'' ''+(( ((+** **

02134 02134 02134 02134

X

"!" "!# "!" "!#$&%% %%')(+*')(+*')(+*')(+*

,$-. ,$-. ,$-. ,$-./&%% %%'' ''+(( ((+** **

02134 02134 02134 02134

X

図

1:

尤度パターンの非対称性．

デルが与える尤度の値である．単語発話に対して識別対象カテゴリである単語の尤度を

HMM

を用いて計算し，それらの値をパターンとして捉え，認識の特徴量として利用する．この尤度パターンは，類似する単語同士であっても図

1

のように非対称性を示す．ここで，未知発話を

HMM

に入力した際，図

1

の破線のような尤度パターンを示した場合を考える．従来の最尤基準の識別では，尤度の大小で正解カテゴリを推定するが，図のように高い尤度が複数の

HMM

から出力されている場合に推定された結果の信頼度は低いと言える．しかし，本研究で採用する尤度パターンの非対称性を利用した認識手法では尤度の大小ではなく尤度パターンの形で正解カテゴリを推定するため，従来の識別法では認識が困難なカテゴリ間の識別精度を向上できることを期待できる．

3 尤度パターンを用いた単語音声認識

尤度パターンを特徴とした，階層型単語音声認識手法について述べる．まず前段において，あらかじめ設定したカテゴリ群

(

本実験では単語

)

が入力データに対して与える尤度を計算する．ここで，単語などの長い時間構造を持つ発話に対して

HMM

から得られる尤度パターンを

long-time structure based likelihood pattern (LLP)

と呼ぶことにする．後段では，得られた尤度パターン

(LLP)

を特徴ベクトルとして，識別対象カテゴリ

(

単語

)

の認識を行う．図

2

に，尤度パターンを特徴ベクトルとして用いた，階層型音声認識の概要を示す．

4 尤度特徴の次元削減

LLP

を用いた認識法では，語彙中の全ての単語カテゴリの尤度から尤度パターンを生成している．そのため，小語彙のタスクには比較的容易に適用出来るが，大語彙のタスクに適用することは，後段の認識において特徴ベクトルの次元数が膨大になるため，計算量の観点から現実的ではない．そこで，尤度特徴量の次元数削減方法について検討する．単語ごとに誤り易い単語の集合を予め調査し，その集合に含まれる単語に対してのみ計算される尤度パターンを特徴量として利用することを試みる．尤度特徴の次元数削減方法，学習手順，および評価手順については以下の通りである．

1

(2)

Spectrum feature vector

sequence

Word Utterance

N _W -dim

Category : word Likelihood

pattern vector (each word)

SVM-based static recognition Calculate likelihoods for

word templates

Number of templates:

N _W

…

ikioi vs. rest iyoiyo vs. rest omoshiroi vs. rest

…

kakurepyu:ritaN vs. rest result

Category : word ikioi (15-states)

iyoiyo (18-states)

omoshiroi (24-states)

…

kakurepyu:ritaN

(39-states)

…

Spectrum feature vector

sequence

Word Utterance

N _W -dim

Category : word Likelihood

pattern vector (each word)

SVM-based static recognition Calculate likelihoods for

word templates

Number of templates:

N _W

…

ikioi vs. rest iyoiyo vs. rest omoshiroi vs. rest

…

kakurepyu:ritaN vs. rest

…

ikioi vs. rest iyoiyo vs. rest omoshiroi vs. rest

…

kakurepyu:ritaN vs. rest result

Category : word ikioi (15-states)

iyoiyo (18-states)

omoshiroi (24-states)

…

kakurepyu:ritaN

(39-states)

……

図

2:

階層型単語音声認識システムの概要.

尤度特徴量次元数削減手順

1.

単語単位の

HMM

を用いて，学習データ

(

単語音声

)

の認識を行う．

2.

語彙数を

N

としたとき，単語

w _i

に誤認識され易い

(

つまり，

w i

に対して高い尤度が与えられる

)

単語カテゴリの上位

n

個

(n < N )

のカテゴリから構成される単語カテゴリの部分集合

W _i = (w _i ¹ , · · · , w ⁿ _i )

を考え、それらに対する尤度パターンを，単語

w i

に対する尤度特徴量とする．すなわち，単語カテゴリごとに固有の

n

次元の尤度から成る部分空間を構築する．これを，単語

w _i

に対する尤度部分空間と呼ぶ．

学習手順

1.

単語

w _i

のモデルを構築する際，

w _i

の発話に対して，単語カテゴリの部分集合

W _i

に対する尤度を計算する．

2.

単語

w _i

に対する

SVM

は，単語カテゴリ部分集合

W i

に対する尤度から成る部分空間上で構成される．ここで，

W i

の尤度パターンによって形成される部分空間上では，

W i

を構成する単語カテゴリに対してのみ識別器

(SVM)

を構築する．

評価手順

1.

前段の認識で最大の尤度を出力した単語カテゴリを求める．

2.

最大尤度を出力した単語カテゴリに対する尤度部分空間上において特徴ベクトルを計算し，これを

n

次元の

LLP

特徴量とする．

3. n

次元の

LLP

特徴量と

SVM

を用いて単語音声認識を行う．このとき，後段の認識対象カテゴリは，

前段の

MFCC-HMM

による認識で最大尤度を出力した単語カテゴリ

w i

に対する尤度部分空間を構成する

n

個の単語カテゴリのみである．

5 孤立単語音声認識実験

LLP

に基づく認識法の妥当性を示すため，また，提案した尤度特徴次元数削減手法の有効性を示すため，孤立単語音声認識実験を行なった．

! "#$%&'())*

+,- ./--,--0 1/

2

35476$698;:=<93>3 ?&?A@B8;:!CEDF3 ?&?A@8;:=CED=3!8HGJI 35476$6987KL<93>3

図

3:

学習データ量による単語誤り率.

5.1

評価項目

評価項目は以下の

4

通りの識別方法である．

• MFCC

を用いたトライフォン

HMM

による識別

(MFCC-pHMM)

•

単語発話を学習に用いて生成した単語単位の

HMM

による識別

(MFCC-wHMM)

•

語彙中の全ての単語カテゴリの尤度パターンを用いた

SVM

による識別

(LLP-wSVM)

•

特徴選択により次元数を削減した尤度パターン特徴を用いた

SVM

による識別

(LLP-wSVM-fs)

評価用の孤立単語音声データは，

ATR

の音素バランス単語

216

単語を男性

20

話者がそれぞれ

5

回発話した計

21600

発話を用いた．

5.2

実験結果

図

3

に，単語あたりの学習データ数に対する単語誤り率を示す．これより，

75

発話のように比較的多くの単語発話を学習に用いた場合は，

LLP

を用いた手法

(LLP- wSVM)

は，単語

HMM (MFCC-wHMM)

と同等の性能しか与えない．しかし，学習データが

25

発話のように少量の場合，

LLP-wSVM

は

MFCC-wHMM

に比べて

64%

の誤りを削減した．また，

LLP-wSVM

は，

MFCC- pHMM

の誤りも

43%

削減した．また，

LLP-wSVM

で用いた

216

次元の特徴量から，そのわずか

4.6%

に相当する

10

次元の特徴量を選択して用いた

LLP-SVM-fs

は，

25

発話を用いて学習した場合で，

MFCC-wHMM

，

MFCC-pHMM

の誤りを各々

61%

，

35%

削減した．このように，

LLP-wSVM

は，少量の学習データを用いた場合，および尤度特徴を削減した場合において，

MFCC- pHMM

，

MFCC-wHMM

の誤りを削減していることから，大語彙を扱うタスクにおいても有効であることが期待できる．

6 まとめ

本稿では，

HMM

から得られる尤度パターンの非対称性と，それを音声認識に利用することの有効性を述べた．単語などの長い時間構造を持つ

HMM

が与える尤度パターンを特徴量として用いてパターン認識を行う手法において，学習データ量と音声認識性能の関係を調査したところ，学習データが少量の場合でも従来の

HMM

に対する有効性が示された．また，特徴選択により

4.6%

に圧縮したベクトルを特徴量として用いた場合においても，少量の学習データで

HMM

の誤りを削減することを確認した．

修 士 論 文 概 要 書