尤度パターンの非対称性を利用した音声認識に関する研究

(1)

2007 年度修士論文

HMM _における

尤度パターンの非対称性を利用した音声認識に関する研究

指導教授

小林哲則 ^教授

早稲田大学大学院理工学研究科情報・ネットワーク専攻知覚情報システム研究室

3606U029-4

加藤健一

(2)

i

表目次

4.1 Evaluation Items. . . . . 46

(5)

iv

図目次

1.1 MLPによるDPFの抽出および，DPFを利用した認識システムのブ

ロックダイアグラム[7]． . . . . 4

1.2 TANDEMアプローチによる音声認識システムのブロックダイアグラム[8]． . . . . 4

1.3 単語単位の尤度パターンとPLRMを用いた認識法[14]． . . . . 6

2.1 同一カテゴリの発話に対するモデルが与える尤度パターン． . . . . 12

2.2 異なるカテゴリの発話に対するモデルが与える尤度パターン． . . . 13

2.3 尤度パターンの非対称性． . . . . 14

2.4 HMMから得られる尤度を特徴量とした階層型音声認識． . . . . . 14

2.5 SLP-SVMの学習手順および評価手順． . . . . 23

2.6 LLP-SVMの学習手順および評価手順．. . . . 24

2.7 各比較項目に対する単語誤り率． . . . . 25

2.8 学習データ量を変化させた時のLLPに基づく手法と単語HMMに対する単語誤り率． . . . . 26

3.1 各単語における尤度部分空間． . . . . 29

3.2 尤度特徴選択の例．縦軸が実際に認識されやすい単語カテゴリを，横軸が正解の単語カテゴリを表す．表中の数値はそれぞれの単語カテゴリにおける順位の平均値である． . . . . 30

3.3 尤度特徴次元削減手順の概要． . . . . 32

3.4 学習データ量を変化させたときのLLPに基づく手法，次元削減を行ったLLPに基づく手法，および単語HMMに対する単語誤り率． 34 3.5 合成音声から得られる尤度パターンを学習に用いた場合の単語誤り率．5次元，10次元，20次元の特徴選択を行った場合について実験を行った． . . . . 36

4.1 提案手法による学習の手順 . . . . 48

4.2 提案手法による認識の手順 . . . . 49

4.3 統合に用いる特徴ベクトル(N_c は識別クラス数を表す) . . . . 50

(6)

v 4.4 Word correct for evaluation items. . . . . 51

(7)

1

第 1 _{章序論}

1.1 研究背景

音声認識には，統計的パターン認識の枠組が用いられている．音声認識の応用アプリケーションとしては，カーナビゲーションシステムや自動会議議事録システムが期待されている．また，電話などでの音声対話自動案内システムや，同時自動翻訳機など，音声認識は幅広い用途に使用されている．音声認識で用いられる音響モデルなどの確率モデルは，正解カテゴリのデータに対して高い尤度を与えるように学習されるが，実際に出力される尤度の値は，学習データの量や，確率モデルの構成によって特徴づけられる．また，不正解のカテゴリであっても音韻的に類似しているカテゴリのデータであれば，不当に高い尤度を与える可能性がある．このような認識誤りを削減するために，従来は学習データを増やしたり，

確率モデルの構成を工夫したりすることで対処してきた[1]- [3]．しかし，単純化された確率モデルで複雑な現象を完全に扱うことは難しく，認識誤りを劇的に減じることは困難であった．

本研究では，確率モデルの精度を上げることで音声認識性能を向上させるという立場ではなく，通常用いられているHMMが出力する各カテゴリに対する尤度のパターンを特徴として捉え，静的に音声認識を行うという階層的な枠組により音声認識性能を向上させる立場をとる．

確率モデルが与える尤度のパターンを特徴量として識別を行う枠組は次の二つに大別できる．一つは音素や状態など比較的短い時間構造を持つ確率モデルを用いて，複数フレームの情報を保持したスペクトル特徴ベクトルの尤度パターンを抽出

(8)

第1章序論 2 し，それらの時系列に対してHMMを用いた動的な認識を行う枠組である．そしてもう一つは，単語などの比較的長い時間構造を持つ確率モデルを用いて，単語発話に対して尤度パターンを抽出し，それらを特徴として静的な認識を行う枠組である．ここで，状態などの短い時間構造を持つHMMから得られた尤度パターンをshort-time based likelihood pattern (SLP)，単語などの長い時間構造を持つHMM から得られた尤度パターンをlong-time based likelihood pattern (LLP)と呼ぶことにする．我々は後者の，長い時間構造を持つ確率モデルから得られる尤度パターン

(LLP)を特徴として用いる枠組を採用する．HMMの性質上，この尤度パターンは

音韻的に類似する単語カテゴリであっても類似するパターンを与えるとは限らず，

非対称なパターンを示す．それに加えて，この尤度パターンはカテゴリごとに安定したパターンを示す．このように，尤度パターンはカテゴリごとに識別的なパターンを示すので，これをパターン認識の特徴量として利用することで，特に誤り易い識別カテゴリ同士の識別精度を向上できることが期待できる．

1.2 従来研究

確率モデルから得られる尤度パターンを特徴量として識別を行う枠組のうち，

SLP を特徴量として識別を行う枠組は音素弁別特徴 [5]- [7]や，TANDEM アプローチなどが挙げられる．一方，LLPを特徴量とする枠組としては，後段の認識にdPLRM [14] [15]を用いた手法がこれにあたる．

1.2.1 SLP を用いた認識法

音素弁別特徴の利用

音韻論の分野では，母音性や子音性，連続性といった調音様式や，高舌性，前方性，舌端性といった調音位置を表す音素弁別特徴(Distinctive Phonetic-Feature

(DPF))による音素分類が古くから提案されている．音声認識においても，DPFの

(9)

第1章序論 3 積極的な利用が近年検討されている．DPFの特徴としては，以下に示すものが挙げられており，特に悪環境下での高精度な音声認識を可能にする枠組として期待されている．

• 調音の類似した音素を距離の近いベクトルとして扱える．

• 調音方式や調音位置を陽に表現した特徴量であるため，利用環境の影響を受け難いと推測される．

• 連続量である音響特徴ベクトルと離散量である音素との中間表現として位置づけられる．

DPFの抽出法としては，GMM を利用する枠組 [6]が提案されており，これは各々の弁別素性に対してその弁別素性が音声に存在するか，存在しないか，という 2つのモデルを生成し，それらの尤度を比較することでDPFを抽出している．一方，Leeらは，複数の多層パーセプトロン(MLP)を用いてDPFの抽出を提案して

いる[7]．この手法では，各々のMLPと1つの弁別素性を対応づけて学習し，入

力をMFCC，出力を弁別素性の事後確率としている．そして，認識時には各MLP

の出力，すなわち DPFにKL展開を行い，それを MFCCのパワー成分と結合することで MFCCに変わる新たな特徴量とし，HMMによる認識を行う．図1.1に Leeらが提案しているシステムの概要を示す．これらの手法は，DPF単独では高い性能を得られないため，従来のMFCCと組み合わせて用いられている．それに対し，福田らは単一のMLPからDPFを抽出し，それを単独で認識に利用してい

る[5]．この手法では，MLPへの入力として局所特徴を用いており，その際，先行

および後続するコンテキストも入力としている．この手法は，クリーン音声に対して認識を行った場合，従来のMFCCを特徴とするHMMによる認識法と同程度の性能しか与えていないが，雑音を重畳した音声に対しては従来法よりも誤りを削減している．

(10)

第1章序論 4

MFCC Extraction

Energy NN 1

NN 60

Concatenation leading to a

60-dimensional vector KL

12MFCC + 1 Energy

61-dimensional vector

HMM

Training data

MFCC Extraction

Energy NN 1

NN 60

Concatenation leading to a

60-dimensional vector KL

12MFCC + 1 Energy 12MFCC + 1 Energy

61-dimensional vector

HMM

Training data

図1.1 MLPによるDPFの抽出および，DPFを利用した認識システムのブロックダイアグラム[7]．

GMM/HMM Viterbi Neural net

(MLP) Feature

calculation

PCA Speech

signal

Post probability

Word/sub word

likelihoods Sequence of words GMM/HMM Viterbi Neural net

(MLP) Feature

calculation

PCA Speech

signal

Post probability

Word/sub word

likelihoods Sequence of words

図1.2 TANDEMアプローチによる音声認識システムのブロックダイアグラム[8]．

TANDEMアプローチ

TANDEMアプローチとは，Hermanskyらが提案した手法であり，連続する前後

複数フレームの音響特徴量から，多層パーセプトロン(multi-layer perceptron (MLP)) を用いて音素事後確率を出力し，それを特徴量としてHMMやGMMにより識別する枠組である．図1.2にTANDEMアプローチによる音声認識のブロックダイアグラムを示す．

TANDEMアプローチでは，MLPを用いているため高い非線形識別性能を利用

することができる．また，少量の学習データで高い認識性能を示している [10]．

TANDEMアプローチの派生系としては，NLPの出力を音素の事後確率ではなく，

調音の事後確率を用いたもの[9]や，TempoRAl Patterns (TRAPs) [11] [12]と組み

(11)

第1章序論 5 合わせた手法がある．また，中国語の認識のために音調(Tone)の事後確率を特徴とし，TANDEMアプローチに利用する枠組も提案されている[13]．中国語の認識において音調の情報は不可欠であり，従来はフレーム単位で音調の情報を抽出してきた．しかし，音調は音節単位のf0で決定されるため，フレーム単位のf0からは十分な音調の情報を得られない．TANDEMアプローチは，前後複数フレームの音響特徴から事後確率特徴量を抽出しているため，長い時間単位を考慮しており，

音調の情報を十分に得られるとされている．また，TANDEMアプローチはその高い認識性能から，会議の議事録支援システムの作成を目的としたAMI Project [16]

にも利用されている．

以上に挙げたSLPを利用する認識の枠組は，認識性能の改善はされているものの，フレーム単位で尤度パターンを求め，それを特徴量としているため，得られた特徴量はもとの音響特徴量の単なる座標変換とみなすことができ，劇的に誤りを削減することは困難である．

1.2.2 LLP を用いた認識法

PLRMによる認識

長い時間構造を持つHMMから得られる尤度パターン(LLP)を用いる枠組として，Birkenesらが提案している，Penalized Logistic Regression Machine (PLRM)を後段の認識器に用いる手法[14]が挙げられる．この手法は，HMMが出力する認識対象語彙全ての尤度の値を特徴量としてPLRMに入力し，各単語カテゴリの事後確率を推定する手法である．図1.3に，PLRMを用いた認識法の概要を示す．図 1.3のφ(x;λ_i)は観測データ系列xが与えられた時の，単語iのHMMが与える対数尤度である．fkはPLRMの識別関数であり，以下の式で表される．

f_k =f_k(x;θ) =w^T_kφ(x; Λ) (1.1)

φ(x; Λ) = [1, φ(x;λ₁), φ(x;λ₂),· · ·, φ(x;λ_K)]^T (1.2)

(12)

第1章序論 6

( )

( x

K

)

x x

λ φ

;

2 1

f

K

f f

2 1

p

K

p p

ˆ ˆ ˆ

2 1

x … … …

1 W

( )

( x

K

)

x x

λ φ

;

2 1

f

K

f f

2 1

p

K

p p

ˆ ˆ ˆ

2 1

x … … …

1 W

図1.3 単語単位の尤度パターンとPLRMを用いた認識法[14]．

w_k は重みベクトルである．また，最終的な認識に利用される，単語 k の事後確率は

ˆ

p_k= ˆp_k(x;θ) = expf_k(x;θ) PK

l=1expf_l(x;θ) (1.3) で計算される．また，この手法を拡張し，連続数字認識のN −bestのリスコアリングにも適用されている[15]．このときの尤度特徴量は数字単位で抽出されており，やはり音素などに比べて比較的長い時間構造を持つHMMから尤度パターンを得ている．

これらの手法のように，単語などの長い時間構造をHMMから尤度パターンを得た場合，尤度パターンは非対称性を顕著に表し，これを認識に利用することで，

特に誤り易いカテゴリ同士の認識精度を上げられる可能性がある．しかし，LLP に基づく認識法は，単語のような長い時間長を持つ単位に対する尤度パターンを用いているため，学習データの収集が困難になる．そのため，大語彙を扱うタスクでは学習データを十分に得ることができず，モデルの信頼性が低下することで，

(13)

第1章序論 7 高い認識性能が得られない可能性がある．また，この手法では，識別対象語彙に対する尤度を特徴量としているため，大語彙を扱うタスクでは特徴量の次元数が膨大になり，計算量の観点で問題となる．

1.3 研究目的

本稿では，HMMにおける尤度パターンの非対称性を利用するにおいて，LLPを特徴量として認識を行うことの妥当性を述べる．

また，LLPを認識に利用するにあたり，以下の2点が問題となる．

• 単語学習データ量の不足

• 語彙数増加に伴う尤度特徴次元数の増大

本研究では，単語HMMから得られた尤度パターンを特徴量として用いた階層的な音声認識手法において，学習データ量と音声認識性能の関係について調査を行う．また，LLPに基づく認識法に，特徴選択に基づく尤度特徴ベクトルの次元数削減を適用した場合についても評価を行う．

1.4 本論文の構成

本論文は5章から構成されており，前節では本研究の背景から始まり，従来研究，本研究の目的について述べた．

第2章では本論文の主体となる，尤度パターンとその非対称性について述べる．

HMMの出力する尤度パターンは，音韻的に類似するカテゴリ同士であっても非対称的なパターンを示し，かつカテゴリごとに安定したパターンを持つ．そのため，

これを特徴量とすることで特に誤り易いカテゴリ間の認識精度の向上が期待できる．この尤度パターンの非対称性は，HMMの一般的な性質から起こりうるものであり，特に単語などの比較的長い時間構造を持つHMMから与えられる尤度パ

(14)

第1章序論 8

ターン(LLP)は非対称性を顕著に現すと予想される．一方，音素などの比較的短

い時間構造を持つHMMから与えられる尤度パターン(SLP)は，フレームごとに特徴抽出されているため，単なる音響特徴量の座標変換と同等とみなすことができ，十分な認識性能の向上が見込めないと思われる．本研究では，SLPとLLPそれぞれを用いた認識手法の比較を孤立単語音声認識実験によって行う．また，LLP を利用する枠組は単語単位で尤度パターンを求めているため，大語彙を扱うタスクの場合，単語学習データ量が不足し，モデルの精度の低下が予想される．そこで本研究では，学習データ量と性能の関係について調査を行う．

第3章では尤度特徴量の次元削減について述べる．LLPを利用する認識手法は，

現状では全ての認識対象語彙の尤度を特徴量としている．そのため，語彙数が増加するに伴い尤度特徴量の次元数も増大し，計算量的に大語彙を扱うタスクに適用しづらい．そこで尤度特徴量の次元削減について検討する必要がある．本研究では，PCAやHLDAなどのような次元圧縮ではなく，特徴選択による次元削減を行う．特徴選択の基準としては，単語ごとに誤認識されやすい単語群を予め求めておき，その単語群に対する尤度を特徴量とする．すなわち，各単語ごとに固有の尤度空間を展開することになる．本研究では，尤度特徴量を元々の次元数である216次元のわずか4.6%である10次元まで削減した場合において，孤立単語音声認識実験を行い，少量の尤度特徴次元数においても，高い認識性能を示すことを確認する．

第4章では尤度パターンの非対称性を利用した識別器の統合について述べる．近年，識別器の性能を向上させるために，確率モデルや探索アルゴリズムの精密化に注力するのではなく，複数の識別器から得られる情報を統合する枠組が検討されている．このとき，複数の識別器は相補的でなくてはならない．また，識別器の統合を行うとき，統合対象となる識別器のうち一つあるいは全てが，識別において不適切な特性を持つ場合，統合後もその影響が残り，たとえ相補的であっても認識性能が向上しない可能性がある．以上を考慮し，本研究ではHLDAに基づ

(15)

第1章序論 9 く特徴変換にブースティングの枠組を適用することで相補的な識別器の生成を行い，生成された複数の識別器から与えられる尤度パターンを統合に利用する．

通常，ブースティングは識別器の設計時(モデルのパラメータ推定時)に適用されるため，学習において重要視されるサンプルと軽視されるサンプルが生じる．したがって，新たに生成される識別器は相補性は得られているものの，識別性能は基の識別器よりも劣化する．それに対し本手法は，特徴変換の過程において相補性を得ようとしているため，学習の過程で軽視するサンプルは生じず，結果的に識別性能劣化の可能性を低く抑えた上で，誤り傾向の異なる識別器が生成されることが期待できる．また，各識別器が出力する尤度パターンは統合対象となる各々の識別器が有する誤り傾向(相補性)そのものと解釈することができ，これを統合に利用することで識別器の相補性の情報を有効に使うことが出来る．ここでは，HLDA および HLDA にブースティングの枠組を適用したWHLDA について述べる．また，それぞれの座標変換で得られた識別器は相補的であることと，尤度パターンを用いた統合法の有効性を孤立単語音声認識実験で確認する．

第5章では本研究の結論について述べる．本研究ではHMMから得られる尤度パターンの非対称性に着目し，LLPを特徴量とすることの妥当性を述べた．LLP を認識に利用する際，学習データ量の不足や尤度特徴の次元数増加といった問題に取り組んだ．その結果，LLPを用いた認識法は少量の学習データ量，および，ごく少数の尤度特徴次元数においても高い認識性能を示し，大語彙タスクへの適用可能性が示された．

(16)

10

第 2 _章 HMM _{の尤度の非対称性を用} いた音声認識

2.1 はじめに

音声認識において一般的に用いられている確率モデルである Hidden Markov

Model (HMM)は，正解カテゴリに対して高い尤度を与えるように学習されるが，

学習データの量や種類，確率モデルの構成などによって，実際に出力される尤度は特徴付けられ，異なるカテゴリのデータに対しても不当に高い尤度を与える可能性がある．これから生じる誤りを削減するために，従来は学習データ量を増やしたり，HMMの構成を工夫したりといった手段が取られてきたが，認識性能を大幅に改善するまでには至っていない．

本研究では，HMM の精度を上げることで音声認識性能を上げるのではなく，

HMMの与える尤度パターンの非対称性に着目し，それを利用することで音声認識性能の向上を図る．

2.2 尤度パターンの非対称性

本研究で扱う尤度パターンについて述べる．尤度パターンとは，音声データに対して各々のクラスの確率モデルが与える尤度の値である．単語発話に対して識別対象カテゴリである単語の尤度をHMMを用いて計算し，それらの値をパターンとして捉え，認識の特徴量として利用する．ここで，音響的に類似する単語同士では，HMMによって与えられる尤度パターンも類似しており，そのような尤度パターンを特徴として用いた場合，両者を正しく識別できないことが懸念される．

(17)

第2章 HMMの尤度の非対称性を用いた音声認識 11 しかし，実際には尤度パターンは類似する単語同士であっても非対称性を示すため，互いに誤り易い単語の識別性能を向上できる可能性がある．ここで述べる尤度パターンの非対称性とは，類似するカテゴリ間での尤度の出方が異なることを表す．例えば，単語 Aの発話に対して単語BのHMMが与える尤度が高い場合，

必ずしもその逆は成り立たず，単語Bの発話に対して単語AのHMMが低い尤度を与える場合がある．このような関係を尤度パターンの非対称性と呼ぶ．

次に，尤度パターンの非対称性が生じる理由について述べる．この尤度パターンの非対称性はHMMの性質上起こり得る．以下，例を用いて非対称性が生じる理由を述べる．図2.1，図2.2が表すのは，HMMによって与えられる時間アライメントと，尤度の出方を表している．ここで，“good”は，発話とモデルが適合し，

高い尤度を与えていることを意味し，“bad”は低い尤度が与えられていることを意味する．図中の/a/，/b/，/c/は単語を構成する音韻に相当し，横軸が時間を，縦軸が各音韻の分布を表す．図2.1(a)では単語/abc/のHMMに単語/abc/の発話を入力した場合を，図2.1(b)では，単語/ac/のHMMに単語/ac/の発話を入力した場合を示している．このように，入力発話と同一カテゴリのHMMを用いた場合は，

良好な尤度を与えることが期待される．図2.2(a)では単語 /abc/のHMMに単語 /ac/ の発話を入力した場合を，図2.2(b)では単語/ac/の HMMに単語/abc/の発話を入力した場合を表している．どちらの場合もHMMと入力される単語のカテゴリは異なる．図2.2(a)の場合，実際には存在しない/b/という音韻の発話区間に対して，/b/のHMMの状態にはわずかの時間しか滞留せず，(つまり，/b/の状態をスキップすることと同等となり)，結果的に/ac/という発話に対して/abc/という単語モデルの尤度が高くなる可能性がある．一方図2.2(b)の場合では，実際に存在する音韻/b/の発話区間に対し，/a/または/c/の状態が割り当てられるため，その区間での尤度は低減し，/abc/という発話に対して/ac/という単語の尤度は低く出力されることが予想される．以上のような現象がHMMの性質上起こり得るため，図2.3に示すような，尤度パターンの非対称性が生じる．ここで，未知発話を

(18)

第2章 HMMの尤度の非対称性を用いた音声認識 12

(a) /abc/

^!#"

/abc/

^$#%

(b) /ac/

^!#"

/ac/

^&$'%

(a) /abc/

^!#"

/abc/

^$#%

(b) /ac/

^!#"

/ac/

^&$'%

図2.1 同一カテゴリの発話に対するモデルが与える尤度パターン．

HMMに入力した際，図2.3の破線のような尤度パターンを示した場合を考える．

従来の最尤基準の識別では，尤度の大小で正解カテゴリを推定するが，図のように高い尤度が複数のHMMから出力されている場合に推定された結果の信頼度は低いと言える．しかし，本研究で採用するLLPに基づく手法では尤度の大小ではなく尤度パターンの形で正解カテゴリを推定するため，従来の識別法では認識が困難なカテゴリ間の識別精度を向上できることを期待できる．

同様に，確率モデルが与える尤度のパターンを特徴量として識別を行う枠組である，音素群対における確率比[4]や，音素弁別特徴[5]- [7]を用いる枠組，TANDEM

(19)

!

"#

$

(a) /abc/

%'&)(+*-,

/ac/

^%'.0/

(b) /ac/

%1&)('*0,

/abc/

^%'.-/

!

"#

$

!

"#

$

(a) /abc/

%'&)(+*-,

/ac/

^%'.0/

(b) /ac/

%1&)('*0,

/abc/

^%'.-/

図2.2 異なるカテゴリの発話に対するモデルが与える尤度パターン．

アプローチ[8] [9] [16]では，短い時間構造を持つ確率モデルが与える尤度パター

ン(SLP)を特徴量として用いるため，ここで述べたような尤度パターンの非対称

性が生じにくく，認識性能の向上にあまり貢献しないことが予想される．

(20)

X

図2.3 尤度パターンの非対称性．

Calculate likelihoods for state templates Spectrum

feature vector sequence

Likelihood pattern vector

sequence

Word Utterance

(a) SLP-based method N_S-dim

HMM-based dynamic recognition

result

Category : state

Number of templates:

N_S

…

a1 a2

z3

Category : word ikioi(15-states) iyoiyo(18-states) omoshiroi(24-states)

…

kakurepyu:ritaN (39-states)

…

Spectrum feature vector

sequence

Word Utterance

(b) LLP-based method N_W-dim

Category : word Likelihood

pattern vector (each word)

SVM-based static recognition Calculate likelihoods for

word templates

N_W

…

ikioivs. rest iyoiyovs. rest omoshiroivs. rest

…

kakurepyu:ritaNvs. rest result

…

sequence

Word Utterance

result

Category : state

N_S

…

a1 a2

z3

…

sequence

Word Utterance

result

Category : state

N_S

…

a1 a1 a2 a2

z3 z3

…

……

sequence

Word Utterance

word templates

N_W

…

sequence

Word Utterance

word templates

N_W

…

kakurepyu:ritaNvs. rest

…

……

図2.4 HMMから得られる尤度を特徴量とした階層型音声認識．

2.3 尤度パターンを用いた階層型単語音声認識

2.3.1 概要

尤度パターンを特徴とした，階層型単語音声認識手法について述べる．まず前段において，あらかじめ設定したカテゴリ群(本実験では，音素モデルの状態また

(21)

第2章 HMMの尤度の非対称性を用いた音声認識 15 は単語)が入力データに対して与える尤度を計算する．後段では，得られた尤度を特徴ベクトルとして，再度識別対象カテゴリ(本実験では単語)の認識を行う．図 2.4 に，尤度パターンを特徴ベクトルとして用いた，階層型音声認識の概要を示す．SLPに基づく手法(a)とLLPに基づく手法(b)の本質的な違いは，前段における尤度特徴ベクトル抽出の際に長い時間構造を考慮しているかどうかと，後段における最終的な単語カテゴリの識別が動的に行われるか静的に行われるかである．

TANDEMアプローチなどの枠組では，尤度特徴ベクトルは音素や音素モデルの状

態などの短い時間構造を持つHMMに対してフレームごとに抽出され，動的な識別が行われる．それに対しLLPに基づく手法では，尤度特徴ベクトルは，音素と比較して長い時間構造を持つ単語単位のHMMを用いて，同様に長い時間構造を持つ単語発話ごとに抽出され，静的な識別が行われる．

2.3.2 SLP に基づく音声認識

ここではSLPを特徴量として用いた手法について述べる．学習と評価の概要を図2.5に，手順を以下に示す．

学習手順

1. 該当フレームの前後それぞれN フレームのMFCCを結合した，セグメント

単位(SU-MFCC)を構成する．次にPCAにより次元圧縮を行う．

2. 次元圧縮されたセグメント単位の特徴ベクトルを用いて，各音素ごとにセグメント単位入力HMM [1]を構成し，これをSU-MFCC-HMMとする．

3. 音素モデルの状態に対する尤度パターン(SLP)をSU-MFCC-HMMを用いてフレーム単位で計算する．これらのパターンは(d₁, d₂,· · · , d_N_S)という状態数 N_S を次数として持つベクトルで表される．di は，以下のように算出さ

(22)

第2章 HMMの尤度の非対称性を用いた音声認識 16 れる．

d_i = log p(x_t|θ_i) P

jp(x_t|θ_j) (2.1)

ここで，p(xt|θ_i)は観測データx_tのi番目の状態に対する出力確率である．

4. N_S 次元のSLP特徴ベクトルをPCAにより，N_S⁰ 次元に圧縮し，フレーム単位のMFCCと結合したものを新たな特徴ベクトルとしてHMMを構成する．

これをSLP-HMMとする．

評価手順

1. 学習手順と同様に，評価データのSLP 特徴ベクトルをフレームごとに抽出し，PCAによりN_S⁰ 次元に圧縮する．

2. SLP特徴量とフレーム単位のMFCCを結合して新たな特徴ベクトルとし，そ

の時系列とSLP-HMMを用いて動的に認識することで，単語音声認識を行う．

2.3.3 LLP に基づく音声認識

ここではLLPを特徴量として用いた手法について述べる．学習と評価の概要を図2.6に，手順を以下に示す．

学習手順

1. フレーム単位の MFCCの時系列を用いて音素HMM (MFCC-HMM)を構成する．

2. MFCCと，音素HMMを連結して構成される単語単位のHMMを用いて，単

語発話の単語カテゴリ群に対する尤度パターン(LLP)を求める．このパターンは(d^L₁, d^L₂,· · · , d^L_N

W)という単語数N_W を次数として持つベクトルとして

(23)

第2章 HMMの尤度の非対称性を用いた音声認識 17 表わされる．ここで，d^L_i は，以下のように算出される．

d^L_i = log p(x₁,· · · ,x_T|θ_i^L) P

jp(x₁,· · · ,x_T|θ_j^L) (2.2) ここで，p(x1,· · · ,x_T|θ_i^L)は単語発話の観測データ系列x₁,· · · ,x_T を入力としたときのi番目の単語 HMMθ^L_i が与える出力確率である．この手順により，単語発話特徴量は，全ての単語HMMから得られる尤度で構成された空間へ写像される．

3. 単語HMMから得られた尤度を特徴量として，各単語カテゴリごとにsupport vector machine (SVM)を構成する(LLP-SVM)．

評価手順

1. 学習手順と同様に評価データの尤度パターン(LLP)を各単語ごとに抽出する．

2. 単語発話単位のLLP特徴ベクトルと，LLP-SVMを用いて静的に認識することで単語音声認識を行う．

2.4 単語音声認識実験

LLPに基づく認識法の基本性能を見るため，孤立単語音声認識実験を行なった．

2.4.1 SLP と LLP の比較

実験条件 (a)音声データ

実験に使用した音声データは，接話マイクロホンで収録され，16 kHzでサンプリング，16 bitで量子化されている．学習用の連続音声データは，ASJのデータベースより，男性133話者が発話した新聞記事(ASJ-JNAS)と音素バランス文(ASJ-PB) から構成される 20413 文の読み上げ音声 [20]を用いた．評価用の孤立単語音声

(24)

第2章 HMMの尤度の非対称性を用いた音声認識 18 データは，ATRの音素バランス単語216単語を男性20話者がそれぞれ5回発話

した計21600発話[21]を用いた．スペクトルに基づく音響特徴パラメータとして

は，MFCC 12次元とパワー，およびそれらの∆パラメータの計26次元の特徴量を用いた．このとき，フレーム長は25 ms，フレーム周期は10msである．

(b)評価項目

以下に示す3通りの識別方法を比較した．

• MFCCを用いたHMMによる動的な識別(MFCC-HMM)

• 音素モデルの状態に対する尤度パターンを用いた HMMによる動的な識別 (SLP-HMM)

• 語彙中の全ての単語カテゴリの尤度パターンを用いたSVMによる静的な識別(LLP-SVM)

(c)SLP-HMMによる識別

前段の尤度特徴ベクトルを抽出するための音響モデルは，ASJのデータベースよ

り20413文を用いて生成されたセグメント単位入力モノフォンHMM (SU-MFCC-

HMM)である．ここで，音素クラス数は43であり，各音素に対して状態数3，混

合数32，分散行列は対角共分散である．セグメント単位に関しては，連続する3

フレームを結合した78次元の特徴量をPCAにより30次元に圧縮した．

学習用の連続発話音声および評価用の孤立単語音声各々に対して，129個の音素 HMMの状態からの尤度パターンをフレームごとに計算し，この129次元の特徴量をPCAにより5次元に圧縮した．なお，このときの累積寄与率は77.1%である．

後段の，音素HMMの状態に対する尤度特徴ベクトルを用いた認識に用いられ

る SLP-HMMは，SU-MFCC-HMMの学習データと同じ発話からフレームごとに

抽出された尤度特徴ベクトル(5次元)と，フレームごとのMFCC(26次元)を結合

(25)

第2章 HMMの尤度の非対称性を用いた音声認識 19 した31次元の特徴ベクトルを用いて学習される．各音素に対して状態数3，混合

数32，分散行列は対角共分散のモノフォンHMMを構築した．評価には，音素連

鎖バランス単語21600発話を用いた．

(d)LLP-SVMによる識別

MFCC-HMMは2.4.1で述べたSU-MFCC-HMMと同様のデータを用いて学習されるが，入力はセグメント単位ではなく，通常のフレーム単位のMFCCである．

HMMは，状態共有型トライフォンHMMであり，HMMの状態数は2000，各状態の混合数は16，分散行列は対角共分散である．学習データ，評価データ双方において，単語カテゴリ群に対する尤度特徴ベクトル(216次元)を，単語発話ごとに算出する．

後段の認識については，音素連鎖バランス単語21600単語を話者に対して4分割し，交差検定により評価を行った．そのため，学習には 15 話者が発話した計

16200単語を用い，評価には残りの5話者が発話した計5400単語を用いた．なお，

本実験では，前段のHMMによる認識結果の上位nベストの単語カテゴリに対するSVMを用いて，後段の認識を行う．予備実験で予め最も良い認識性能を示すn を求めた．その結果，HMMの認識結果の内，上位10ベストの単語カテゴリに対するSVMを用いて後段の認識を行った場合，最も高い認識性能を示し，それ以降は認識性能は飽和しているため，本実験ではn= 10として後段の認識を行う．

LLP-SVMは”one versus rest”法で学習し，カーネル関数は，線形カーネルを用いた．このとき，ペナルティ項は10である．

(e)実験結果

図2.7に比較項目に対する単語誤り率を示す．通常の認識手法である，MFCCを特徴量としたHMMによる認識結果(MFCC-HMM)である96.7%をベースラインとした場合，従来手法の SLP-HMM による動的な認識では認識性能が低下した．

(26)

第2章 HMMの尤度の非対称性を用いた音声認識 20 これより，従来のTANDEMアプローチに準ずる手法では，認識性能を大幅に上げることは困難であることが分かる．一方， LLP-SVM-fullによる静的な認識では，

認識性能が大きく向上しており，ベースライン(MFCC-HMM)に対する誤り削減率は79%である．このことから，最尤基準の識別において生じるような誤りを削減するためには，比較的長い時間構造を持つカテゴリ群の HMMから得られる尤度パターンを用いて静的な認識を行うことが有効であることがわかった．

2.4.2 学習データ量と性能の関連性

本研究で採用しているLLPに基づく認識法では，単語単位の尤度パターンを用いるため，学習データに単語発話が必要である．そのため，大語彙を扱うタスクでは学習に用いる単語発話を十分に得ることが出来ず，LLPに基づく手法では高い認識性能が得られない可能性がある．ここでは，LLPを特徴として用いた階層的な音声認識方式の学習データ量と性能の関連性を調査するため，学習データ量を変化させた場合の認識性能の変化について調査を行う．

実験条件

(a)LLP-wSVMによる識別

前段の尤度特徴ベクトルを抽出する際に用いた音響モデルは，ASJデータベー

スの20413文を用いて学習した状態共有型トライフォンHMMである．HMMの

状態数は2000，各状態の混合数は16，分散行列は対角共分散である．学習データ，

評価データ双方において，単語カテゴリ群に対する尤度特徴ベクトル(216次元) を，単語発話ごとに算出した．

後段の認識については，学習と評価に用いる音素連鎖バランス単語21600発話を話者に対して4分割し，交差検定により評価を行った．LLP-wSVMの学習データとして，1単語あたり25発話，50発話，75発話の3通りを用い，評価は学習に含まれていない単語発話に対して行った．このとき，LLP-wSVMは“one versus

(27)

rest”法で学習し，カーネル関数は，線形カーネルを用いた．

(b)MFCC-wHMMによる識別

本実験では，単語単位で学習されたHMMを比較対象とする．この単語HMM の構築手順は下記の通りである．まずASJデータベースより20413文を用いて音素単位のモノフォンHMMを学習した．そして，この音素単位のモノフォンHMM を単語の音素表記に基づいて連結させ，単語単位のHMMを構築した．この単語単位HMMを初期モデルとして，ATR音素連鎖バランス単語を用いて，単語HMM のパラメータの再推定を行った．このとき，LLP-wSVMと同様，単語データベースを話者に対して4分割し，交差検定を行った．このように，単語データを用いて再学習された単語HMMをMFCC-wHMMと呼ぶ．このとき，各単語モデルの状態数は，単語を構成する音素数×3である．

(c)実験結果

図2.8に単語あたりの学習データ数に対する単語誤り率を示す．評価する識別器は，MFCC-wHMM，LLP-wSVMである．これらの識別器の学習データは同一である．これらに加えて，従来一般的に用いられているトライフォンHMM (MFCC-

pHMM)の性能も示した．

これより，75発話のように比較的多くの単語発話を学習に用いた場合は，LLP を用いた手法(LLP-wSVM)は，単語HMM (MFCC-wHMM)と同等の性能しか与えない．しかし，学習データが25発話のように少量の場合，LLP-wSVMはMFCC- wHMM に比べて64%の誤りを削減した．また，LLP-wSVMは，MFCC-pHMM の誤りも 43%削減した．このように，LLP-wSVMは，少量の学習データを用いた場合，MFCC-pHMM，MFCC-wHMMの誤りを削減していることから，大語彙を扱うタスクにおいても有効であることが期待できる．

(28)

2.5 まとめ

HMMが与える尤度パターンの非対称性に着目し，それを特徴量として利用する単語音声認識手法について述べた．尤度パターンを利用する枠組としては，短い時間構造を持つHMMから与えられる尤度パターン(SLP)を特徴とする枠組と，

長い時間構造を持つHMMから与えられる尤度パターン(LLP)を特徴とする枠組の2つに大別でき，孤立単語音声認識実験を行って，両者の性能を比較した．その結果，LLPを利用する枠組の方が，SLPを利用する枠組よりも高い認識性能を示し，さらに従来のMFCCを音響特徴とするHMMの誤りを79%削減したことから，尤度パターンの非対称性を利用する上でLLPを特徴とすることの有効性が示された．また，単語学習データ量と認識性能の関連を調査したところ，LLPを利用する手法は学習データを十分用いた場合，従来のHMMによる認識法と同等の性能しか与えないが，学習データ量が少量の場合においても，高い認識性能を示した．このように少量の学習データ量においても，高い認識性能を維持していることから，学習データ量が不足するような，大語彙を扱うタスクにも適用可能であると思われる．

(29)

MFCCs (Continuous speech)

Generate Segmental unit

PCA

EM training

MFCCs (Isolated word)

PCA

MFCC-HMM Calculate likelihood

for state (each frame)

26

SU-MFCCs

Calculate likelihood for state (each frame)

PCA SLP

Vector concatenation

EM training

SLP-HMM (phoneme)

PCA SLP

Vector concatenation 78

26

30

SU-MFCCs

Dynamic recognition

Result 26 26

129

5

31

Training Evaluation

78

30

129

5

31

SLP-HMM (word)

lexicon Construct word HMM

from phoneme HMM

MFCCs (Continuous speech)

PCA

EM training

MFCCs (Isolated word)

PCA

MFCC-HMM Calculate likelihood

for state (each frame)

26

SU-MFCCs

Calculate likelihood for state (each frame)

PCA SLP

Vector concatenation

EM training

SLP-HMM (phoneme)

PCA SLP

Vector concatenation 78

26

30

SU-MFCCs

Dynamic recognition

Result 26 26

129

5

31

Training Evaluation Training Evaluation

78

30

129

5

31

SLP-HMM (word)

from phoneme HMM

図2.5 SLP-SVMの学習手順および評価手順．

(30)

EM

MFCC-HMMs (word) Calculate likelihood

for word (each word utterance)

Static recognition LLP-SVMs

Training Evaluation SVM training

MFCCs (Continuous speech) MFCCs

(Isolated word) (for training)

MFCCs (Isolated word) (for evaluation)

Calculate likelihood for word (each word utterance)

Result (LLP-SVMs) 216

26 26

LLP LLP 216

MFCC-HMMs (phoneme) 26

from phoneme HMM EM

MFCC-HMMs (word) Calculate likelihood

for word (each word utterance)

Static recognition LLP-SVMs

Training Evaluation Training Evaluation SVM training

MFCCs (Continuous speech) MFCCs

(Isolated word) (for training)

MFCCs (Isolated word) (for evaluation)

Calculate likelihood for word (each word utterance)

Result (LLP-SVMs) 216

26 26

LLP LLP 216

MFCC-HMMs (phoneme) 26

from phoneme HMM

図2.6 LLP-SVMの学習手順および評価手順．

(31)

!

"

#

図2.7 各比較項目に対する単語誤り率．

(32)

!"#$$ %

&'(

)*(('((+

,*

-

.0/21315476985.:. ;2;=<>4769?A@. .B/C1D154CEF85.G.

図2.8 学習データ量を変化させた時のLLPに基づく手法と単語HMMに対する単語誤り率．

(33)

27

第 3 章尤度特徴量次元数削減による頑健性向上に関する検討

3.1 はじめに

2.3.3で述べたLLPを特徴量として静的に認識する手法では，SLPを特徴量とし

て動的に認識する手法や、従来の音響特徴であるMFCCから生成されるHMMを用いた認識法と比べ，大幅に誤りを削減している．しかし，この手法は現状では小語彙のタスクにおいてのみ有効である．なぜならば，このLLPを用いた認識法は，語彙中の全ての単語カテゴリの尤度から尤度パターンを生成しており，小語彙のタスクでは後段で行う識別において用いる尤度特徴ベクトルの次元数は小さいため，比較的容易に適用できるが，大語彙のタスクに適用する場合は尤度特徴ベクトルの次元数が膨大になるため，計算量の観点から現実的ではないからである．そこで，本章では尤度特徴量の次元削減について検討する．

3.2 次元削減の手法

次元削減の手法としては，識別に寄与する情報を座標変換により積極的に抽出するLinear discriminant analysis (LDA) [30] [31]や，Heteroscedastic LDA (HLDA) [29]

などが挙げられる．しかし，これらの手法は特徴ベクトルの次元数が大きい場合，

計算時間が非常にかかり，大語彙における尤度特徴ベクトルの次元削減は現実的に不可能であると思われる．

一方，特徴ベクトルの次元を座標変換により削減するという立場ではなく，識別に寄与する特徴を選択していくという枠組がある [17]．Forward Selectionと呼

(34)

第3章尤度特徴量次元数削減による頑健性向上に関する検討 28 ばれる手法がこれにあたる．Forward Selectionは，まず特徴量を1つずつ選択していき，学習と評価を行って最も良い認識性能を与える特徴量を選択し，認識性能が飽和するまでこれを繰り返す．Forward Selection は全ての特徴量から最も良い認識性能を示す特徴量を選択していくため，比較的識別に寄与する特徴量を得ることができる．しかし，本研究で用いているLLPを利用する枠組では，語彙の数だけ尤度特徴次元数は存在するため，Forward Selectionでは計算量的に現実的ではない．

3.3 尤度特徴量の次元数削減方式

本研究では，LDAやHLDAのような座標変換による次元削減ではなく，特徴選択に基づき尤度特徴ベクトルの次元削減を行う．その際，Forward Selectionのような枠組では計算量的に現実的ではないため，それに代わる特徴選択法を提案する．本研究では，単語ごとに誤り易い単語の集合を予め調査し，その集合に含まれる単語に対してのみ計算される尤度パターンを特徴量として利用することを試みる．尤度特徴の次元数削減方法，学習手順，および評価手順については以下の通りである．

尤度特徴量次元削減手順

1. 単語単位のHMM (MFCC-HMM)を用いて，学習データ(単語音声)の認識を行う．MFCC-HMMについては，2.3.3と同様の手順で構築する．

2. 単語 w_i に誤認識され易い(つまり，wiに対して高い尤度が与えられる) 単語カテゴリの上位n 個のカテゴリから構成される単語カテゴリの部分集合 G(w_i) = (w¹_i,· · · , w_iⁿ)を考え、それらに対する尤度パターンを，単語w_i に対する尤度特徴量とする．すなわち，単語カテゴリごとに固有のn次元の尤度から成る部分空間を構築する(図3.1)．これを，単語w_i に対する尤度部分

尤度パターンの非対称性を利用した 音声認識に関する研究

2007 年度 修士論文

HMM における