招待講演:音声認識における探索技法

(1)

マルチメディア通{i"と分散処理ワークショップ平成6年10月

音声認識における探索技法

好田正紀山形大学工学部 H M M (hidden Markov modeI) のViterbi アルゴリズムによる音声認識をグラフサーチの観点から検討し、継続時間制御H M Mによる単語音声認識、 H M M - L Rによる文節音声認識にbest-firstサーチの技法を導入する. best-firstサーチに用いるスコア関数、及び、推定スコアの設定法を提案し、計算盤低減の効果を示す. 1 .はじめに大語録・連続音声を対象とする音声認識では，必然的に膨大となる処理量に対して現実的な時間内で実行可能となるように，認識アルゴリズムをより高度化するための研究が本質的・潜在的に重要である.

H M M (hidden Markov modeI)の Viter biアルゴリズムでは、入力音声とH M Mのマッチング領域(トレリス)の格子点を節点とするグラフにおいて、状態遷移確率と出力確率の累積値をスコアとして、モデルのタイプに対応した経路展開の規則のもとで、始点から終点、に到達するスコア最大の経路を探索すチであり、また、推定スコアは最適解を保証していない. best-firstサーチの技法による経路の展開に関しては、 A・探索の考え方に基づく研究が盛んに行われるようになった[5]ー[10]. 連続音声認識に適用した文献[5]のスタックデコーデイング法では、長さの異なる単語列の評価関数における正規化係数をヒューリスティックに設定する、しきい値やビーム幅による枝刈も併用する、探索終了判定の条件を緩和する、等により、厳密なA・探索に必ずしもこだわらない、実用的な探索法が検討されている.文献[8] の tree-trellisサーチでは、る.このζとから、 H M Mによる音声認織は、 forward-passでtrellis サーチにより第一候本質的にグラフサーチの問題である. 補を求めた後、そのトレリスを推定スコアに H M Mによる音声認識をグラフサーチの間利用してbackward-pass で treeサーチにより題とみなし、ビームサーチの技法による経路 N-best 候補の探索の高速化をはかつている. の展開に関して、多くの場合、当該節点まで本稿の目的は、 best-firstサーチの技法にのスコアのみに基づいて枝刈の判定が行われより認識処理(第一候補の探索)自体の高速た[1

]

-

[

3 ].

当該節点以降の推定スコアも考化をはかることにある.これまでに、

DTW

慮して技刈の判定を行うと、より大きな効果 (dynamic time warping) による音声認識にが期待される.例えば、文献[4] のforward- おいて、推定コストを当該節点以降の入力フ backwardサーチでは、 forward-passで音素コレームのV Q歪に基づいて設定して、経路のンテクスト独立H M Mを用いた簡略な認識処震開を標準パターンすべてに対して一括して理を行い、その結果を推定スコアに利用して行う、

D

Pbest-firstサーチのアルゴリズム backward-passで音素コンテクス卜依存H M を提案した[11]. また、推定コストの精度を

M

を用いたN-bes t候補の探索の高速化をはよげるために、入力音声と

VQ

標準パターンかっている.ただし、 backward-pass の探索の

DTW

を経路展開のbest-firstサーチとは法はbest-firstサーチではなくてビームサー逆に終点から始点に向って直接行うことによ Viterbi Best-First Searching Algorithm for HMM-Based Speech Recognition Masaki KOHDA Facul ty of Engineering， Yamagata Universi ty

(2)

表す. 2.2継続時間制御Viterbi best-firstサーチ (1)経路展開入力の第 iフレームまでの遷移で、単語n の H M Mの状態jにt時間滞留し、音素内に T時間滞留したことを、節点(t.T.i.j.n) で表すれ =1-t 1. T= 1-T 1

・

i=l-1. j=l-Jn. n=1...N) .節点 (t.T.i.，jn)で展開される子節点は、状態内遷移状態間遷移情景内) 状態間遷移{音鯛) となる〈図 2) . (2) best-firstサーチ best-firstサーチによる経路展開の説明図を図3に示す. る推定コスト設定法、及び、この後向きD T W にも best-firstサーチを利用する推定コスト設定法を提案した[12]. 本稿では、 H M MのViterbi アルゴリズムによる音声認識をグラフサーチの観点から検討し、 best-firstサーチの技法を継続時間制御 H M Mによる単語音声認識、 H M M - L R による文節音声認識に導入する.best-first サーチに用いるスコア関数、及び、推定スコアの設定法を提案し、計算量低減の効果を示す. : (t+，lT+，li+，lj .n) : (1 • T+，li+

1 .

j+

1 .

n) : {1 .1 .i+

1 .

j+

1 .

n} 状態内遷移 (t+1. T+l.i+l，j.n) 菅索内音素問状態間違移 2. 継続時間制御 H M Mによる単語音声認識におけるViterbi best-firstサーチ[13] 2.1継続時間制御 H M M 音素 H M Mとして 4状態 3ループのモデルを用いる(図 1) .単語 H M Mは単語の音素表記に従って音素 H M Mを連結して作成する. 状態内の滞留時聞を

t

、音索 H M M内の滞留時聞をTとする. 継続時間制御 H M Mでは、次の 2つを考慮する. ①滞留時間t、Tは次式を満たす. to~t :æ; tl 、 To孟 T~Tl ②状態閣の遷移確率は

t

、Tに依存する. 音素mの H M Mの状態jにt時間滞留後、状態Kに遷移する状態遷移確率をa回』包(t)、その音素内にT時間滞留後、状態kに遷移する音素遷移確率をA圃』也(1)で表す. 継続時間制御Viterbi アルゴリズムにおける経路スコアは、次式で与えられる. 5 m J 11

<

t

.

T

.

v) = 10g {a回』凪(t)・AmJ且(T)・b田川(v)} b川肱(v)はシンボJレ

v

の出力確率を滞留時間依存状態遷移の音素 H M M 図I 。•

T

， i，j.n) 節点(t.T.i.，jn)で展開される子節点

1

1 t

f

t

I

i

f

￨

UI/

?

l

d

t

I

i

入力音声 Step3 best-firstサーチによる経路展開の説明図入力音J!r SIep2 入力音声 Stepl 図2 図3 単語 H M M ここで、

(3)

展開可能な節点のリスト (open li s t)をP、各節点までのViterbiスコアを推定スコアと展開済みの節点、のリスト(c1osed 1 ist)をQ する. とする.次の手順で経路を展開する. この後向きViterbiにおいて、

2 .

1

節の径 ①初期設定路スコアをより大きい値で代用する.これは、 p = {(1. 1.0， 1.n)

I

n=l-N } 推定スコア設定のための計算量を低減し、か Q

=

NULL つ、 A・探索の条件を満たすようにするため ②Pの中からスコア最大の節点を取り出しである.次の4通りが考えられる. てQに移し、そこで展開される子節点を ①出力確率のみに基づく経路スコア Pに追加する. ③Pから取り出した節点(t.T，i，j.n)が i=l.j=Jn ならば、単語nを認識結果として終了する.そうでなければ、②を繰り返す. (3)スコア関数スコア関数の説明図を図4に示す.節点(t， T.，ij. n)におけるスコア関数の推定値は、 f (1. T，，ij， n)= g (t. T.

i

.

，jn)+ h (t， T， 1.j， n) で求める.ここで、 g(t， 1.，i，jn) は始点から当該節点までの探索範囲内のViterbiスコア、

h

(t.

T

.

i

.

j.n)は当該節点、から終点、までのViterbiスコアH (t. T.

i

.

，jn)の推定値であり、以下では、推定スコアと呼ぶ. _毎しに常・果に態ルプ単状ス一減コをル視 T 通内結的状 1 一のの ② 定サ低ス路ボ・無、は語の価 2 態ル象 M 、推数に定経ンるを t i 単そ等を状 1 対 M と︿全 ) 推関シきり、巾・ . ・を索 2 態識 H る数、司と展、でパでい印い内る数音を状認索す点れわ i るにが削の引よ素い態各語 2 、音と子ぞ × ゆけ立と A ﹀きば音て状は単をり、 J 格れ

υ

同お独こ、く向え、ねの ② 各語よ数、のそ / 引にはくけお後行て束 M 、は単に紫 M 算は l き i とおパと、でえを M ち ③ 全れ音、計﹀ 1_・ハ向巾声て則 0 てし加路 H わ、はこ均 N 式域ゆ前防音め a L つなに経用な M ④ ・平、化領

υ

のれ力求率て従御れの i す M 、 M のれ漸るぺ御き入め確べ・制そとゆ・ H M M 中ぞるすレ制向、じ移すい聞はもい印るの M H 語れす憶、間後すはか遷 ( な時 ④ で引すプ H の単そ応紀勺・時の示ららはるし統語きく一の通、を対をレる続定にれあ ① い存継 ② 単向さルプ共数数にアのれ継設 5 こにて依の全後小 l 一の語態 @ コチさア図チ引ら一のかサ常点 t 通終 e d T A

、

れてしトっ開問か展 b 向路

L

に経行占川で訂始ムー口、りス茸 a m E

，

l ! 1 M M 点ゴいん終ルいにアトン逆・ 1 4 羽山占 4 L U 佐 l 江

t

と M 推定スコアh(t.T.

i

.

j，n)が h (t. T.i.j. n) ミ H (t. T.i.j:n) の関係、を満たせば A・探索となり、最適解が保証される[14]. (4)推定スコアの設定法

単

J_{n )} 器開

. ，

J

H

M

。

t

入力

音声

図4 スコア関数の説明図

s

田川

(v)=log

bIn

J

k

(

v

)

② 音素

HMM

内の最大経路スコア

S

m

(

V

)

m

a

x

{

l

o

g

b田川

(

v

)

}

③ 単語

HMM

内の最大経路スコア S a (V)

m

a

x

{l

o

g

b

血』厄

(

v

)

}

回(0).j， k 但し、 m(n)は単語nに表れる音素を示す. ④ 全単語

HMM

の最大経路スコア S

(

v

)

m

a

x

{

l

o

g

b

田』孟(V)} 0.11(0).j. k 一一

m

a

x

{

l

o

g

b

回

J

t (V) } 回，j，k

(4)

J _a J _a

M

H

戸路路 1

同日経経

お

大

最最内諾

諾

単

単全入力音声音素内最大経路

HMM

入力音声基本

HMM

継続時間制御の前向き

V

i

t

e

r

b

i

と推定スコア設定の後向き

V

i

t

e

r

b

i

における展開経路図5 状態滞留時間制御状有芭音素滞留時間制御 ⑤鶴本HMM @苦情内最大経路継続時間制御

V

it

e

r

b

i

b

e

s

t

-

f

i

r

s

t

サーチの処理例 (入力単語

=/iyoiyo/

、分布モデル:対数正規分布) ③Jlten内地大経路 @会j匹:TH~大経路 ①舵定スコ70 図6

(5)

(5)処理例継続時間制御 Viterbi best-firstサーチの処理例を図6に示す.各グラフにおいて、入力音声を横軸として、上段は入力フレーム毎の展開経路数、中段は認識終了時までに展開された経路の属する単語候補数、下段は正解単語に対して展開された経路を示す. 3. H M Mー L Rによる文節音声認識におけるViterbi best-firstサーチ[15] 3.1 H M M - L R H M M - L R音声認識は、 H M Mによる音素照合部と L Rパーザによる統語解析部からなる.音紫照合レベルでのトレリス上の経路の展開と統語解析レベルの仮説の探索を一括して、 best-firstサーチによる経路展開の問題として一元的に定式化する(図 7) . 3.2 H M M -L R制御 Viterbi best-firstサーチ {1}経路展開

(HMM )

入力音声図7 Vitervi best-firstサーチによる H M M - L R文節音声認識図 8 節点

O

，j，p，s)の説明図 L Rパーザの初期状態を SD 、状態sにおける予測音素の集合を predict(s} (p

I

action{s， p)よ shi ft s・R} と定義する. 入力の第iフレームと、 L Rパーザのスタック上の状態sにおける予測音素pの H M M の状態jを対応づけるトレリス上の節点を

0

， j ，p， s)と表す 0=1...1， j=1...J， pεpredic t(s)) (図8) . 節点(i.j，p， s)で展開される子節点には、次の2通りのタイプがある. ①音素内の経路展開 jく Jの場合には、音素 H M Mの状態内で遷移し、次のフレーム上の節点が展開されて、子節点は {0+1.k， p， s) I k=j，j+l} となる〈図 9(a)) . ②音索聞の経路展開 j = Jの場合には、 pに後続可能な音素の H M Mの最初の状態に遷移し、同じフレーム上の節点が展開されて、子節点は ((i.1.p'，s・)

I

action(s，p)="shift s p'εpredict(s' )} となる(図 9(b)) . (2) best-firstサーチ展開可能な節点のリスト (open list)を LtI'

i

!

d

図 9 節点

0

，j， p， s}で展開される子節点

(6)

展開済みの節点のリスト (closed list)を Lq とする.次の手順で経路を展開する. ①初期設定 Lp= {(O，l，p，so)

I

pεpredict (so)} L q

=

NULL ②L"の中からスコア最大の節点を取り出して

L

q に移し、そこで展開される子節点を Lp に追加する. ③ Lp から取り出した節点

0

，j， p， s)が i=

I

.

j=J， action(s，p)c"accept" ならば経路展開を終了し、解析結果を得る.そうでなければ、②を繰り返す. (3)スコ7関数節点、(i，j，p，s)におけるスコア関数の推定値は、 f

0

， j， p， s)= g

0

， j， p， s)+h

0

， j， p， s) で求める.ここで、 g

0

，，jp， s)は始点から当該節点へ到達する、探索範囲内で最も良い経路上の累積スコア、 h(i，j，p，s)は当該節点、から終点へ到達する最適経路上の累積スコアH(i，j，p，s)の推定値であり、以下では、推定スコアと呼ぷ. (4)推定スコアの設定法推定スコアの設定では、 best-first サーチとは逆に終点から始点に向かつて、 one-pass Viterbiで経路展開し、終点から各節点までのViterbi スコアを推定スコアとする. この後向きone-passViterbiにおいて、処理単位、言語モデル、音素 H M Mをどのようにするかによって、種々の推定スコア設定法が考えられる. ①処理単位次の 2通りを考える. ・音素を単位とする場合 .単語を単位とする場合 ②言話モデル各処理単位に応じて、次の 2通りを考える. 〈音素単位の場合〉 -文法なし :あらゆる音素連鎖を許す. .音素対文法:文脈自由文法で許される音素連鎖のみを生成する. 〈単語単位の場合〉・文法なし :あらゆる単語連鎖を許す. .単語対文法:文脈自由文法で許される単語連鎖のみを生成する. ③音索 H M M 次の 2通りを考える. ・4状態 3ループの音索 H M M -音素内の経路を束ねて最大経路スコアで代用する、 2状態 1ループの音素 H M M これらは、推定スコア設定のための計算盤を低減し、かっ、 A・探索の条件を満たす. H M M - L R制御Viterbi best-firstサーチによる文節音声認識のプロック図を図10に示す. く文脈自由文法〉

v

-

一

￨

テ

ー

プ

Jレ作成部￨

v

~

〈@画室~(HMM)0~

L

J

命

同

州

側

﹀

図10 H M M - L R制御Viterbi best-firstサーチによる文節音声認識のプロック図

(7)

推定スコア陸定法リストサイズ E部品f

I

文法処理単位 200 6

∞

: 20

∞

2 状態 Jレプ 4 状態 3 Jレプ推定スコアO

!

堅

雪

1 B

!

量

ヨ

IE:=

.・.け:.・~一一.

_-・_._I_・_.

!

戸

松

￨ !

空

冨

!

巴

盟

菅紫

~~謹書

￨

;

匡

同

室

量

;

なし

!

空

E

:

!

堅

冒

J

I

T

G

占:J

語単〕

S

J

;匡ー草￨

;

雇

重

.

量

;

恒

三

ヨ

!

壁

画

1 E

司

音素

;

届

量

言

匡

;

l

霞雲

￨

j

量菌室￨

あり

: 8 1 8

!

長

記

単語

;匡雲~

.

事重￨

~~ぎ i

紫音

:

L

し

!

と

!

な置噌言.. ヨーすし

!

E

ヨ

_!長

!

E

ヨ

単

Z

苦昌司F ・E噌E圃・音素

1 E

ヨ

l

E

ヨ

l

E

ヨ

「 F F あり

:

量

l

E

ヨ

1 E

ヨ

単

Z

奇 . ， • 図11 HMM-LR制御Viterbibest-firstサーチによる文節音声認識の処理例〈入力文節=/tsuuchiwa/)

(8)

(5)処理例処理例を図

1

に示す.同図はL" のサイズを

2

0

0 . 6

0

0 .

2

0

とした場合の、各推定スコアにおける経路展開の例である.各欄はそれぞれ、上段はリスト L" から捨てられた節点数、中段はリスト LQ 中の節点数(但し、網かけの領域はLーから捨てられた節点数〉、下段は正解文節 H M Mに対して展開された経路を示す. リストサイズを広げることにより正解経路が得られていく様子がわかる.

4.

むすび H M Mの

V

i

t

e

r

b

i

アルゴリズムによる音声認識をグラフサーチの観点から検討し、

b

e

s

t

-

f

i

r

s

t

サーチの技法を継続時間制御 H M Mによる単語音声認識、 H M M - L Rによる文節音声認識に導入した.

b

e

s

t

-

f

i

r

s

t

サーチに用いるスコア関数、及び、推定スコアの設定法を提案し、計算盤低減の効果を示した.

1

9

8

3 )

.

[

6 ]

P

.

K

e

n

y

.

R

.

H

o

l

1 a

n

.

V

.

G

u

p

t

a

.

M

.

L

e

n

i

g

.

P

.

M

e

r

m

e

l

s

t

e

i

n

.

D

.

0 ・

S

h

a

u

g

h

n

e

s

y

~

A

・

-a

d

m

i

s

i

b

l

e

h

e

u

r

i

s

t

i

c

s

f

o

r

a

p

i

d

l

e

x

i

c

a

l

a

c

e

s

R

.

I

C

A

S

P

9

1.

S

1

0 .

1.

p

.

6

8

9

・

6

9

2 (

M

a

y

1

9

1).

[

7 ]

D

.

B

.

P

a

u

l

:

R

A

l

g

o

r

i

t

h

m

f

o

r

a

n

o

p

t

i

m

a

l

A

.

s

e

a

r

c

h

a

n

d

l

i

n

e

a

r

i

z

i

n

g

t

h

e

s

e

a

r

c

h

i

n

t

h

e

s

t

a

c

k

decoder~.

I

C

A

S

P

9

1.

S

I

0 .

2 .

p

.

・

6

9

3 -

6

9 6 (

M

a

y

1

9

1 )

.

[

8 ]

F

.

K

.

S

o

n

g

，

E

-

F

.

H

u

a

n

g

:

R

A

t

r

e

-

t

r

e

l

i

s

b

a

s

e

d

f

a

s

t

s

e

a

r

c

h

f

o

r

f

i

n

d

i

n

g

t

h

e

N

b

e

s

t

s

e

n

t

e

n

c

e

h

y

p

o

t

h

e

s

e

s

i

n

c

o

n

t

i

n

u

o

u

s

p

e

c

h

r

e

c

o

g

n

i

t

i

o

n

"

.

1 C

A

S

5 P

9

，1

5

1

0 .

5 .

p

.

7

0

5 -

7

0

8 (

M

a

y

1

9

1 )

.

[9]松本真治、河原達也、堂下修司語録・構文・意味制約を統合した A・探索による会話音声認識"、信学技報、

S

P

9

1 -

9

3

(1

9

1 -1

2 )

.

[

1

0 ]

高塚俊之、板倉文忠 "

F

o

r

w

a

r

d

-

B

a

c

k

w

文献

a

r

d

A

.

S

e

a

r

c

h

による H M M音声認識"、音 [1]

Y

.

L

.

C

h

o

w

.

M

.

O

.

D

u

n

h

a

m

.

O

.

A

.

K

i

m

b

a

l

l. 留学会講演論文集、

3 -

4 -

7 (

1

9

3 -

0

3 )

.

M

.

A

.

K

r

a

s

n

e

r

.

G~F.Kubara.

J

.

M

a

k

h

o

u

l.

[

1

1 ]

加藤正治、好田正紀、伊藤研司 "V Q

P

.

J

.

P

r

i

c

e

.

S

.

R

o

u

c

o

s

.

R

.

M

.

S

c

h

w

a

r

t

z

ひずみに基づく推定コストを用いるD P

b

e

s

t

~

B

Y

B

L

O

S

T

h

e

B

N

c

o

n

t

i

n

u

o

u

s

p

e

c

h

-

f

i

r

s

t

サーチの検討"、信学論

(

0 -I

I

)、

J

7 r

e

c

o

g

n

i

t

i

o

n

s

y

s

t

e

m

• . I

C

A

S

P

8

7 .

3 .

7 .

6 -

D

-

l

、

7 、

p

.1

3

5

4 -

1

3

6

2 (

1

9

3 -

0

7 )

.

p

.

8

9 -

9

2 (

A

p

r

i

l

1

9

8

7 )

.

[

1

2 ]

好田正紀、加藤正治、伊藤研司 "D P

[

2 ]

K

.

F

.

L

e

.

H

.

W

.

H

o

n

.

R

.

R

e

d

y

R

A

n

b

e

s

t

-

f

i

r

s

t

サーチにおける推定コスト設定法

o

v

e

r

v

i

e

w

o

f

t

h

e

S

P

H

I

N

X

s

p

e

c

h

の検討"、信学技報、

P

R

U

9

2 -

8(

1

9

2 -

0

5 )

.

r

e

c

o

g

n

i

t

i

o

n

s

y

s

t

e

m

• .

I

E

T

r

a

n

s

.

A

S

P

-

[1

3 ]

加藤正治、好田正紀:"

V

i

t

e

r

b

i

b

e

s

t

-

f

3

8 .

1.

p

.

3

5 -

4

5 (

J

a

n

u

a

r

y

1

9

0 )

.

i

r

s

t

サーチによる単語音声認識における継続

[

3 ]

H

.

N

e

y

.

D

.

M

e

r

g

e

l.

A

.

N

o

l

l.

A

.

P

a

e

s

e

l

e

r

時間制御法の検討"、信学技報、

S

P

9

3 -

1

0

8 • D

a

t

a

d

r

i

v

e

n

s

e

a

r

c

h

o

r

g

a

n

i

z

a

t

i

o

n

f

o

r

(

1

9

3 -

1

2 )

.

c

o

n

t

i

n

u

o

u

s

p

e

c

h

r

e

c

o

g

n

i

t

i

o

n

• • I

E

T

r

a

n

s

.

S

P

-

4

0 .

2 .

p

.

2

7

2

田

2

8 1 (

F

e

b

r

u

a

r

y

1

9

2 )

.

(4)

S

.

A

u

s

t

i

n

.

R

.

S

c

h

w

a

r

t

z

.

P

.

P

l

a

c

e

w

a

y

[

1

4 ]

N

.

J

.

N

i

l

s

o

n

- P

r

o

b

l

e

m

-

s

o

l

v

i

n

g

m

e

t

h

o

d

s

o

f

a

r

t

i

f

i

c

i

a

l

i

n

t

e

l

i

g

e

n

c

e

• M

c

G

r

a

w

-

H

i

l

.

N

e

w

Y

o

r

k

(

1

9

7

1 )

.

[15]門前聖康、好田正紀:" H M M - L Rに

T

h

e

f

o

r

w

a

r

d

-

b

a

c

k

w

a

r

d

s

e

a

r

c

h

よる文節音声認識における

V

i

t

e

r

b

i b

e

s

t

-

f

i

r

a

l

g

o

r

i

t

h

m

• . l

C

A

S

P

9

1.

S

I

0 .

3 .

p

.

6

9

7 - s

t

サーチの検討"、信学技報、

S

P

9

3 -

1

0

9

(1

9

7

0

0 (

M

a

y

1

9

1 )

.

9

3

ー

1

2 ).

[

5 ]

L

.

R

.

B

a

h

l.

F

.

J

e

l

i

n

e

k

.

R

.

L

.

M

e

r

c

e

r

• A

m

a

x

i

m

u

m

.

l

i

k

e

l

i

h

o

d

a

p

r

o

a

c

h

t

o

c

o

n

t

i

n

u

o

u

s

p

e

c

h

r

e

c

o

g

n

i

t

i

o

n

~

.

l

E

T

r

a

n

s

.

P

A

M

I

-

5 .

2 .

p

.

1

7

9 -

1

9

0 (

M

a

r

c

h

(9)

付録1 H M Mによる音声認識アルゴリズム (1)基本モデル付図 1は、 Bakisモデルと呼ばれて、最もよく用いられるH M Mの例を示す . 状態数は予め適当に決めておく必要がある . 状態数を多くすれば、単語をきめ細かく表現できるが、モデルのパラメータ数が多くなり、パラメータ推定の精度が悪くなる. 状態遷移確率は、状態数をSとすると、 S P (y

I

M)

=

ミ

P(q， y

I

M) ~ p (q

I

M) P (y

I

q， M) q マルコフモデルの性質より P ( q l M ) z q P(qtt￨q

，

…

M) P(y￨qj)=q P (Yt lq

，

…

q

，

1

，

M) であるので P (y

I

M)

=

L! r.iOa山Ib山I(め)ailiZbi

，

iZ(Y2)

…

aiT-IiTbir-lir (Yr)

x

Sの行列によって表すことができる . この一般に、

P

(y

I

M

)

の値は、前向きアルゴリ行列を状態遷移確率行列と呼ぶ . 状態 Q ，かー 'ム (forwardalgorithm) で能率よく求めら状態Q J への遷移確率をa川で表す. 古ることができる . 前向き変数 α(t， j)を、 y の時系列パターンには時間的な非可逆性の性 1・・・・

Y

I を出力して、かっ、時刻 tで状態q 質があるので、 i

>

jならばa

'

J

=

0となる. 時系列パターンの各時刻における観測値が、ベクトル量子化等の手法を用いて、有限個 (K個 ) のシンボルのーっとして表現できる場合には、離散分布モデルと呼ばれる . 状態 Q I から状態Q J への遷移でシンボルが観測 (出力〉される確率を b，パ k)と表す.これは

(SXS) XK

の行列によって表すことができる . この行列をシンボル出力確率行列と呼ぶ . 状態Q I の初期確率を 1C，で表す. 付図 1 H M MのBakisモデルの例 (2) 認識アルゴリズム音声の時系列パターンを Y

=

Y 1・・・・・・・・・・ YT I にいる確率とすると、 α(O，j)=π 』 (j=1-S) α(t，j)= ~_.α(t -1.i)a I J b I J (yI ) (j=1-S， t=l...T) P (y

I

M)

=工

α(T，j) 一方、 P(y

I

M)を厳密に求めないで、シンボル系列yを出力する可能性の最も高い状態遷移系列に対応する出力確率で代用することも考えられる . この対数尤度 Lは、 Viterbi アルゴリズムで能率よく求めることができる . f (t，j)を、 Y，，，..Y l を出力して、かっ、時刻 tで状態 QJにいる確率の最大値とすると、 f (O，j)= 10g π (j=1-S) f (t， j)= !pax {Iog f (t-，l

0+

loga 'J L m~x f (T， j) + log b I J (yI)} (j=1...S， t=1...T) とする.ここで、 YIは時刻 iにおける特徴この方法は、出力確率を厳密に求める方法とベクトル ( 具体的には、スベクトルやケプス比較して、計算量が少ないにもかかわらず、トラムを表す)に対応するシンボルである. 認識精度は同等であることが実験的に確かめモデルMのH M Mによってyが生起する確られている. 率

P

(y

I

M

)

を求める.これを、各単語に対応、 Viterbiアルゴリズムにおける漸化式は

D

するモデルについて求め、最大確率を与える Pマッチング法と基本的に同じ形式である . モデルに対応する単語を認識結果とする . 従って、 D Pマッチング法による連続単語の Q

=

Q 1I・・・・・・・・・・ q'Tを状態遷移系列認識アルゴリズムやオートマトン制御の認識とするとアルゴリズムは、そのまま H M MのViterbi アルゴリズムにも適用することができる .

(10)

付録2 継続時間制御Viterbi best-firstサーチによる単語音声認識の実験結果各相:焼何分耳慣 -.分布経路島"の計算量(") 推定l:l7 正規分耳慣 _{継続時間制御}_HMM _段定のポアソン分布ガンマ分布器本HMM 状恕内音無内状思・膏索内針'lt量 H鉱正処分布滞留時間制限滞留時閲制限滞留時間制限 (~) 会ftサーチ。唱0.00(1) 1990.10(・} 3122.34(・} 29021.02ω

一

247.20(1) 159.59 (1) 1007.29 (0) 254.14 (0) 159.76(1) 1079.26 (0) h(l. T.i.j. n) ..0 29.04(1) 236.60 (0) 152.01(1) 932.50 (0) 0.00 238.04 (0) 149.24(1) 955.48 (0) 245.43 (0) 152.47(1) 958.99 (0) 241.30 (0) 149.74(1) 928.60(0) 1

∞

.24(I) 52.18 (1) 330.，特例会単1I 107.79 (0) 52.53(1) 381.60 (0) 揺最大経路 ₁₆_.₄₀(1) 95.57 (0) 48.93(1) 304.41 (0) 0.01 日M M 100.89 (0) 48.20(1) 333.46 (0) 定 98.87 (0) 49.02(1) 309.27 (0) 96.，綿 (0) 47.28 (1) 296.29 (0) besc. ;:7. 4.69(1) 2.23 (1) 16.83 (0) 単蹄内 5.89(0) 2.28 (1) 23.01 (0) firsl コ最大経路 1.06(l) 4.64(0) 2.05(1) 15.81 (0) ₂_.₅₃ HMM 5.89(0) 2.04(1) 19.50【0)

'

-

1 '

ア 4.64【:0) 2.06(1) 15.臼 (0) 4.48 (0) 2.01 (1) 14.80 (0) 位 0.90(l) 0.62(1) 4.29(0) 音務内 1.11 (0) 0.63(1) 5.63 (0) 定骨量大経路 ₀_.₁₅₍₁₎ 0.92 (0) 0.59 (1) 4.16 (0) 33.33 E制M 1.10 (0) 0.60(1) 5.04 (0) 用 0.91 (0) 0.60(l) 4.10 (0) 0.89 (0) 0.59 (1) 3.96 (0) H 0.31 (1) 0.17(1) 1.ω(0) 0.40 (0) 0.18(1) 2.19 (0) M 基本

_一

0.33 (0) 0.16(J) 1.59 (0) 100.00 F制M 0.43 (0) 0.16(1) 2.21 (0) M 0.31 (0) 0.16(1) 1.51(0) 0.31 (0) 0.16(l) 1.47 (0) ()内の数字は 216サシアル中の餓り霊~. 付録3

HMM-LR

制街JViterbi best-firstサーチによる文節音声認識の実験結果 best.lirstサーチビームサーチ推定スコア位定法文節認能率(%) 経路展開の計算霊(%) 恕随隼(%) 計算盤(%) リストサイズリストサイズビーム幅ピーム帽剛 M 文佳処理単位 ₂

∞

₄

∞

₆

∞

_{1αm 2αm 2}

∞

₄

∞

_“)Q 1α)Q 2似淘 2

∞

4

∞

2

∞

4

∞

112.7.ヨア0 65.23 67.97 68.36 68.75 72.27 55.85 101.73 144.31 223.03 82.03 82.03 なし菅 . 70.317S.

∞

77.73 78.91 80.08 33.29 51.30 16.78 112.71 185.54 82.03 82.03 69.53 78.91 81.25 91.66 80.86 2t提9 単11 75.78 81.64 23.24 35.2146.8465.41 82.03 1ループ _管膏 ₁₁_.₄₈₇₈_.₅₂₇₉_.₃₀₇₈_.₉₁₈₀_.₈₆₃₅_.₈₈_S₅_.₀₅₆₉_.₂₆₉₃_.₄₃₁₃₂_.

∞

₈₂_.₀₃₈₂_.₀₃ あり単11 80.47 81.25 81.25 81.64 81.64 12.61 17.10 20.12 23.70 27.91 82.03 82.42 1

∞

2

∞

f .d .. 音素 79.69 82.81 82.42 82.42 82.81 7.13 8.63 9.23 10.58 11.93 82.03 82.03 4~えg 単語 80.86 82.03 82.03 82.42 82.42 4.66 4.81 5.07 5.09 5.13 82.42 82.42 3ループ脅罰E 82.42 82.42 82.03 82.42 82.42 2.83 3.27 3.68 3.26 3.48 82.03 82.03 あり .11 82.42 82.42 82.42 82.42 82.42 0.66 0.66 0.66 0.66 0.66 82.42 82.42

招待講演:音声認識における探索技法

音声認識における探索技法

]

-

[

3

].

DTW

D

M

VQ

DTW

・

1

.

1

.

1

.

1

.

t

t

<

t

.

T

.

v

T

1

1

t

f

t

I

i

f

￨

UI/

?

l

d

t

I

i

2

.

1

I

=

i

.

h

T

.

i

.

i

.

υ

υ

、

L

，

t

i

.

単

. ，

H

M

M

。

入 力

音 声

s

(v)=log

J

k

入力

音声