• 検索結果がありません。

招待講演:音声認識における探索技法

N/A
N/A
Protected

Academic year: 2021

シェア "招待講演:音声認識における探索技法"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

マルチメディア通{i"と分散処理ワークショップ 平成6年10月

音声認識における探索技法

好 田 正 紀 山形大学工学部 H M M (hidden Markov modeI) のViterbi アルゴリズムによる音声認識をグラフサーチの 観点から検討し、継続時間制御H M Mによる単語音声認識、 H M M - L Rによる文節音声認識 にbest-firstサーチの技法を導入する. best-firstサーチに用いるスコア関数、及び、推定ス コアの設定法を提案し、計算盤低減の効果を示す. 1 .はじめに 大語録・連続音声を対象とする音声認識で は,必然的に膨大となる処理量に対して現実 的な時間内で実行可能となるように,認識ア ルゴリズムをより高度化するための研究が本 質的・潜在的に重要である.

H M M (hidden Markov modeI)の Viter biアルゴリズムでは、入力音声とH M Mのマ ッチング領域(トレリス)の格子点を節点と するグラフにおいて、状態遷移確率と出力確 率の累積値をスコアとして、モデルのタイプ に対応した経路展開の規則のもとで、始点か ら終点、に到達するスコア最大の経路を探索す チであり、また、推定スコアは最適解を保証 していない. best-firstサーチの技法による経路の展開 に関しては、 A・探索の考え方に基づく研究 が盛んに行われるようになった[5]ー[10]. 連 続音声認識に適用した文献[5]のスタックデ コーデイング法では、長さの異なる単語列の 評価関数における正規化係数をヒューリステ ィックに設定する、しきい値やビーム幅によ る枝刈も併用する、探索終了判定の条件を緩 和する、等により、厳密なA・探索に必ずし もこだわらない、実用的な探索法が検討され ている.文献[8] の tree-trellisサーチでは、 る.このζとから、 H M Mによる音声認織は、 forward-passでtrellis サーチにより第一候 本質的にグラフサーチの問題である. 補を求めた後、そのトレリスを推定スコアに H M Mによる音声認識をグラフサーチの間 利用してbackward-pass で treeサーチにより 題とみなし、ビームサーチの技法による経路 N-best 候補の探索の高速化をはかつている. の展開に関して、多くの場合、当該節点まで 本稿の目的は、 best-firstサーチの技法に のスコアのみに基づいて枝刈の判定が行われ より認識処理(第一候補の探索)自体の高速 た[1

]

-

[

3

].

当該節点以降の推定スコアも考 化をはかることにある.これまでに、

DTW

慮して技刈の判定を行うと、より大きな効果 (dynamic time warping) による音声認識に が期待される.例えば、文献[4] のforward- おいて、推定コストを当該節点以降の入力フ backwardサーチでは、 forward-passで音素コ レームのV Q歪に基づいて設定して、経路の ンテクスト独立H M Mを用いた簡略な認識処 震開を標準パターンすべてに対して一括して 理を行い、その結果を推定スコアに利用して 行う、

D

Pbest-firstサーチのアルゴリズム backward-passで音素コンテクス卜依存H M を提案した[11]. また、推定コストの精度を

M

を用いたN-bes t候補の探索の高速化をは よげるために、入力音声と

VQ

標準パターン かっている.ただし、 backward-pass の探索 の

DTW

を経路展開のbest-firstサーチとは 法はbest-firstサーチではなくてビームサー 逆に終点から始点に向って直接行うことによ Viterbi Best-First Searching Algorithm for HMM-Based Speech Recognition Masaki KOHDA Facul ty of Engineering, Yamagata Universi ty

(2)

表す. 2.2継続時間制御Viterbi best-firstサーチ (1)経路展開 入力の第 iフレームまでの遷移で、単語n の H M Mの状態jにt時間滞留し、音素内に T時間滞留したことを、節点(t.T.i.j.n) で 表 す れ =1-t 1. T= 1-T 1

i=l-1. j=l-Jn. n=1...N) .節点 (t.T.i.,jn)で展開される子 節点は、 状態内遷移 状態間遷移情景内) 状態間遷移{音鯛) となる〈図 2) . (2) best-firstサーチ best-firstサーチによる経路展開の説明図 を図3に示す. る推定コスト設定法、及び、この後向きD T W にも best-firstサーチを利用する推定コス ト設定法を提案した[12]. 本稿では、 H M MのViterbi アルゴリズム による音声認識をグラフサーチの観点から検 討し、 best-firstサーチの技法を継続時間制 御 H M Mによる単語音声認識、 H M M - L R による文節音声認識に導入する.best-first サーチに用いるスコア関数、及び、推定スコ アの設定法を提案し、計算量低減の効果を示 す. : (t+,lT+,li+,lj .n) : (1 • T+,li+

1

.

j+

1

.

n) : {1 .1 .i+

1

.

j+

1

.

n} 状態内遷移 (t+1. T+l.i+l,j.n) 菅索内 音素問 状態間違移 2. 継続時間制御 H M Mによる単語音声認識 におけるViterbi best-firstサーチ[13] 2.1継続時間制御 H M M 音素 H M Mとして 4状態 3ループのモデル を用いる(図 1) .単語 H M Mは単語の音素 表記に従って音素 H M Mを連結して作成する. 状態内の滞留時聞を

t

、音索 H M M内の滞留 時聞をTとする. 継続時間制御 H M Mでは、次の 2つを考慮 する. ①滞留時間t、Tは次式を満たす. to~t :æ; tl 、 To孟 T~Tl ②状態閣の遷移確率は

t

、Tに依存する. 音素mの H M Mの状態jにt時間滞留後、 状態Kに遷移する状態遷移確率をa回』包(t)、 その音素内にT時間滞留後、状態kに遷移す る音素遷移確率をA圃』也(1)で表す. 継続時間制御Viterbi アルゴリズムにおけ る経路スコアは、次式で与えられる. 5 m J 11

<

t

.

T

.

v) = 10g {a回』凪(t)・AmJ且(T)・b田 川(v)} b川肱(v)はシンボJレ

v

の出力確率を 滞留時間依存状態遷移の音素 H M M 図I 。•

T

, i,j.n) 節点(t.T.i.,jn)で展開される子節点

1

1

t

f

t

I

i

f

UI/

?

l

d

t

I

i

入力音声 Step3 best-firstサーチによる経路展開の説 明図 入力音J!r SIep2 入力音声 Stepl 図2 図3 単語 H M M ここで、

(3)

展開可能な節点のリスト (open li s t)をP、各節点までのViterbiスコアを推定スコアと 展開済みの節点、のリスト(c1osed 1 ist)をQ する. とする.次の手順で経路を展開する. この後向きViterbiにおいて、

2

.

1

節の径 ①初期設定 路スコアをより大きい値で代用する.これは、 p = {(1. 1.0, 1.n)

I

n=l-N } 推定スコア設定のための計算量を低減し、か Q

=

NULL つ、 A・探索の条件を満たすようにするため ②Pの中からスコア最大の節点を取り出し である.次の4通りが考えられる. てQに移し、そこで展開される子節点を ①出力確率のみに基づく経路スコア Pに追加する. ③Pから取り出した節点(t.T,i,j.n)が i=l.j=Jn ならば、単語nを認識結果として終了す る.そうでなければ、②を繰り返す. (3)スコア関数 スコア関数の説明図を図4に示す.節点(t, T.,ij. n)におけるスコア関数の推定値は、 f (1. T, ,ij, n)= g (t. T.

i

.

,jn)+ h (t, T, 1.j, n) で求める.ここで、 g(t, 1.,i,jn) は始点か ら当該節点までの探索範囲内のViterbiスコ ア、

h

(t.

T

.

i

.

j.n)は当該節点、から終点、まで のViterbiスコアH (t. T.

i

.

,jn)の推定値で あり、以下では、推定スコアと呼ぶ. し に 常 ・ 果 に 態 ル プ 単 状 ス 一 減 コ を ル 視 T 通 内 結 的 状 1 一 の の ② 定 サ 低 ス 路 ボ ・ 無 、 は 語 の 価 2 態 ル 象 M 、 推 数 に 定 経 ン る を t i 単 そ 等 を 状 1 対 M と ︿ 全 ) 推 関 シ き り 、 巾 ・ . ・ を 索 2 態 識 H る 数 、 司 と 展 、 で パ で い 印 い 内 る 数 音 を 状 認 索 す 点 れ わ i る に が 削 の 引 よ 素 い 態 各 語 2 、 音 と 子 ぞ × ゆ け 立 と A ﹀ き ば 音 て 状 は 単 を り 、 J 格 れ

υ

同 お 独 こ 、 く 向 え 、 ね の ② 各 語 よ 数 、 の そ / 引 に は く け お 後 行 て 束 M 、 は 単 に 紫 M 算 は l き i と お パ と 、 で え を M ち ③ 全 れ 音 、 計 ﹀ 1 ハ 向 巾 声 て 則 0 て し 加 路 H わ 、 は こ 均 N 式 域 ゆ 前 防 音 め a L つ な に 経 用 な M ④ ・ 平 、 化 領

υ

の れ 力 求 率 て 従 御 れ の i す M 、 M の れ 漸 る ぺ 御 き 入 め 確 べ ・ 制 そ と ゆ ・ H M M 中 ぞ る す レ 制 向 、 じ 移 す い 聞 は も い 印 る の M H 語 れ す 憶 、 間 後 す は か 遷 ( な 時 ④ で 引 す プ H の 単 そ 応 紀 勺 ・ 時 の 示 ら ら は る し 統 語 き く 一 の 通 、 を 対 を レ る 続 定 に れ あ ① い 存 継 ② 単 向 さ ル プ 共 数 数 に ア の れ 継 設 5 こ に て 依 の 全 後 小 l 一 の 語 態 @ コ チ さ ア 図 チ 引 ら 一 の か サ 常 点 t 通 終 e d T A

れ て し ト っ 開 問 か 展 b 向 路

L

に 経 行 占 川 で 訂 始 ム ー 口 、 り ス 茸 a m E

l ! 1 M M 点 ゴ い ん 終 ル い に ア ト ン 逆 ・ 1 4 羽 山 占 4 L U 佐 l 江

t

と M 推定スコアh(t.T.

i

.

j,n)が h (t. T.i.j. n) ミ H (t. T.i.j:n) の関係、を満たせば A・探索となり、最適解が 保証される[14]. (4)推定スコアの設定法

Jn ) 器 開

. ,

J

H

M

M

t

入 力

音 声

図4 スコア関数の説明図

s

田 川

(v)=log

bIn

J

k

(

v

)

② 音 素

HMM

内の最大経路スコア

S

m

(

V

)

m

a

x

{

l

o

g

b田 川

(

v

)

}

③ 単 語

HMM

内の最大経路スコア S a (V)

m

a

x

{l

o

g

b

血 』 厄

(

v

)

}

回(0).j, k 但し、 m(n)は単語nに表れる音素を示す. ④ 全 単 語

HMM

の最大経路スコア S

(

v

)

m

a

x

{

l

o

g

b

田 』 孟(V)} 0.11(0).j. k 一 一

m

a

x

{

l

o

g

b

J

t (V) } 回 ,j,k

(4)

J a J a

M

M

M

M

H

H

戸 路 路 1

同日経経

最 最 内 諾

単 全 入 力 音 声 音 素 内 最 大 経 路

HMM

入 力 音 声 基本

HMM

継続時間制御の前向き

V

i

t

e

r

b

i

と推定スコア設定の後向き

V

i

t

e

r

b

i

における展開経路 図5 状 態 滞 留 時 間 制 御 状 有芭 音 素 滞 留 時 間 制 御 ⑤鶴本HMM @苦情内最大経路 継続時間制御

V

it

e

r

b

i

b

e

s

t

-

f

i

r

s

t

サーチの処理例 (入力単語

=/iyoiyo/

、分布モデル:対数正規分布) ③Jlten内地大経路 @会j匹:TH~大経路 ①舵定スコ70 図6

(5)

(5)処理例 継続時間制御 Viterbi best-firstサーチの 処理例を図6に示す.各グラフにおいて、入 力音声を横軸として、上段は入力フレーム毎 の展開経路数、中段は認識終了時までに展開 された経路の属する単語候補数、下段は正解 単語に対して展開された経路を示す. 3. H M Mー L Rによる文節音声認識におけ るViterbi best-firstサーチ[15] 3.1 H M M - L R H M M - L R音声認識は、 H M Mによる音 素照合部と L Rパーザによる統語解析部から なる.音紫照合レベルでのトレリス上の経路 の展開と統語解析レベルの仮説の探索を一括 して、 best-firstサーチによる経路展開の問 題として一元的に定式化する(図 7) . 3.2 H M M -L R制御 Viterbi best-firstサ ーチ {1}経路展開

(HMM )

入力音声 図7 Vitervi best-firstサーチによる H M M - L R文節音声認識 図 8 節点

O

,j,p,s)の説明図 L Rパーザの初期状態を SD 、状態sにお ける予測音素の集合を predict(s} (p

I

action{s, p)よ shi ft s・R} と定義する. 入力の第iフレームと、 L Rパーザのスタ ック上の状態sにおける予測音素pの H M M の状態jを対応づけるトレリス上の節点を

0

, j ,p, s)と表す 0=1...1, j=1...J, pεpredic t(s)) (図8) . 節点(i.j,p, s)で展開される子節点には、 次の2通りのタイプがある. ①音素内の経路展開 jく Jの場合には、音素 H M Mの状態内で 遷移し、次のフレーム上の節点が展開されて、 子節点は {0+1.k, p, s) I k=j,j+l} となる〈図 9(a)) . ②音索聞の経路展開 j = Jの場合には、 pに後続可能な音素の H M Mの最初の状態に遷移し、同じフレーム 上の節点が展開されて、子節点は ((i.1.p',s・)

I

action(s,p)="shift s p'εpredict(s' )} となる(図 9(b)) . (2) best-firstサーチ 展開可能な節点のリスト (open list)を LtI'

i

!

d

図 9 節 点

0

,j, p, s}で展開される子節点

(6)

展開済みの節点のリスト (closed list)を Lq とする.次の手順で経路を展開する. ①初期設定 Lp= {(O,l,p,so)

I

pεpredict (so)} L q

=

NULL ②L"の中からスコア最大の節点を取り出 して

L

q に移し、そこで展開される子節 点を Lp に追加する. ③ Lp から取り出した節点

0

,j, p, s)が i=

I

.

j=J, action(s,p)c"accept" ならば経路展開を終了し、解析結果を得 る.そうでなければ、②を繰り返す. (3)スコ7関数 節点、(i,j,p,s)におけるスコア関数の推定 値は、 f

0

, j, p, s)= g

0

, j, p, s)+h

0

, j, p, s) で求める.ここで、 g

0

, ,jp, s)は始点から 当該節点へ到達する、探索範囲内で最も良い 経路上の累積スコア、 h(i,j,p,s)は当該節 点、から終点へ到達する最適経路上の累積スコ アH(i,j,p,s)の推定値であり、以下では、 推定スコアと呼ぷ. (4)推定スコアの設定法 推定スコアの設定では、 best-first サーチ とは逆に終点から始点に向かつて、 one-pass Viterbiで経路展開し、終点から各節点まで のViterbi スコアを推定スコアとする. この後向きone-passViterbiにおいて、処 理単位、言語モデル、音素 H M Mをどのよう にするかによって、種々の推定スコア設定法 が考えられる. ①処理単位 次の 2通りを考える. ・音素を単位とする場合 .単語を単位とする場合 ②言話モデル 各処理単位に応じて、次の 2通りを考える. 〈音素単位の場合〉 -文法なし :あらゆる音素連鎖を許す. .音素対文法:文脈自由文法で許される 音素連鎖のみを生成する. 〈単語単位の場合〉 ・文法なし :あらゆる単語連鎖を許す. .単語対文法:文脈自由文法で許される 単語連鎖のみを生成する. ③音索 H M M 次の 2通りを考える. ・4状態 3ループの音索 H M M -音素内の経路を束ねて最大経路スコアで 代用する、 2状態 1ループの音素 H M M これらは、推定スコア設定のための計算盤を 低減し、かっ、 A・探索の条件を満たす. H M M - L R制御Viterbi best-firstサーチに よる文節音声認識のプロック図を図10に示す. く文脈自由文法〉

v

-

Jレ作成部│

v

~

〈@画室~(HMM)0~

L

J

図10 H M M - L R制御Viterbi best-firstサーチによる文節音声認識のプロック図

(7)

推定スコア陸定法 リストサイズ E部品f

I

文法 処理単位 200 6

: 20

2 状 態 Jレ プ 4 状 態 3 Jレ プ 推定スコアO

!

1 B

!

!

IE:=

.・.け:.・~一一.

-・.I .

!

│ !

!

菅 紫

~~謹書

;

;

な し

!

E

:

!

J

I

T

G

占:J

語単 〕

S

J

;匡ー草│

;

.

;

!

1

E

音 素

;

;

l

霞雲

j

量菌室│

あり

: 8 1 8

!

単語

;匡雲~

.

事 重 │

~~ぎ i

紫 音

:

L

!

!

な 置噌 言.. ヨーす し

!

E

!長

!

E

Z

苦 昌 司F ・E噌E圃・ 音 素

1

E

l

E

l

E

「 F F あり

:

l

E

1

E

Z

奇 . , • 図11 HMM-LR制御Viterbibest-firstサ ー チ に よ る 文 節 音 声 認 識 の 処 理 例 〈入力文節=/tsuuchiwa/)

(8)

(5)処理例 処理例を図

1

1

に示す.同図はL" のサイズ を

2

0

0

. 6

0

0

.

2

0

0

0

とした場合の、各推定スコ アにおける経路展開の例である.各欄はそれ ぞれ、上段はリスト L" から捨てられた節点 数、中段はリスト LQ 中の節点数(但し、網 かけの領域はLーから捨てられた節点数〉、 下段は正解文節 H M Mに対して展開された経 路を示す. リストサイズを広げることにより 正解経路が得られていく様子がわかる.

4.

むすび H M Mの

V

i

t

e

r

b

i

アルゴリズムによる音声 認識をグラフサーチの観点から検討し、

b

e

s

t

-

f

i

r

s

t

サーチの技法を継続時間制御 H M Mに よる単語音声認識、 H M M - L Rによる文節 音声認識に導入した.

b

e

s

t

-

f

i

r

s

t

サーチに用 いるスコア関数、及び、推定スコアの設定法 を提案し、計算盤低減の効果を示した.

1

9

8

3

)

.

[

6

]

P

.

K

e

n

n

y

.

R

.

H

o

l

1

a

n

.

V

.

G

u

p

t

a

.

M

.

L

e

n

n

i

g

.

P

.

M

e

r

m

e

l

s

t

e

i

n

.

D

.

0

S

h

a

u

g

h

n

e

s

s

y

~

A

-a

d

m

i

s

s

i

b

l

e

h

e

u

r

i

s

t

i

c

s

f

o

r

r

a

p

i

d

l

e

x

i

c

a

l

a

c

c

e

s

s

R

.

I

C

A

S

S

P

9

1.

S

1

0

.

1.

p

p

.

6

8

9

6

9

2

(

M

a

y

1

9

9

1).

[

7

]

D

.

B

.

P

a

u

l

:

R

A

l

g

o

r

i

t

h

m

f

o

r

a

n

o

p

t

i

m

a

l

A

.

s

e

a

r

c

h

a

n

d

l

i

n

e

a

r

i

z

i

n

g

t

h

e

s

e

a

r

c

h

i

n

t

h

e

s

t

a

c

k

decoder~.

I

C

A

S

S

P

9

1.

S

I

0

.

2

.

p

p

.

6

9

3

-

6

9

6 (

M

a

y

1

9

9

1

)

.

[

8

]

F

.

K

.

S

o

o

n

g

E

-

F

.

H

u

a

n

g

:

R

A

t

r

e

e

-

t

r

e

l

l

i

s

b

a

s

e

d

f

a

s

t

s

e

a

r

c

h

f

o

r

f

i

n

d

i

n

g

t

h

e

N

b

e

s

t

s

e

n

t

e

n

c

e

h

y

p

o

t

h

e

s

e

s

i

n

c

o

n

t

i

n

u

o

u

s

s

p

e

e

c

h

r

e

c

o

g

n

i

t

i

o

n

"

.

1

C

A

S

5

P

9

,1

5

1

0

.

5

.

p

p

.

7

0

5

-

7

0

8

(

M

a

y

1

9

9

1

)

.

[9]松 本 真 治 、 河 原 達 也 、 堂 下 修 司 語 録 ・構文・意味制約を統合した A・探索による 会話音声認識"、信学技報、

S

P

9

1

-

9

3

(1

9

9

1

-1

2

)

.

[

1

0

]

高 塚 俊 之 、 板 倉 文 忠 "

F

o

r

w

a

r

d

-

B

a

c

k

w

文 献

a

r

d

A

.

S

e

a

r

c

h

による H M M音声認識"、音 [1]

Y

.

L

.

C

h

o

w

.

M

.

O

.

D

u

n

h

a

m

.

O

.

A

.

K

i

m

b

a

l

l. 留学会講演論文集、

3

-

4

-

7 (

1

9

9

3

-

0

3

)

.

M

.

A

.

K

r

a

s

n

e

r

.

G~F.Kubara.

J

.

M

a

k

h

o

u

l.

[

1

1

]

加 藤 正 治 、 好 田 正 紀 、 伊 藤 研 司 "V Q

P

.

J

.

P

r

i

c

e

.

S

.

R

o

u

c

o

s

.

R

.

M

.

S

c

h

w

a

r

t

z

ひずみに基づく推定コストを用いるD P

b

e

s

t

~

B

Y

B

L

O

S

T

h

e

B

B

N

c

o

n

t

i

n

u

o

u

s

s

p

e

e

c

h

-

f

i

r

s

t

サーチの検討"、信学論

(

0

-I

I

)、

J

7

r

e

c

o

g

n

i

t

i

o

n

s

y

s

t

e

m

• . I

C

A

S

S

P

8

7

.

3

.

7

.

6

-

D

-

l

l

7

p

p

.1

3

5

4

-

1

3

6

2

(

1

9

9

3

-

0

7

)

.

p

p

.

8

9

-

9

2

(

A

p

r

i

l

1

9

8

7

)

.

[

1

2

]

好 田 正 紀 、 加 藤 正 治 、 伊 藤 研 司 "D P

[

2

]

K

.

F

.

L

e

e

.

H

.

W

.

H

o

n

.

R

.

R

e

d

d

y

R

A

n

b

e

s

t

-

f

i

r

s

t

サーチにおける推定コスト設定法

o

v

e

r

v

i

e

w

o

f

t

h

e

S

P

H

I

N

X

s

p

e

e

c

h

の検討"、信学技報、

P

R

U

9

2

-

8(

1

9

9

2

-

0

5

)

.

r

e

c

o

g

n

i

t

i

o

n

s

y

s

t

e

m

• .

I

E

E

E

T

r

a

n

s

.

A

S

S

P

-

[1

3

]

加藤正治、好田正紀:"

V

i

t

e

r

b

i

b

e

s

t

-

f

3

8

.

1.

p

p

.

3

5

-

4

5

(

J

a

n

u

a

r

y

1

9

9

0

)

.

i

r

s

t

サーチによる単語音声認識における継続

[

3

]

H

.

N

e

y

.

D

.

M

e

r

g

e

l.

A

.

N

o

l

l.

A

.

P

a

e

s

e

l

e

r

時間制御法の検討"、信学技報、

S

P

9

3

-

1

0

8

• D

a

t

a

d

r

i

v

e

n

s

e

a

r

c

h

o

r

g

a

n

i

z

a

t

i

o

n

f

o

r

(

1

9

9

3

-

1

2

)

.

c

o

n

t

i

n

u

o

u

s

s

p

e

e

c

h

r

e

c

o

g

n

i

t

i

o

n

• • I

E

E

E

T

r

a

n

s

.

S

P

-

4

0

.

2

.

p

p

.

2

7

2

2

8

1 (

F

e

b

r

u

a

r

y

1

9

9

2

)

.

(4)

S

.

A

u

s

t

i

n

.

R

.

S

c

h

w

a

r

t

z

.

P

.

P

l

a

c

e

w

a

y

[

1

4

]

N

.

J

.

N

i

l

s

s

o

n

- P

r

o

b

l

e

m

-

s

o

l

v

i

n

g

m

e

t

h

o

d

s

o

f

a

r

t

i

f

i

c

i

a

l

i

n

t

e

l

l

i

g

e

n

c

e

M

c

G

r

a

w

-

H

i

l

l

.

N

e

w

Y

o

r

k

(

1

9

7

1

)

.

[15]門前聖康、好田正紀:" H M M - L Rに

T

h

e

f

o

r

w

a

r

d

-

b

a

c

k

w

a

r

d

s

e

a

r

c

h

よる文節音声認識における

V

i

t

e

r

b

i b

e

s

t

-

f

i

r

a

l

g

o

r

i

t

h

m

• . l

C

A

S

S

P

9

1.

S

I

0

.

3

.

p

p

.

6

9

7

- s

t

サーチの検討"、信学技報、

S

P

9

3

-

1

0

9

(1

9

7

0

0

(

M

a

y

1

9

9

1

)

.

9

3

1

2

).

[

5

]

L

.

R

.

B

a

h

l.

F

.

J

e

l

i

n

e

k

.

R

.

L

.

M

e

r

c

e

r

• A

m

a

x

i

m

u

m

.

l

i

k

e

l

i

h

o

o

d

a

p

p

r

o

a

c

h

t

o

c

o

n

t

i

n

u

o

u

s

s

p

e

e

c

h

r

e

c

o

g

n

i

t

i

o

n

~

.

l

E

E

E

T

r

a

n

s

.

P

A

M

I

-

5

.

2

.

p

p

.

1

7

9

-

1

9

0

(

M

a

r

c

h

(9)

付 録1 H M Mに よ る 音 声 認 識 ア ル ゴ リ ズ ム (1)基本モデル 付図 1は、 Bakisモ デ ル と 呼 ば れ て 、 最 も よく用いられるH M Mの 例 を 示 す . 状 態 数 は 予 め 適 当 に 決 め て お く 必 要 が あ る . 状 態 数 を 多くすれば、単語をきめ細かく表現できるが、 モ デ ル の パ ラ メ ー タ 数 が 多 く な り 、 パ ラ メ ー タ推定の精度が悪くなる. 状 態 遷 移 確 率 は 、 状 態 数 をSとすると、 S P (y

I

M)

=

P(q, y

I

M) ~ p (q

I

M) P (y

I

q, M) q マ ル コ フ モ デ ル の 性 質 よ り P ( q l M ) z q P(qtt│q

M) P(y│qj)=q P (Yt lq

q

1

M) で あ る の で P (y

I

M)

=

L! r.iOa山Ib山I(め)ailiZbi

iZ(Y2)

aiT-IiTbir-lir (Yr)

x

Sの 行 列 に よ っ て 表 す こ と が で き る . こ の 一般に、

P

(y

I

M

)

の 値 は 、 前 向 き ア ル ゴ リ 行 列 を 状 態 遷 移 確 率 行 列 と 呼 ぶ . 状 態 Q ,か ー 'ム (forwardalgorithm) で 能 率 よ く 求 め ら状態Q J へ の 遷 移 確 率 をa川で表す. 古 る こ と が で き る . 前 向 き 変 数 α(t, j)を、 y の 時 系 列 パ タ ー ン に は 時 間 的 な 非 可 逆 性 の 性 1・・・・

Y

I を 出 力 し て 、 か っ 、 時 刻 tで 状 態q 質があるので、 i

>

jな ら ばa

'

J

=

0となる. 時系列パターンの各時刻における観測値が、 ベ ク ト ル 量 子 化 等 の 手 法 を 用 い て 、 有 限 個 (K個 ) の シ ン ボ ル の ー っ と し て 表 現 で き る 場 合 に は 、 離 散 分 布 モ デ ル と 呼 ば れ る . 状 態 Q I か ら 状 態Q J へ の 遷 移 で シ ン ボ ル が 観 測 (出力〉される確率を b,パ k)と表す.これ は

(SXS) XK

の 行 列 に よ っ て 表 す こ と が で き る . こ の 行 列 を シ ン ボ ル 出 力 確 率 行 列 と 呼 ぶ . 状 態Q I の 初 期 確 率 を 1C, で表す. 付 図 1 H M MのBakisモ デ ル の 例 (2) 認 識 ア ル ゴ リ ズ ム 音 声 の 時 系 列 パ タ ー ン を Y

=

Y 1・・・・・・・・・・ YT I にいる確率とすると、 α(O,j)=π 』 (j=1-S) α(t,j)= ~_.α(t -1.i)a I J b I J (yI ) (j=1-S, t=l...T) P (y

I

M)

=工

α(T,j) 一方、 P(y

I

M)を 厳 密 に 求 め な い で 、 シ ン ボル系列yを 出 力 す る 可 能 性 の 最 も 高 い 状 態 遷 移 系 列 に 対 応 す る 出 力 確 率 で 代 用 す る こ と も 考 え ら れ る . こ の 対 数 尤 度 Lは、 Viterbi ア ル ゴ リ ズ ム で 能 率 よ く 求 め る こ と が で き る . f (t,j)を、 Y,,,..Y l を出力して、かっ、 時 刻 tで 状 態 QJに い る 確 率 の 最 大 値 と す る と、 f (O,j)= 10g π (j=1-S) f (t, j)= !pax {Iog f (t-,l

0+

loga 'J L m~x f (T, j) + log b I J (yI)} (j=1...S, t=1...T) とする.ここで、 YIは 時 刻 iに お け る 特 徴 こ の 方 法 は 、 出 力 確 率 を 厳 密 に 求 め る 方 法 と ベ ク ト ル ( 具 体 的 に は 、 ス ベ ク ト ル や ケ プ ス 比 較 し て 、 計 算 量 が 少 な い に も か か わ ら ず 、 トラムを表す)に対応するシンボルである. 認 識 精 度 は 同 等 で あ る こ と が 実 験 的 に 確 か め モデルMのH M Mによってyが 生 起 す る 確 られている. 率

P

(y

I

M

)

を求める.これを、各単語に対応、 Viterbiア ル ゴ リ ズ ム に お け る 漸 化 式 は

D

す る モ デ ル に つ い て 求 め 、 最 大 確 率 を 与 え る Pマ ッ チ ン グ 法 と 基 本 的 に 同 じ 形 式 で あ る . モ デ ル に 対 応 す る 単 語 を 認 識 結 果 と す る . 従って、 D Pマ ッ チ ン グ 法 に よ る 連 続 単 語 の Q

=

Q 1I・・・・・・・・・・ q'Tを 状 態 遷 移 系 列 認 識 ア ル ゴ リ ズ ム や オ ー ト マ ト ン 制 御 の 認 識 とすると ア ル ゴ リ ズ ム は 、 そ の ま ま H M MのViterbi ア ル ゴ リ ズ ム に も 適 用 す る こ と が で き る .

(10)

付録2 継続時間制御Viterbi best-firstサーチによる単語音声認識の実験結果 各相:焼何分耳慣 -.分布 経路島"の計算量(") 推定l:l7 正規分耳慣 継続時間制御HMM 段定の ポアソン分布 ガンマ分布 器 本HMM 状恕内 音無内 状思・膏索内 針'lt量 H鉱正処分布 滞留時間制限 滞留時閲制限 滞留時間制限 (~) 会ftサーチ 。唱0.00(1) 1990.10(・} 3122.34(・} 29021.02ω

247.20(1) 159.59 (1) 1007.29 (0) 254.14 (0) 159.76(1) 1079.26 (0) h(l. T.i.j. n) ..0 29.04(1) 236.60 (0) 152.01(1) 932.50 (0) 0.00 238.04 (0) 149.24(1) 955.48 (0) 245.43 (0) 152.47(1) 958.99 (0) 241.30 (0) 149.74(1) 928.60(0) 1

.24(I) 52.18 (1) 330., 特 例 会単1I 107.79 (0) 52.53(1) 381.60 (0) 揺 最大経路 16.40(1) 95.57 (0) 48.93(1) 304.41 (0) 0.01 日M M 100.89 (0) 48.20(1) 333.46 (0) 定 98.87 (0) 49.02(1) 309.27 (0) 96.,綿 (0) 47.28 (1) 296.29 (0) besc. ;:7. 4.69(1) 2.23 (1) 16.83 (0) 単蹄内 5.89(0) 2.28 (1) 23.01 (0) firsl コ 最大経路 1.06(l) 4.64(0) 2.05(1) 15.81 (0) 2.53 HMM 5.89(0) 2.04(1) 19.50【0)

'

-

1

'

ア 4.64【:0) 2.06(1) 15.臼 (0) 4.48 (0) 2.01 (1) 14.80 (0) 位 0.90(l) 0.62(1) 4.29(0) 音務内 1.11 (0) 0.63(1) 5.63 (0) 定 骨量大経路 0.15(1) 0.92 (0) 0.59 (1) 4.16 (0) 33.33 E制M 1.10 (0) 0.60(1) 5.04 (0) 用 0.91 (0) 0.60(l) 4.10 (0) 0.89 (0) 0.59 (1) 3.96 (0) H 0.31 (1) 0.17(1) 1.ω(0) 0.40 (0) 0.18(1) 2.19 (0) M 基本

0.33 (0) 0.16(J) 1.59 (0) 100.00 F制M 0.43 (0) 0.16(1) 2.21 (0) M 0.31 (0) 0.16(1) 1.51(0) 0.31 (0) 0.16(l) 1.47 (0) ()内の数字は 216サシアル中の餓り霊~. 付録3

HMM-LR

制街JViterbi best-firstサーチによる文節音声認識の実験結果 best.lirstサーチ ビームサーチ 推定スコア位定法 文節認能率(%) 経路展開の計算霊(%) 恕随隼(%) 計算盤(%) リストサイズ リストサイズ ビーム幅 ピーム帽 剛 M 文 佳 処理単位 2

4

6

1αm 2αm 2

4

“)Q 1α)Q 2似淘 2

4

2

4

112.7.ヨア0 65.23 67.97 68.36 68.75 72.27 55.85 101.73 144.31 223.03 82.03 82.03 なし 菅 . 70.317S.

77.73 78.91 80.08 33.29 51.30 16.78 112.71 185.54 82.03 82.03 69.53 78.91 81.25 91.66 80.86 2t提9 単11 75.78 81.64 23.24 35.2146.8465.41 82.03 1ループ 管膏 11.48 78.52 79.30 78.91 80.86 35.88S5.0569.26 93.43 132.

82.03 82.03 あり 単11 80.47 81.25 81.25 81.64 81.64 12.61 17.10 20.12 23.70 27.91 82.03 82.42 1

2

f .d .. 音素 79.69 82.81 82.42 82.42 82.81 7.13 8.63 9.23 10.58 11.93 82.03 82.03 4~えg 単 語 80.86 82.03 82.03 82.42 82.42 4.66 4.81 5.07 5.09 5.13 82.42 82.42 3ループ 脅罰E 82.42 82.42 82.03 82.42 82.42 2.83 3.27 3.68 3.26 3.48 82.03 82.03 あり .11 82.42 82.42 82.42 82.42 82.42 0.66 0.66 0.66 0.66 0.66 82.42 82.42

参照

関連したドキュメント

 処分の違法を主張したとしても、処分の効力あるいは法効果を争うことに

本症例における IL 6 および IL 18 の動態につい て評価したところ,病初期に IL 6 は s JIA/ inac- tive より高値を示し,敗血症合併時には IL

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

断面が変化する個所には伸縮継目を設けるとともに、斜面部においては、継目部受け台とすべり止め

シートの入力方法について シート内の【入力例】に基づいて以下の項目について、入力してください。 ・住宅の名称 ・住宅の所在地

パキロビッドパックを処方入力の上、 F8特殊指示 →「(治)」 の列に 「1:する」 を入力して F9更新 を押下してください。.. 備考欄に「治」と登録されます。

「旅と音楽の融を J をテーマに、音旅演出家として THE ROYAL EXPRESS の旅の魅力をプ□デュース 。THE ROYAL

The results indicated that (i) Most Recent Filler Strategy (MRFS) is not applied in the Chinese empty subject sentence processing; ( ii ) the control information of the