マルチメディア通{i"と分散処理ワークショップ 平成6年10月
音声認識における探索技法
好 田 正 紀 山形大学工学部 H M M (hidden Markov modeI) のViterbi アルゴリズムによる音声認識をグラフサーチの 観点から検討し、継続時間制御H M Mによる単語音声認識、 H M M - L Rによる文節音声認識 にbest-firstサーチの技法を導入する. best-firstサーチに用いるスコア関数、及び、推定ス コアの設定法を提案し、計算盤低減の効果を示す. 1 .はじめに 大語録・連続音声を対象とする音声認識で は,必然的に膨大となる処理量に対して現実 的な時間内で実行可能となるように,認識ア ルゴリズムをより高度化するための研究が本 質的・潜在的に重要である.H M M (hidden Markov modeI)の Viter biアルゴリズムでは、入力音声とH M Mのマ ッチング領域(トレリス)の格子点を節点と するグラフにおいて、状態遷移確率と出力確 率の累積値をスコアとして、モデルのタイプ に対応した経路展開の規則のもとで、始点か ら終点、に到達するスコア最大の経路を探索す チであり、また、推定スコアは最適解を保証 していない. best-firstサーチの技法による経路の展開 に関しては、 A・探索の考え方に基づく研究 が盛んに行われるようになった[5]ー[10]. 連 続音声認識に適用した文献[5]のスタックデ コーデイング法では、長さの異なる単語列の 評価関数における正規化係数をヒューリステ ィックに設定する、しきい値やビーム幅によ る枝刈も併用する、探索終了判定の条件を緩 和する、等により、厳密なA・探索に必ずし もこだわらない、実用的な探索法が検討され ている.文献[8] の tree-trellisサーチでは、 る.このζとから、 H M Mによる音声認織は、 forward-passでtrellis サーチにより第一候 本質的にグラフサーチの問題である. 補を求めた後、そのトレリスを推定スコアに H M Mによる音声認識をグラフサーチの間 利用してbackward-pass で treeサーチにより 題とみなし、ビームサーチの技法による経路 N-best 候補の探索の高速化をはかつている. の展開に関して、多くの場合、当該節点まで 本稿の目的は、 best-firstサーチの技法に のスコアのみに基づいて枝刈の判定が行われ より認識処理(第一候補の探索)自体の高速 た[1
]
-
[
3
].
当該節点以降の推定スコアも考 化をはかることにある.これまでに、DTW
慮して技刈の判定を行うと、より大きな効果 (dynamic time warping) による音声認識に が期待される.例えば、文献[4] のforward- おいて、推定コストを当該節点以降の入力フ backwardサーチでは、 forward-passで音素コ レームのV Q歪に基づいて設定して、経路の ンテクスト独立H M Mを用いた簡略な認識処 震開を標準パターンすべてに対して一括して 理を行い、その結果を推定スコアに利用して 行う、D
Pbest-firstサーチのアルゴリズム backward-passで音素コンテクス卜依存H M を提案した[11]. また、推定コストの精度をM
を用いたN-bes t候補の探索の高速化をは よげるために、入力音声とVQ
標準パターン かっている.ただし、 backward-pass の探索 のDTW
を経路展開のbest-firstサーチとは 法はbest-firstサーチではなくてビームサー 逆に終点から始点に向って直接行うことによ Viterbi Best-First Searching Algorithm for HMM-Based Speech Recognition Masaki KOHDA Facul ty of Engineering, Yamagata Universi ty表す. 2.2継続時間制御Viterbi best-firstサーチ (1)経路展開 入力の第 iフレームまでの遷移で、単語n の H M Mの状態jにt時間滞留し、音素内に T時間滞留したことを、節点(t.T.i.j.n) で 表 す れ =1-t 1. T= 1-T 1
・
i=l-1. j=l-Jn. n=1...N) .節点 (t.T.i.,jn)で展開される子 節点は、 状態内遷移 状態間遷移情景内) 状態間遷移{音鯛) となる〈図 2) . (2) best-firstサーチ best-firstサーチによる経路展開の説明図 を図3に示す. る推定コスト設定法、及び、この後向きD T W にも best-firstサーチを利用する推定コス ト設定法を提案した[12]. 本稿では、 H M MのViterbi アルゴリズム による音声認識をグラフサーチの観点から検 討し、 best-firstサーチの技法を継続時間制 御 H M Mによる単語音声認識、 H M M - L R による文節音声認識に導入する.best-first サーチに用いるスコア関数、及び、推定スコ アの設定法を提案し、計算量低減の効果を示 す. : (t+,lT+,li+,lj .n) : (1 • T+,li+1
.
j+1
.
n) : {1 .1 .i+1
.
j+1
.
n} 状態内遷移 (t+1. T+l.i+l,j.n) 菅索内 音素問 状態間違移 2. 継続時間制御 H M Mによる単語音声認識 におけるViterbi best-firstサーチ[13] 2.1継続時間制御 H M M 音素 H M Mとして 4状態 3ループのモデル を用いる(図 1) .単語 H M Mは単語の音素 表記に従って音素 H M Mを連結して作成する. 状態内の滞留時聞をt
、音索 H M M内の滞留 時聞をTとする. 継続時間制御 H M Mでは、次の 2つを考慮 する. ①滞留時間t、Tは次式を満たす. to~t :æ; tl 、 To孟 T~Tl ②状態閣の遷移確率はt
、Tに依存する. 音素mの H M Mの状態jにt時間滞留後、 状態Kに遷移する状態遷移確率をa回』包(t)、 その音素内にT時間滞留後、状態kに遷移す る音素遷移確率をA圃』也(1)で表す. 継続時間制御Viterbi アルゴリズムにおけ る経路スコアは、次式で与えられる. 5 m J 11<
t
.
T
.
v) = 10g {a回』凪(t)・AmJ且(T)・b田 川(v)} b川肱(v)はシンボJレv
の出力確率を 滞留時間依存状態遷移の音素 H M M 図I 。•T
, i,j.n) 節点(t.T.i.,jn)で展開される子節点1
1
t
f
t
I
i
f
│
UI/
?
l
d
t
I
i
入力音声 Step3 best-firstサーチによる経路展開の説 明図 入力音J!r SIep2 入力音声 Stepl 図2 図3 単語 H M M ここで、展開可能な節点のリスト (open li s t)をP、各節点までのViterbiスコアを推定スコアと 展開済みの節点、のリスト(c1osed 1 ist)をQ する. とする.次の手順で経路を展開する. この後向きViterbiにおいて、
2
.
1
節の径 ①初期設定 路スコアをより大きい値で代用する.これは、 p = {(1. 1.0, 1.n)I
n=l-N } 推定スコア設定のための計算量を低減し、か Q=
NULL つ、 A・探索の条件を満たすようにするため ②Pの中からスコア最大の節点を取り出し である.次の4通りが考えられる. てQに移し、そこで展開される子節点を ①出力確率のみに基づく経路スコア Pに追加する. ③Pから取り出した節点(t.T,i,j.n)が i=l.j=Jn ならば、単語nを認識結果として終了す る.そうでなければ、②を繰り返す. (3)スコア関数 スコア関数の説明図を図4に示す.節点(t, T.,ij. n)におけるスコア関数の推定値は、 f (1. T, ,ij, n)= g (t. T.i
.
,jn)+ h (t, T, 1.j, n) で求める.ここで、 g(t, 1.,i,jn) は始点か ら当該節点までの探索範囲内のViterbiスコ ア、h
(t.T
.
i
.
j.n)は当該節点、から終点、まで のViterbiスコアH (t. T.i
.
,jn)の推定値で あり、以下では、推定スコアと呼ぶ. 毎 し に 常 ・ 果 に 態 ル プ 単 状 ス 一 減 コ を ル 視 T 通 内 結 的 状 1 一 の の ② 定 サ 低 ス 路 ボ ・ 無 、 は 語 の 価 2 態 ル 象 M 、 推 数 に 定 経 ン る を t i 単 そ 等 を 状 1 対 M と ︿ 全 ) 推 関 シ き り 、 巾 ・ . ・ を 索 2 態 識 H る 数 、 司 と 展 、 で パ で い 印 い 内 る 数 音 を 状 認 索 す 点 れ わ i る に が 削 の 引 よ 素 い 態 各 語 2 、 音 と 子 ぞ × ゆ け 立 と A ﹀ き ば 音 て 状 は 単 を り 、 J 格 れυ
同 お 独 こ 、 く 向 え 、 ね の ② 各 語 よ 数 、 の そ / 引 に は く け お 後 行 て 束 M 、 は 単 に 紫 M 算 は l き i と お パ と 、 で え を M ち ③ 全 れ 音 、 計 ﹀ 1・ ハ 向 巾 声 て 則 0 て し 加 路 H わ 、 は こ 均 N 式 域 ゆ 前 防 音 め a L つ な に 経 用 な M ④ ・ 平 、 化 領υ
の れ 力 求 率 て 従 御 れ の i す M 、 M の れ 漸 る ぺ 御 き 入 め 確 べ ・ 制 そ と ゆ ・ H M M 中 ぞ る す レ 制 向 、 じ 移 す い 聞 は も い 印 る の M H 語 れ す 憶 、 間 後 す は か 遷 ( な 時 ④ で 引 す プ H の 単 そ 応 紀 勺 ・ 時 の 示 ら ら は る し 統 語 き く 一 の 通 、 を 対 を レ る 続 定 に れ あ ① い 存 継 ② 単 向 さ ル プ 共 数 数 に ア の れ 継 設 5 こ に て 依 の 全 後 小 l 一 の 語 態 @ コ チ さ ア 図 チ 引 ら 一 の か サ 常 点 t 通 終 e d T A、
れ て し ト っ 開 問 か 展 b 向 路L
に 経 行 占 川 で 訂 始 ム ー 口 、 り ス 茸 a m E,
l ! 1 M M 点 ゴ い ん 終 ル い に ア ト ン 逆 ・ 1 4 羽 山 占 4 L U 佐 l 江t
と M 推定スコアh(t.T.i
.
j,n)が h (t. T.i.j. n) ミ H (t. T.i.j:n) の関係、を満たせば A・探索となり、最適解が 保証される[14]. (4)推定スコアの設定法単
Jn ) 器 開. ,
JH
M
M
。
t入 力
音 声
図4 スコア関数の説明図s
田 川(v)=log
bInJ
k
(
v
)
② 音 素HMM
内の最大経路スコアS
m
(
V
)
m
a
x
{
l
o
g
b田 川(
v
)
}
③ 単 語HMM
内の最大経路スコア S a (V)m
a
x
{lo
g
b
血 』 厄(
v
)
}
回(0).j, k 但し、 m(n)は単語nに表れる音素を示す. ④ 全 単 語HMM
の最大経路スコア S(
v
)
m
a
x
{
l
o
g
b
田 』 孟(V)} 0.11(0).j. k 一 一m
a
x
{
l
o
g
b
回J
t (V) } 回 ,j,kJ a J a
M
M
M
M
H
H
戸 路 路 1同日経経
お
大
大
最 最 内 諾諾
単
単 全 入 力 音 声 音 素 内 最 大 経 路HMM
入 力 音 声 基本HMM
継続時間制御の前向きV
i
t
e
r
b
i
と推定スコア設定の後向きV
i
t
e
r
b
i
における展開経路 図5 状 態 滞 留 時 間 制 御 状 有芭 音 素 滞 留 時 間 制 御 ⑤鶴本HMM @苦情内最大経路 継続時間制御V
it
e
r
b
i
b
e
s
t
-
f
i
r
s
t
サーチの処理例 (入力単語=/iyoiyo/
、分布モデル:対数正規分布) ③Jlten内地大経路 @会j匹:TH~大経路 ①舵定スコ70 図6(5)処理例 継続時間制御 Viterbi best-firstサーチの 処理例を図6に示す.各グラフにおいて、入 力音声を横軸として、上段は入力フレーム毎 の展開経路数、中段は認識終了時までに展開 された経路の属する単語候補数、下段は正解 単語に対して展開された経路を示す. 3. H M Mー L Rによる文節音声認識におけ るViterbi best-firstサーチ[15] 3.1 H M M - L R H M M - L R音声認識は、 H M Mによる音 素照合部と L Rパーザによる統語解析部から なる.音紫照合レベルでのトレリス上の経路 の展開と統語解析レベルの仮説の探索を一括 して、 best-firstサーチによる経路展開の問 題として一元的に定式化する(図 7) . 3.2 H M M -L R制御 Viterbi best-firstサ ーチ {1}経路展開
(HMM )
入力音声 図7 Vitervi best-firstサーチによる H M M - L R文節音声認識 図 8 節点O
,j,p,s)の説明図 L Rパーザの初期状態を SD 、状態sにお ける予測音素の集合を predict(s} (pI
action{s, p)よ shi ft s・R} と定義する. 入力の第iフレームと、 L Rパーザのスタ ック上の状態sにおける予測音素pの H M M の状態jを対応づけるトレリス上の節点を0
, j ,p, s)と表す 0=1...1, j=1...J, pεpredic t(s)) (図8) . 節点(i.j,p, s)で展開される子節点には、 次の2通りのタイプがある. ①音素内の経路展開 jく Jの場合には、音素 H M Mの状態内で 遷移し、次のフレーム上の節点が展開されて、 子節点は {0+1.k, p, s) I k=j,j+l} となる〈図 9(a)) . ②音索聞の経路展開 j = Jの場合には、 pに後続可能な音素の H M Mの最初の状態に遷移し、同じフレーム 上の節点が展開されて、子節点は ((i.1.p',s・)I
action(s,p)="shift s p'εpredict(s' )} となる(図 9(b)) . (2) best-firstサーチ 展開可能な節点のリスト (open list)を LtI'i
!
d
図 9 節 点0
,j, p, s}で展開される子節点展開済みの節点のリスト (closed list)を Lq とする.次の手順で経路を展開する. ①初期設定 Lp= {(O,l,p,so)
I
pεpredict (so)} L q=
NULL ②L"の中からスコア最大の節点を取り出 してL
q に移し、そこで展開される子節 点を Lp に追加する. ③ Lp から取り出した節点0
,j, p, s)が i=I
.
j=J, action(s,p)c"accept" ならば経路展開を終了し、解析結果を得 る.そうでなければ、②を繰り返す. (3)スコ7関数 節点、(i,j,p,s)におけるスコア関数の推定 値は、 f0
, j, p, s)= g0
, j, p, s)+h0
, j, p, s) で求める.ここで、 g0
, ,jp, s)は始点から 当該節点へ到達する、探索範囲内で最も良い 経路上の累積スコア、 h(i,j,p,s)は当該節 点、から終点へ到達する最適経路上の累積スコ アH(i,j,p,s)の推定値であり、以下では、 推定スコアと呼ぷ. (4)推定スコアの設定法 推定スコアの設定では、 best-first サーチ とは逆に終点から始点に向かつて、 one-pass Viterbiで経路展開し、終点から各節点まで のViterbi スコアを推定スコアとする. この後向きone-passViterbiにおいて、処 理単位、言語モデル、音素 H M Mをどのよう にするかによって、種々の推定スコア設定法 が考えられる. ①処理単位 次の 2通りを考える. ・音素を単位とする場合 .単語を単位とする場合 ②言話モデル 各処理単位に応じて、次の 2通りを考える. 〈音素単位の場合〉 -文法なし :あらゆる音素連鎖を許す. .音素対文法:文脈自由文法で許される 音素連鎖のみを生成する. 〈単語単位の場合〉 ・文法なし :あらゆる単語連鎖を許す. .単語対文法:文脈自由文法で許される 単語連鎖のみを生成する. ③音索 H M M 次の 2通りを考える. ・4状態 3ループの音索 H M M -音素内の経路を束ねて最大経路スコアで 代用する、 2状態 1ループの音素 H M M これらは、推定スコア設定のための計算盤を 低減し、かっ、 A・探索の条件を満たす. H M M - L R制御Viterbi best-firstサーチに よる文節音声認識のプロック図を図10に示す. く文脈自由文法〉v
-
一
一
一
一
│
テ
ー
プ
Jレ作成部│v
~
〈@画室~(HMM)0~
L
J
命
同
州
側
﹀
図10 H M M - L R制御Viterbi best-firstサーチによる文節音声認識のプロック図推定スコア陸定法 リストサイズ E部品f
I
文法 処理単位 200 6∞
: 20∞
2 状 態 Jレ プ 4 状 態 3 Jレ プ 推定スコアO!
堅
雪
1 B
!
!
量
ヨ
IE:=.・.け:.・~一一.
-・.I ・.!
戸
松
│ !
空
冨
!
巴
盟
菅 紫~~謹書
│
;
匡
同
室
量
;
な し!
空
E
:!
堅
冒
J
I
T
G
占:J
語単 〕S
J
;匡ー草│
;
雇
重
.
量
;
恒
三
ヨ
!
壁
画
1
E
司
音 素;
届
量
言
匡
;
l霞雲
│
j
量菌室│
あり: 8 1 8
!
長
記
単語;匡雲~
.
事 重 │
~~ぎ i
紫 音:
L
し
!
と
!
な 置噌 言.. ヨーす し!
E
ヨ
!長
!
E
ヨ
単Z
苦 昌 司F ・E噌E圃・ 音 素1
E
ヨ
l
E
ヨ
l
E
ヨ
「 F F あり:
量
l
E
ヨ
1
E
ヨ
単Z
奇 . , • 図11 HMM-LR制御Viterbibest-firstサ ー チ に よ る 文 節 音 声 認 識 の 処 理 例 〈入力文節=/tsuuchiwa/)(5)処理例 処理例を図
1
1
に示す.同図はL" のサイズ を2
0
0
. 6
0
0
.
2
0
0
0
とした場合の、各推定スコ アにおける経路展開の例である.各欄はそれ ぞれ、上段はリスト L" から捨てられた節点 数、中段はリスト LQ 中の節点数(但し、網 かけの領域はLーから捨てられた節点数〉、 下段は正解文節 H M Mに対して展開された経 路を示す. リストサイズを広げることにより 正解経路が得られていく様子がわかる.4.
むすび H M MのV
i
t
e
r
b
i
アルゴリズムによる音声 認識をグラフサーチの観点から検討し、b
e
s
t
-
f
i
r
s
t
サーチの技法を継続時間制御 H M Mに よる単語音声認識、 H M M - L Rによる文節 音声認識に導入した.b
e
s
t
-
f
i
r
s
t
サーチに用 いるスコア関数、及び、推定スコアの設定法 を提案し、計算盤低減の効果を示した.1
9
8
3
)
.
[
6
]
P
.
K
e
n
n
y
.
R
.
H
o
l
1
a
n
.
V
.
G
u
p
t
a
.
M
.
L
e
n
n
i
g
.
P
.
M
e
r
m
e
l
s
t
e
i
n
.
D
.
0
・
S
h
a
u
g
h
n
e
s
s
y
~A
・
-a
d
m
i
s
s
i
b
l
e
h
e
u
r
i
s
t
i
c
s
f
o
r
r
a
p
i
d
l
e
x
i
c
a
l
a
c
c
e
s
s
R
.
I
C
A
S
S
P
9
1.S
1
0
.
1.p
p
.
6
8
9
・6
9
2
(
M
a
y
1
9
9
1).[
7
]
D
.
B
.
P
a
u
l
:
R
A
l
g
o
r
i
t
h
m
f
o
r
a
n
o
p
t
i
m
a
l
A
.
s
e
a
r
c
h
a
n
d
l
i
n
e
a
r
i
z
i
n
g
t
h
e
s
e
a
r
c
h
i
n
t
h
e
s
t
a
c
k
decoder~.I
C
A
S
S
P
9
1.S
I
0
.
2
.
p
p
.
・
6
9
3
-
6
9
6 (
M
a
y
1
9
9
1
)
.
[
8
]
F
.
K
.
S
o
o
n
g
,E
-
F
.
H
u
a
n
g
:
R
A
t
r
e
e
-
t
r
e
l
l
i
s
b
a
s
e
d
f
a
s
t
s
e
a
r
c
h
f
o
r
f
i
n
d
i
n
g
t
h
e
N
b
e
s
t
s
e
n
t
e
n
c
e
h
y
p
o
t
h
e
s
e
s
i
n
c
o
n
t
i
n
u
o
u
s
s
p
e
e
c
h
r
e
c
o
g
n
i
t
i
o
n
"
.
1
C
A
S
5
P
9
,15
1
0
.
5
.
p
p
.
7
0
5
-
7
0
8
(
M
a
y
1
9
9
1
)
.
[9]松 本 真 治 、 河 原 達 也 、 堂 下 修 司 語 録 ・構文・意味制約を統合した A・探索による 会話音声認識"、信学技報、S
P
9
1
-
9
3
(19
9
1
-1
2
)
.
[
1
0
]
高 塚 俊 之 、 板 倉 文 忠 "F
o
r
w
a
r
d
-
B
a
c
k
w
文 献a
r
d
A
.
S
e
a
r
c
h
による H M M音声認識"、音 [1]Y
.
L
.
C
h
o
w
.
M
.
O
.
D
u
n
h
a
m
.
O
.
A
.
K
i
m
b
a
l
l. 留学会講演論文集、3
-
4
-
7 (
1
9
9
3
-
0
3
)
.
M
.
A
.
K
r
a
s
n
e
r
.
G~F.Kubara.J
.
M
a
k
h
o
u
l.[
1
1
]
加 藤 正 治 、 好 田 正 紀 、 伊 藤 研 司 "V QP
.
J
.
P
r
i
c
e
.
S
.
R
o
u
c
o
s
.
R
.
M
.
S
c
h
w
a
r
t
z
ひずみに基づく推定コストを用いるD Pb
e
s
t
~B
Y
B
L
O
S
T
h
e
B
B
N
c
o
n
t
i
n
u
o
u
s
s
p
e
e
c
h
-
f
i
r
s
t
サーチの検討"、信学論(
0
-I
I
)、J
7
r
e
c
o
g
n
i
t
i
o
n
s
y
s
t
e
m
• . I
C
A
S
S
P
8
7
.
3
.
7
.
6
-
D
-
l
l
、
7
、
p
p
.1
3
5
4
-
1
3
6
2
(
1
9
9
3
-
0
7
)
.
p
p
.
8
9
-
9
2
(
A
p
r
i
l
1
9
8
7
)
.
[
1
2
]
好 田 正 紀 、 加 藤 正 治 、 伊 藤 研 司 "D P[
2
]
K
.
F
.
L
e
e
.
H
.
W
.
H
o
n
.
R
.
R
e
d
d
y
R
A
n
b
e
s
t
-
f
i
r
s
t
サーチにおける推定コスト設定法o
v
e
r
v
i
e
w
o
f
t
h
e
S
P
H
I
N
X
s
p
e
e
c
h
の検討"、信学技報、P
R
U
9
2
-
8(
1
9
9
2
-
0
5
)
.
r
e
c
o
g
n
i
t
i
o
n
s
y
s
t
e
m
• .
I
E
E
E
T
r
a
n
s
.
A
S
S
P
-
[13
]
加藤正治、好田正紀:"V
i
t
e
r
b
i
b
e
s
t
-
f
3
8
.
1.p
p
.
3
5
-
4
5
(
J
a
n
u
a
r
y
1
9
9
0
)
.
i
r
s
t
サーチによる単語音声認識における継続[
3
]
H
.
N
e
y
.
D
.
M
e
r
g
e
l.A
.
N
o
l
l.A
.
P
a
e
s
e
l
e
r
時間制御法の検討"、信学技報、S
P
9
3
-
1
0
8
• D
a
t
a
d
r
i
v
e
n
s
e
a
r
c
h
o
r
g
a
n
i
z
a
t
i
o
n
f
o
r
(
1
9
9
3
-
1
2
)
.
c
o
n
t
i
n
u
o
u
s
s
p
e
e
c
h
r
e
c
o
g
n
i
t
i
o
n
• • I
E
E
E
T
r
a
n
s
.
S
P
-
4
0
.
2
.
p
p
.
2
7
2
田2
8
1 (
F
e
b
r
u
a
r
y
1
9
9
2
)
.
(4)S
.
A
u
s
t
i
n
.
R
.
S
c
h
w
a
r
t
z
.
P
.
P
l
a
c
e
w
a
y
[
1
4
]
N
.
J
.
N
i
l
s
s
o
n
- P
r
o
b
l
e
m
-
s
o
l
v
i
n
g
m
e
t
h
o
d
s
o
f
a
r
t
i
f
i
c
i
a
l
i
n
t
e
l
l
i
g
e
n
c
e
•
M
c
G
r
a
w
-
H
i
l
l
.
N
e
w
Y
o
r
k
(
1
9
7
1
)
.
[15]門前聖康、好田正紀:" H M M - L RにT
h
e
f
o
r
w
a
r
d
-
b
a
c
k
w
a
r
d
s
e
a
r
c
h
よる文節音声認識におけるV
i
t
e
r
b
i b
e
s
t
-
f
i
r
a
l
g
o
r
i
t
h
m
• . l
C
A
S
S
P
9
1.S
I
0
.
3
.
p
p
.
6
9
7
- s
t
サーチの検討"、信学技報、S
P
9
3
-
1
0
9
(19
7
0
0
(
M
a
y
1
9
9
1
)
.
9
3
ー1
2
).
[
5
]
L
.
R
.
B
a
h
l.F
.
J
e
l
i
n
e
k
.
R
.
L
.
M
e
r
c
e
r
• A
m
a
x
i
m
u
m
.
l
i
k
e
l
i
h
o
o
d
a
p
p
r
o
a
c
h
t
o
c
o
n
t
i
n
u
o
u
s
s
p
e
e
c
h
r
e
c
o
g
n
i
t
i
o
n
~.
l
E
E
E
T
r
a
n
s
.
P
A
M
I
-
5
.
2
.
p
p
.
1
7
9
-
1
9
0
(
M
a
r
c
h
付 録1 H M Mに よ る 音 声 認 識 ア ル ゴ リ ズ ム (1)基本モデル 付図 1は、 Bakisモ デ ル と 呼 ば れ て 、 最 も よく用いられるH M Mの 例 を 示 す . 状 態 数 は 予 め 適 当 に 決 め て お く 必 要 が あ る . 状 態 数 を 多くすれば、単語をきめ細かく表現できるが、 モ デ ル の パ ラ メ ー タ 数 が 多 く な り 、 パ ラ メ ー タ推定の精度が悪くなる. 状 態 遷 移 確 率 は 、 状 態 数 をSとすると、 S P (y
I
M)=
ミ
P(q, yI
M) ~ p (qI
M) P (yI
q, M) q マ ル コ フ モ デ ル の 性 質 よ り P ( q l M ) z q P(qtt│q,
…
M) P(y│qj)=q P (Yt lq,
…
q,
1,
M) で あ る の で P (yI
M)=
L! r.iOa山Ib山I(め)ailiZbi,
iZ(Y2)…
…
aiT-IiTbir-lir (Yr)x
Sの 行 列 に よ っ て 表 す こ と が で き る . こ の 一般に、P
(yI
M
)
の 値 は 、 前 向 き ア ル ゴ リ 行 列 を 状 態 遷 移 確 率 行 列 と 呼 ぶ . 状 態 Q ,か ー 'ム (forwardalgorithm) で 能 率 よ く 求 め ら状態Q J へ の 遷 移 確 率 をa川で表す. 古 る こ と が で き る . 前 向 き 変 数 α(t, j)を、 y の 時 系 列 パ タ ー ン に は 時 間 的 な 非 可 逆 性 の 性 1・・・・Y
I を 出 力 し て 、 か っ 、 時 刻 tで 状 態q 質があるので、 i>
jな ら ばa'
J
=
0となる. 時系列パターンの各時刻における観測値が、 ベ ク ト ル 量 子 化 等 の 手 法 を 用 い て 、 有 限 個 (K個 ) の シ ン ボ ル の ー っ と し て 表 現 で き る 場 合 に は 、 離 散 分 布 モ デ ル と 呼 ば れ る . 状 態 Q I か ら 状 態Q J へ の 遷 移 で シ ン ボ ル が 観 測 (出力〉される確率を b,パ k)と表す.これ は(SXS) XK
の 行 列 に よ っ て 表 す こ と が で き る . こ の 行 列 を シ ン ボ ル 出 力 確 率 行 列 と 呼 ぶ . 状 態Q I の 初 期 確 率 を 1C, で表す. 付 図 1 H M MのBakisモ デ ル の 例 (2) 認 識 ア ル ゴ リ ズ ム 音 声 の 時 系 列 パ タ ー ン を Y=
Y 1・・・・・・・・・・ YT I にいる確率とすると、 α(O,j)=π 』 (j=1-S) α(t,j)= ~_.α(t -1.i)a I J b I J (yI ) (j=1-S, t=l...T) P (yI
M)=工
α(T,j) 一方、 P(yI
M)を 厳 密 に 求 め な い で 、 シ ン ボル系列yを 出 力 す る 可 能 性 の 最 も 高 い 状 態 遷 移 系 列 に 対 応 す る 出 力 確 率 で 代 用 す る こ と も 考 え ら れ る . こ の 対 数 尤 度 Lは、 Viterbi ア ル ゴ リ ズ ム で 能 率 よ く 求 め る こ と が で き る . f (t,j)を、 Y,,,..Y l を出力して、かっ、 時 刻 tで 状 態 QJに い る 確 率 の 最 大 値 と す る と、 f (O,j)= 10g π (j=1-S) f (t, j)= !pax {Iog f (t-,l0+
loga 'J L m~x f (T, j) + log b I J (yI)} (j=1...S, t=1...T) とする.ここで、 YIは 時 刻 iに お け る 特 徴 こ の 方 法 は 、 出 力 確 率 を 厳 密 に 求 め る 方 法 と ベ ク ト ル ( 具 体 的 に は 、 ス ベ ク ト ル や ケ プ ス 比 較 し て 、 計 算 量 が 少 な い に も か か わ ら ず 、 トラムを表す)に対応するシンボルである. 認 識 精 度 は 同 等 で あ る こ と が 実 験 的 に 確 か め モデルMのH M Mによってyが 生 起 す る 確 られている. 率P
(yI
M
)
を求める.これを、各単語に対応、 Viterbiア ル ゴ リ ズ ム に お け る 漸 化 式 はD
す る モ デ ル に つ い て 求 め 、 最 大 確 率 を 与 え る Pマ ッ チ ン グ 法 と 基 本 的 に 同 じ 形 式 で あ る . モ デ ル に 対 応 す る 単 語 を 認 識 結 果 と す る . 従って、 D Pマ ッ チ ン グ 法 に よ る 連 続 単 語 の Q=
Q 1I・・・・・・・・・・ q'Tを 状 態 遷 移 系 列 認 識 ア ル ゴ リ ズ ム や オ ー ト マ ト ン 制 御 の 認 識 とすると ア ル ゴ リ ズ ム は 、 そ の ま ま H M MのViterbi ア ル ゴ リ ズ ム に も 適 用 す る こ と が で き る .付録2 継続時間制御Viterbi best-firstサーチによる単語音声認識の実験結果 各相:焼何分耳慣 -.分布 経路島"の計算量(") 推定l:l7 正規分耳慣 継続時間制御HMM 段定の ポアソン分布 ガンマ分布 器 本HMM 状恕内 音無内 状思・膏索内 針'lt量 H鉱正処分布 滞留時間制限 滞留時閲制限 滞留時間制限 (~) 会ftサーチ 。唱0.00(1) 1990.10(・} 3122.34(・} 29021.02ω