松下電器産業株式会社中央研究所

全文

(1)

九州大学学術情報リポジトリ

Kyushu University Institutional Repository

スペクトルの動的特徴を考慮したHMMによる日本語音 韻の識別

中橋, 順一

松下電器産業株式会社中央研究所

坪香, 英一

松下電器産業株式会社中央研究所

高木, 英行

松下電器産業株式会社中央研究所

http://hdl.handle.net/2324/4481561

出版情報:日本音響学会講演論文集, pp.169-170, 1990-03. 日本音響学会 バージョン:

権利関係:

(2)

2‑P‑25  スペクトルの動的特徴を考慮した

HMM による日本語音韻の識別 *

@ 中 橋 順 一 坪 香 英 一 高 木 英 行 (松下電器中研)

1. まえがき

筆者らはHMM(HiddenMarkov Model)1>の認 識率の向上を目的として、音声スベクトルの時「品変 化を考慮できるモデルの検討を進めている。既に平 均値ベクトル時変型HMM(TVMHMM : Time‑Variant  Mean vector HMM)を提案し2)3)、疑似データ°と 母音5)でその有効性を評価してきた。

今回は日本語全音韻の認識を通じてモデルに動的 特徴の表現を持たせることの効果を評価する。さら に、入カパラメータに動的樹牧を表現する場合と本 方式のようにモデルに動的樹牧を表現する場合との 比較検討を行う。

2. 音声資料6)7)

Table 1の条件でATR音声DBの重要語5,24()! 且 語を分折し、音韻ラベルを用いて拗音、促音及びニ 重母音を除く日本語のお音傾を切り出した。子音は 後続母音との渡り1511secを付加している。切り出し た音韻データが偶数番目単語のものをHMMの学習 用、奇数番目単語のものを評価用とした。

Table 1 Analysis Conditions  speaker  1 male(announcer)  Sampling Freq.  12 kHz  Hamming window  length : 21.~

shift  : 3.0nsec  LPC analysis  order 14  feature parameter  10 Mel Cepstrum  [)ynamic  feature  10 ocepstrum  (45蕊 ) 3. 平均佃ベク トル線形時恋却HMM(TVMHHM̲l 

Fig. 1は基本HMMである。このモデルの

r

口隈§は、

HMMのパラメータが同一状態内において一定であ るために観測ベクトル系列の発~I廊予を考慇できず、

スペクトルの時間構造を表現できない点である。

Fig.2はTVMHHMであり、碁本HMMの 欠点を補 うために、状態q;の連長がてで、状態q;がK連続し た時の観測ベクトルの発生確率密度(正規分布と仮 定)の平均値ベクトル11,(r, k)を状態q;全体の平均 ベクトルμ;0と方向ベクトルU;により、

μ(r,k) =μ,0(k

‑ 早 )

U (Fig.3)  と表し、 Kに関して叫節に変化するようにした。

状態q;がr醐 す る 確 率 密 度d,(r)については、

本稿ではスペク トルの時間構造のみを考礁した場合

の効果を調ぺるため、基本HMMと同様に、 a;;(k) 

=グ;(一定)として、次式のように与える。

て一1

d;( =グ (1 ‑7;) 

叫 の 紺 牛 で 碑3)の方法でパラメータを推定する。

Fig.1 

Fig.2 Time‑Variant Mean vector HMM 

叫,:~:。口

工土 L ‑ c   k 

Fig.3  Change of Mean v

ector in State q; 

4. 紐為実験と結果

TVMHMMの有効性を評価するために音韻招琺におい て、他の手法との比較を行った。

4.1 HMMの状囮攻の決定

HMMの状囮攻を決定するために、状態数の変化 と認琺率の関係を話者MAUの有声破裂音/b//d//g/ について圃ぺた。結果はFig.4に示すようにループ をもつ状態数を増加させることによって認識率は向 上する方向にあるが、認識率と計算時間の兼ね合に より、以下の実験にはFig.5に示す5状態3)v‑ープ を用いることとする。

4̲.2 TVI剛 と 某本暉 との 音 即 識性刷七較 まず、話者MNMに対して基本HMMとTVMHMMの 音韻クラス別認識実験を行った。その結果、殆どの

クラスにおいて招識率が向上した(Tabet2)。 次に、日本語お音節の認識実験を行った。その結 果、平均1.泣認識率が向上した(Table3)。

*"Japanese Phoneme Recognition using Time‑Variant Mean vector Hidden Markov Model(↑VM怜~) ..;‑‑ by J .NAKAHASHI, E. TSUBOKA, and H. TAKAGI, Matsushita Electric Industrial Co., Ltd. 

日本音咽学会講演論文染

‑1 6 9 ‑

2 3

(3)

4.3動的樹孜をモデルに反映させる場合(TV'1M)と 入カパうメータに反映させる場合との比較検討 有声破裂音/b//d//g/を用いて、 (基本HMM+

△ケプストラム8))との比較実験を行った(Table4 

) . TV畑 は 基 本HMMと(基本HMM十△ケプス トラム)との中間的な性能を示した。

最も演算回数の多い分布関数の指数部の乗算回数 で演算量比較をすると、 T咄酬は(基本HMM十△

ケプストラム)に比ぺ約60%以下である。

5. まとめ

提案モデルTVMHMMと甚本HMMとの比較を行った。

蕊音韻認識の結果、 HMMに動的捌孜を表現するこ との有効性が示された。提案モデルと、入カデータ に動的樹孜を表現したモデルでは、有声破裂音の場 合、後者の方力も灌率が大きいが計算昼はi削川する。

今後は全音韻で、継続時佑雅柑孤・混合分布・△ケプ ストラムの導入等による効果を検討する予定である。

本実験をするに当たり有益な御助言を頂いた豊橋 技科大中川聖一助教授に感謝致します。

参考文献

1)中川:"確率モデルによる音声認識",信学会 (1988). 2)坪香:"音声スペクトルの動的樹牧を考慮した H M

M", 信学技報,SP87‑97(1987) . 

3)坪香:"時系列言号の動的樹孜を反映した HMMの 定式化と線形予測係数をパラメータとする場合へ の応用",信学技報, SP88‑107(1988) . 

4)坪香,高木:"音声スペクトルの動的持徴を反映し たHMMとその有効性",音講論, 1‑6‑17(1989‑‑03).  5)中橋,坪香,高木:"栂音結合部におけるスペクトル

の動的持徴を考慮した HMMの評価",音講論, 1‑1

‑19(1989‑10). 

6)武田翠翔:'龍データベース朦のための 音領ラベリング",音講論, 2‑5‑10(1987‑‑03). 7)橋本,平田,中川:'連続出力分布型 HMMによる日

#藉艇鴎の検討",信学技報, SP89‑48(1989). 8)5.Furui: "Speaker‑Independent Isolatedぬrd

Recognition Using Dynamic Features of Speech  Spectrum",  IEEE Trans. ASSP‑34, 1(1986) 

‑ ︱ ︱ 

^ ‑ ︳  

0 9  

( X ) a 1UO!l!U200il¥l

Standerd HMM 

ー•ー・ー・—•一··•TVMIIMM 

/ 

Fig.5.  Structure of (5states 3 loops)  Table.2. Results for Small Phonemic Classes 

(speaker: 闊)

Standard 

task 

T

〖誓 256-15300300 ―⑱265300-300 翌 125 一如 225-30083181-300 闘 300-

e r

嬰 匂

7 1 4 1 1 8 1 8 1 1 5 1 1 4 1

I I 7 1 8 1 0 1 1 1 7 1

4 1

2 1 1 5 1 7 1 4 1 4 1

# 

orrect

99330307 

0 0  776.676830777 

器 窃 一 乱 紐 羹 羞 闊

1 0 0

普 靡 一 麿 盆 ⑱

Standard

total%  /

I I I I I I I I I I I I I I I I I I I

/

/ 

l b I d l g ‑ I P I t l k ‑ I m I n I N

‑ I s l s h l h l z ‑ l C h I t s ‑ I r l w l y

‑ l a

l u

l e l o

<J1 .5  9.5.1  93.2  98.1 

99.7  ITT. 7 

97.9 

Table.3.  Recogni lion of a 11 Japanese phonemes  (speaker: MNM)  TVMIIMM 

88.6況 00.4況

total% 

.2 94.8  91.7 

98.3 

ffi. 7 

.8

'J7.5 

Table.4. Recognition of Voiced Stop  (s <1ker:MAU)

滋‑磁心‑⇔心‑. .  ゞパ·応ー.·、""-'"""'"'テ呪·'·'"勺••·ヽ"'心~.心 ・淑 ,油.悩.硲,.,,,..,船 ぷ.. /bl co/di rrect /g/ '·""沿<•total,,%. ,. ,.,、、9ぷギ‑‑

#tokens  227  179  252  658  Standard 92.5  99.4 98.4  00.7  Standard

!Xi.0  98.3  99.2  '17.9 

十 △cepslrum 

上― TVMI

□ 

1 0 0 B  97 .1 

2  3  II  5  number of  I oops 

Fig.II #loops vsecognition(speaker:MAU) 

日本音開学会講演論文集

‑1 7 0 ‑

2 3

Updating...

参照

Updating...

関連した話題 :