不特定話者連続音声認識のための規則による音素識別利用統計を見る

(1)

論

文

不特定話者連続音声認識のための規則による音素識別

古田敏関口芳廣鈴木良弥重永実

（平成8年8月31日受理）

Phoneme Identification by Rules for Speaker Independent Continuous

Speech Recognition

SatoshiFURUTA YoshihiroSEKIGUCHI YoshimiSUZUKI MinoruSHIGENAGA Abstract The authors propose a lnethod of phoneme identificati on by using the m皿es which are constmcted based on the knowledge of speech． In the proposed phoneme id銀tifica五〇n syste坑 the fbllowing are considered in order to identify the phonemes in continuously spoken speech by several speakers．（1）Feature parameters are extracted by using some kind of w｛ndows with several time period．（2）Many kinds of parameters， formant廿equencies extracte曲om LPC spectr鶴number of zero−crossings， vocal tract areas esdmated with PARCOR coe伍ci㎝ts and so on， are used fbr phoneme ident沮cation．（3）Component ratios and t㎞e variati ons of feature parameters are m瓜mly used for phoneme identification，（4）Some suitable featUre parameters are used to iden丘1シaphoneme． Our phoneme identi負ca組on system can identify corredly 77％of phonemes in sentences read aloud， and 70％of them in spoken 磁alogue．

1．まえがき

最近，これまでの連続音声認識や音声合成の研究成果を基礎にした，音声対話システムの研究が盛んである．音声対話システムの性能に関係するものとして，対話制御方式，言語情報処理，応答音声の合成など様々なものがあろうが，音声の音響処理は最も重要な要素の一つと考えられる．近年，音響処理はニューラルネットワークやHMMに代表される確率的手法を用いた方法の導入により一段と進歩したと考えられる1，2）．これらの音響処理の進歩により正確な音素識別が可能になりつっあるが，学習の不完全さや発声の曖昧さ等が原因の識別誤りを完全になくすことは難しい．筆者らは，音響処理を独立に考えず，言語処理と総合して考えるようにしている．すなわち，（1）音響処理で完全な音素識別は困難である．（2）音響処理の誤りを言語処理で推測，修正しや＊山梨大学工学部電子情報工学科，甲府市 Faculty of Eng血eermg，Yamanashi University， KofU−shi，400 Jap狐＊＊中京大学情報科学部情報科学科，豊田市 School of Computer and Cognitive Sciences， Chukyou Universlty， Toyota−shi，470K）3 Japan すいことが必要．という立場から，音響処理部を研究している．確率的な手法は識別率は高いが，音声処理の立場からは想像できない様な誤りが出力されるる場合もある．それに対して，音響的特徴量を利用して，規則によって音素識別をすれば，その識別率は確率的な手法に較べ若干劣るが，誤りの傾向はある程度予測可能である，言語処理の立場からは，誤り傾向が予測できることは大変役に立つ．音素識別の誤りが避けられないことから，筆者らは誤り傾向を推測し易い規則による音素識別を研究してきた．連続音声中の音素の識別に関しては，一般に以下のようなことが言えよう．（1）各音素はその発声の仕方の相違から，異なった特徴量を有している．例えば，母音間の相違は主に周波数スペクトルの差として現れ，摩擦音の特徴は零交差数の多さにある等．そして，これらの特徴量は相補的に作用している場合も多いと考えられる．（2）各音素は時間的変化量にも差がある．例えば母音は定常的だが，破裂音は急激な変化が特徴で，拗音は常に変化しつつある等．（3）母音の振幅は子音の振幅より大きいと言うような一般的な特徴は変わらなくても，その絶対値には個人差や発声環境でかなりの差がある，（4）音素の性質についてはこれまで，多くの研究があり，その研

(2)

平成8年12月山梨大学工学部研究報告第47号究成果を音素識別システムの構築に利用できる．これらのことを踏まえ，筆者らは以下のような方針で音素識別を行っている． ①音声の周波数スペクトル，ホルマント周波数，声道断面積関数，音声の振幅，零交差数等できるだけ多種のパラメータを利用する． ②変化の急な音素にも定常的な音素にも対処できるように，パラメータの抽出は種々の時間幅で行う． ③発声の個人差に対処できるように，各パラメータをそのまま使用する必要がある場合を除いて，できるだけ各パラメータの成分の比や時間的変化を利用する．例えば，前舌母音では，誰が発声しても声道断面積関数の唇側の面積が狭くなる性質を利用する． ④音素の識別は，その音素の識別に適したできるだけ複数個のパラメータを利用して，音声学的知見に添った規則で行う．以上の様な方法は，様々な観点から音素識別を行っているので，単独のパラメータから識別する方法に比べ，不特定話者の連続音声中の音素を安定に識別できる．また，誤りの傾向も予測しやすいものとなっている．この論文では，まず筆者らが作成した音素識別システムの概要を説明して，次いで各部分の詳細を説明する．この音素識別システムは筆者らが作成した連続音声認識システム3）や音声対話システム4）へ組み込まれており，適切な言語処理部と組み合わせれば，対象のタスクに無関係に十分役立つことが確かめられているので，最後にその性能についても説明する．フィルタを通してサンプリング周波数10Kllz，12bitでA／D変換される．特徴パラメータ抽出部では，この音声データを，基本的には 10m秒を1フレームとしてLPC分析などを行って，各種特徴パラメータの抽出を行う．また同時に 3．・3m秒間隔（以下細分割フレームと呼ぶ）の零交差数と振幅包絡を取り出す．規則による音素候補抽出部では，特徴パラメータ抽出部で得られた音声の種々の特徴パラメータを使い，それぞれのパラメータの変化の状態，ホルマント周波数等により候補音素の選定を行う．音素境界の抽出は，振幅の変化情報を利用して行われる．また，細分割フレームのデータによっても音素境界の抽出が行われ，それらの情報は音素境界決定部に送られ，各音素の区間がほぼ決まる．以上の情報を総合的に利用して，用意してある規則を使って，分割した各区間ごとの音素を決定する．最後に連続する同じ音素をまとめ縮小音素列を生成する．この際，調音結合の影響なども考慮するため，パラメータの変化や前後の候補音素，音素区間の長さなどの情報を利用している．そして，この縮小音素列に加えて，句境界情報5）が言語処理部に送られる．言語処理部では，汎用的な言語情報を利用した単語予測機構を駆使して6，7），縮小音素列と標準音素列との句（ほぼ文節と同じ）単位のマッチングを行い，入力文を認識する．

3．音素識別方法

2．音素識別システムの概要

筆者らが作成した音素識別システムの概要を図1に示す．なお，音声認識の全体像がわかりやすいように，連続音声認識システムでこの音素識別システムを利用した場合について句境界情報抽出部と言語情報処理部に関しても図に簡単につけ加えてある．この部分の詳細は参考文献3，5）を参照されたい．入力音声は，プリアンプで増幅された後，4．7KHzのローパス！nput Speech Lowpass Fllter （2）Detectlon of （3）Grouping of Phoneme boundary Voice， Unvoice candldate （6）Detection of （4）Oetection of Phoneme Phoneme Candidates B・undary by using rules 図1 音素識別システムの構成音素識別のためのそれぞれの処理を以下に説明する．（D特徴パラメータ抽出部入力音声に対して，信号の振幅または零交差数が雑音レベルの平均の3倍以上になった時点を音声の始端として，基本的には 10m秒を1フレームとして以下の様な分析を行う． ①原音声からフレーム毎の零交差数（Zr），振幅の最大値（AMP）を求める． ②原波形を（1−（1／2）Z｝1）で高域強調し，12次のLPC分析を行い， 4000Hzまでのスペクトル包絡を求める．このLPCスペクトル包絡のピーク値を探して，第1（F1），第2（F2），第3（F3）ホルマント周波数とする．また，スペクトルの周波数帯域を下記のように3つに分けその成分を求める． Low（i）低域：200∼400Hz， Mid（i）中域：700∼1800Hz， Hig（i）高域：3200∼4000Hz．（iはフレーム番号）さらに，周波数スペクトルの定常性を下の式のように求める． iフレーム目の周波数スペクトルの定常性 Ss（i）は以下のようになる．

S、ω・蛆＋一匡麺L、M幽

Hig（i） Hig（i−1） 1）血d（輌）

＋一幽L＋酬L ＋ユ血

Mid（i−1） Low（i） Low（i−1） ③入力音声に適応逆フィルタをかけてから12次の PARCOR分析を行い，フレーム毎に声道断面積の推定をする． i フレーム目の1次モーメントAm（i）を次式のように定義する．（2）音素判定

(3)

Fr皿Am Zr AMP FI F2 F3 3219．7 0 01 10D 17002e501 1 3319．6 5 0114CO 19503200｝ 1 3419．i 10 7i 750 1300200Dla l 351 7．6 18 121 500 1400 21501 U o n ！ 361 8．7 42 101i200 14502700；a u S ； 371 8．4 41 5ほ3002｛］5036501 S l 3819．3 7 61550 1200 1d501 0 1 3919．8 1 01 100 125024001 1 4αll．1 2 α1001e5027501 1 411 8．6 0 0i 450 1250 22001 1 42｛9，3 0 01 100 1650 1 ； 4319．2 4 11250 16502e501 1 4418．5 0 01400 16503000： 1 4515．912 101t200260X）3a501 1a 4614．923 9165D正20025001AuO la 4718．8 8 151200 1250 1 u l U 4817．7 5 421300 1〔喝024001a Ueo N l 4916．8 6 481350120024501a Ueo N l 501 7．2 7 521 350 12502S501a IJeo N l U 51；7．4 7 531350135023001aUe N l 5216．7 6 5王1350 12002t591 ｛Io N l e 5319．1 4 171 150 180D 31001 1 e NB； 5419．0 3 211 150 165025501 e N l 5517．5 3 17；250 18002e501 ue N l 5617．953113001700235αuE N目e 5716．5 6 62i 350 24003S501 【 1 561 6．7 7 641 300 215026501 iuE ； 5916．5 7 64135022502e501 【e ； 6α 6．1 7 6213502tK）2960｛ I E l ie 6115．8 7 62135025503C501 ｜e l l e 6216．0 7 621 350225029501 1 e l e a3：5．8 6 a3135025002a5011e l 6416．5 7 621 350215028001 1uE l I e O515．9 6 6413002150275011uE l o a616．9 7 61；350220024501iuE lIe 6717．8 6 3813001200295〔Naiue N l U O81 7．？ 3 321 200 80〔｝22〔〕Ol u o N l U 69 ：＆0 3 361250250035〔X）l i ； U 7016．6 3 401 250 95024501 U o N ； 7116．7 4 421250 9502Z501 Uo N ； 721 6．6 3 441 250 1α〕023501a llo N l 731 6．1 6 641 300 10［n260〔｝la Ueo N l 74｛4．Ol3 701600 i1002MOIA ueO l o r514．213 81165012502650：AuO 7613．515 90170D130027001Auo 7713．4 17 1041？00135026501Au 781 4．O i3 egl 700 1350 26〔X）IA u 7914．013 911700 13502fSC）DIA u ① ② ③ ④⑤ ONSOKOUHO Vτ．KO日O SP． KOHO N R_A叩1itude ｝ IUI，1． l IUIP；． l lVl−−1． l IUI l＊／TEV／ lS IUIS l＊ ls 団1−−1． l IUI l． 1 川1．1． 1 川．1舎 1 川．1． 1 川．1． 1 川．1◆ l IUI．｝． l IAI．Kl＊ itK／ l IOIPK「． N l u IUI−−1＊ V l 【I NblUl ；＊＊ l U NbllJlU l＊＊ l u Nlulunl＊＊＊ A／！ u NIUIunl＊zz l U NblUl l＊＊＊ l blll−−1＊ l Nb川 1＊！快／ l b｝田Rl＊ l U ；Elゆ一；＊＊ l llli l＊＊＊ l l【Iil＊＊＊ l illi｛＊＊＊｛ IIIi l＊＊＊ 1 川il＊＊＊ 1 川il＊＊＊／1／ l i 川il＊＊＊！ 1川1＊＊＊｝ i 川 1＊＊＊ l e lll−−1＊＊＊ l blUl ｛＊＊； U Nb｝U｛ 1＊＊ l NbiUln l＊＊｝ V NblUIN l＊＊／擁／ l U Nbi OlN l＊＊ l V NblV；N l＊＊ ol U N101nl＊＊＊ l lo1・一一1＊＊＊＊ la l a IOIa l＊＊＊＊ la la 川al＊＊＊＊＊／A／ la la IAIal＊＊＊＊：a la IAIal＊＊＊＊ la la IAIal＊＊＊＊＊図2 音素識別の例．入力音声は「っくりました」．（1）音素候補，①ホルマント周波数による候補 ②声道断面積関数による候補 ③スペクトル分析による候補 ④二・一ラルネットによる候補 mom（i）＝｛ΣVt（i，n）＊（13−n）｝／｛ΣVt（i，n）｝， n＝1∼12 Aln（i）＝13−mom（i）ここで，Vt（i，n）は， iフレーム目の第nセクションの声道断面積である． ④1フレームを3分割（3．3m秒間隔）して，その細分割フレーム内の原波形の振幅（AMPn）と零交差数（Zn）を求める．以上の様にして抽出した特徴パラメータを表1にまとめて示す．（2）音素境界候補の抽出音素境界候補の抽出は，振幅包絡の変化を利用して，およその音素境界の候補点を求めようとするものである．即ち，となり合った2つのプレ・・一ムの振幅包絡の差を求める．（これをデルタ振幅と呼ぶ．）この値は振幅の傾斜の大きさを示しており，デルタ振幅のピークはその付近が振幅包絡の傾斜の最大となる部分であることを示している．そして，この値がしきい値dを越えた部分を音素境界の候補点とする．最適なしきい値は入力音声の大きさ等により決まってくるが，ここでは実験的に求めた値d＝10を採用している．（3）有声音・無声音等の分類ここでは，有声音・無声音等の大まかな分類を行う．細分割フレームの零交差数，振幅包絡等を利用して，無音区間（・と表示），無声摩擦音区間（Sと表示），有声音区間（Vと表示），無声破裂音区間（Pと表示）を判定している．無声破裂音区間の分析は3． 3m秒の細分割フレーム毎に行っている．無音区間は，細分割フレームの振幅がしきい値より小さく（実際には雑音のため無音部にも振幅がある），零交差数もしきい値より小さい部分とする．しきい値は可変にできるが，実用的には，音声がない場合の振幅包絡，零交差数の平均の3倍を使っている．音声中で，無音区間が10m秒以上続いている場合には，後続の音素が破裂音の可能性があるので，その判定処理を行うよう指令を出す．破裂音区間の判定は，前述の破裂音判定指令があり，振幅包絡の立ち上がり点前後での零交差数がしきい値Zpより大きくなっている場合に破裂音候補と判定する．ここでは，実験から Zp＝20としている．摩擦音区間は，零交差数が大きい（実際には30以上）フレームが3フレーム以上続いている区間で，振幅包絡がしきい値（実際には雑音レベルの2倍）より大きい区間である．表1 基本的な特徴パラメータ特徴パラメータ略号説明ホルマント周波数 F1−F2 LPCスペクトルの最大値スへ’_{Nトルの定常性} ｺ道断面積モづント Ss `m LPCスペクトルの変化率ｺ道断面積の1次モづント零交差数

U幅包絡

Zr `MP ルーム毎の零点通過数求[ム内の最大値細分割ルームの零交差数ﾗ分割ルームの振幅包絡 Zn `MPn 細分割フレーム毎の零点通過数ﾗ分割ルーム内の最大値スへ心 Oルの低域 Xペ外ルの中域 Xペ外ルの高域 Low lid gig 200Hz∼400Hz V00Hz∼1800Hz R200Hz∼4800Hz 声道断面積 Vt _{PARCOR分析による推定値}

(4)

平成8年12月山梨大学工学部研究報告第47号（4）音素境界の決定音素境界候補抽出部，有声・無声等分類部からの情報により各音素区間を，無音区間（・），無声摩擦音区間（S），無声破裂音区間（P），母音区間（V），子音区間（C）に判定する．子音区間，母音区間の区別は振幅の凹凸，周波数スペクトルの変化，声道断面積の定常性，零交差数の変化によって判定している．音素識別処理の例を図2に示す．（5）特徴パラメータの定常性の抽出不特定話者の連続音声中の音素識別を行うためには，ある時刻の特徴パラメータだけでは不十分である．筆者らは各特徴パラメータの時間変化を積極的に利用している．具体的には，以下のようなパラメータを使う． ①振幅の短時間変化 ②振幅の長時間変化 ③周波数スペクトルの定常性 ④声道の定常性 ⑤ホルマント周波数の定常性 ⑥ホルマント周波数の長時間変化実際には，短時間変化とは隣接するフレーフ間の特徴パラメータの変化率，長時間変化とは，前後2フレーム間の特徴パラメータの変化率である．（6）音素候補の抽出このシステムでは，擬似音素として／a，i，u， e，o／，無声摩擦音／S／，鼻子音グループ／N／，バズ部／B／，ラ行音／R／，無声破裂音グループ／P／，無音部／・／及び特定できない子音／C／を用いている．音素候補抽出部では，各フレーム毎に可能性のある全ての音素候補を挙げる， ①ホルマント周波数による音素識別母音の音素識別にはホルマント周波数を用いる．LPC分析部でスペクトル包絡から得たホルマント周波数の値により，候補となる音素を挙げる．一一t一般に各母音ごとのホルマントの値は一・定の周波数範囲に分布しているが，話者により，若干分布の様子が異なる．不特定話者の音素識別を目指すこのシステムでは，ホルマント周波数の分布範囲を表2に示すように，若干広目に取ってある．このため，ホルマント周波数が安定に抽出できれば，かなりの確率で正しい母音候補を挙げることができる．しかし母音間のホルマント周波数領域にオーバーラップがあるため，複数の母音候補が上がる場合もある．また，発声速度が極めて速く，発声が曖昧な場合には，指定したホルマント周波数の領域に正しく納まらない場合もある．このため3つのホルマント周波数共ある音素の領域内にあった場合には確実（大文字で表示），2っのホルマント周波数がある音素の領域内にあった場合にはほぼ正しい（小文字で表示）として，母音の候補を決めている． ②スペクトルによる音素識別特徴パラメータ抽出部で得られたスベクトルの3つの帯域周波数成分（Low，Mid， Hig）から以下のパラメータを求め，各音素毎に分布を調べ，しきい値を設定して，音素の弁別に利用する． HL：Hig／Low ML：Mid／Low HM：Hig／Mid HA：Hig／AMP MA：Mid／AMP LA：Low／AMP これらのパラメータの音素弁別への寄与の程度を示’ す例として図3に音素／a／，／o／に対するMLの分布（成人男性6人の発声による6文章から抽出したもの）を示す．また，①よりも狭く設定したホルマント周波数（表2の（）内）の値，振幅（AMP），零交差数（Zr），声道断面積のモーメント表2 母音のホルマント周波数の分布範囲 O内は範囲を狭めた母音のホルマント周波数（単位lHz）母音

F1

F2

F3

a

60〔ト蜘 i600∼900） 1〔m∼1600 i1000∼1350） 23〔n∼3000 i _15〔ト500 i250∼400） 190〔ト2700 i2000∼2600） 2700∼3400

u

20〔ト500 i200∼400） 9αト1550 i900∼1400） 210ト2800

e

30〔ト600 i350∼600） 15〔n∼2200 i1650∼2000） 230㌃∼3150

O

40D∼650 i400∼550） 65〔ト1300 i750∼1300） 210ト2900

蕊30

）25

520

唱

も15

皇10

5

己 5一呈 iV

_@O

0．5 1．0 ○○

O o

¶○ 1．5 ○ ○ ○ O o，．図3 パラメータMLの分布 2 ［i］ 2．5

ML

（Am），声道断面積の第1セクションの値（Vt1），声道断面積の最大値（AMAX）などのパラメータも音素識別に利用している．識別結果の例を図2のSP．・KOHO欄に示す． ③声道断面積による音素識別 PARCOR分析による声道断面積の推定は，話者と無関係に前舌，後舌などの特徴を抽出できるので，不特定話者の音声認識を行う場合に有効である．例として，図4に6人の発声した6文から取り出した／a， i， u， N／の声道断面積の平均値を示す．声道断面積は，例えば前舌音／i／と後舌音／a／の弁別などに役立つ．識別には声道断面積の値から以下のパラメ・一一タを計算して使用する． AMAX：声道断面積の最大値 LMAX：声道断面積が最大となるセクション番号 AMIN：声道断面積の最小値 LMIN：声道断面積が最小となるセクション番号 Vt1：声道断面積の第1セクションの値 Vt12：声道断面積の第12セクシwンの値 SF： SL： SM： SB： S◎二声道断面積の1∼4セクションの平均値声道断面積の1∼3セクションの平均値声道断面積の6∼8セクションの平均値声道断面積の6∼12セクションの平均値声道断面積の1∼4，9∼12セクションの平均値

(5)

この他に識別の補助パラメータとして，ML（Mid／Low）， LA（Low／AMP）の2つのパラメータを使用している．識別結果の例を図2のVT． KOHO欄に示す． ④その他の子音の識別以下に子音の識別のための主な規則を挙げる．（a）／S／：零交差数が大きい（45／フレーム以上）．スペクトルの高域成分が極めて多い．（b）／N／：零交差数が少ない（20以下）．声道断面積のモーメン 10 8 詰

8

る冨

丁6

₈ 言

゜4

2 0 SO1 dlt・i 1：”’＞I

SM

0・、．』， SO2 ：＜

実∴叉．恕’一志・鴻ぷ’”・∵5”×

’◆’・・⇒…・

a ium

◆◎●※

10 11 12 Section Number 図4 声道断面積関数の例（成人男性6人の／a，i，u，N／の平均）トの値が大きく（5．5以上），変化が小さい． Flが350Hz以下である．振幅の変化が小さい（語頭を除く．語頭では振幅が次第に大きくなる）．（c）／B／：零交差数が低くなる（4以下），振幅が小さい．F1が25 0Hz以下である．（d）語中の／R／：振幅，零交差数，Flに急激な谷ができる．声道断面積のモーメントが大きくなる（6．・5以上）．他に，無声破裂音／P／，無音部／．／の判別は，有声・無声等分類部の出力をまとめて，（8）の音素識別部で行う．（7）ニューラルネットワークによる音素判定 5母音，鼻子音の判定はニューラルネットワークで並行して行っている．この判定結果は補助的なもので，音素識別部で最終結果の確認の為に使用されている．これは，音響的に類似した音素，例えば／a／と／o／，ん／と／N／等の判別に利用している．（8）音素識別部音素識別部では，音素候補と音素区間の情報を基に最終的な音素識別を行う．音素の候補が複数ある場合には，振幅，零交差数，ホルマント周波数の値，声道断面積のモーメント等の値を再度利用して，最終的な音素の決定を行う．決定した音素は，区間長の情報とともに音素縮小部に送られる．処理は区間情報によって分けられるが，下記の様なものである． ①無音区間の場合 ”・”を出力する． ②破裂音区間の場合 ”P”を出力する． ③摩擦音区間の場合音素候補に／S／があれば，”S”を出力する．音素候補に／S／がない場合は，しきい値を下げてもう一度／S／の判定を行う． ④子音区間の場合子音候補が1つ安定に出ていれば，それを出力する．例えば，音素候補に／R／があれば”R”を出力する，／B／と／N／がある場合には振幅変化， F1の変化，零交差数，声道断面積のモーメントのしきい値を利用して調べ直し，前後の音素候補と合わせて判別する．声道断面積，スペクトル，振幅が不安定で，子音らしいが音素候補がなく特定できない場合には，”C”（不確定の子音）を出力する． ⑤母音区間の場合区間内に現れている母音の音素候補，声道断面積，スペクトル，ホルマント周波数の定常性，前後のフレームの音素候補などから判断する．1っの音素にしぼれない場合には声道断面積のモーメントによる前舌音，後舌音の判別，ホルマント周波数のしきい値を上げた（分布の領域を狭くする）判定などを行って候補を絞り込む，具体的には，例えば母音がホルマント周波数によって判別できない場合，声道断面積の1次モーメントの値，または声道断面積そのものにより音素候補の判定を助ける，声道の形及び調音点の前後への動きは個人差が少ないため，不特定話者の音素識別に対して，声道断面積は有力な特徴パラメータである．図5に声道断面積のモーメントの値の分布を示す．図から解るように声道断面積のモーメントの値の分布は，音素ごとのオーバーラップが大きく音素識別には向かないが，個人差が少ないため，音素候補の限定には十分役立っ．例えば，一般に，前舌音／i／の声道断面積のモーメントの値は大きい（通常6以上）が，後舌音／a／ではそれより小さく（通常6以下）なる．（9）音素の縮小識別された音素は，フレーム毎の記号列になっている．このままでは言語処理部での扱いが難しいため，ローマ字表現に近い「縮小音素列」に変換する．「同じ音素を1つにまとめて行く」という作業が基本であるが，音声学的に許されないつながりの修正，拗音の調査，調音結合の検討（調音結合の規則を用意し，照合する）などを同時に行っている． 300 ca 250 罵で

℃200

iiS § lso ：

吉100

50 0 奉日 0

◆

n b The moment of vocal tract area function 図5 声道断面積関数のモーメントの分布

(6)

平成8年12月山梨大学工学部研究報告第47号・oSSieaaReeeeNNaaa・oooooSSSaaNaaaaNaaaa・iiiNaaSS・PPaa・〈A） 546411543362113732535444523344324296224323289295713559 （B）・OS I EARENA・OOSANANA・INAS・PA （a）朗読音声表3 音素識別率（C）発声者識別率 A B C D E F 81．6％ 80．1％ 72．7％ 80．8％ 77．5％ 73．9％（b）対話音声 ”Osyarena osa皿aga iraash i ta． t，（答え．〉図6 音素識別の例（「おしゃれな王様がいました」）（A）ルーム毎の識別音素（B）ルームの長さ（C）縮小音素列音素識別部の出力（フレーム単位の音素列）及び縮小音素列の例を図6に示す．（10）句境界の抽出基本周波数のパターンと振幅包絡を利用して句境界を抽出する．基本的には，振幅包絡の変化の様子から句境界の候補を出し，基本周波数の変化に合わせてその境界候補に得点を与えている．0∼6点が与えられ，点数が大きいほど句境界である確率が高いとする5）．（11）言語情報処理部音響処理部で得られた縮小音素列と句境界の情報を利用して連続音声の認識を行う．構文9），意味10），連想7）等の情報を利用して，後続単語の予測を行う．作成した音素識別システムは，筆者らの開発している朗読文章の認識システム3）や対話音声の認識システム4）の音素識別部として利用されている．システム全体の詳細については関連の文献を参照されたい．

4t実験と結果

作成した音素識別システムを以下の様に，筆者らが開発している朗読音声認識システム，音声対話システムで使用した．（1）朗読音声の認識システム3）での使用童話「はだかの王様」の冒頭の6文を5人の成人男性が静かな部屋で朗読した音声を認識した．発声速度は比較的ゆっくりで，平均3．・9∼5．7モーラ／秒であった．なお，この朗読音声認識システムで使用できる語彙数は約500 単語のものと約1000単語のものがある．（2）音声対話システム4）での使用市役所の窓口案内をする音声対話システムで，この音素識別システムを使用した．10人の成人男性が以下の様な目的でそれぞれ3対話を行った．平均の発話速度は，約6．5モーラ／秒である．＜対話の目的＞ 1．所得証明書をもらう． 2．国民年金課へ行く． 3．住民票を閲覧する．なお，この音声対話システムで使用できる単語の数は165単語である．発声は騒音がかなり多く，大勢の人が回りに居る環境で行われた．話者には目的のみを話し，自由に発話してもらった．上記2つの実験の話者毎の音素識別率を表3に示す．実験に使用したデータは何れもオープンデータである．ここで，音素識別率Rは以下の式で計算している．発声者

ｯ別率

G II I J K

V1．5％ 71．7％ 68．1％ 69．6％ 75．9％発声者

ｯ別率

L M N O P U8，4％ 67，7％ 73．0％ 70．6％ 67．7％表4 実験結果対象話者・発声平均発声音素システム全体速度識別率の結果朗読成人男性5人 3．9∼5．7 平均文認識音声

_各6文

モー・ラ／秒 77．8％ 78％（語彙500） 70％（語彙1000）対話成人男性 6．5 平均対話成功率音声 10人モーラ／秒 70．4％ 80％各3対話（語彙165）表5 照合失敗音素の調査例音素照合率照合失敗音素に対応する縮小音素（含脱落） a 98．1％／o／1．3％ん／0．6％ i _92．4％／e／5．6％／N／1、2％／一一／0．8％

u

72．8％／一／9．3％／o／8．3％／N／6．0％／i／2．7％／e／0．9％ e 99．3％／i／0．7％ O 94．7％／一／2．4％／a／1．9％／u／0．6％／e／0．4％

N

86．4％／一／3．9％／B／4．0％／i／2．9％／C／1．7％／R／1．1％

B

61．3％／N／18．6％／一／8．9％／C／4．8％／i／4．0％／u／1．4％

R

34．3％／一／30．9％／N／21．7％／C／5．8％ノB／4．5％／i／2．8％

S

94．7％／P／3，8％／a／8．0％／．／0．7％

P

64．8％／一／21含8％／S／11．8％／B／1，5％／C／0．1％ ● _96．7％ _{／一／3．3％} 照合率：標準音素列中の音素で照合できた割合．／一／：脱落を示す．

R＝（Np／Ni十Np／Ns）／2

ただし，Ni：縮小音素列の音素数，Ns：標準音素列の音素数，Np：縮小音素列と標準音素列の照合がとれた音素数である．表4に，音素識別率，朗読音声の文認識率と対話音声の対話成功率をまとめて示す．

5．考察

音素識別率は，静かな部屋でゆっくり丁寧に発声した朗読音声では78％，自由な対話音声では約70％であった．また，それぞれ文認識率は，78％〈語彙500の場合）または70％（語彙1000の場合），対話成功率は80％であった．音素識別率はやや低めである

(7)

が，その誤り傾向がはっきりしている（例えば，誤りやすい音素／u／，／N／は，照合得点を0ではなく若干の得点を与えている．）ので，言語情報処理部ではそれを加味して認識を進めているため，音素識別率に比べ文認識率が比較的高くなっている．例えば，ff 5は単語辞書中の音素と認識した音素の照合に失敗した単語にっいて，その失敗の原因を調べたものである．この表から，音素誤り傾向には以下のものが考えられる． ①周波数スペクトルが近似した母音の誤り（例えば，／a／と／o／，／i／と／e／の誤り等）． ②鼻子音と／buzz部／の誤り． ③変化が速い子音が似た音素に誤る（例えば，無声破裂音／P／と無声摩擦音／S／の誤り等） ④変化が速い子音または振幅が小さい子音の欠落．半母音や拗音は，識別可能な音素の並びとして処理しており（例：’wa’は／uoa／叉は／oa／），調音結合も同様に扱っている（例：／ai／は／aei／等）．

6．むすび

不特定話者の音声に対処できる，規則を使った音素識別の方法を提案，実現し，朗読音声認識システム，音声対話システムで使用して実験を行った．その結果，音素識別率は若干低いものの，その誤り傾向が明確に予測できるので，システム全体としては，比較的高い認識率を達成できている．今後は，変化の速い音素への対処，識別ルールの強化，自動話者適応の導入等を検討し，より実用的な音素識別システムを目指して改良を進めて行きたい．会、（正988．7） 2）Picone J．：”Continunous speech recognition using Hidden Markov Models” IEEE ASSP Magazine， PP．26−41 （1990．6） 3）M．Shigenaga， Y． Sekiguchi， T． Yamaguchi and R． Masuda ： ”Alarge v・・abulary…ti・u・us speech・・c・9・fti・n。y。t。。 with high predictability”， IEICE Trans．， E74，7， pp．1817− 1825 （1991．6） 4）鈴木平，川崎拓，関口芳廣，重永実：”音声対話による市役所案内システム”，音講論，pp．23−24（1994．3） 5）鈴木良弥，関口芳廣，重永実：”日本語連続音声認識のための韻律情報を利用した句境界の抽出”，信学論（Dll），J72−DH， 10，pp．1609−1617 （1989．10） 6）関口芳廣，花形俊彦，鈴木良弥，重永実：”連続音声認識のための格構造を利用した述語予測”，電気学会論文誌C，108C，10， pp．818−825 （1988．10） 7）関口芳廣，重永実：”連続音声認識への連想情報の利用”，信学論（DII），J77−D II，8， pp．1522−1530（1994．8） 8）古田敏，増田竜太，関口芳廣，重永実：”大語彙・不特定話者を目指した連続音声認識システムの音響処理部について”，信学技報SP89−73，（1989．11） 9）関口芳廣，來嘉宏，重永実：”日本語文章の音声認識システムにおける構文情報について”，信学論（D）， J65−D， 6， pp．782 −789 （1982．6） 10）関口芳廣，重永実：”日本語文章の音声認識システムにおける意味情報について”，信学論（D），J66−D，6， pp． 629−636（198 3．6）

参考文献

1）中川聖一：”確率モデルによる音声認識”，電子情報通信学

不特定話者連続音声認識のための規則による音素識別 利用統計を見る

論

文