• 検索結果がありません。

不特定話者連続音声認識のための規則による音素識別 利用統計を見る

N/A
N/A
Protected

Academic year: 2021

シェア "不特定話者連続音声認識のための規則による音素識別 利用統計を見る"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

不特定話者連続音声認識のための規則による音素識別

古田敏 関口芳廣 鈴木良弥 重永実

(平成8年8月31日受理)

Phoneme Identification by Rules for Speaker Independent Continuous

Speech Recognition

SatoshiFURUTA YoshihiroSEKIGUCHI YoshimiSUZUKI MinoruSHIGENAGA        Abstract The authors propose a lnethod of phoneme identificati on by using the m皿es which are constmcted based on the knowledge of speech. In the proposed phoneme id銀tifica五〇n syste坑 the fbllowing are considered in order to identify the phonemes in continuously spoken speech by several speakers. (1)Feature parameters are extracted by using some kind of w{ndows with several time period. (2)Many kinds of parameters, formant廿equencies extracte曲om LPC spectr鶴number of zero−crossings, vocal tract areas esdmated with PARCOR coe伍ci㎝ts and so on, are used fbr phoneme ident沮cation. (3)Component ratios and t㎞e variati ons of feature parameters are m瓜mly used for phoneme identification, (4)Some suitable featUre parameters are used to iden丘1シaphoneme. Our phoneme identi負ca組on system can identify corredly 77%of phonemes in sentences read aloud, and 70%of them in spoken 磁alogue.

1.まえがき

 最近,これまでの連続音声認識や音声合成の研究成果を基礎 にした,音声対話システムの研究が盛んである.音声対話シス テムの性能に関係するものとして,対話制御方式,言語情報処 理,応答音声の合成など様々なものがあろうが,音声の音響処 理は最も重要な要素の一つと考えられる.  近年,音響処理はニューラルネットワークやHMMに代表さ れる確率的手法を用いた方法の導入により一段と進歩したと考 えられる1,2).これらの音響処理の進歩により正確な音素 識別が可能になりつっあるが,学習の不完全さや発声の曖昧さ 等が原因の識別誤りを完全になくすことは難しい.  筆者らは,音響処理を独立に考えず,言語処理と総合して考 えるようにしている.すなわち,(1)音響処理で完全な音素識別 は困難である.(2)音響処理の誤りを言語処理で推測,修正しや *山梨大学工学部電子情報工学科,甲府市 Faculty of Eng血eermg,Yamanashi University, KofU−shi,400 Jap狐 **中京大学情報科学部情報科学科,豊田市 School of Computer and Cognitive Sciences, Chukyou Universlty, Toyota−shi,470K)3 Japan すいことが必要.という立場から,音響処理部を研究している. 確率的な手法は識別率は高いが,音声処理の立場からは想像で きない様な誤りが出力されるる場合もある.それに対して,音 響的特徴量を利用して,規則によって音素識別をすれば,その 識別率は確率的な手法に較べ若干劣るが,誤りの傾向はある程 度予測可能である,言語処理の立場からは,誤り傾向が予測で きることは大変役に立つ.音素識別の誤りが避けられないこと から,筆者らは誤り傾向を推測し易い規則による音素識別を研 究してきた.  連続音声中の音素の識別に関しては,一般に以下のようなこ とが言えよう. (1)各音素はその発声の仕方の相違から,異なった特徴量を有し ている.例えば,母音間の相違は主に周波数スペクトルの差と して現れ,摩擦音の特徴は零交差数の多さにある等.そして, これらの特徴量は相補的に作用している場合も多いと考えられ る. (2)各音素は時間的変化量にも差がある.例えば母音は定常的だ が,破裂音は急激な変化が特徴で,拗音は常に変化しつつある 等. (3)母音の振幅は子音の振幅より大きいと言うような一般的な特 徴は変わらなくても,その絶対値には個人差や発声環境でかな りの差がある, (4)音素の性質についてはこれまで,多くの研究があり,その研

(2)

平成8年12月 山梨大学工学部研究報告 第47号 究成果を音素識別システムの構築に利用できる.  これらのことを踏まえ,筆者らは以下のような方針で音素識 別を行っている. ①音声の周波数スペクトル,ホルマント周波数,声道断面積関 数,音声の振幅,零交差数等できるだけ多種のパラメータを利 用する. ②変化の急な音素にも定常的な音素にも対処できるように,パ ラメータの抽出は種々の時間幅で行う. ③発声の個人差に対処できるように,各パラメータをそのまま 使用する必要がある場合を除いて,できるだけ各パラメータの 成分の比や時間的変化を利用する.例えば,前舌母音では,誰 が発声しても声道断面積関数の唇側の面積が狭くなる性質を利 用する. ④音素の識別は,その音素の識別に適したできるだけ複数個の パラメータを利用して,音声学的知見に添った規則で行う.  以上の様な方法は,様々な観点から音素識別を行っているの で,単独のパラメータから識別する方法に比べ,不特定話者の 連続音声中の音素を安定に識別できる.また,誤りの傾向も予 測しやすいものとなっている.この論文では,まず筆者らが作 成した音素識別システムの概要を説明して,次いで各部分の詳 細を説明する.この音素識別システムは筆者らが作成した連続 音声認識システム3)や音声対話システム4)へ組み込まれて おり,適切な言語処理部と組み合わせれば,対象のタスクに無 関係に十分役立つことが確かめられているので,最後にその性 能についても説明する. フィルタを通してサンプリング周波数10Kllz,12bitでA/D変換さ れる.  特徴パラメータ抽出部では,この音声データを,基本的には 10m秒を1フレームとしてLPC分析などを行って,各種特徴パラ メータの抽出を行う.また同時に 3.・3m秒間隔(以下細分割フ レームと呼ぶ)の零交差数と振幅包絡を取り出す.  規則による音素候補抽出部では,特徴パラメータ抽出部で得 られた音声の種々の特徴パラメータを使い,それぞれのパラメ ータの変化の状態,ホルマント周波数等により候補音素の選定 を行う.  音素境界の抽出は,振幅の変化情報を利用して行われる.ま た,細分割フレームのデータによっても音素境界の抽出が行わ れ,それらの情報は音素境界決定部に送られ,各音素の区間が ほぼ決まる.  以上の情報を総合的に利用して,用意してある規則を使って, 分割した各区間ごとの音素を決定する.  最後に連続する同じ音素をまとめ縮小音素列を生成する.こ の際,調音結合の影響なども考慮するため,パラメータの変化 や前後の候補音素,音素区間の長さなどの情報を利用している.  そして,この縮小音素列に加えて,句境界情報5)が言語処 理部に送られる.言語処理部では,汎用的な言語情報を利用し た単語予測機構を駆使して6,7),縮小音素列と標準音素列 との句(ほぼ文節と同じ)単位のマッチングを行い,入力文を 認識する.

3.音素識別方法

2.音素識別システムの概要

 筆者らが作成した音素識別システムの概要を図1に示す.な お,音声認識の全体像がわかりやすいように,連続音声認識シ ステムでこの音素識別システムを利用した場合について句境界 情報抽出部と言語情報処理部に関しても図に簡単につけ加えて ある.この部分の詳細は参考文献3,5)を参照されたい.  入力音声は,プリアンプで増幅された後,4.7KHzのローパス !nput Speech Lowpass Fllter (2)Detectlon of   (3)Grouping of Phoneme boundary  Voice, Unvoice candldate          (6)Detection of (4)Oetection of Phoneme     Phoneme Candidates  B・undary      by using rules 図1 音素識別システムの構成  音素識別のためのそれぞれの処理を以下に説明する. (D特徴パラメータ抽出部  入力音声に対して,信号の振幅または零交差数が雑音レベル の平均の3倍以上になった時点を音声の始端として,基本的には 10m秒を1フレームとして以下の様な分析を行う. ①原音声からフレーム毎の零交差数(Zr),振幅の最大値(AMP)を 求める. ②原波形を(1−(1/2)Z}1)で高域強調し,12次のLPC分析を行い, 4000Hzまでのスペクトル包絡を求める.このLPCスペクトル包絡 のピーク値を探して,第1(F1),第2(F2),第3(F3)ホルマン ト周波数とする.また,スペクトルの周波数帯域を下記のよう に3つに分けその成分を求める. Low(i)低域:200∼400Hz, Mid(i)中域:700∼1800Hz, Hig(i) 高域:3200∼4000Hz.(iはフレーム番号) さらに,周波数スペクトルの定常性を下の式のように求める. iフレーム目の周波数スペクトルの定常性 Ss(i)は以下のようになる.

S、ω・蛆+一匡麺L、M幽

     Hig(i)      Hig(i−1)      1)血d(輌)

+一幽L+ 酬L +ユ血

 Mid(i−1)    Low(i)    Low(i−1)  ③入力音声に適応逆フィルタをかけてから12次の PARCOR分析を行い,フレーム毎に声道断面積の推定をする. i フレーム目の1次モーメントAm(i)を次式のように定義する. (2)音素判定

(3)

Fr皿Am  Zr AMP  FI  F2  F3 3219.7  0  01 10D 17002e501       1 3319.6 5  0114CO 19503200}       1 3419.i 10  7i 750 1300200Dla       l 351 7.6 18  121 500 1400 21501 U o  n ! 361 8.7 42  101i200 14502700;a u   S  ; 371 8.4 41  5ほ3002{]5036501     S  l 3819.3  7  61550 1200 1d501   0   1 3919.8  1  01 100 125024001       1 4αll.1 2 α1001e5027501    1 411 8.6  0   0i 450 1250 22001         1 42{9,3 0  01 100 1650    1       ; 4319.2 4  11250 16502e501       1 4418.5 0  01400 16503000:       1 4515.912 101t200260X)3a501     1a 4614.923  9165D正20025001AuO  la 4718.8  8  151200 1250     1 u      l U 4817.7  5  421300 1〔喝024001a Ueo  N l 4916.8 6 481350120024501a Ueo N l 501 7.2  7  521 350 12502S501a IJeo  N l  U 51;7.4 7 531350135023001aUe  N l 5216.7 6 5王1350 12002t591 {Io N l  e 5319.1 4  171 150 180D 31001 1 e  NB; 5419.0 3 211 150 165025501  e  N l 5517.5  3  17;250 18002e501 ue  N l 5617.953113001700235αuE N目e 5716.5  6  62i 350 24003S501 【      1 561 6.7  7  641 300 215026501 iuE     ; 5916.5 7 64135022502e501 【e    ; 6α 6.1 7 6213502tK)2960{ I E    l ie 6115.8 7 62135025503C501 |e    l l e 6216.0  7  621 350225029501 1 e     l  e a3:5.8 6 a3135025002a5011e   l 6416.5  7  621 350215028001 1uE    l I e O515.9 6 6413002150275011uE   l  o a616.9 7 61;350220024501iuE   lIe 6717.8 6 3813001200295〔Naiue  N l U O81 7.?  3  321 200  80〔}22〔〕Ol  u o  N l  U 69 :&0  3 361250250035〔X)l i      ; U 7016.6  3  401 250  95024501 U o  N ; 7116.7 4 421250  9502Z501 Uo  N ; 721 6.6  3  441 250 1α〕023501a llo  N l 731 6.1  6  641 300 10[n260〔}la Ueo  N l 74{4.Ol3 701600 i1002MOIA ueO   l   o r514.213 81165012502650:AuO 7613.515 90170D130027001Auo 7713.4 17 1041?00135026501Au 781 4.O i3  egl 700 1350 26〔X)IA u 7914.013 911700 13502fSC)DIA u  ①   ②   ③ ④⑤ ONSOKOUHO Vτ.KO日O SP. KOHO N R         A叩1itude    }   IUI,1.    l   IUIP;.    l    lVl−−1.    l   IUI l*  /TEV/    lS    IUIS l*    ls    団1−−1.    l   IUI l.    1   川1.1.    1   川.1舎    1   川.1.    1   川.1.    1   川.1◆    l   IUI.}.    l   IAI.Kl*  itK/    l       IOIPK「. N    l u  IUI−−1*   V   l  【I NblUl  ;**    l  U  NbllJlU l**    l u Nlulunl*** A/    ! u NIUIunl*zz    l  U  NblUl  l***    l     blll−−1*    l  Nb川  1*  !快/    l    b}田Rl*    l  U   ;Elゆ一;**    l    llli l***    l    l【Iil***    l    illi{***    {    IIIi l***    1    川il***    1   川il*** /1/    l i   川il***    !    1川1***    } i  川  1***    l  e  lll−−1***    l     blUl {**    ;  U  Nb}U{  1**    l     NbiUln l**    }  V  NblUIN l**   /擁/    l  U  Nbi OlN l**    l  V  NblV;N l**   ol U N101nl***    l    lo1・一一1****  la    l a    IOIa l****  la la  川al*****/A/  la   la   IAIal****  :a   la   IAIal****  la  la   IAIal***** 図2 音素識別の例.入力音声は「っくりました」. (1)音素候補,①ホルマント周波数による候補       ②声道断面積関数による候補       ③スペクトル分析による候補       ④二・一ラルネットによる候補  mom(i)={ΣVt(i,n)*(13−n)}/{ΣVt(i,n)}, n=1∼12  Aln(i)=13−mom(i) ここで,Vt(i,n)は, iフレーム目の第nセクションの声道断面 積である. ④1フレームを3分割(3.3m秒間隔)して,その細分割フレーム 内の原波形の振幅(AMPn)と零交差数(Zn)を求める.  以上の様にして抽出した特徴パラメータを表1にまとめて示 す. (2)音素境界候補の抽出  音素境界候補の抽出は,振幅包絡の変化を利用して,およそ の音素境界の候補点を求めようとするものである.即ち,とな り合った2つのプレ・・一ムの振幅包絡の差を求める.(これをデル タ振幅と呼ぶ.)この値は振幅の傾斜の大きさを示しており,デ ルタ振幅のピークはその付近が振幅包絡の傾斜の最大となる部 分であることを示している.そして,この値がしきい値dを越 えた部分を音素境界の候補点とする.最適なしきい値は入力音 声の大きさ等により決まってくるが,ここでは実験的に求めた 値d=10を採用している. (3)有声音・無声音等の分類  ここでは,有声音・無声音等の大まかな分類を行う.細分割 フレームの零交差数,振幅包絡等を利用して,無音区間(・と表 示),無声摩擦音区間(Sと表示),有声音区間(Vと表示),無声破 裂音区間(Pと表示)を判定している.無声破裂音区間の分析は3. 3m秒の細分割フレーム毎に行っている.  無音区間は,細分割フレームの振幅がしきい値より小さく (実際には雑音のため無音部にも振幅がある),零交差数もし きい値より小さい部分とする.しきい値は可変にできるが,実 用的には,音声がない場合の振幅包絡,零交差数の平均の3倍 を使っている.音声中で,無音区間が10m秒以上続いている場 合には,後続の音素が破裂音の可能性があるので,その判定処 理を行うよう指令を出す.  破裂音区間の判定は,前述の破裂音判定指令があり,振幅包 絡の立ち上がり点前後での零交差数がしきい値Zpより大きく なっている場合に破裂音候補と判定する.ここでは,実験から Zp=20としている.  摩擦音区間は,零交差数が大きい(実際には30以上)フレー ムが3フレーム以上続いている区間で,振幅包絡 がしきい値(実際には雑音レベルの2倍)より大きい区間である. 表1 基本的な特徴パラメータ 特徴パラメータ 略号 説明 ホルマント周波数 F1−F2 LPCスペクトルの最大値 スへ’Nトルの定常性 コ道断面積モづント Ss `m LPCスペクトルの変化率 コ道断面積の1次モづント 零交差数

U幅包絡

Zr `MP ルーム毎の零点通過数 求[ム内の最大値 細分割ルームの零交差数 ラ分割ルームの振幅包絡 Zn `MPn 細分割フレーム毎の零点通過数 ラ分割ルーム内の最大値 スへ心 Oルの低域 Xペ外ルの中域 Xペ外ルの高域 Low lid gig 200Hz∼400Hz V00Hz∼1800Hz R200Hz∼4800Hz 声道断面積 Vt PARCOR分析による推定値

(4)

平成8年12月 山梨大学工学部研究報告 第47号 (4)音素境界の決定  音素境界候補抽出部,有声・無声等分類部からの情報により 各音素区間を,無音区間(・),無声摩擦音区間(S),無声破裂音 区間(P),母音区間(V),子音区間(C)に判定する.子音区間,母 音区間の区別は振幅の凹凸,周波数スペクトルの変化,声道断 面積の定常性,零交差数の変化によって判定している.音素識 別処理の例を図2に示す. (5)特徴パラメータの定常性の抽出  不特定話者の連続音声中の音素識別を行うためには,ある時 刻の特徴パラメータだけでは不十分である.筆者らは各特徴パ ラメータの時間変化を積極的に利用している.具体的には,以 下のようなパラメータを使う. ①振幅の短時間変化      ②振幅の長時間変化 ③周波数スペクトルの定常性  ④声道の定常性 ⑤ホルマント周波数の定常性 ⑥ホルマント周波数の長時間変化  実際には,短時間変化とは隣接するフレーフ間の特徴パラメ ータの変化率,長時間変化とは,前後2フレーム間の特徴パラメ ータの変化率である. (6)音素候補の抽出  このシステムでは,擬似音素として/a,i,u, e,o/,無声摩擦 音/S/,鼻子音グループ/N/,バズ部/B/,ラ行音/R/,無声破 裂音グループ/P/,無音部/・/及び特定できない子音/C/を用 いている.  音素候補抽出部では,各フレーム毎に可能性のある全ての音 素候補を挙げる, ①ホルマント周波数による音素識別  母音の音素識別にはホルマント周波数を用いる.LPC分析部で スペクトル包絡から得たホルマント周波数の値により,候補と なる音素を挙げる.一一t一般に各母音ごとのホルマントの値は一・定 の周波数範囲に分布しているが,話者により,若干分布の様子 が異なる.不特定話者の音素識別を目指すこのシステムでは, ホルマント周波数の分布範囲を表2に示すように,若干広目に 取ってある.このため,ホルマント周波数が安定に抽出できれ ば,かなりの確率で正しい母音候補を挙げることができる.し かし母音間のホルマント周波数領域にオーバーラップがあるた め,複数の母音候補が上がる場合もある.また,発声速度が極 めて速く,発声が曖昧な場合には,指定したホルマント周波数 の領域に正しく納まらない場合もある.このため3つのホルマン ト周波数共ある音素の領域内にあった場合には確実(大文字で 表示),2っのホルマント周波数がある音素の領域内にあった場 合にはほぼ正しい(小文字で表示)として,母音の候補を決め ている. ②スペクトルによる音素識別  特徴パラメータ抽出部で得られたスベクトルの3つの帯域周 波数成分(Low,Mid, Hig)から以下のパラメータを求め,各音素毎 に分布を調べ,しきい値を設定して,音素の弁別に利用する.  HL:Hig/Low  ML:Mid/Low  HM:Hig/Mid  HA:Hig/AMP  MA:Mid/AMP  LA:Low/AMP  これらのパラメータの音素弁別への寄与の程度を示’ す例として図3に音素/a/,/o/に対するMLの分布(成人男性6人 の発声による6文章から抽出したもの)を示す.  また,①よりも狭く設定したホルマント周波数(表2の() 内)の値,振幅(AMP),零交差数(Zr),声道断面積のモーメント     表2 母音のホルマント周波数の分布範囲 O内は範囲を狭めた母音のホルマント周波数(単位lHz) 母音

F1

F2

F3

a

60〔ト蜘 i600∼900) 1〔m∼1600 i1000∼1350) 23〔n∼3000 i 15〔ト500 i250∼400) 190〔ト2700 i2000∼2600) 2700∼3400

u

20〔ト500 i200∼400)  9αト1550 i900∼1400) 210ト2800

e

30〔ト600 i350∼600) 15〔n∼2200 i1650∼2000) 230㌃∼3150

O

40D∼650 i400∼550)  65〔ト1300 i750∼1300) 210ト2900

蕊30

)25

520

も15

皇10

5

己 5一 呈 iV

@O

0.5 1.0  ○○

O  o

   ¶○ 1.5 ○ ○  ○ O    o,. 図3 パラメータMLの分布 2 [i]  2.5

ML

(Am),声道断面積の第1セクションの値(Vt1),声道断面積の最 大値(AMAX)などのパラメータも音素識別に利用している.  識別結果の例を図2のSP.・KOHO欄に示す. ③声道断面積による音素識別  PARCOR分析による声道断面積の推定は,話者と無関係に前舌, 後舌などの特徴を抽出できるので,不特定話者の音声認識を行 う場合に有効である.例として,図4に6人の発声した6文から 取り出した/a, i, u, N/の声道断面積の平均値を示す.声道断面積 は,例えば前舌音/i/と後舌音/a/の弁別などに役立つ.  識別には声道断面積の値から以下のパラメ・一一タを計算して使 用する. AMAX:声道断面積の最大値 LMAX:声道断面積が最大となるセクション番号 AMIN:声道断面積の最小値 LMIN:声道断面積が最小となるセクション番号 Vt1:声道断面積の第1セクションの値 Vt12:声道断面積の第12セクシwンの値 SF: SL: SM: SB: S◎二 声道断面積の1∼4セクションの平均値 声道断面積の1∼3セクションの平均値 声道断面積の6∼8セクションの平均値 声道断面積の6∼12セクションの平均値 声道断面積の1∼4,9∼12セクションの平均値

(5)

 この他に識別の補助パラメータとして,ML(Mid/Low), LA(Low/AMP)の2つのパラメータを使用している.  識別結果の例を図2のVT. KOHO欄に示す. ④その他の子音の識別  以下に子音の識別のための主な規則を挙げる. (a)/S/:零交差数が大きい(45/フレーム以上).スペクトルの 高域成分が極めて多い. (b)/N/:零交差数が少ない(20以下).声道断面積のモーメン  10 8 詰

 8

る 冨

丁6

8

゜4

2 0   SO1 dlt・i 1:”’>I

 SM

0・、.』,   SO2 :<

実∴叉.恕’一志・鴻ぷ’”・∵5”×

       ’◆’・・⇒…・

a ium

◆◎●※

 10 11 12 Section Number   図4 声道断面積関数の例 (成人男性6人の/a,i,u,N/の平均) トの値が大きく (5.5以上),変化が小さい. Flが350Hz以下である.振幅の変化が小さい(語頭を除く.語頭 では振幅が次第に大きくなる). (c)/B/:零交差数が低くなる(4以下),振幅が小さい.F1が25 0Hz以下である. (d)語中の/R/:振幅,零交差数,Flに急激な谷ができる.声道 断面積のモーメントが大きくなる(6.・5以上).  他に,無声破裂音/P/,無音部/./の判別は,有声・無声等分類 部の出力をまとめて,(8)の音素識別部で行う. (7)ニューラルネットワークによる音素判定  5母音,鼻子音の判定はニューラルネットワークで並行して 行っている.この判定結果は補助的なもので,音素識別部で最 終結果の確認の為に使用されている.これは,音響的に類似し た音素,例えば/a/と/o/,ん/と/N/等の判別に利用してい る. (8)音素識別部  音素識別部では,音素候補と音素区間の情報を基に最終的な 音素識別を行う.音素の候補が複数ある場合には,振幅,零交 差数,ホルマント周波数の値,声道断面積のモーメント等の値 を再度利用して,最終的な音素の決定を行う.決定した音素は, 区間長の情報とともに音素縮小部に送られる.  処理は区間情報によって分けられるが,下記の様なものであ る. ①無音区間の場合 ”・”を出力する. ②破裂音区間の場合 ”P”を出力する. ③摩擦音区間の場合 音素候補に/S/があれば,”S”を出力する. 音素候補に/S/がない場合は,しきい値を下げてもう一度/S/の 判定を行う. ④子音区間の場合 子音候補が1つ安定に出ていれば,それを 出力する.例えば,音素候補に/R/があれば”R”を出力する,/B/ と/N/がある場合には振幅変化, F1の変化,零交差数,声道断面積のモーメントのしきい値を利 用して調べ直し,前後の音素候補と合わせて判別する.声道断 面積,スペクトル,振幅が不安定で,子音らしいが音素候補が なく特定できない場合には,”C”(不確定の子音)を出力する.  ⑤母音区間の場合 区間内に現れている母音の音素候補,声 道断面積,スペクトル,ホルマント周波数の定常性,前後のフ レームの音素候補などから判断する.1っの音素にしぼれない場 合には声道断面積のモーメントによる前舌音,後舌音の判別, ホルマント周波数のしきい値を上げた(分布の領域を狭くする) 判定などを行って候補を絞り込む,  具体的には,例えば母音がホルマント周波数によって判別で きない場合,声道断面積の1次モーメントの値,または声道断面 積そのものにより音素候補の判定を助ける,声道の形及び調音 点の前後への動きは個人差が少ないため,不特定話者の音素識 別に対して,声道断面積は有力な特徴パラメータである.  図5に声道断面積のモーメントの値の分布を示す. 図から解るように声道断面積のモーメントの値の分布は,音素 ごとのオーバーラップが大きく音素識別には向かないが,個人 差が少ないため,音素候補の限定には十分役立っ.例えば,一 般に,前舌音/i/の声道断面積のモーメントの値は大きい(通 常6以上)が,後舌音/a/ではそれより小さく(通常6以下)な る. (9)音素の縮小  識別された音素は,フレーム毎の記号列になっている.この ままでは言語処理部での扱いが難しいため,ローマ字表現に近 い「縮小音素列」に変換する. 「同じ音素を1つにまとめて行く」 という作業が基本であるが,音声学的に許されないつながりの 修正,拗音の調査,調音結合の検討(調音結合の規則を用意し, 照合する)などを同時に行っている. 300 ca 250 罵 で

℃200

iiS § lso :

吉100

50 0 奉 日 0

n b  The moment of vocal tract area function 図5 声道断面積関数のモーメントの分布

(6)

平成8年12月 山梨大学工学部研究報告 第47号 ・oSSieaaReeeeNNaaa・oooooSSSaaNaaaaNaaaa・iiiNaaSS・PPaa・ 〈A) 546411543362113732535444523344324296224323289295713559 (B) ・OS I EARENA・OOSANANA・INAS・PA (a)朗読音声 表3 音素識別率 (C) 発声者 識別率 A   B   C   D   E   F 81.6%  80.1%  72.7%  80.8%  77.5%  73.9% (b)対話音声 ”Osyarena osa皿aga iraash i ta. t,  (答え.〉 図6 音素識別の例(「おしゃれな王様がいました」)         (A)ルーム毎の識別音素         (B)ルームの長さ         (C)縮小音素列  音素識別部の出力(フレーム単位の音素列)及び縮小音素列 の例を図6に示す. (10)句境界の抽出  基本周波数のパターンと振幅包絡を利用して句境界を抽出す る.基本的には,振幅包絡の変化の様子から句境界の候補を出 し,基本周波数の変化に合わせてその境界候補に得点を与えて いる.0∼6点が与えられ,点数が大きいほど句境界である確率 が高いとする5). (11)言語情報処理部  音響処理部で得られた縮小音素列と句境界の情報を利用して 連続音声の認識を行う.構文9),意味10),連想7)等の 情報を利用して,後続単語の予測を行う.作成した音素識別シ ステムは,筆者らの開発している朗読文章の認識システム3) や対話音声の認識システム4)の音素識別部として利用されて いる.システム全体の詳細については関連の文献を参照された い.

4t実験と結果

 作成した音素識別システムを以下の様に,筆者らが開発して いる朗読音声認識システム,音声対話システムで使用した. (1)朗読音声の認識システム3)での使用  童話「はだかの王様」の冒頭の6文を5人の成人男性が静か な部屋で朗読した音声を認識した.発声速度は比較的ゆっくり で,平均3.・9∼5.7モーラ/秒であった.  なお,この朗読音声認識システムで使用できる語彙数は約500 単語のものと約1000単語のものがある. (2)音声対話システム4)での使用  市役所の窓口案内をする音声対話システムで,この音素識別 システムを使用した.10人の成人男性が以下の様な目的でそれ ぞれ3対話を行った.平均の発話速度は,約6.5モーラ/秒であ る. <対話の目的>  1.所得証明書をもらう. 2.国民年金課へ行く.  3.住民票を閲覧する. なお,この音声対話システムで使用できる単語の数は165単語で ある.発声は騒音がかなり多く,大勢の人が回りに居る環境で 行われた.話者には目的のみを話し,自由に発話してもらった.  上記2つの実験の話者毎の音素識別率を表3に示す. 実験に使用したデータは何れもオープンデータである. ここで,音素識別率Rは以下の式で計算している. 発声者

ッ別率

G  II  I  J  K

V1.5%  71.7%  68.1%  69.6%  75.9% 発声者

ッ別率

L  M   N   O   P U8,4%  67,7%  73.0%  70.6%  67.7% 表4 実験結果 対象 話者・発声 平均発声 音素 システム全体 速度 識別率 の結果 朗読 成人男性5人 3.9∼5.7 平均 文認識 音声

各6文

モー・ラ/秒 77.8% 78% (語彙500) 70% (語彙1000) 対話 成人男性 6.5 平均 対話成功率 音声 10人 モーラ/秒 70.4% 80% 各3対話 (語彙165) 表5 照合失敗音素の調査例 音素 照合率 照合失敗音素に対応する縮小音素(含脱落) a 98.1% /o/1.3%ん/0.6% i 92.4% /e/5.6% /N/1、2% /一一/0.8%

u

72.8% /一/9.3% /o/8.3% /N/6.0% /i/2.7% /e/0.9% e 99.3% /i/0.7% O 94.7% /一/2.4% /a/1.9% /u/0.6% /e/0.4%

N

86.4% /一/3.9% /B/4.0% /i/2.9% /C/1.7% /R/1.1%

B

61.3% /N/18.6% /一/8.9% /C/4.8% /i/4.0% /u/1.4%

R

34.3% /一/30.9% /N/21.7% /C/5.8% ノB/4.5% /i/2.8%

S

94.7% /P/3,8% /a/8.0% /./0.7%

P

64.8% /一/21含8% /S/11.8% /B/1,5% /C/0.1% ● 96.7% /一/3.3% 照合率:標準音素列中の音素で照合できた割合.    /一/:脱落を示す.

   R=(Np/Ni十Np/Ns)/2

ただし,Ni:縮小音素列の音素数,Ns:標準音素列の音素 数,Np:縮小音素列と標準音素列の照合がとれた音素数であ る.  表4に,音素識別率,朗読音声の文認識率と対話音声の対話 成功率をまとめて示す.

5.考察

 音素識別率は,静かな部屋でゆっくり丁寧に発声した朗読音 声では78%,自由な対話音声では約70%であった.また,それぞ れ文認識率は,78%〈語彙500の場合)または70%(語彙1000の場 合),対話成功率は80%であった.音素識別率はやや低めである

(7)

が,その誤り傾向がはっきりしている(例えば,誤りやすい音 素/u/,/N/は,照合得点を0ではなく若干の得点を与えている.) ので,言語情報処理部ではそれを加味して認識を進めているた め,音素識別率に比べ文認識率が比較的高くなっている.  例えば,ff 5は単語辞書中の音素と認識した音素の照合に失 敗した単語にっいて,その失敗の原因を調べたものである.こ の表から,音素誤り傾向には以下のものが考えられる. ①周波数スペクトルが近似した母音の誤り(例えば,/a/と/o/, /i/と/e/の誤り等). ②鼻子音と/buzz部/の誤り. ③変化が速い子音が似た音素に誤る(例えば,無声破 裂音/P/ と無声摩擦音/S/の誤り等) ④変化が速い子音または振幅が小さい子音の欠落.  半母音や拗音は,識別可能な音素の並びとして処理しており (例:’wa’は/uoa/叉は/oa/),調音結合も同様に扱っている (例:/ai/は/aei/等).

6.むすび

 不特定話者の音声に対処できる,規則を使った音素識別の方 法を提案,実現し,朗読音声認識システム,音声対話システム で使用して実験を行った.その結果,音素識別率は若干低いも のの,その誤り傾向が明確に予測できるので,システム全体と しては,比較的高い認識率を達成できている.  今後は,変化の速い音素への対処,識別ルールの強化,自動 話者適応の導入等を検討し,より実用的な音素識別システムを 目指して改良を進めて行きたい. 会、(正988.7)  2)Picone J. :”Continunous speech recognition  using Hidden Markov Models” IEEE ASSP Magazine, PP.26−41 (1990.6)  3)M.Shigenaga, Y. Sekiguchi, T. Yamaguchi and R. Masuda : ”Alarge v・・abulary…ti・u・us speech・・c・9・fti・n。y。t。。 with high predictability”, IEICE Trans., E74,7, pp.1817− 1825 (1991.6) 4)鈴木平,川崎拓,関口芳廣,重永実:”音声対話による市役所案 内システム”,音講論,pp.23−24(1994.3) 5)鈴木良弥,関口芳廣,重永実:”日本語連続音声認識のための 韻律情報を利用した句境界の抽出”,信学論(Dll),J72−DH, 10,pp.1609−1617 (1989.10) 6)関口芳廣,花形俊彦,鈴木良弥,重永実:”連続音声認識のた めの格構造を利用した述語予測”,電気学会論文誌C,108C,10, pp.818−825 (1988.10) 7)関口芳廣,重永実:”連続音声認識への連想情報の利用”,信学 論(DII),J77−D II,8, pp.1522−1530(1994.8) 8)古田敏,増田竜太,関口芳廣,重永実:”大語彙・不特定話 者を目指した連続音声認識システムの音響処理部について”, 信学技報SP89−73,(1989.11) 9)関口芳廣,來嘉宏,重永実:”日本語文章の音声認識シス テムにおける構文情報について”,信学論(D), J65−D, 6, pp.782 −789 (1982.6) 10)関口芳廣,重永実:”日本語文章の音声認識システムにおけ る意味情報について”,信学論(D),J66−D,6, pp. 629−636(198 3.6)

参考文献

1)中川聖一:”確率モデルによる音声認識”,電子情報通信学

参照

関連したドキュメント

C =>/ 法において式 %3;( のように閾値を設定し て原音付加を行ない,雑音抑圧音声を聞いてみたところ あまり音質の改善がなかった.図 ;

音節の外側に解放されることがない】)。ところがこ

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

(4) 現地参加者からの質問は、従来通り講演会場内設置のマイクを使用した音声による質問となり ます。WEB 参加者からの質問は、Zoom

7.法第 25 条第 10 項の規定により準用する第 24 条の2第4項に定めた施設設置管理

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察

3 主務大臣は、第一項に規定する勧告を受けた特定再利用

By the method I, emotional recognition rate is 60% for close data, and 50% for open data(8 sentence speech of another speaker).The method II improves drastically the recognition