声道模擬による音声の合成について
有泉均
(昭和58年8月31日受理)
Speech Synthesis by Articulatory Movements
HitoshiARIIZUMI Ab8tract This paper describes a model for speech synthesis by articulatory movements controlled by modified time optimal control. That is, the lateral shape of the vocal tract for each phoneme is decomposed into two component shapes for the tongue and the jaw. Then each point on each articulator is moved toward the corresponding point on the target shape under the assumption of a modified time optimal control. The control has two models:vowel type and consonant type, and the control forces are automatically adjusted considering the features of each phoneme and each articulator, the distance between the initial and target shapes, and the speed of utterance. Thus the model can simulate the processes of coarticulation at an arbitrary speech rate and the duration of each phoneme is decided naturally. Two target shapes C’and C”for a consonant/C/are prepared, and each of them is used in connection with either a front vowel or a back vowel. For /C/in/VI CV2/(V:vowel), a concatenation C, C” should be used relating to the first and last vowels. 1. 緒 言 発声中の声道の形とその移行の仕方を調べること は,音声研究の根本問題の一つである。音声の合成に 際して,筆者は声道を形づける調音器官の運動が,ど のような制御法則に支配されているかを解明するため に,X線による観測結果を調べ,舌や顎の移行に対し て音韻の固有性および,生理的拘束を加味した調音モ デルを仮定し,音素指令時刻や加速度の制御に対し, 最小時間制御に準じた簡単な法則を作り,母音,破裂 音などを含む連続音声の声道合成を行ってきた。モデ ルは,まずX線観測の結果を参考にして得られた各音 素の声道断面積関数を声道正中断面図上に一定の規則 で逆変換し,その結果得られた舌を含めた舌面の形状 を,舌の能動的成分と顎との寄与に分離し,各音素に 対する舌と顎のtarget configurationsを決定する。 そしてそれらのターゲヅト間を法則化された制御のも とに,移行させることにより声道合成を行う。合成音 *工学基礎教室,Department of Basic Engineering は得られた声道断面積関数に対して計算した極と零の 周波数に,音源,振幅情報を加えてターミナルアナロ グ方式で合成される。 その後,声道合成規則をより一般化かつ簡略化し て,半母音,鼻子音などの音素を組み合わせた連続音 声についても,このような法則で十分合成でき,音響 的品質が向上してきたので,これらの法則,調音運動 の実測結果との比較等について報告する。 2. 調音運動系と最小時間制御 生体では一般に,入力が力,出力が変位のとき,そ の伝達関数は二次系以上の複雑なシステムとなる。調 音運動系において,目標位置に対する運動は種々の帰 還や学習効果により,線形で受動的な運動から,非線 形で能動的な運動に変わる。制御理論によれば,ステ ップ応答が最小時間に完了する速応系では,制御力と して,ステップ入力以外に適当な切換入力が必要とな り,非線形な系となる。生体においては,これは拮抗 筋の操作に対応すると考えられる。 先の報告1)’2)によれば,調音運動系に慣性を示す質一112一
量m,損失素子を示す粘性摩es r,ばね効果を示すス ティフネスkを導入すれば,変位κに対して,運動方 程式は式(1)で表せる。
票+A」芸+B・x−u(の一鷲 (・)
ここで,A=r/m, B=k/m, U(の=f(の(制御 力)/m。またd2Xc/dt2は原点の加速度を表し,舌は 顎の運動に重畳して運動するために考慮されるべきも のである。 実際の調音運動のX線写真から観測した資料につい て,筋肉の制御力をステップ入力と仮定して,伝達関 数を推定した結果,顎の調音運動については,不足制 動状態へのステップ入力と,それによって生じるオー バ・シュートを抑制するための逆向きのステップ入力 の重ね合わせによって,かなりよく模擬できることが わかった。舌や唇は,顎の運動と関連した協調的な運 動をしており3),基本的には顎の場合と同様に考えて いくことが可能であるが,子音を含む場合には,破裂 音の場合のように,呼気圧の増大などによる力を重ね 合わせる必要がある。かつ,調音運動系に能動的な最 小時間制御を導入すれば,粘性による抵抗や,弾性に よるばね効果を無視しても,調音器官の動きを十分よ く近似できることが先の報告1)’2)で確かめられた。そ こで,舌と顎とをそれぞれ別々に,式(2)で示される最 小時間的制御により各音素のそれぞれのターゲット間 を移行させる。d2X
百「=u(t)・u(の:switchi・g f・・ce 3. 声道合成モデル (2) 3.1 target configuration 調音器官の移行は,側面図を規準とし,各音素の声 道断面積を側面図上の横幅Di(i:セクション番号) に変換し,さらに顎の開閉による寄与を差し引いた残 りを舌のtarget configurationとする。 3.2 移行方式 舌に対しては,声門からの距離が等しい2点間を移 行関数(3)によって移行させる。 Di(X, y)=1)i(X、,γ、)+(Di(X,,γ2) −1)i(X,, Y,)∠tl【 (3) ここで,Di(x1, Yi), D乞(x2, Y2)は時刻tにおけ る舌面の位置と目標位置で,Dτ(X, y)はAt後の位 置である。またATは時刻’における速度および加速 度をそれぞれv(の,α(t)としたとき,式(4)で決定さ れる。 (1/2・α〃+v・4t) 0≦∠tT≦1 (4) 4T= max(D2i−D、D 3.3 加速度の制御 3.3.1 母音型制御 顎や外舌筋のゆくっりした運動によって生成される 母音音素間の移行における舌の運動などは,基本的に 最小時間制御に支配されているものと仮定し,図一1 のような制御を行う4)。 ここでは発声の速さや目標までの移行距離によって 加速度の大きさを変える。すなわち,舌のiセクショ ンのそれをαliとしたとき αlt=lei・〔カ2・〔1.0十exp{−A・(4.0−1))}〕 十exp(−B・li−lel)〕 (5) ここで,A=0.5十〇.2(S−0.5), B=0.01+0.09S K、, K2は定数 Dはt=0での音素間の最大距離で,移行の代表点 とする。Sは発声スピード(0.0(速い)∼1.0(遅い)), i=1∼35,Kは第二音素の調音点のセクション番号で ある。すなわち,式(5)によれば,加速度α、iはDが大 きく,発声スピードが速いほど大きくなり,かつ目標 の音素の調音点付近に対応するセクションがより一層 速く動くことを意味している。顎の加速度α。はt=0 での顎の目標までの移行距離をD。としたとき式(6)で 決めている。 αa=」Dα/〔K3(1.0十S)〕2 (6) ここで,K,は定数で,1α。1≦2.5である。 3.3.2 子音型制御 子音における舌の調音は母音型のような単純な制御 では調音点付近が示す速い動きを実現できないため, 子音を含む音節に対しては図一2のような制御を仮定す 堅 碧R
(a) 把 λ ↑ λ/2 −・一一 ts 鐙 巨 骨 ↑ α1z α2ε e 〆 Is 0 τc 一α3z 0 一一ィ速度
λ (a) τ λ/2 −●一…v=一一’⇔ ts (b) 0 −→速度 (b) 図一1加速度と変位の関係 図一2加速度と変位の関係 (母音型) (子音型)る。この場合加速度αli,α2i,α3iと時刻t,が既知で あれば,t、とtmの関係はもとまり,かつα1乞,α2i, α3iの大きさによって変化するため,自由な制御が可 能な反面,それらの大きさが問題となる。ここでは簡 単化のため,ts=tm/2となるようにα3iを α3i=〔α1ガtc十α2t(ts−tc)〕/ts (7) と決めてい。αliは母音型と同様に式(5)で,またα2iは 次式で決める。 α2i=ki〔ゐ2〔1.0十exp{−A(4.0−D)}〕 十{(k4十4. o(1.o−s)}・{exp(−Bli−le1) 十々5exp(−k,li−11D}〕 (8) ここで,s, ki, le2, i, k, A, B, Dは式(5)と同じ で,飢,k5, k,は定数である。この式において,定数 Aを含む項はDの大きさにつれてα2エが大きくなるこ とを示し,Bを含む項は目標の音素の調音点付近に対 応するセククションでより一層速く動き,かつ発声ス ピードが速くなればα2iも大きくなることを意味して いる。さらにle 5を含む項において, k 5は有声破裂音 または鼻子音と母音との間の移行の時だけ0.5の値を とり,他の場合は0である。これは有声破裂音や鼻子 音の発声の場合には,セクション11(咽頭付近)が少し 速く動くという観測結果5)を実現させるためである。 そして開放あるいは閉鎖を早める指令が出される時刻 tcは,やはり移行距離が大きいほど速く,また発声 スピードが大きくなると速くなるように式(9)で決めて いる。 t。 ・= V’2Tt〔1.0−・xp{=頂,・A(τ0−D)}〕/α11(9) ここでα1ゴはt=Oで代表点に加えられる加速度, A,Dは式(5)と同じで, k7は定数である。 3.4 指令時刻の決定 図一3(a),(b)に/ViCV2/系列の舌の調音点付近の力 の制御と速度,変位との関係を示す。図のM,N点に おけるように加速度が正(負)から負(正)に切り換 る時刻を指令時刻と呼ぶことにする。指令時刻Mは破 裂音や鼻子音の場合には特有な閉鎖を形成し,かつ式 ao)で表される閉鎖間隔SIに一致するようにする。 S1=SMAX−(5ルf・4X−SルIIN)・(1.0−S) 0① ここで,SMAX, SMINはそれぞれ人間が実際に 速さを変えて発したときの最大および最小の閉鎖間隔 を平的したもである。一方,指令時刻Nも発声の速さ を関数とし,遅い発声の場合/V2/のターゲットまで 移行するのに必要な加速度切り換え時刻Gに近づくよ うに式(IDで決める。 」V=G−le 8・(1.0−S) (11) ここで,ksは定数。 碧 束 /C/ 1 り 、 、、 @、 @ 、 、 、 @、 、 、 D 、 、 、 N 担鮒 、 、A 、F 、 G 、 、 ・ M 、 、 、 @ 、 、 ∼ H E /V2/ (b) /V、/ A 速度 α2 α1i‘ M I D A B ia) 1 ;一α3 N H
→時間
図一3 破裂音の合成における加速度と変位 さらに指令時刻M,Nをわずかに早くすることによ り,なまけの現象も容易に組込みうる。 なお,発声の開始は常に均一な管から出発すること にしている。 3.5 持続時間 連続音声の合成において各音素の持続時間は各音素 間の移行距離と指令時刻により自動的に決まる。ただ し,語尾の音素は発声スピードに対応して定常状態を 持続する。 4.音素のtarget configurationと移行の特徴 使用した各音素のtarget configurationはFant’} らのX線観測データに修正を加えたものを用いた。 図4−(a)∼(c)に示す。 4.1 母音(a,i, u, e, o),半母音(y, w),中立 母音(均一管) /U/は前後の母音によって舌面の形状がかなり変化 するため,前後の母音が後舌母音のときには,ターゲ ットの形〔U1〕,前舌母のときには〔U2〕の形を用い る。母音型の移行は母音型制御とする。 4.2 破裂音(k,t, p, g, d, b) 後続母音の調音的特徴,すなわち中・後母音(U, a,o)か前母音(i, e)かによって先行する破裂子音 のターゲットの形を中・後母音用(添字1を付す)と 前母音用(添字2を付す)との2種類を設定し,使用 した。有声破裂音に対しても,無声破裂音と同一のタ ーゲットを使用する。有声と無声破裂音の生成過程に 一114 一声門 声門 図一4合成モデルにおける音素のターゲット おける解剖学的な差異は,母音から有声破裂音へ向う 際,無声破裂音と違って,咽頭付近の動きが一般に大 きく,かつ破裂の瞬間,中舌部に「へこみ」が生じる ことがPerkellの実測で特徴的に現れている5)。また 音響レベルにおいては一般に,無声破裂音では第1, 第2ホルマント周波数が破裂の瞬間から後続母音への 移行時点において,急激に後続母音のホルマント周波 数ターゲットへと移行するが,有声破裂音では,比較 的なだらかな変位を示すことが特徴とされている。そ こで,モデルで舌の加速度を有声破裂音では無声破裂 音より小さくし,かつ咽頭付近(11セクション付近) の加速度分布を有声破裂音の場合大きめにした(式(6) の第三項)。 また/k/の場合は/t/,/p/の場合より加速度を 若干小さくした。 4.3鼻子音(m,n, n, N) 破裂子音と同様,声道の一部が閉鎖し,かつ口蓋帆 が垂れ下がり,声道が鼻孔に連結される。閉鎖の部分 は,破裂子音と同様に負の断面積にした。また鼻孔の 断面積関数はFantの測定した断面積を幾分修正した ものを用い,各鼻子音に対して同一にした。口腔の閉 鎖や開放時の制御は比較的ゆっくりした有声破裂音と 同様の制御を適用し,口蓋帆の動きは断面積の段階で 移行させている。すなわち,口蓋付近の鼻孔の断面積 (図一5の1,2セクション)を舌面の動きに比例させ, (cm2) 8 6 4 2 0 0 2 4 6
8 10 12(cm)
図一5合成モデルにおける鼻腔の形状 次式で移行させる。 声門 Si == Sii+(S2i−Sli)・ATn (12) ここで,Sli, S2zはある時刻における鼻孔の1,2 セクショソの面積と目標面積でStは時間4t後のそ れらの断面積である。dT。は調音点付近の速い動きに 影響されない舌面の正規化距離関数である。また鼻音 につづく母音には鼻音化が残るようになっている。 なお,廃音/N/の断面積は〔nl〕と同じものを使用 している。 5. 合成結果および検討 5.1 声道合成 ‘ 分離された舌と顎の動きが,それぞれ別々に音素に 固有な特徴をもった制御法則で目標の音素のターゲッ トに向って合成されるが,音響レベルで考えるとき 唇 唇 (・)/・/→/k/ 声門 声門 (b) /k/→/a/ 図一6/oka/における声道の変化は,再び両者を重ね合わせた側面図上で検討する6)。 図一6は合成された/oka/について移行中の各時刻に おける側面図上の声道の形を示す。この場合/k/とし て〔ki〕が用いられている。/oka/の場合〔k1〕の調 音点に/o/の影響が現れ,後へ移動して調音結合が行 われる。 5.2ホンマント・パターン 同様に/oka/の場合に合成されたホルマント周波 数の移行を図一7に示す。図より発声スピードを変えた ときの声道の形の変化がホルマント周波数の変化とな って先行母音の影響の程度および子音区間の長さの変 化となって現れていることがわかる。 5.3 合成音の評価と検討 破裂子音,鼻子音の合成には,種々の要素が重畳的 に作用しているが,特にtarget configurationの適 正さ,舌面各部の加速度制御などは,さらに検討しな ければならない。 このモデルで使用した破裂子音や鼻子音の断面積関 数は,後続母音の調音的特徴,すなわち前母音/i,e/ か,中・後母音/u,a, o/かに従って,先行する子 音の断面積関数を前母音型と後母音型の2種類を設定 し,使用している。しかしながら/VICV2/の合成に おいて,前母音と後母音に狭まれた破裂子音/C/を後 続母音/V2/によって一意的に与えた場合,すなわち 後続母音が前母音型か後母音型かによって/C/を選 択しているが,/C/の調音点以外では〔C1〕と〔C2〕 の間にはかなり形状に差があって,/C/を一つの target configurationで表すだけでは, Houde8}や Perkell5)が実測により示したように,/9/,/k/の移 行に際しては,舌面が声道壁に沿って移行するという 性質を十分実現できない。そこで,中舌型の子音に対 しては/V、CV2/の合成モデルにおける/C/の拡張と kHz S=1.O S=O.5 −一一一 r=0.0 ,、一一
V?/;=
/a/ して,前後の母音が前母音か後母音かに応じてそれぞ れ前母音型の子音,後母音型の子音を連結する。すな わち,この場合/VICV2/は/C/を/CIC2/で置き換 えた/V、CIC2V2/の形を用い,その音素指令時刻には /C2/を強張するように移行させればよい9)。このよう にして合成した/aki/の声道の動きおよびホルマント パターンをそれぞれ図一8,図一9に示す。このようにして 合成した音声は単純な結合に比べて良くなっている。 唇 /k?/ 声門 /a/十
声門 (b) /akik2i/ 図一8破裂音の合成における声道の変化の比較 kHz 2≡闇乙三
’”フ・ F3 ∨’.. t . /一一 一r・° / .・’ 1 F2/
/
/’ ♂c二,,.◆Fl
Nこ、㌔. N’・ ’\ ∼、_:ap.一,・0 100 200(msec)
図一7合成した/oka/のホルマント・パタン /a/ /k/ /i/0」一_L_
0 100 200 300(msec) 図一9破裂音の合成にけるホルマント・パターンの比較一116一
6. 結 言 連続音声の合成における品質の向上のためには,声 道合成,波形合成のより良い法則性を見い出すことが 重要である1°)。本報告におては,まず声道合成は二つ の音素間の移行問題から,順次その数を増し,舌およ び顎の速度が零となった時点で二種類の制御法則のい ずれかを適用していくことによって導かれる。これら の法則は音韻の固有性および生理的拘束を加味したも ので,発声スピードを自由に変えられ,より一般的か つ簡略化したものとなっている。このような法則を用 い,母音,破裂音,鼻音などの声道合成を行い,各音 素の継続時間,ホルマントパターンなど,定性的には ほぼ実測値に近い値を得ることができた。 しかし音韻性および品質を向上させるためには,タ ーゲット形の改善,調音器官の移行の制御変数の検討 や,第5節で述べた/V、CV2/中の/C/に対する処置 組み込みなどが必要である。 文 献 1)有泉,重永:“調音器官の動特性の推定”,日本音響学 会音声研究会,1975年3月 2)有泉:“調音器官の動特性の推定とシミュレーショ ン”,山梨大学工学部研究報告,vo1.33,1982 3) 有泉,高田:“X線映画による調音運動の分析”,日本 音響学会音声研究委員会,1974年1月 4) 有泉均:“母音および半母音における調音器官の動き について“,日本音響学会音声研究会,1979 5) J.S. Perkell:‘‘Physiology of speech production” MIT Press(1969) 6)有泉均:“声道の観測による声道側面図の音響量への 変換法について”,山梨大学工学部研究報告,vo1,31, 1980 7) G.Fant:‘‘Acoustic Theory of Speech Produc・・ tion”M皿ton(1960) 8)R.A. Houde:“A Study of Tongue Body Motion during Selected Speech Sounds”Univ. Michigan (1967) 9)有泉,重永:“破裂音の声道の形に及ぼす母音の影 響”,音響学会音声研究会,1977年11月 10)有泉,重永:“声道模擬による連続音声の合成”,音響 学会音声研究会,1978年9月 ド