声道模擬による音声の合成について利用統計を見る

(1)

声道模擬による音声の合成について

有泉均

（昭和58年8月31日受理）

Speech Synthesis by Articulatory Movements

HitoshiARIIZUMI Ab8tract This paper describes a model for speech synthesis by articulatory movements controlled by modified time optimal control． That is， the lateral shape of the vocal tract for each phoneme is decomposed into two component shapes for the tongue and the jaw． Then each point on each articulator is moved toward the corresponding point on the target shape under the assumption of a modified time optimal control． The control has two models：vowel type and consonant type， and the control forces are automatically adjusted considering the features of each phoneme and each articulator， the distance between the initial and target shapes， and the speed of utterance． Thus the model can simulate the processes of coarticulation at an arbitrary speech rate and the duration of each phoneme is decided naturally． Two target shapes C’and C”for a consonant／C／are prepared， and each of them is used in connection with either a front vowel or a back vowel． For ／C／in／VI CV2／（V：vowel）， a concatenation C， C” should be used relating to the first and last vowels． 1．緒言発声中の声道の形とその移行の仕方を調べることは，音声研究の根本問題の一つである。音声の合成に際して，筆者は声道を形づける調音器官の運動が，どのような制御法則に支配されているかを解明するために，X線による観測結果を調べ，舌や顎の移行に対して音韻の固有性および，生理的拘束を加味した調音モデルを仮定し，音素指令時刻や加速度の制御に対し，最小時間制御に準じた簡単な法則を作り，母音，破裂音などを含む連続音声の声道合成を行ってきた。モデルは，まずX線観測の結果を参考にして得られた各音素の声道断面積関数を声道正中断面図上に一定の規則で逆変換し，その結果得られた舌を含めた舌面の形状を，舌の能動的成分と顎との寄与に分離し，各音素に対する舌と顎のtarget configurationsを決定する。そしてそれらのターゲヅト間を法則化された制御のもとに，移行させることにより声道合成を行う。合成音＊工学基礎教室，Department of Basic Engineering は得られた声道断面積関数に対して計算した極と零の周波数に，音源，振幅情報を加えてターミナルアナログ方式で合成される。その後，声道合成規則をより一般化かつ簡略化して，半母音，鼻子音などの音素を組み合わせた連続音声についても，このような法則で十分合成でき，音響的品質が向上してきたので，これらの法則，調音運動の実測結果との比較等について報告する。 2．調音運動系と最小時間制御生体では一般に，入力が力，出力が変位のとき，その伝達関数は二次系以上の複雑なシステムとなる。調音運動系において，目標位置に対する運動は種々の帰還や学習効果により，線形で受動的な運動から，非線形で能動的な運動に変わる。制御理論によれば，ステップ応答が最小時間に完了する速応系では，制御力として，ステップ入力以外に適当な切換入力が必要となり，非線形な系となる。生体においては，これは拮抗筋の操作に対応すると考えられる。先の報告1）’2）によれば，調音運動系に慣性を示す質

一112一

(2)

量m，損失素子を示す粘性摩es r，ばね効果を示すスティフネスkを導入すれば，変位κに対して，運動方程式は式（1）で表せる。

票＋A」芸＋B・x−u（の一鷲（・）

ここで，A＝r／m， B＝k／m， U（の＝f（の（制御力）／m。またd2Xc／dt2は原点の加速度を表し，舌は顎の運動に重畳して運動するために考慮されるべきものである。実際の調音運動のX線写真から観測した資料について，筋肉の制御力をステップ入力と仮定して，伝達関数を推定した結果，顎の調音運動については，不足制動状態へのステップ入力と，それによって生じるオーバ・シュートを抑制するための逆向きのステップ入力の重ね合わせによって，かなりよく模擬できることがわかった。舌や唇は，顎の運動と関連した協調的な運動をしており3），基本的には顎の場合と同様に考えていくことが可能であるが，子音を含む場合には，破裂音の場合のように，呼気圧の増大などによる力を重ね合わせる必要がある。かつ，調音運動系に能動的な最小時間制御を導入すれば，粘性による抵抗や，弾性によるばね効果を無視しても，調音器官の動きを十分よく近似できることが先の報告1）’2）で確かめられた。そこで，舌と顎とをそれぞれ別々に，式（2）で示される最小時間的制御により各音素のそれぞれのターゲット間を移行させる。

d2X

百「＝u（t）・u（の：switchi・g f・・ce 3．声道合成モデル（2） 3．1 target configuration 調音器官の移行は，側面図を規準とし，各音素の声道断面積を側面図上の横幅Di（i：セクション番号）に変換し，さらに顎の開閉による寄与を差し引いた残りを舌のtarget configurationとする。 3．2 移行方式舌に対しては，声門からの距離が等しい2点間を移行関数（3）によって移行させる。 Di（X， y）＝1）i（X、，γ、）＋（Di（X，，γ2） −1）i（X，， Y，）∠tl【（3）ここで，Di（x1， Yi）， D乞（x2， Y2）は時刻tにおける舌面の位置と目標位置で，Dτ（X， y）はAt後の位置である。またATは時刻’における速度および加速度をそれぞれv（の，α（t）としたとき，式（4）で決定される。（1／2・α〃＋v・4t） 0≦∠tT≦1 （4） 4T＝ max（D2i−D、D 3．3 加速度の制御 3．3．1 母音型制御顎や外舌筋のゆくっりした運動によって生成される母音音素間の移行における舌の運動などは，基本的に最小時間制御に支配されているものと仮定し，図一1 のような制御を行う4）。ここでは発声の速さや目標までの移行距離によって加速度の大きさを変える。すなわち，舌のiセクションのそれをαliとしたとき αlt＝lei・〔カ2・〔1．0十exp｛−A・（4．0−1））｝〕十exp（−B・li−lel）〕（5）ここで，A＝0．5十〇．2（S−0．5）， B＝0．01＋0．09S K、， K2は定数 Dはt＝0での音素間の最大距離で，移行の代表点とする。Sは発声スピード（0．0（速い）∼1．0（遅い））， i＝1∼35，Kは第二音素の調音点のセクション番号である。すなわち，式（5）によれば，加速度α、iはDが大きく，発声スピードが速いほど大きくなり，かつ目標の音素の調音点付近に対応するセクションがより一層速く動くことを意味している。顎の加速度α。はt＝0 での顎の目標までの移行距離をD。としたとき式（6）で決めている。 αa＝」Dα／〔K3（1．0十S）〕2 （6）ここで，K，は定数で，1α。1≦2．5である。 3．3．2 子音型制御子音における舌の調音は母音型のような単純な制御では調音点付近が示す速い動きを実現できないため，子音を含む音節に対しては図一2のような制御を仮定す堅碧

R

（a）把 λ ↑ λ／2 −・一一 ts 鐙巨骨 ↑ α1z α2ε e _〆 Is 0 τc 一α3z 0 一一

ｨ速度

λ （a） τ λ／2 −●一…v＝一一’⇔ ts （b） 0 −→速度（b）図一1加速度と変位の関係図一2加速度と変位の関係（母音型）（子音型）

(3)

る。この場合加速度αli，α2i，α3iと時刻t，が既知であれば，t、とtmの関係はもとまり，かつα1乞，α2i， α3iの大きさによって変化するため，自由な制御が可能な反面，それらの大きさが問題となる。ここでは簡単化のため，ts＝tm／2となるようにα3iを α3i＝〔α1ガtc十α2t（ts−tc）〕／ts （7）と決めてい。αliは母音型と同様に式（5）で，またα2iは次式で決める。 α2i＝ki〔ゐ2〔1．0十exp｛−A（4．0−D）｝〕十｛（k4十4． o（1．o−s）｝・｛exp（−Bli−le1）十々5exp（−k，li−11D｝〕（8）ここで，s， ki， le2， i， k， A， B， Dは式（5）と同じで，飢，k5， k，は定数である。この式において，定数 Aを含む項はDの大きさにつれてα2エが大きくなることを示し，Bを含む項は目標の音素の調音点付近に対応するセククションでより一層速く動き，かつ発声スピードが速くなればα2iも大きくなることを意味している。さらにle 5を含む項において， k 5は有声破裂音または鼻子音と母音との間の移行の時だけ0．5の値をとり，他の場合は0である。これは有声破裂音や鼻子音の発声の場合には，セクション11（咽頭付近）が少し速く動くという観測結果5）を実現させるためである。そして開放あるいは閉鎖を早める指令が出される時刻 tcは，やはり移行距離が大きいほど速く，また発声スピードが大きくなると速くなるように式（9）で決めている。 t。・＝ V’2Tt〔1．0−・xp｛＝頂，・A（τ0−D）｝〕／α11（9）ここでα1ゴはt＝Oで代表点に加えられる加速度， A，Dは式（5）と同じで， k7は定数である。 3．4 指令時刻の決定図一3（a），（b）に／ViCV2／系列の舌の調音点付近の力の制御と速度，変位との関係を示す。図のM，N点におけるように加速度が正（負）から負（正）に切り換る時刻を指令時刻と呼ぶことにする。指令時刻Mは破裂音や鼻子音の場合には特有な閉鎖を形成し，かつ式 ao）で表される閉鎖間隔SIに一致するようにする。 S1＝SMAX−（5ルf・4X−SルIIN）・（1．0−S） 0① ここで，SMAX， SMINはそれぞれ人間が実際に速さを変えて発したときの最大および最小の閉鎖間隔を平的したもである。一方，指令時刻Nも発声の速さを関数とし，遅い発声の場合／V2／のターゲットまで移行するのに必要な加速度切り換え時刻Gに近づくように式（IDで決める。」V＝G−le 8・（1．0−S）（11）ここで，ksは定数。碧束／C／ 1 り、、、 @、 @ 、、、 @、、、 D 、、、 N 担鮒、、A 、F 、 G 、、 _・ M 、、、 @ 、、 ∼ H E ／V2／（b）／V、／ _A 速度 α2 α1i‘ M I D A B ia） 1 ；一α3 N H

→時間

図一3 破裂音の合成における加速度と変位さらに指令時刻M，Nをわずかに早くすることにより，なまけの現象も容易に組込みうる。なお，発声の開始は常に均一な管から出発することにしている。 3．5 持続時間連続音声の合成において各音素の持続時間は各音素間の移行距離と指令時刻により自動的に決まる。ただし，語尾の音素は発声スピードに対応して定常状態を持続する。 4．音素のtarget configurationと移行の特徴使用した各音素のtarget configurationはFant’｝らのX線観測データに修正を加えたものを用いた。図4−（a）∼（c）に示す。 4．1 母音（a，i， u， e， o），半母音（y， w），中立母音（均一管）／U／は前後の母音によって舌面の形状がかなり変化するため，前後の母音が後舌母音のときには，ターゲットの形〔U1〕，前舌母のときには〔U2〕の形を用いる。母音型の移行は母音型制御とする。 4．2 破裂音（k，t， p， g， d， b）後続母音の調音的特徴，すなわち中・後母音（U， a，o）か前母音（i， e）かによって先行する破裂子音のターゲットの形を中・後母音用（添字1を付す）と前母音用（添字2を付す）との2種類を設定し，使用した。有声破裂音に対しても，無声破裂音と同一のターゲットを使用する。有声と無声破裂音の生成過程に一114 一

(4)

声門 _声門図一4合成モデルにおける音素のターゲットおける解剖学的な差異は，母音から有声破裂音へ向う際，無声破裂音と違って，咽頭付近の動きが一般に大きく，かつ破裂の瞬間，中舌部に「へこみ」が生じることがPerkellの実測で特徴的に現れている5）。また音響レベルにおいては一般に，無声破裂音では第1，第2ホルマント周波数が破裂の瞬間から後続母音への移行時点において，急激に後続母音のホルマント周波数ターゲットへと移行するが，有声破裂音では，比較的なだらかな変位を示すことが特徴とされている。そこで，モデルで舌の加速度を有声破裂音では無声破裂音より小さくし，かつ咽頭付近（11セクション付近）の加速度分布を有声破裂音の場合大きめにした（式（6）の第三項）。また／k／の場合は／t／，／p／の場合より加速度を若干小さくした。 4．3鼻子音（m，n， n， N）破裂子音と同様，声道の一部が閉鎖し，かつ口蓋帆が垂れ下がり，声道が鼻孔に連結される。閉鎖の部分は，破裂子音と同様に負の断面積にした。また鼻孔の断面積関数はFantの測定した断面積を幾分修正したものを用い，各鼻子音に対して同一にした。口腔の閉鎖や開放時の制御は比較的ゆっくりした有声破裂音と同様の制御を適用し，口蓋帆の動きは断面積の段階で移行させている。すなわち，口蓋付近の鼻孔の断面積（図一5の1，2セクション）を舌面の動きに比例させ，（cm2） 8 6 4 2 0 0 2 4 6

_{8 10 12（cm）}

図一5合成モデルにおける鼻腔の形状次式で移行させる。声門 Si ＝＝ Sii＋（S2i−Sli）・ATn （12）ここで，Sli， S2zはある時刻における鼻孔の1，2 セクショソの面積と目標面積でStは時間4t後のそれらの断面積である。dT。は調音点付近の速い動きに影響されない舌面の正規化距離関数である。また鼻音につづく母音には鼻音化が残るようになっている。なお，廃音／N／の断面積は〔nl〕と同じものを使用している。 5．合成結果および検討 5．1 声道合成 ‘ 分離された舌と顎の動きが，それぞれ別々に音素に固有な特徴をもった制御法則で目標の音素のターゲットに向って合成されるが，音響レベルで考えるとき唇唇（・）／・／→／k／声門声門（b）／k／→／a／図一6／oka／における声道の変化

(5)

は，再び両者を重ね合わせた側面図上で検討する6）。図一6は合成された／oka／について移行中の各時刻における側面図上の声道の形を示す。この場合／k／として〔ki〕が用いられている。／oka／の場合〔k1〕の調音点に／o／の影響が現れ，後へ移動して調音結合が行われる。 5．2ホンマント・パターン同様に／oka／の場合に合成されたホルマント周波数の移行を図一7に示す。図より発声スピードを変えたときの声道の形の変化がホルマント周波数の変化となって先行母音の影響の程度および子音区間の長さの変化となって現れていることがわかる。 5．3 合成音の評価と検討破裂子音，鼻子音の合成には，種々の要素が重畳的に作用しているが，特にtarget configurationの適正さ，舌面各部の加速度制御などは，さらに検討しなければならない。このモデルで使用した破裂子音や鼻子音の断面積関数は，後続母音の調音的特徴，すなわち前母音／i，e／か，中・後母音／u，a， o／かに従って，先行する子音の断面積関数を前母音型と後母音型の2種類を設定し，使用している。しかしながら／VICV2／の合成において，前母音と後母音に狭まれた破裂子音／C／を後続母音／V2／によって一意的に与えた場合，すなわち後続母音が前母音型か後母音型かによって／C／を選択しているが，／C／の調音点以外では〔C1〕と〔C2〕の間にはかなり形状に差があって，／C／を一つの target configurationで表すだけでは， Houde8｝や Perkell5）が実測により示したように，／9／，／k／の移行に際しては，舌面が声道壁に沿って移行するという性質を十分実現できない。そこで，中舌型の子音に対しては／V、CV2／の合成モデルにおける／C／の拡張と kHz S＝1．O S＝O．5 −一一一 r＝0．0 ，、一一

V？／；＝

／a／して，前後の母音が前母音か後母音かに応じてそれぞれ前母音型の子音，後母音型の子音を連結する。すなわち，この場合／VICV2／は／C／を／CIC2／で置き換えた／V、CIC2V2／の形を用い，その音素指令時刻には／C2／を強張するように移行させればよい9）。このようにして合成した／aki／の声道の動きおよびホルマントパターンをそれぞれ図一8，図一9に示す。このようにして合成した音声は単純な結合に比べて良くなっている。唇／k？／声門／a／

十

声門（b）／akik2i／図一8破裂音の合成における声道の変化の比較 kHz 2

≡闇乙三

’”_ﾌ・ F3 ∨’．． t ．／一一一r・° ／．・’ 1 F2

／

／’ ♂c二，，．◆

Fl

Nこ、㌔． N’・ ’＼ ∼、＿：ap．一，・

0 100 200（msec）

図一7合成した／oka／のホルマント・パタン／a／／k／／i／

0」一＿L＿

0 100 200 300（msec）図一9破裂音の合成にけるホルマント・パターンの比較

一116一

(6)

6．結言連続音声の合成における品質の向上のためには，声道合成，波形合成のより良い法則性を見い出すことが重要である1°）。本報告におては，まず声道合成は二つの音素間の移行問題から，順次その数を増し，舌および顎の速度が零となった時点で二種類の制御法則のいずれかを適用していくことによって導かれる。これらの法則は音韻の固有性および生理的拘束を加味したもので，発声スピードを自由に変えられ，より一般的かつ簡略化したものとなっている。このような法則を用い，母音，破裂音，鼻音などの声道合成を行い，各音素の継続時間，ホルマントパターンなど，定性的にはほぼ実測値に近い値を得ることができた。しかし音韻性および品質を向上させるためには，ターゲット形の改善，調音器官の移行の制御変数の検討や，第5節で述べた／V、CV2／中の／C／に対する処置組み込みなどが必要である。文献 1）有泉，重永：“調音器官の動特性の推定”，日本音響学会音声研究会，1975年3月 2）有泉：“調音器官の動特性の推定とシミュレーション”，山梨大学工学部研究報告，vo1．33，1982 3）有泉，高田：“X線映画による調音運動の分析”，日本音響学会音声研究委員会，1974年1月 4）有泉均：“母音および半母音における調音器官の動きについて“，日本音響学会音声研究会，1979 5） J．S． Perkell：‘‘Physiology of speech production” MIT Press（1969） 6）有泉均：“声道の観測による声道側面図の音響量への変換法について”，山梨大学工学部研究報告，vo1，31， 1980 7） G．Fant：‘‘Acoustic Theory of Speech Produc・・ tion”M皿ton（1960） 8）R．A． Houde：“A Study of Tongue Body Motion during Selected Speech Sounds”Univ． Michigan （1967） 9）有泉，重永：“破裂音の声道の形に及ぼす母音の影響”，音響学会音声研究会，1977年11月 10）有泉，重永：“声道模擬による連続音声の合成”，音響学会音声研究会，1978年9月ド

声道模擬による音声の合成について 利用統計を見る