本章のまとめ

本章では，フィルタ(声道形状)のモデルについて，これまで行ってきた２次元断面上での模倣を３次元に拡張し，３次元MRI動画と実音声を用いて声道形状の推定を高精度化することにより高品質な音声の合成を可能にした音声分析合成方

式を提案した。声道形状のモデルには，複数話者の母音および１話者の複数の子音のMRIデータを基に構築した全ての声道形状を同じ次数のパラメータで表現できる声道断面積モデルを用いた。このモデルは，F0調節時の声道形状の変化などの発話機構の生理学的知識に基づくパラメータの変換に対応するため，解剖学的な位置の基準を考慮し構築を行った。分析合成時には，３次元MRI動画から声道断面積モデルの初期値となるパラメータを決定し，実音声を用いて最適化を行うことでパラメータを推定した。本方式を用いた幾つかの単語の合成実験を行った結果，元音声と合成音声とのスペクトル歪みの平均は約3.67 dBとなり，人間の音声生成メカニズムに基づく音声合成方式を用いても，３次元の声道形状を用いて最適化を行うことで，高品質な音声を合成することができることをが明らかとなった。

第 7 _章あとがき

本論文では，人間の音声生成メカニズムに基づく音声合成方式を用いたテキスト音声合成システムの開発を目標として行ってきた研究についてまとめた。

音声生成メカニズムに基づく音声合成方式により，自然性の高い音声の合成を行うには，音声生成の生理機構を解明することが重要な課題の１つである。本研究では，はじめに，内咽頭筋以外の活動によるF0調節の生理機構の解明を行った。

複数の話者が下降音階で定常母音を発声した時の正中矢状断面をMRIを用いて撮像し喉頭周囲構造の位置変化を分析した。その結果、輪状軟骨と甲状軟骨だけでなく頸椎、舌骨などの器官もF0調節に大きな役割を果たしていることが確認された。その中でも頸椎の自然湾曲による輪状軟骨の回転は従来の研究で指摘されていなかった新しい知見である。この機構は、喉頭の上下運動を輪状甲状調節の回転に変換する生理機構である。この機構により、従来から問題とされてきたF0下降時の舌骨下筋の活動、喉頭の下降傾向を説明することができる。よってこれらは，CTの弛緩と共にF0下降の主要因であると考えられる。また、今回得られた結果は，従来の報告にあるような甲状輪状関節の水平移動の成分やCT以外の内喉頭筋のF0への影響なども推測することができるものであった。

このような喉頭の上下動を含めたF0調節機構を考慮すると，F0調節と声道形状制御との間に相互作用が生じることが予想される。本研究ではつぎに，このF0 調節機構を実装し，舌と喉頭とを含む全ての発話器官間相互の力の授受を考慮することにより，F0調節と声道形状制御との相互作用を実現する発話器官の生理学的モデルを構築した。このモデルを用いて，日本語５母音および調音を強調した

ときの５母音を生成し調音動作のF0に及ぼす影響を調べた。その結果，調音の強調動作により各母音のフォルマントが分離するとともに，母音の固有ピッチも強調される結果が得られた。これは「母音の固有ピッチが舌と喉頭との舌骨を介する接続により生じる」という理論を支持する結果であった。また，F0を下降させた時の音声を生成し，F0調節の調音に与える影響を調べた。その結果，F0調節により声道形状がMRIにより計測された形状と同様に変化する結果が得られた。これらのことから，F0調節と声道形状制御との相互作用が存在し，本モデルを用いてその相互作用を表現することが可能であることが確認された。この相互作用の実現により，F0変化による音声の周波数特性の変化を含む音声をモデルを用いて生成することが可能となった。よってこの機構を合成システムに実装することにより，テキスト音声合成システムのデータベースに異なるF0の同じ音素を複数蓄積する必要がなくなり，自然性が高くコンパクトな合成音声システムの開発が可能になると考えられる。しかし，本モデルを用いて生成した音声は，定性的には相互作用を含む実音声と同じフォルマント変化の傾向を示したが，定量的には日本語５母音の合成音声と実音声の第1-3フォルマント周波数の平均誤差が10.7%と多くの誤差を含み実用化には不十分な結果であった。このことから音質の劣化が本方式の実用化へのボトルネックになることが予想された。音質劣化の原因としては，モデル化の際に行った様々な単純化や計測データに含まれていた誤差などが考えられる。特に，このモデルのパラメータはMRIの矢状断面の２次元声道形状の再現を目標に最適化を行ったものであるが，音声合成には３次元形状が必要であることから，2次元データから3次元データに変換する際に生じた誤差が主原因ではないかと考えられた。

よって最後に，本方式の実用化へのボトルネックを解消するために、声道フィルタ部についてこれまで行ってきた２次元断面上での声道形状の模倣を３次元声道形状を模倣するモデルに拡張することで，合成音声の高品質化をを目指した。本研究では，３次元MRI動画から得られた声道形状のパラメータを実音声を用いて最適化することで高品質な音声の合成を可能にする声道断面積モデルによる分析合成方式を提案した。あらかじめ，複数話者の母音および１話者の複数の子音の MRIデータを基に全ての声道形状を表現できる汎用の声道断面積モデルを作成した。この声道断面積モデルはF0変化時の声道形状の変化などの発話機構の生理学

的知識に基づくパラメータの変換に対応するため，解剖学的な位置の基準を考慮し作成を行った。分析合成に用いるパラメータは，汎用のモデルを基準に３次元 MRI動画から初期のパラメータを推定し，実音声を用いて最適化を行うことで推定した。本方式を用いて幾つかの単語を合成した結果，元音声と合成音声とのスペクトルの平均誤差は約3.67dBとなった。この結果より，人間の音声生成メカニズムに基づく音声合成方式を用いても高品質な音声を合成することができることが明らかとなった。

本研究の最終的な目的は，人間の音声生成メカニズムに基づく音声合成方式によるテキスト音声合成システムの実用化である。残念ながら，システムの完成には至らなかった。今後の課題を以下に示す。

1. 先に明らかにしたF0調節の生理機構を声道断面積モデルによる分析合成方式に実装できるように適切なモデル化を行う。そして，F0の違いによる声道形状の変化を含む音声を収録することなく合成できることを確認する。

2. 多くの単語について声道断面積モデルの分析を行い，音素を追加することで，

任意の音声を合成できるシステムを構築を行う。また，前後の音素環境の違いによる調音結合をモデル化し全ての音素環境を含む音声を収録することなく合成できることを確認する。

3. 個人性や感情音声の生理的要因を分析しモデル化を行う。

これらを行うことで，高品質で，声質，感情など多様な音声を表現でき，かつ，

コンパクトなテキスト音声合成システムの開発を行いたいと考えている。

謝辞

本研究を行なうに当たり, 終始御指導を賜わった党建武教授，本多清志博士に深謝致します。

また, 日頃から有益な御助言をいただき, 多面に渡って励ましていただいた甲南大北村達也准教授，ATR 竹本浩典博士，ATR 正木信夫博士に感謝致します。

そして，MRIの撮像実験にご協力頂いたATR BAIC 島田育廣博士，藤本一郎氏に感謝致します。

最後に, 本論文をまとめるに当たってご助言をいただいた北陸先端大赤木正人教授，小谷一孔准教授，徳田功准教授，および，本論文の作成に御協力いただいた党研究室藤田覚氏，ATR人間情報研究所第４研究室および人間情報科学研究所 BPIプロジェクトに所属されておりました研究員の皆様に厚く御礼申し上げます。

ありがとうございました。

参考文献

[1] 広川智久, 箱田和男, 中津良平, “波形接続型規則合成法における波形選択法,”

信学技報, SP89-114, Jan. 1989.

[2] ニック・キャンベル, アラン・ブラック, “CHATR : 自然音声波形接続型任意音声合成システム,”信学技報, SP96-7, May. 1996.

[3] J. Schroeter and M. Sondhi. “Techniques for estimating vocal-tract shapes from the speech signal,” IEEE Trans. Speech and Audio Processing, 2, 133-150, (1994).

[4] J. Hogden, A. Lofqvist, V. Gracco, I. Zlokamik, P. Rubin and E. Saltzman,

“Accurate recovery of articulator positions from acoustics: New conclusions based on human data,” J. Acoust. Soc. Am. 100(3), 1819-1834, (1996).

[5] 白井克彦, 誉田雅彰, “音声波からの調音パラメータの推定,” 電子情報通信学会論文誌(A), J61-A, 5, 409-416, (1978).

[6] 鈴木紳,岡留剛,誉田雅彰, “音響調音対コードブックを用いた音声からの調音運動の逆推定”, 電子情報通信学会論文誌(A), J85-A, 8, 840-846, (2002).

[7] 後藤正三, 三輪譲二, “調音音響変換A-b-S法を用いたVCV音声の動的声道形推定,” 信学技報, SP2002-175, 35-40, (2003)

[8] Y. Katsuki, “The function of the phonatory muscles,” Jpn. J. Physiol. 1, 29-36 (1950).

[9] A. Sonninen, “Is the length of the vocal cords the same at all diﬀerent level of singing ?,” Acta Otolaryngol. Suppl., 118, 219-231 (1954).

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 110-125)

第 7 章 あとがき

謝辞

参考文献

第 7 _章あとがき