• 検索結果がありません。

本章のまとめ

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 110-125)

本章では,フィルタ(声道形状)のモデルについて,これまで行ってきた2次元 断面上での模倣を3次元に拡張し,3次元MRI動画と実音声を用いて声道形状の 推定を高精度化することにより高品質な音声の合成を可能にした音声分析合成方

式を提案した。声道形状のモデルには,複数話者の母音および1話者の複数の子 音のMRIデータを基に構築した全ての声道形状を同じ次数のパラメータで表現で きる声道断面積モデルを用いた。このモデルは,F0調節時の声道形状の変化など の発話機構の生理学的知識に基づくパラメータの変換に対応するため,解剖学的 な位置の基準を考慮し構築を行った。分析合成時には,3次元MRI動画から声道 断面積モデルの初期値となるパラメータを決定し,実音声を用いて最適化を行う ことでパラメータを推定した。本方式を用いた幾つかの単語の合成実験を行った 結果,元音声と合成音声とのスペクトル歪みの平均は約3.67 dBとなり,人間の 音声生成メカニズムに基づく音声合成方式を用いても,3次元の声道形状を用い て最適化を行うことで,高品質な音声を合成することができることをが明らかと なった。

7 あとがき

本論文では,人間の音声生成メカニズムに基づく音声合成方式を用いたテキス ト音声合成システムの開発を目標として行ってきた研究についてまとめた。

音声生成メカニズムに基づく音声合成方式により,自然性の高い音声の合成を 行うには,音声生成の生理機構を解明することが重要な課題の1つである。本研究 では,はじめに,内咽頭筋以外の活動によるF0調節の生理機構の解明を行った。

複数の話者が下降音階で定常母音を発声した時の正中矢状断面をMRIを用いて撮 像し喉頭周囲構造の位置変化を分析した。その結果、輪状軟骨と甲状軟骨だけで なく頸椎、舌骨などの器官もF0調節に大きな役割を果たしていることが確認され た。その中でも頸椎の自然湾曲による輪状軟骨の回転は従来の研究で指摘されて いなかった新しい知見である。この機構は、喉頭の上下運動を輪状甲状調節の回 転に変換する生理機構である。この機構により、従来から問題とされてきたF0下 降時の舌骨下筋の活動、喉頭の下降傾向を説明することができる。よってこれら は,CTの弛緩と共にF0下降の主要因であると考えられる。また、今回得られた 結果は,従来の報告にあるような甲状輪状関節の水平移動の成分やCT以外の内 喉頭筋のF0への影響なども推測することができるものであった。

このような喉頭の上下動を含めたF0調節機構を考慮すると,F0調節と声道形 状制御との間に相互作用が生じることが予想される。本研究ではつぎに,このF0 調節機構を実装し,舌と喉頭とを含む全ての発話器官間相互の力の授受を考慮す ることにより,F0調節と声道形状制御との相互作用を実現する発話器官の生理学 的モデルを構築した。このモデルを用いて,日本語5母音および調音を強調した

ときの5母音を生成し調音動作のF0に及ぼす影響を調べた。その結果,調音の強 調動作により各母音のフォルマントが分離するとともに,母音の固有ピッチも強 調される結果が得られた。これは「母音の固有ピッチが舌と喉頭との舌骨を介す る接続により生じる」という理論を支持する結果であった。また,F0を下降させ た時の音声を生成し,F0調節の調音に与える影響を調べた。その結果,F0調節に より声道形状がMRIにより計測された形状と同様に変化する結果が得られた。こ れらのことから,F0調節と声道形状制御との相互作用が存在し,本モデルを用い てその相互作用を表現することが可能であることが確認された。この相互作用の 実現により,F0変化による音声の周波数特性の変化を含む音声をモデルを用いて 生成することが可能となった。よってこの機構を合成システムに実装することに より,テキスト音声合成システムのデータベースに異なるF0の同じ音素を複数蓄 積する必要がなくなり,自然性が高くコンパクトな合成音声システムの開発が可 能になると考えられる。しかし,本モデルを用いて生成した音声は,定性的には 相互作用を含む実音声と同じフォルマント変化の傾向を示したが,定量的には日 本語5母音の合成音声と実音声の第1-3フォルマント周波数の平均誤差が10.7%と 多くの誤差を含み実用化には不十分な結果であった。このことから音質の劣化が 本方式の実用化へのボトルネックになることが予想された。音質劣化の原因とし ては,モデル化の際に行った様々な単純化や計測データに含まれていた誤差など が考えられる。特に,このモデルのパラメータはMRIの矢状断面の2次元声道形 状の再現を目標に最適化を行ったものであるが,音声合成には3次元形状が必要 であることから,2次元データから3次元データに変換する際に生じた誤差が主原 因ではないかと考えられた。

よって最後に,本方式の実用化へのボトルネックを解消するために、声道フィル タ部についてこれまで行ってきた2次元断面上での声道形状の模倣を3次元声道 形状を模倣するモデルに拡張することで,合成音声の高品質化をを目指した。本 研究では,3次元MRI動画から得られた声道形状のパラメータを実音声を用いて 最適化することで高品質な音声の合成を可能にする声道断面積モデルによる分析 合成方式を提案した。あらかじめ,複数話者の母音および1話者の複数の子音の MRIデータを基に全ての声道形状を表現できる汎用の声道断面積モデルを作成し た。この声道断面積モデルはF0変化時の声道形状の変化などの発話機構の生理学

的知識に基づくパラメータの変換に対応するため,解剖学的な位置の基準を考慮 し作成を行った。分析合成に用いるパラメータは,汎用のモデルを基準に3次元 MRI動画から初期のパラメータを推定し,実音声を用いて最適化を行うことで推 定した。本方式を用いて幾つかの単語を合成した結果,元音声と合成音声とのス ペクトルの平均誤差は約3.67dBとなった。この結果より,人間の音声生成メカニ ズムに基づく音声合成方式を用いても高品質な音声を合成することができること が明らかとなった。

本研究の最終的な目的は,人間の音声生成メカニズムに基づく音声合成方式に よるテキスト音声合成システムの実用化である。残念ながら,システムの完成に は至らなかった。今後の課題を以下に示す。

1. 先に明らかにしたF0調節の生理機構を声道断面積モデルによる分析合成方 式に実装できるように適切なモデル化を行う。そして,F0の違いによる声 道形状の変化を含む音声を収録することなく合成できることを確認する。

2. 多くの単語について声道断面積モデルの分析を行い,音素を追加することで,

任意の音声を合成できるシステムを構築を行う。また,前後の音素環境の違 いによる調音結合をモデル化し全ての音素環境を含む音声を収録することな く合成できることを確認する。

3. 個人性や感情音声の生理的要因を分析しモデル化を行う。

これらを行うことで,高品質で,声質,感情など多様な音声を表現でき,かつ,

コンパクトなテキスト音声合成システムの開発を行いたいと考えている。

謝辞

本研究を行なうに当たり, 終始御指導を賜わった党 建武 教授,本多 清志 博士 に深謝致します。

また, 日頃から有益な御助言をいただき, 多面に渡って励ましていただいた甲南 大 北村 達也 准教授,ATR 竹本 浩典 博士,ATR 正木 信夫 博士に感謝致します。

そして,MRIの撮像実験にご協力頂いたATR BAIC 島田 育廣 博士,藤本 一郎 氏に感謝致します。

最後に, 本論文をまとめるに当たってご助言をいただいた北陸先端大 赤木 正人 教授,小谷 一孔 准教授,徳田 功 准教授,および,本論文の作成に御協力いただ いた党研究室 藤田 覚 氏,ATR人間情報研究所 第4研究室および人間情報科学研 究所 BPIプロジェクトに所属されておりました研究員の皆様に厚く御礼申し上げ ます。

ありがとうございました。

参考文献

[1] 広川智久, 箱田和男, 中津良平, “波形接続型規則合成法における波形選択法,”

信学技報, SP89-114, Jan. 1989.

[2] ニック・キャンベル, アラン・ブラック, “CHATR : 自然音声波形接続型任意 音声合成システム,”信学技報, SP96-7, May. 1996.

[3] J. Schroeter and M. Sondhi. “Techniques for estimating vocal-tract shapes from the speech signal,” IEEE Trans. Speech and Audio Processing, 2, 133-150, (1994).

[4] J. Hogden, A. Lofqvist, V. Gracco, I. Zlokamik, P. Rubin and E. Saltzman,

“Accurate recovery of articulator positions from acoustics: New conclusions based on human data,” J. Acoust. Soc. Am. 100(3), 1819-1834, (1996).

[5] 白井克彦, 誉田雅彰, “音声波からの調音パラメータの推定,” 電子情報通信学 会論文誌(A), J61-A, 5, 409-416, (1978).

[6] 鈴木紳,岡留剛,誉田雅彰, “音響調音対コードブックを用いた音声からの調音 運動の逆推定”, 電子情報通信学会論文誌(A), J85-A, 8, 840-846, (2002).

[7] 後藤正三, 三輪譲二, “調音音響変換A-b-S法を用いたVCV音声の動的声道形 推定,” 信学技報, SP2002-175, 35-40, (2003)

[8] Y. Katsuki, “The function of the phonatory muscles,” Jpn. J. Physiol. 1, 29-36 (1950).

[9] A. Sonninen, “Is the length of the vocal cords the same at all different level of singing ?,” Acta Otolaryngol. Suppl., 118, 219-231 (1954).

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 110-125)