• 検索結果がありません。

博士論文審査報告書

N/A
N/A
Protected

Academic year: 2022

シェア "博士論文審査報告書"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)早稲田大学大学院理工学研究科. 博士論文審査報告書. 論. 文. 題. 目. 高品質音声合成のためのスペクトル 包絡の推定及び変換に関する研究 Studies on Spectral Envelope Estimation and Conversion for High Quality Speech Synthesis. 申. 請. 者. 望月 亮 Ryo Mochizuki 情報・ネットワーク専攻 知覚情報システム研究. 2006年. 2月.

(2) 近年,コーパスベースの音声合成方式によって,音質の良い音声の合成が可 能となった.特に大規模な音声コーパスを用い,韻律変換をまったく行わない 波形接続合成方式では,読み上げ口調の音声に限れば自然発声と比較してほと んど遜色の無い合成が可能になっている.一方,音質の改善が進むにつれ,最 近では感情や態度,話者性,発話口調等を自由に制御するための技術が求めら れるようになってきている.例えば音声合成を音声対話システムへ応用する場 合,ユーザとシステムとの自然なやり取りを実現するためには単なる読み上げ 口調ではなく,システムの発話意図や態度を表現する多彩な声質の制御が必要 とされている. 音 声 合 成 に よ っ て 多 彩 な 発 話 を 実 現 す る 手 段 と し て は ,( 1 ) 発 話 ス タ イ ル や 話 者 ご と に 音 声 を 録 音 し て お き 合 成 時 に は こ れ を 編 集 す る ,( 2 ) 少 量 デ ー タ の 学 習 によって合成素片生成モデルを適応し合成素片を変形させる,等のアプローチ が考えられる.前者は高音質を実現するという意味では有効であるが,現在の 波形接続合成方式では録音やラベル情報の付加に膨大な人手の作業が発生する ため,発話スタイルや話者ごとにデータベースを構築するのは現実的な方法と は言いがたい.一方,後者においては,現時点では十分な適応・変換方法が存 在しないため変換処理を施すと音質劣化が目立ったり変換自体が不十分だった りといった問題があるものの,この問題は今後検討が進むにつれて改善される ことが期待される. 現在,高音質な合成を実現している波形接続合成方式は,合成時に元となる 音声データを一切加工・変形しない方式であり,このことに依存した形で高音 質を実現している.しかし,発話の多様化を目指すためには,音声信号処理に よ る 加 工 ・ 変 形 が 可 能 な 方 式 を 採 用 す る 必 要 が あ る . PSOLA ( Pitch S y n c h r o n o u s O v e r L a p A d d )法 は 波 形 接 続 合 成 よ り 変 換 に 対 す る 自 由 度 が 高 く , 変換率が低い場合は高音質な韻律変換が可能であり,従来の線形予測を代表と するパラメトリックな方式よりも格段に音質が良いという長所を持つ.本研究 で は , こ の 高 音 質 な 音 声 合 成 が 期 待 で き る PSOLA 法 に 注 目 し , 音 質 の 改 善 , 及び多彩な発話表現の実現に向けたスペクトル包絡の抽出,補正,及び変換に 関する要素技術を提案・検討したものである. 以下に本論文の概要とその評価について述べる. 第1章は序章であり,本研究の目的と,その背景について述べている. 第 2 章では,歪の少ないスペクトル包絡の推定を目的とし,ピッチ同期で短 時 間 波 形 を 抽 出 す る 方 法 に つ い て 提 案 し て い る . PSOLA 法 は 短 時 間 窓 を 利 用 して基本周期の影響を含まない短時間波形を抽出し,この短時間波形を所望す る 基 本 周 期 で 再 配 列 す る こ と に よ っ て F0 変 換 を 行 う こ と が で き る . し か し , 安定したピッチ同期分析が行えない場合,波形抽出位置がふらつき,韻律変換 処理によって音質劣化を引き起こす.従来,短時間波形の抽出は基本周期の 2 2.

(3) 倍の窓長を持つハニング窓で抽出するのが一般的であったが,先行研究ではど の位置を窓関数の中心に設定するのが音質として良いのか明確な回答を持って いなかった.本研究ではこの問題に対し,変形自己相関によって線形予測残差 波形のピーク抽出を行い,このピーク位置を短時間波形抽出の基準位置(ピッ チマーク)として波形抽出する方法を提案している.また,提案方法によって 決定したピッチマークを基準に,どの程度遅延した位置にスペクトル歪が最小 となる波形抽出位置が存在するのか,音声信号モデルを用いて最適な波形抽出 位置を実験的に調査している.これらの提案・検討により,従来手法に比べ波 形の揺らぎに影響されることなく安定して品質の高い短時間波形を切り出すこ とに成功しており,その成果は高く評価できる. 第3章では,ピッチ同期で抽出した短時間波形の低域におけるスペクトル包 絡 を , ス ペ ク ト ル 傾 斜 と F0 変 換 率 に 応 じ て 動 的 に 再 構 築 す る 方 法 を 提 案 し て い る . PSOLA 法 に よ っ て 韻 律 変 換 を 行 う 場 合 , 抽 出 し た 短 時 間 波 形 を そ の ま ま利用すると変換音声に著しい音質劣化が生じる場合がある.この音質劣化は 原音声から抽出した短時間波形のスペクトル包絡が韻律変換後本来あるべき形 状 か ら 外 れ る た め で あ る が ,こ の 原 因 と し て 著 者 は P S O L A 法 で は 元 の F 0 よ り 低域において信頼できるスペクトル情報が得られないという問題が存在するこ と を 初 め て 指 摘 し た . 本 来 , 周 波 数 分 析 に よ っ て 求 め ら れ る ス ペ ク ト ル は , F0 の整数倍にあたる高調波のみで構成される線スペクトルとなるのが理想である が,実際は短時間波形抽出に用いる窓関数の漏れが隣接する高調波間で重畳さ れ , 滑 ら か な ス ペ ク ト ル 包 絡 が 形 成 さ れ る . し か し F0 よ り 低 い 帯 域 に お い て は ,F 0 に お け る 窓 関 数 の 漏 れ の 影 響 が 観 測 さ れ る の み で ,正 し い ス ペ ク ト ル 包 絡 情 報 が 観 測 で き な い . こ の 低 域 ス ペ ク ト ル の 問 題 に よ り , F0 を 低 い 方 へ 変 換した場合に音質劣化が顕著になっているとしている.この問題に対処するた め ,F 0 変 換 を 行 っ て も ス ペ ク ト ル 傾 斜 は 保 存 さ れ る と い う 仮 定 に 基 づ い て ,動 的に低域におけるスペクトル包絡を再構築し,音質劣化を軽減する方法を提案 し て い る .提 案 方 法 は ,F 0 を 低 い 方 へ 変 換 す る 音 声 変 換 に お い て ,従 来 手 法 に 比べ格段に高いプリファレンスを与えており,高く評価できる. 第4章では,韻律特徴量を利用し,統計的な手法によってスペクトル特徴量 をターゲットの環境にあったスペクトル特徴量へ変換する方法について提案し ている.音声合成によって多様な発声を実現するためには,音声収録時の発話 から,ターゲットの発話へ変換するための適応技術が必要となる.話者の発話 スタイルや話者性を決定づける要因としては,イントネーションやアクセント など韻律的な特徴が重要であるが,それに劣らず,声質を決定するスペクトル 包絡に関しても精度の良い変換が強く望まれる.この適応・変換を実現するた めに,今まで統計的な手法を用いた様々な方法が検討されているが,従来方法 のほとんどの研究では変換元となるスペクトルとターゲットのスペクトルとの 1 対 1 の対応学習によって変換が行われていた.しかし,スペクトル変換を音 3.

(4) 声合成へ応用した場合を考えると,変換関数の入力にはスペクトル以外にも韻 律や音素系列などのコンテキスト情報を利用することが可能である.特にスペ クトルは韻律特徴量との間にある程度の相関があるため,変換モデルに韻律情 報を考慮することで変換精度の改善が期待できる.この点に着目し,本研究で は韻律情報を加味した上でスペクトルを変換する統計的手法を提案し,声質変 換に応用することを試みている.比較実験の結果,スペクトル変換時に韻律情 報を組み入れることで,それを組み入れないときに比べ高い品質を実現できる ことを示しており,着実な実験結果が評価できる。 第5章は結論であり,本論文のまとめと今後の展望について述べている. 以上を要するに,本研究では声質の変換を対象とする音声合成において実用 化 の 観 点 で 有 望 視 さ れ る P S O L A を 対 象 と し て ,そ の 短 時 間 基 本 波 の 抽 出 方 式 , 韻律の変形時におけるスペクトル再構成方式,スペクトルの変換方式について 新たな手法を提案することで,従来にない柔軟性の高い高品質な音声合成を可 能 に し た も の で あ り ,そ の 工 学 的 価 値 は 高 い .よ っ て ,本 論 文 は ,博 士( 工 学 ) の学位にふさわしいものと認める. 2006年2月 審査員 (主査). 早稲田大学教授. 工学博士(早稲田大学). 小林. 哲則. 早稲田大学教授. 工学博士(早稲田大学). 白井. 克彦. 早稲田大学教授. 工学博士(早稲田大学). 誉田. 雅彰. 早稲田大学教授. 工学博士(早稲田大学). 匂坂. 芳典. 4.

(5)

参照

関連したドキュメント

論文要旨

[r]

[r]

As preciously discussed the steric effect is les=_ important in the initial complex formation Thus the relative reactivity in the complex formation could be

Title 合成開口レーダを利用した圃場情報の取得に関する研究 [論文内容及び審査の要旨].

祭)に対する都市の関与のありようを論じた。論者は、主に小アジア南西部の都市ア

[r]

Title 一次元量子スピン系のダイナミックスへの試み(物性にお けるソリトンの統計力学とダイナミックス,科研費研究会 報告) Author(s) 今田, 正俊 Citation 物性研究 (1982), 38(1): A41-A43