• 検索結果がありません。

博 士 論 文 概 要

N/A
N/A
Protected

Academic year: 2022

シェア "博 士 論 文 概 要"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)早稲田大学大学院理工学研究科. 博 士 論 文 概 要. 論. 文. 題. 目. 高品質音声合成のためのスペクトル包絡の 推定 及び変換に関する研究 Studies on Spectral Envelope Estimation and Conversion for High Quality Speech Synthesis. 申. 請. 者. 望月 亮 氏. 名. 専攻・研究指導 (課程内のみ). Ryo Mochizuki 情報・ネットワーク専攻 知覚情報システム研究. 2005 年 12 月.

(2) 近年,コーパスベースの音声合成方式によって,音質の良い音声の合成が可能 となった.特に大規模な音声コーパスを用い,韻律変換をまったく行わない波形 接続合成方式では,読み上げ口調の音声に限れば自然発声と比較してほとんど遜 色の無い合成が可能である.一方,音質の改善が進むにつれ,最近では感情や態 度,話者性,発話口調を自由に制御するための技術が求められている.例えば音 声合成を音声対話システムへ応用する場合,ユーザとシステムとの自然なやり取 りを実現するためには単なる読み上げ口調ではなく,システムの発話意図や態度 の多彩なパラ言語表現が必要不可欠である. 音 声 合 成 に よ っ て 多 彩 な 発 話 を 実 現 す る 手 段 と し て は ,( 1 ) 発 話 ス タ イ ル や 話 者 ご と に 音 声 を 録 音 す る ,( 2 ) 少 量 デ ー タ の 学 習 に よ っ て 適 応 す る ,等 の ア プ ロ ー チ が考えられる.前者は高品質を実現するという意味では有効であるが,現在の波 形接続合成方式では録音やラベル情報の付加に膨大な人手の作業が発生するため, 発話スタイルや話者ごとにデータベースを構築するのは現実的な方法とは言いが たい.一方,後者においては,現時点では十分な適応・変換方法が存在しないた め変換処理を施すと音質劣化が目立ったり,変換自体が不十分だったりといった 問題がある.しかし,この問題は今後検討が進むにつれて改善されることが期待 される. 現在,高品質な合成を実現している波形接続合成方式は,合成時に元となる音 声データを一切加工しない方式であり,このことが高品質を実現するカギとなっ ている.しかし,発話の多様化を目指すためには,少なくとも適応や変換処理が 施せるレベルまで「音声信号処理」に踏み込んだ方式を採用する必要がある. P S O L A( P i t c h S y n c h r o n o u s O v e r L a p A d d ) 法 は 波 形 接 続 合 成 よ り 変 換 に 対 す る 自由度が高く,変換率が低い場合は高品質な韻律変換が可能であり,従来の線形 予測を代表とするパラメトリックな方式よりも格段に音質が良いという長所を持 つ . 本 研 究 で は 高 品 質 な 音 声 合 成 が 期 待 で き る PSOLA 法 を ベ ー ス に , 音 質 の 改 善,及び多彩な発話表現の実現に必要不可欠なスペクトル包絡の抽出,補正,及 び変換に関する要素技術を提案・検討する. 以下に本論文の構成を示す. 第1章では,本研究の目的と,その背景について述べる.また,関連する従来 研究を紹介する. 第 2 章では,歪の少ないスペクトル包絡の推定を目的とし,ピッチ同期で短時 間 波 形 を 抽 出 す る 方 法 に つ い て 提 案 す る . PSOLA 法 は 短 時 間 窓 を 利 用 し て 基 本 周期の影響を含まない短時間波形を抽出し,この短時間波形を所望する基本周期 で 再 配 列 す る こ と に よ っ て F0 変 換 を 行 う こ と が で き る . し か し , 安 定 し た ピ ッ チ同期分析が行えない場合,波形抽出位置がふらつき,韻律変換処理によって音 質劣化を引き起こす.従来,短時間波形の抽出は基本周期の 2 倍の窓長を持つハ ニング窓で抽出するのが一般的であったが,先行研究ではどの位置を窓関数の中 1.

(3) 心に設定するのが音質として良いのか明確な回答を持っていなかった.そこで変 形自己相関によって線形予測残差波形のピーク抽出を行い,このピーク位置を短 時間波形抽出の基準位置(ピッチマーク)として波形抽出する方法を提案する. また,提案方法によって決定したピッチマークを基準に,どの程度遅延した位置 にスペクトル歪が最小となる波形抽出位置が存在するのか,音声信号モデルを用 いて最適な波形抽出位置を実験的に探索する.ここで決定した波形抽出位置を用 い て F0 変 換 音 声 を 作 成 し , 試 聴 評 価 に よ っ て 提 案 す る 波 形 抽 出 位 置 の 有 効 性 を 評 価 す る . ま た , ピ ッ チ マ ー ク 決 定 の 頑 健 性 に つ い て も F0 変 換 音 声 の 試 聴 実 験 によって評価する. 第3章では,ピッチ同期で抽出した短時間波形の低域におけるスペクトル包絡 を , ス ペ ク ト ル 傾 斜 と F0 変 換 率 に 応 じ て 動 的 に 再 構 築 す る 方 法 を 提 案 す る . PSOLA 法 に よ っ て 韻 律 変 換 を 行 う 場 合 , 抽 出 し た 短 時 間 波 形 を そ の ま ま 利 用 す ると変換音声に著しい音質劣化が生じる場合がある.この音質劣化は原音声から 抽出した短時間波形のスペクトル包絡が韻律変換後の環境に適合していないこと が 原 因 と し て 考 え ら れ る .こ の 原 因 の 一 つ と し て ,PSOLA 法 で は 元 の F0 よ り 低 域 に お い て 信 頼 で き る ス ペ ク ト ル 情 報 が 得 ら れ な い と い う 問 題 が 存 在 す る .本 来 , 周 波 数 分 析 に よ っ て 求 め ら れ る ス ペ ク ト ル は ,F 0 の 整 数 倍 に あ た る 高 調 波 の み で 構成される線スペクトルとなるのが理想であるが,実際は短時間波形抽出に用い る窓関数の漏れが隣接する高調波間で重畳され,滑らかなスペクトル包絡が形成 さ れ る . し か し F0 よ り 低 い 帯 域 に お い て は , F0 に お け る 窓 関 数 の 漏 れ の 影 響 が 観測されるのみで,正しいスペクトル包絡情報が観測できない.この低域スペク ト ル の 問 題 に よ り , F0 を 低 い 方 へ 変 換 し た 場 合 に 音 質 劣 化 が 顕 著 に な っ て い る も の と 考 え ら れ る .そ こ で 本 研 究 で は ,F 0 変 換 を 行 っ て も ス ペ ク ト ル 傾 斜 は 保 存 されるという仮定に基づいて,動的に低域におけるスペクトル包絡を再構築し, 音 質 劣 化 を 軽 減 す る 方 法 を 検 討 す る . 実 際 に 提 案 方 法 に よ っ て 生 成 し た F0 変 換 音 声 の 試 聴 評 価 を 行 い ,F 0 を 低 い 方 へ 変 換 し た 場 合 に ,提 案 方 法 の 有 効 性 を 確 認 する. 第4章では,韻律特徴量を利用し,統計的な手法によってスペクトル特徴量を ターゲットの環境にあったスペクトル特徴量へ変換する方法について提案する. 音声合成によって多様な発声を実現するためには,音声収録時の発話から,ター ゲットの発話へ変換するための適応技術が必要となる.話者の発話スタイルや話 者性を決定づける要因としては,イントネーションやアクセントなど韻律的な特 徴が重要であるが,それに劣らず,声質を決定するスペクトル包絡に関しても精 度の良い変換が強く望まれる.この適応・変換を実現するために,今まで統計的 な手法を用いた様々な方法が検討されているが,従来方法のほとんどの研究では 変換元となるスペクトルとターゲットのスペクトルとの 1 対 1 の対応学習によっ て変換が行われていた.しかし,スペクトル変換を音声合成へ応用した場合を考 2.

(4) えると,変換関数の入力にはスペクトル以外にも韻律や音素系列などのコンテキ スト情報を利用することが可能である.特にスペクトルは韻律特徴量との間にあ る程度の相関があるため,変換モデルに韻律情報を考慮することで変換精度の改 善 が 期 待 で き る .そ こ で 本 研 究 で は P S O L A 法 に 基 づ く ピ ッ チ 同 期 処 理 に お い て , 韻律情報を利用した統計的なスペクトル変換手法を提案し,話者変換実験によっ てその有効性を検証する.また,従来の変換モデルの学習に同一発話文コーパス を用いる方法が一般的であったが,非同一発話文コーパスを学習データに使って 変換モデルを学習する方法についても検討する. 第 5 章 で は , PSOLA 法 を ベ ー ス に し た ス ペ ク ト ル 包 絡 の 推 定 方 法 , 及 び 変 換 方法に関する取り組みに対して結論を述べ,今後の課題について議論する.. 3.

(5) 研 究 業 績 種 類 別. 題名、. 発表・発行掲載誌名、. 発表・発行年月、. 連名者(申請者含む). 論文. ○ 望 月 亮 ,大 久 保 雅 史 ,小 林 哲 則 , ``韻 律 情 報 を 用 い た ス ペ ク ト ル 変 換 方 式 の 検 討 ,'' 電 子 情 報 通 信 学 会 誌 , D - I I , Vo l . 8 8 , N o . 11 , p p . 2 2 6 9 - 2 2 7 6 , N o v. 2 0 0 5 .. 論文. ○ R . M o c h i z u k i a n d T. K o b a y a s h i , ``A low-band spectrum envelope reconstruction method for PSOLA-based F 0 m o d i f i c a t i o n , ' ' I E I C E Tr a n s . I N F. & S Y S T. , Vo l . 8 7 , D , N o . 1 0 , pp.2426-2429, Oct. 2004.. 論文. ○ R . M o c h i z u k i a n d T. K o b a y a s h i , ``A Low-band Spectrum Envelope Modeling For High Quality Pitch M o d i f i c a t i o n , ' ' P r o c . I C A S S P 2 0 0 4 , S P - P 9 . 5 Vo l . 1 p p . 6 4 5 - 6 4 8 , M a y 2 0 0 4 .. 論文. ○ 望 月 亮 ,新 居 康 彦 ,西 村 洋 文 ,本 多 高 , ``駆 動 点 同 期 型 ピ ッ チ 波 形 抽 出 法 '', 音 響 学 会 誌 53 巻 10 号 ,pp.772-778, Oct. 1997.. 講演. 望 月 亮 ,小 林 哲 則 , ``GMM に よ る ス ペ ク ト ル 変 換 モ デ ル の 非 パ ラ レ ル コ ー パ ス を 用 い た 学 習 ,''音 響 学 会 講 演 論 文 集 3-6-20, Sep. 2005.. 講演. 望 月 亮 ,小 林 哲 則 , ``P S O L A 法 に お け る 音 質 改 善 の た め の 低 域 ス ペ ク ト ル 包 絡 の 補 正 方 法 ,'' 音 響 学 会 講 演 論 文 集 2-Q-4,pp.319-320, Sep. 2003.. 講演. 望 月 亮 ,本 多 高 ,新 居 康 彦 , ``駆 動 点 同 期 型 ピ ッ チ 波 形 抽 出 法 の 頑 健 性 評 価 ,''電 子 情 報 通 信 学 会 総 合 大 会 D-141-1,pp.243, March 1997.. 講演. 望 月 亮 ,三 浦 成 充 ,本 多 高 ,新 居 康 彦 ,蓑 輪 利 光 , ``ピ ッ チ 波 形 抽 出 位 置 と 一 様 ピ ッ チ 変 換 音 声 の 音 質 と の 関 係 ,'' 音 響 学 会 講 演 論 文 集 2-P-22,pp.345-346, Sep. 1995.. 講演. 望 月 亮 ,本 多 高 ,新 居 康 彦 ,吉 田 博 子 ,蓑 輪 利 光 , ``短 区 間 変 形 自 己 相 関 係 数 を 用 い た ピ ッ チ 波 形 抽 出 法 の 検 討 ,'' 音 響 学 会 講 演 論 文 集 3-4-6,pp.285-286, March 1995.. 5.

(6) 研 究 業 績 種 類 別. 題名、. 発表・発行掲載誌名、. 発表・発行年月、. 連名者(申請者含む). その他 (論文). 大 久 保 雅 史 ,望 月 亮 ,小 林 哲 則 , ``心 的 態 度 表 現 に 寄 与 す る 韻 律 / ス ペ ク ト ル 包 絡 特 徴 の 評 価 ,'' 電 子 情 報 通 信 学 会 誌 , D - I I , Vo l . 8 8 , N o . 2 , p p . 4 4 1 - 4 4 4 , F e b . 2 0 0 5 .. その他 (論文). 望 月 亮 ,蓑 輪 利 光 , ``平 滑 化 特 徴 ベ ク ト ル を 用 い た ア ク セ ン ト 句 の F0 パ タ ー ン 選 択 方 法 ,'' 電 子 情 報 通 信 学 会 誌 , D - I I , Vo l . 8 7 , N o . 2 , p p . 4 7 5 - 4 8 6 , F e b . 2 0 0 4 .. その他 (論文). T. M i n o w a , R . M o c h i z u k i , a n d H . N i s h i m u r a , ``Improving the naturalness of synthetic speech by utilizing the prosody of natural speech,'' P r o c . I C S L P 2 0 0 0 , Vo l . 1 p p . 6 0 9 - 6 1 2 , O c t . 2 0 0 0 .. その他 (論文). R . M o c h i z u k i , Y. A r a i a n d T. H o n d a , ` ` A s t u d y o n t h e w o r d s y n t h e s i s m e t h o d b y u s i n g t h e V C V- b a l a n c e d w o r d database,'' J . Acoust. Soc. J pn (E)21, pp.17-24, J an. 2000.. その他 (論文). R . M o c h i z u k i , Y. A r a i , a n d T. H o n d a , ``A study on the natural-sounding Japanese phonetic word synthesis by u s i n g t h e V C V- b a l a n c e d w o r d d a t a b a s e t h a t c o n s i s t s o f t h e w o r d s u t t e r e d f o r c i b l y i n t w o t y p e s o f p i t c h a c c e n t , ' ' P r o c . I C S L P 9 8 , Vo l . 5 p p . 2 0 11 - 2 0 1 4 , D e c . 1 9 9 8 . Y. A r a i , R . M o c h i z u k i , a n d T. H o n d a , ` ` A S t u d y o n N a t u r a l - s o u n d i n g J a p a n e s e P h o n e t i c Wo r d S y n t h e s i s B a s e d o n t h e P i t c h Wa v e f o r m C o n c a t e n a t i o n , ' ' P r o c . I C A 9 8 , Vo l . 1 p p . 2 6 7 - 2 6 8 , June 1998.. その他 (論文). その他 (論文). Y. A r a i , R . M o c h i z u k i , H . N i s h i m u r a , a n d T. H o n d a , ` ` A n E x c i t a t i o n S y n c h r o n o u s P i t c h Wa v e f o r m E x t r a c t i o n M e t h o d a n d I t s A p p l i c a t i o n t o T h e V C V- C o n c a t e n a t i o n S y n t h e s i s o f J a p a n e s e S p o k e n Wo r d s , ' ' P r o c . I C S L P 9 6 , Vo l . 3 p p . 1 4 3 7 - 1 4 4 0 , O c t . 1 9 9 6 .. その他 (講演). 大 久 保 雅 史 ,望 月 亮 ,小 林 哲 則 , ``HMM 素 片 選 択 を 用 い た 話 者 変 換 方 式 の 検 討 ,'' 信 学 技 報 SP2004-139,pp.13-18, J an. 2005.. その他 (講演). 大 久 保 雅 史 ,望 月 亮 ,小 林 哲 則 , ``波 形 重 畳 型 音 声 合 成 に お け る H M M を 用 い た 素 片 選 択 ,'' 音 響 学 会 講 演 論 文 集 3-2-14,pp.343-344, Sep. 2004.. その他 (講演). 大 久 保 雅 史 ,望 月 亮 ,小 林 哲 則 , ``心 的 態 度 表 現 に お け る 韻 律 的 / 分 節 的 特 徴 の 影 響 ,'' 音 響 学 会 講 演 論 文 集 2-P-23,pp.375-376, March 2004.. 6.

(7) 研 究 業 績 種 類 別. 題名、. 発表・発行掲載誌名、. 発表・発行年月、. 連名者(申請者含む). その他 (講演). 大 久 保 雅 史 ,望 月 亮 ,蓑 輪 利 光 ,小 林 哲 則 , ``波 形 重 畳 型 音 声 合 成 に お け る 心 的 態 度 の 再 現 性 評 価 ,'' 情 報 科 学 技 術 フ ォ ー ラ ム F I T 2 0 0 3 , Vo l . 2 , p p . 2 8 5 - 2 8 6 , S e p . 2 0 0 3 .. その他 (講演). 望 月 亮 ,蓑 輪 利 光 , ``属 性 ベ ク ト ル を 用 い た F0 パ タ ン 選 択 方 法 の 検 討 ,'' 音 響 学 会 講 演 論 文 集 3-10-21,pp.369-370, Sep. 2002.. その他 (講演). 蓑 輪 利 光 ,望 月 亮 , ``テ キ ス ト 音 声 合 成 に 対 す る 大 規 模 コ ン テ キ ス ト の 利 用 に 関 す る 一 考 察 ,'' 信 学 技 報 SP2002-24,pp.1-6, May 2002.. その他 (講演). 蓑 輪 利 光 ,望 月 亮 , ``コ ー パ ス サ イ ズ に 最 適 な 韻 律 制 御 方 法 の 検 討 ,'' 音 響 学 会 講 演 論 文 集 2-10-19,pp301-302, March 2002.. その他 (講演). 望 月 亮 ,蓑 輪 利 光 , ``波 形 重 畳 型 の 合 成 方 式 に 用 い る 代 表 ピ ッ チ 波 形 生 成 方 法 の 検 討 ,'' 音 響 学 会 講 演 論 文 集 2-1-4,pp.181-182, Sep. 2000.. その他 (講演). 蓑 輪 利 光 ,望 月 亮 ,西 村 洋 文 ,釜 井 孝 浩 , ``韻 律 の ベ ク ト ル を 利 用 し た 音 声 合 成 方 式 ,'' 信 学 技 報 SP2000-4,pp.25-31, May 2000.. その他 (講演). 望 月 亮 ,西 村 洋 文 ,蓑 輪 利 光 ,新 居 康 彦 , ``波 形 接 続 合 成 に 用 い る V C V 素 片 デ ー タ ベ ー ス の 構 築 方 法 ,'' 信 学 技 報 SP99-1,pp.1-8, May 1999.. その他 (講演). 望 月 亮 ,西 村 洋 文 ,蓑 輪 利 光 ,新 居 康 彦 , ``タ ー ゲ ッ ト ピ ッ チ パ タ ー ン に 着 目 し た V C V 素 片 デ ー タ ベ ー ス の 検 討 ,'' 音 響 学 会 講 演 論 文 集 2-3-3,pp.231-232, March 1999.. その他 (講演). 望 月 亮 ,西 村 洋 文 ,蓑 輪 利 光 ,釜 井 孝 浩 , ``韻 律 ベ ク ト ル を 用 い た 高 音 質 規 則 合 成 方 式 ,'' 音 響 学 会 講 演 論 文 集 1-3-22,pp.227-228, Sep.-Oct. 1999.. そ の 他 ( 講 演 ) 12 件 ( 1995-1998). 7.

(8)

参照

関連したドキュメント

[4] Takako Ogawa, Tetsuyuki Harada, Hiroshi Ozaki and Kintake Sonoike (2013) Disruption of the ndhF1 gene affects chlorophyll fluorescence through state transition in the

[r]

Suhara, "Method and device for measuring surface potential distribution, method and device for measuring insulation resistance, electrostatic latent image measurement device,

T.Edura, M.Nakata, H.Takahashi, H.Onozato, J.Mizuno, K.Tsutsui, M.Haemori, K.Itaka, H.Koinuma, Y.Wada, “Single Grain and Single Grain Boundary Resistance of Pentacene Thin

Kobayashi, Different orientation of AgGaTe 2 and AgAlTe 2 layers grown on a-plane sapphire substrates by a closed space sublimation method, 41st Conference on the Physics and

[r]

“In vitro studies on the mechanistic details of adhesion and wound healing of epithelial cell sheet therapy”, JSPS A3 foresight international symposium on nano-biomaterials

Global circadian transcription rhythms without robust kai-gene cycling in the heterocyst-forming multicellular cyanobacterium, Anabaena sp.