拡張畳み込みニューラルネットワークによる 声質変換フィルタの検討
1W163088-0 長沢 一生 指導教員 菅野 由弘 教授 NAGASAWA Issei Prof. KANNO Yoshihiro
概要: 統計的声質変換は,ある話者の音声を,言語情報を維持したまま他の話者が話したかのように変換する 技術である.統計的声質変換の多くの手法では音響特徴量としてF0を用いるが,ノイズが多い環境などでは F0分析の精度が下がり,生成する音声の品質が大きく低下する問題がある.本論文では,F0分析エラーに よって発生する変換音声の品質低下の回避を目的とし,音声合成モデルであるNSFモデルをベースとした,拡 張畳み込みニューラルネットワークによる声質変換フィルタを提案する.提案モデルにより,ニューラルネッ トワークによるフィルタ処理によって,自然性の高い声質変換を実現できる可能性が示唆された.
キーワード: 統計的声質変換,差分スペクトルフィルタ法,ニューラルネットワーク,ニューラルソースフィ ルタ
1
序論統計的声質変換の多くの手法では,ボコーダによ る特徴抽出・統計モデルによる特徴量変換・ボコーダ による音声合成の3段階の枠組みが用いられる.音 響特徴量としてF0を抽出する場合,ノイズが多い環 境等においてはF0分析の精度が下がり,生成する 音声の品質が大きく低下する問題がある.このよう な問題を低減するため,ボコーダによる合成を行わ ず,元話者の音声波形に対して,GMMやニューラル ネットワークによってパラメータを推定したMLSA フィルタによる処理を行い直接目標話者の音声に変 換する手法(差分スペクトルフィルタ法)が提案さ れ,自然性の高い音声を生成できることが報告され ている[1].また,近年では統計モデルによる音声合 成が盛んに研究されており,その一つとしてNSFモ デル[2]が挙げられる.NSFは励起信号に対し拡張 畳み込みニューラルネットワークによるフィルタ処 理を行うことで自然な音声を合成する手法である.
本研究は,NSFモデルのフィルタを差分スペクトル フィルタ法に導入することで,変換音声の自然性の 高い声質変換を達成することを目的とする.
2
提案モデル提案モデルの概要を図1に示す.提案モデルは,元 話者の波形と目標話者のスペクトル特徴量を入力と し,目標話者の波形を出力する.Condition module は,NSFモデルのそれからF0に関する処理をすべ て除いたものである.Filter moduleは,NSFモデ
図1 提案モデルの概要
ルのそれと同一のものである.
F0軌跡が全く同一なパラレルデータを得ることは 困難であるため,学習には,元話者の音声の代わり に,旧来の手法で目標話者の音声を元話者の音声へ と変換したものを用いる.また,学習時には目的話 者の実際の特徴量を利用し,推論時には元話者の音 声から推定した目標話者の特徴量を利用する(図2). 提案モデルはNSFモデルと大部分で等しい構造を 持つため,ファインチューニングを用いて学習する.
損失関数には,対数スペクトルの二乗誤差とMFCC の二乗誤差を,それぞれ複数通りのSTFTパラメー タを用いて計算した和を用いる.
1
(a)学習時の処理
(b)推論時の処理 図2 学習・推論方法
3
実験条件機械学習フレームワークとしてPyTorch,データ セットとしてJVS corpusを利用した.F0の平均・
分散が近いことから,元話者としてJVS083,目的話 者としてJVS096を選択した.
学習データ作成には,特徴量分析部としてPho- netic PosteriorGram: PPGを抽出する ASRモデ ル,変換部としてPPGを目的話者のMGCに変換す るモデル,波形合成部としてNSFを用いた.PPG は時刻を横軸,音素クラスを縦軸に取った行列であ り,各要素は各時刻における音素の事後確率を表す.
これを用いた声質変換は,パラレルデータを用いず とも高品質な音声を合成できることが報告されてい る[3].
4
実験結果学習時の変換では,元話者の音声は合成されたも のであり,聴感上機械的な印象が残るものであった が,変換音声ではその印象は消え,目的話者の音声の 特徴をよく復元しているように感じられた.推論時 の変換では,変換音声は元音声の冷たい印象が薄れ,
目標話者の柔らかい印象を受けるものとなった.ケ プストラム分析によって得た平滑化スペクトログラ ム(図3)からは,2kHzから5kHzの倍音が低減し ているのが確認できる.また,変換音声は人間らし く感じられるもので,機械的な印象は受けなかった.
学習時・推論時のいずれにおいても,変換音声には 低い周波数を中心としたノイズが含まれていた.
(a)元話者の音声
(b)変換音声
図3 推論時の変換の平滑化スペクトログラム
5
結論ニューラルネットワークによるフィルタ処理に よって,自然性の高い声質変換を実現できる可能性 が示唆された.
今後の課題として,変換に際して発生したノイズ の低減が挙げられる.また,主観評価実験によって 他の統計的声質変換手法と比較を行い,提案手法が 実際に高い自然性で変換を行えているか検証する必 要がある.
参考文献
[1] 小林和弘, 戸田智基, Graham Neubig, Sakriani Sakti,中村哲. 差分スペクトル補正に基づく統計 的歌声声質変換. 日本音響学会2014年春季研究 発表会講演論文集, pp. 3–6–4, 2014.
[2] Xin Wang, Shinji Takaki, and Junichi Yam- agishi. Neural Source-filter-based Waveform Model for Statistical Parametric Speech Syn- thesis. InProc. ICASSP, pp. 5916–5920, May 2019.
[3] Lifa Sun, Kun Li, Hao Wang, Shiyin Kang, and Helen Meng. Phonetic posteriorgrams for many-to-one voice conversion without parallel data training. In IEEE International Confer- ence on Multimedia and Expo (ICME), pp. 1–6, 07 2016.
2