拡張畳み込みニューラルネットワークによる声質変換フィルタの検討

(1)

拡張畳み込みニューラルネットワークによる声質変換フィルタの検討

1W163088-0 長沢一生指導教員菅野由弘教授 NAGASAWA Issei Prof. KANNO Yoshihiro

概要: 統計的声質変換は，ある話者の音声を，言語情報を維持したまま他の話者が話したかのように変換する技術である．統計的声質変換の多くの手法では音響特徴量としてF0を用いるが，ノイズが多い環境などでは F0分析の精度が下がり，生成する音声の品質が大きく低下する問題がある．本論文では，F0分析エラーによって発生する変換音声の品質低下の回避を目的とし，音声合成モデルであるNSFモデルをベースとした，拡張畳み込みニューラルネットワークによる声質変換フィルタを提案する．提案モデルにより，ニューラルネットワークによるフィルタ処理によって，自然性の高い声質変換を実現できる可能性が示唆された．

キーワード: 統計的声質変換，差分スペクトルフィルタ法，ニューラルネットワーク，ニューラルソースフィルタ

1

序論

統計的声質変換の多くの手法では，ボコーダによる特徴抽出・統計モデルによる特徴量変換・ボコーダによる音声合成の3段階の枠組みが用いられる．音響特徴量としてF0を抽出する場合，ノイズが多い環境等においてはF0分析の精度が下がり，生成する音声の品質が大きく低下する問題がある．このような問題を低減するため，ボコーダによる合成を行わず，元話者の音声波形に対して，GMMやニューラルネットワークによってパラメータを推定したMLSA フィルタによる処理を行い直接目標話者の音声に変換する手法（差分スペクトルフィルタ法）が提案され，自然性の高い音声を生成できることが報告されている[1]．また，近年では統計モデルによる音声合成が盛んに研究されており，その一つとしてNSFモデル[2]が挙げられる．NSFは励起信号に対し拡張畳み込みニューラルネットワークによるフィルタ処理を行うことで自然な音声を合成する手法である．

本研究は，NSFモデルのフィルタを差分スペクトルフィルタ法に導入することで，変換音声の自然性の高い声質変換を達成することを目的とする．

2

提案モデル

提案モデルの概要を図1に示す．提案モデルは，元話者の波形と目標話者のスペクトル特徴量を入力とし，目標話者の波形を出力する．Condition module は，NSFモデルのそれからF0に関する処理をすべて除いたものである．Filter moduleは，NSFモデ

図1 提案モデルの概要

ルのそれと同一のものである．

F0軌跡が全く同一なパラレルデータを得ることは困難であるため，学習には，元話者の音声の代わりに，旧来の手法で目標話者の音声を元話者の音声へと変換したものを用いる．また，学習時には目的話者の実際の特徴量を利用し，推論時には元話者の音声から推定した目標話者の特徴量を利用する（図2）．提案モデルはNSFモデルと大部分で等しい構造を持つため，ファインチューニングを用いて学習する．

損失関数には，対数スペクトルの二乗誤差とMFCC の二乗誤差を，それぞれ複数通りのSTFTパラメータを用いて計算した和を用いる．

1

(2)

(a)学習時の処理

(b)推論時の処理図2 ^{学習・推論方法}

3

実験条件

機械学習フレームワークとしてPyTorch，データセットとしてJVS corpusを利用した．F0の平均・

分散が近いことから，元話者としてJVS083，目的話者としてJVS096を選択した．

学習データ作成には，特徴量分析部としてPho- netic PosteriorGram: PPGを抽出する ASRモデル，変換部としてPPGを目的話者のMGCに変換するモデル，波形合成部としてNSFを用いた．PPG は時刻を横軸，音素クラスを縦軸に取った行列であり，各要素は各時刻における音素の事後確率を表す．

これを用いた声質変換は，パラレルデータを用いずとも高品質な音声を合成できることが報告されている[3]．

4

^実験結果

学習時の変換では，元話者の音声は合成されたものであり，聴感上機械的な印象が残るものであったが，変換音声ではその印象は消え，目的話者の音声の特徴をよく復元しているように感じられた．推論時の変換では，変換音声は元音声の冷たい印象が薄れ，

目標話者の柔らかい印象を受けるものとなった．ケプストラム分析によって得た平滑化スペクトログラム（図3）からは，2kHzから5kHzの倍音が低減しているのが確認できる．また，変換音声は人間らしく感じられるもので，機械的な印象は受けなかった．

学習時・推論時のいずれにおいても，変換音声には低い周波数を中心としたノイズが含まれていた．

(a)元話者の音声

(b)変換音声

図3 推論時の変換の平滑化スペクトログラム

5

^結論

ニューラルネットワークによるフィルタ処理によって，自然性の高い声質変換を実現できる可能性が示唆された．

今後の課題として，変換に際して発生したノイズの低減が挙げられる．また，主観評価実験によって他の統計的声質変換手法と比較を行い，提案手法が実際に高い自然性で変換を行えているか検証する必要がある．

参考文献

[1] 小林和弘, 戸田智基, Graham Neubig, Sakriani Sakti,中村哲. 差分スペクトル補正に基づく統計的歌声声質変換. 日本音響学会2014年春季研究発表会講演論文集, pp. 3–6–4, 2014.

[2] Xin Wang, Shinji Takaki, and Junichi Yam- agishi. Neural Source-filter-based Waveform Model for Statistical Parametric Speech Syn- thesis. InProc. ICASSP, pp. 5916–5920, May 2019.

[3] Lifa Sun, Kun Li, Hao Wang, Shiyin Kang, and Helen Meng. Phonetic posteriorgrams for many-to-one voice conversion without parallel data training. In IEEE International Confer- ence on Multimedia and Expo (ICME), pp. 1–6, 07 2016.

2

拡張畳み込みニューラルネットワークによる 声質変換フィルタの検討