• 検索結果がありません。

拡張畳み込みニューラルネットワークによる 声質変換フィルタの検討

N/A
N/A
Protected

Academic year: 2021

シェア "拡張畳み込みニューラルネットワークによる 声質変換フィルタの検討"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

拡張畳み込みニューラルネットワークによる 声質変換フィルタの検討

1W163088-0 長沢 一生   指導教員 菅野 由弘 教授   NAGASAWA Issei   Prof. KANNO Yoshihiro

概要: 統計的声質変換は,ある話者の音声を,言語情報を維持したまま他の話者が話したかのように変換する 技術である.統計的声質変換の多くの手法では音響特徴量としてF0を用いるが,ノイズが多い環境などでは F0分析の精度が下がり,生成する音声の品質が大きく低下する問題がある.本論文では,F0分析エラーに よって発生する変換音声の品質低下の回避を目的とし,音声合成モデルであるNSFモデルをベースとした,拡 張畳み込みニューラルネットワークによる声質変換フィルタを提案する.提案モデルにより,ニューラルネッ トワークによるフィルタ処理によって,自然性の高い声質変換を実現できる可能性が示唆された.

キーワード: 統計的声質変換,差分スペクトルフィルタ法,ニューラルネットワーク,ニューラルソースフィ ルタ

1

序論

統計的声質変換の多くの手法では,ボコーダによ る特徴抽出・統計モデルによる特徴量変換・ボコーダ による音声合成の3段階の枠組みが用いられる.音 響特徴量としてF0を抽出する場合,ノイズが多い環 境等においてはF0分析の精度が下がり,生成する 音声の品質が大きく低下する問題がある.このよう な問題を低減するため,ボコーダによる合成を行わ ず,元話者の音声波形に対して,GMMやニューラル ネットワークによってパラメータを推定したMLSA フィルタによる処理を行い直接目標話者の音声に変 換する手法(差分スペクトルフィルタ法)が提案さ れ,自然性の高い音声を生成できることが報告され ている[1].また,近年では統計モデルによる音声合 成が盛んに研究されており,その一つとしてNSF デル[2]が挙げられる.NSFは励起信号に対し拡張 畳み込みニューラルネットワークによるフィルタ処 理を行うことで自然な音声を合成する手法である.

本研究は,NSFモデルのフィルタを差分スペクトル フィルタ法に導入することで,変換音声の自然性の 高い声質変換を達成することを目的とする.

2

提案モデル

提案モデルの概要を図1に示す.提案モデルは,元 話者の波形と目標話者のスペクトル特徴量を入力と し,目標話者の波形を出力する.Condition module は,NSFモデルのそれからF0に関する処理をすべ て除いたものである.Filter moduleは,NSFモデ

1 提案モデルの概要

ルのそれと同一のものである.

F0軌跡が全く同一なパラレルデータを得ることは 困難であるため,学習には,元話者の音声の代わり に,旧来の手法で目標話者の音声を元話者の音声へ と変換したものを用いる.また,学習時には目的話 者の実際の特徴量を利用し,推論時には元話者の音 声から推定した目標話者の特徴量を利用する(図2 提案モデルはNSFモデルと大部分で等しい構造を 持つため,ファインチューニングを用いて学習する.

損失関数には,対数スペクトルの二乗誤差とMFCC の二乗誤差を,それぞれ複数通りのSTFTパラメー タを用いて計算した和を用いる.

1

(2)

(a)学習時の処理

(b)推論時の処理 2 学習・推論方法

3

実験条件

機械学習フレームワークとしてPyTorch,データ セットとしてJVS corpusを利用した.F0の平均・

分散が近いことから,元話者としてJVS083,目的話 者としてJVS096を選択した.

学習データ作成には,特徴量分析部としてPho- netic PosteriorGram: PPGを抽出する ASRモデ ル,変換部としてPPGを目的話者のMGCに変換す るモデル,波形合成部としてNSFを用いた.PPG は時刻を横軸,音素クラスを縦軸に取った行列であ り,各要素は各時刻における音素の事後確率を表す.

これを用いた声質変換は,パラレルデータを用いず とも高品質な音声を合成できることが報告されてい [3]

4

実験結果

学習時の変換では,元話者の音声は合成されたも のであり,聴感上機械的な印象が残るものであった が,変換音声ではその印象は消え,目的話者の音声の 特徴をよく復元しているように感じられた.推論時 の変換では,変換音声は元音声の冷たい印象が薄れ,

目標話者の柔らかい印象を受けるものとなった.ケ プストラム分析によって得た平滑化スペクトログラ ム(図3)からは,2kHzから5kHzの倍音が低減し ているのが確認できる.また,変換音声は人間らし く感じられるもので,機械的な印象は受けなかった.

学習時・推論時のいずれにおいても,変換音声には 低い周波数を中心としたノイズが含まれていた.

(a)元話者の音声

(b)変換音声

3 推論時の変換の平滑化スペクトログラム

5

結論

ニューラルネットワークによるフィルタ処理に よって,自然性の高い声質変換を実現できる可能性 が示唆された.

今後の課題として,変換に際して発生したノイズ の低減が挙げられる.また,主観評価実験によって 他の統計的声質変換手法と比較を行い,提案手法が 実際に高い自然性で変換を行えているか検証する必 要がある.

参考文献

[1] 小林和弘, 戸田智基, Graham Neubig, Sakriani Sakti,中村哲. 差分スペクトル補正に基づく統計 的歌声声質変換. 日本音響学会2014年春季研究 発表会講演論文集, pp. 3–6–4, 2014.

[2] Xin Wang, Shinji Takaki, and Junichi Yam- agishi. Neural Source-filter-based Waveform Model for Statistical Parametric Speech Syn- thesis. InProc. ICASSP, pp. 5916–5920, May 2019.

[3] Lifa Sun, Kun Li, Hao Wang, Shiyin Kang, and Helen Meng. Phonetic posteriorgrams for many-to-one voice conversion without parallel data training. In IEEE International Confer- ence on Multimedia and Expo (ICME), pp. 1–6, 07 2016.

2

参照

関連したドキュメント

   手法の有効性を確認するために,食道発声音声と電気発声音声についてそれぞれ主観評 価実験を行った,実験は単語了解度試験,オピニオン評価,合成音声と食道発声音声もし くは

AF は,音声スペクトル系列の時間微分と周波数微分から求められる局所特徴(Local Feature; LF)を多層ニューラルネット(Multi-Layer

文献 [48] では, ResNet に対し,層 を深くする代わりに,各 residual モジュール内の畳 み込みの出力チャネル数を増加させた wide なモデル である, Wide

本研究では音声から発音動作を推定するために,学習者

テキスト音声合成 (声をつくる)

テキスト音声合成処理は,与えられる言語情報 l に 対して,音声特徴量 x の確率密度関数 P ( x|l ) を推定

動的メモリのメモリ素子はキャパシタと FET で構成される単純な

実験には R を利用し、深層学習フレームワークとして RSNNS[3] を利用しました。学習・評価 データは 11 名が日本語のポピュラーソングを「熱唱」「非熱唱」の 2