6. 時系列を考慮した生成的敵対ネットワークによる FFNN の学習法
6.5. 実験結果
6.5.2. 予測誤差の結果
各 GAN により学習した生成モデルで予測した 15 次のメルケプストラムの代表例を図 6.3から図 6.5までに示す.これらの15 次のメルケプストラムについて,原音声の15次 のメルケプストラムとの比較を述べる.FFNN-GANの15次のメルケプストラムについて は,複雑な時間構造は現れていないが,起伏は概ね一致した.系列内分散の平方根は約0.02 小さかった.変調スペクトルは約30 Hz以上の帯域で約10 dB小さかった.複雑な時間構 造が現れており,起伏も概ね一致した.系列内分散の平方根は約0.05小さかった.変調ス ペクトルは概ね一致した.GDC-GANの15次のメルケプストラムについては,複雑な時間 構造が現れており,起伏も概ね一致した.系列内分散の平方根は約0.02小さかった.変調 スペクトルは約30 Hz以上の帯域で約10 dB小さかった.
各 GAN により学習した生成モデルで予測したメルケプストラムの𝕌sについての𝔼DC, 𝔼GV,𝔼MSをそれぞれ,図 6.6,図 6.7,図 6.8に示す.また,これらのメルケプストラムの 𝕌sについての𝔼DC,𝔼GV,𝔼MSの平均値をTukey-Kramer法で比較した結果を表 6.4,表 6.5,
表 6.6に示す.GDC-GANの𝔼DCの平均値は,FFNN-GAN,CNN-GANの𝔼DCの平均値よ りも有意に大きかった.GDC-GANの𝔼DCの中央値とFFNN-GAN,CNN-GANの𝔼DCの中 央値との差は約0.006以下であり,メルケプストラム係数の値を考慮すると,これらの差は 合成音声において無視できる程度のものといえる.
GDC-GANの𝔼GVの平均値は,FFNN-GAN,CNN-GANの𝔼GVの平均値よりも有意に小
さかった.GDC-GANの𝔼GVの中央値は,FFNN-GAN,CNN-GANの𝔼GVの中央値よりも それぞれ約0.008,約0.016小さかった.これらの差は,メルケプストラムの系列内分散の 平方根の値や聴取実験の評点を考慮すると,合成音声の品質に影響と及ぼす程度のものと いえる.
GDC-GAN の𝔼MSの平均値は,FFNN-GAN の𝔼MS
の平均値よりも有意に小さく,CNN-GANの𝔼MSの平均値よりも有意に大きかった.GDC-GANの𝔼MSの中央値は,FFNN-GAN の𝔼MSの中央値よりも約2 dB小さく,CNN-GANの𝔼MSの中央値よりも1.8 dB大きかっ た.FFNN-GANの𝔼MSとの差は,聴取実験の評点を考慮すると,合成音声の品質に影響を 及ぼす程度のものといえる.ただし,CNN-GAN については,その聴取実験の評点を考慮 すると,系列内分散を改善しないまま,変調スペクトルを改善しても合成音声の音質を改善 することができないといえる.
117
図 6.3 FFNN-GANのメルケプストラムの代表例
-0.4 -0.2 0 0.2 0.4 0.6 0.8
0 1 2 3 4
15次のメルケプストラム
時間(秒)
TARGET FFNN-GAN
0 0.05 0.1 0.15 0.2
TARGET FFNN-GAN
系列内分散の平方根
-80 -70 -60 -50 -40 -30 -20 -10 0
0 20 40 60 80 100
変調スペクトル(dB)
周波数(Hz)
TARGET FFNN-GAN
118
図 6.4 FFNN-GANのメルケプストラムの代表例
-0.4 -0.2 0 0.2 0.4 0.6 0.8
0 1 2 3 4
15次のメルケプストラム
時間(秒)
TARGET CNN-GAN
0 0.05 0.1 0.15 0.2
TARGET CNN-GAN
系列内分散の平方根
-80 -70 -60 -50 -40 -30 -20 -10 0
0 20 40 60 80 100
変調スペクトル(dB)
周波数(Hz)
TARGET CNN-GAN
119
図 6.5 FFNN-GANのメルケプストラムの代表例
-0.4 -0.2 0 0.2 0.4 0.6 0.8
0 1 2 3 4
15次のメルケプストラム
時間(秒)
TARGET GDC-GAN
0 0.05 0.1 0.15 0.2
TARGET GDC-GAN
系列内分散の平方根
-80 -70 -60 -50 -40 -30 -20 -10 0
0 20 40 60 80 100
変調スペクトル(dB)
周波数(Hz)
TARGET GDC-GAN
120
図 6.6 メルケプストラムの平均絶対誤差
図 6.7 メルケプストラムの系列内分散の平方根の平均絶対誤差
図 6.8 メルケプストラムの変調スペクトルの平均絶対誤差(dB)
0.08 0.09 0.1 0.11 0.12
FFNN-GAN CNN-GAN GDC-GAN
0 0.01 0.02 0.03 0.04
FFNN-GAN CNN-GAN GDC-GAN
6 7 8 9 10 11 12
FFNN-GAN CNN-GAN GDC-GAN
𝔼DC
𝔼GV
𝔼MS
121
表 6.4 Tukey-Kramer法によるメルケプストラムの𝔼DCの平均値の比較結果 表中の数値はスチューデント化された範囲分布のq値とp値である.群数は3,自由度は
296,信頼区間は95%である.
群1 群2 q値 p値
FFNN-GAN CNN-GAN 5.06 0.002
FFNN-GAN GDC-GAN 18.77 0.001
CNN-GAN GDC-GAN 13.71 0.001
表 6.5 Tukey-Kramer法によるメルケプストラムの𝔼GVの平均値の比較結果 表中の数値はスチューデント化された範囲分布のq値とp値である.群数は3,自由度は
296,信頼区間は95%である.
群1 群2 q値 p値
FFNN-GAN CNN-GAN 38.66 0.001
FFNN-GAN GDC-GAN 29.61 0.001
CNN-GAN GDC-GAN 68.27 0.001
表 6.6 Tukey-Kramer法によるメルケプストラムの𝔼MSの平均値の比較結果 表中の数値はスチューデント化された範囲分布のq値とp値である.群数は3,自由度は
296,信頼区間は95%である.
群1 群2 q値 p値
FFNN-GAN CNN-GAN 165.93 0.001
FFNN-GAN GDC-GAN 88.36 0.001
CNN-GAN GDC-GAN 77.57 0.001