実験方法 - 時系列の複数の属性を考慮した損失関数による FFNN の学習法 - 計算資源が限られた音声合成システムに用いる深層学習モデルの学習法に関する研究

5. 時系列の複数の属性を考慮した損失関数による FFNN の学習法

5.4. 実験方法

66 𝒚̂_GC = [𝒚̂_GC⁽¹⁾, ⋯ , 𝒚̂_GC^(𝑑¹⁾, ⋯ , 𝒚̂_GC^(𝐷)] 𝒚

̂_GC^(𝑑¹⁾ = [𝑦̂_GC^(𝑑¹^, 1), ⋯ , 𝑦̂_GC^(𝑑¹^, 𝑑²⁾, ⋯ , 𝑦̂_GC^(𝑑¹^, 𝐷)] 𝑦̂_GC^(𝑑¹^, 𝑑²⁾=1

𝑇∑ (𝑦̂_𝑡^(𝑑¹⁾− 𝑦̂̅^(𝑑¹⁾) (𝑦̂_𝑡^(𝑑²⁾− 𝑦̂̅^(𝑑²⁾)

𝑇

𝑡=1

（5.28）

ここで，𝒚̂_GCは予測データとしての音声特徴量の共分散ベクトル，𝒚̂_GC^(𝑑¹⁾は予測データとしての次元𝑑₁の音声特徴量の共分散ベクトル，𝑦̂_GC^(𝑑¹^, 𝑑²⁾は予測データとしての次元𝑑₁の音声特徴量と次元𝑑2の音声特徴量の共分散である．GC 損失関数は𝒚GCと𝒚̂_GCの平均絶対誤差で定義される．

𝑒_GC^(𝑑¹^, 𝑑²⁾= |𝑦_GV^(𝑑¹^, 𝑑²⁾− 𝑦̂_GV^(𝑑¹^, 𝑑²⁾| ℒ_GV(𝒚, 𝒚̂) = 1

𝐷²∑ ∑ 𝑒_GC^(𝑑¹^, 𝑑²⁾

𝐷

𝑑₂=1 𝐷

𝑑₁=1

（5.29）

ここで，𝑒_GC^(𝑑¹^, 𝑑²⁾は𝑦̂_GV^(𝑑¹^, 𝑑²⁾の𝑦_GV^(𝑑¹^, 𝑑²⁾に対する絶対誤差である．𝑦̂_GV^(𝑑¹^, 𝑑²⁾は𝑦̂_𝑡^(𝑑¹⁾ (1 ≤ 𝑡 ≤ 𝑇)と 𝑦̂_𝑡^(𝑑²⁾ (1 ≤ 𝑡 ≤ 𝑇)から算出されるため，𝑒_GC^(𝑑¹^, 𝑑²⁾は𝑦̂_𝑡^(𝑑¹⁾ (1 ≤ 𝑡 ≤ 𝑇)と𝑦̂_𝑡^(𝑑²⁾ (1 ≤ 𝑡 ≤ 𝑇)に関連するDNNのモデルパラメータの学習に寄与する．このようにすることで，系列全体における音声特徴量の共分散を学習できる．

表 5.1 音声特徴量予測部，DNN，損失関数，勾配法の組み合わせ識別名音声特徴量予測部の構成 DNNの構成損失関数勾配法

FFNN-MSE

FFNN MLPG

ケプストラム強調

（3.2.1）

全結合層×5

（FFNN-3.2.1）

ℒ_MSE(𝝁, 𝝁̂)

（5.2.2） Adam法

FFNN-MGE

FFNN MLPG

ケプストラム強調

（3.2.1）

全結合層×5

（FFNN-3.2.1）

ℒ_MGE(𝒚, 𝝍̂ )

（5.2.3） Adam法

RNN-MSE

RNN

ケプストラム強調

（3.2.2）

LSTM層再帰層

（RNN-3.2.2）

ℒ_MSE(𝒚, 𝒚̂)

（5.2.1） Adam法

FFNN-MATS FFNN

（3.2.3）

全結合層×5

（FFNN-3.2.3）

ℒMATS(𝒚, 𝒚̂)

（5.3） Adam法

5.4.2. 聴取実験の方法

各音声特徴量予測部で予測した音声特徴量を比較するために，MUSHRA法による合成音声の聴取実験で主観評価した．隠れ参照とアンカーを用いた複数刺激の聴取実験法

（MUSHRA法：Multi-Stimulus listening test using the Hidden Reference and Anchor 法 [39]）による聴取実験の手順を図 5.1に示す．MUSHRA法では，複数の評価群に加えて，参照群とアンカー群を用意する．参照群は実験における最高品質の音声，アンカー群は実験における最低品質の音声とする．参照群とアンカー群を使用することで，各刺激音声を採点する際の上限と下限の評価基準を設けることができる．ただし，参照群やアンカー群の音声がどの刺激音声に割り当てられているかは知らされない．参加者は基準音声と刺激音声を比較したり，刺激音声同士を比較したりして，基準音声に対する刺激音声の評価を表 5.2 に従い採点する．また，基準音声と同じと判断される刺激音声は必ず 100 点で採点する．採点するにあたり，基準音声や刺激音声は何度も聴くことができる．各群の合成音声がどの刺激音声に割り当たるかは，セッションごとにランダムで決めた．参加者の平均評点は次式に従って集計した．

𝕍 = {𝑣_𝑖^(𝐺) | 𝑣_𝑖^(𝐺)=1

𝑆∑(𝑣𝑖)_𝑠^(𝐺)

𝑆

𝑠=1

} （5.30）

ここで，𝑣_𝑖^(𝐺)は参加者𝑖の評価群𝐺の平均評点，(𝑣𝑖)_𝑠^(𝐺)は𝑠回目のセッションにおける参加者𝑖 の評価群𝐺の評点，𝑆はセッション数である．

図 5.1 MUSHRA法による聴取実験の手順

図は評価群が2 つの場合の例である．評価群が𝑁𝐺の場合，1 セッションあたりの刺激音声の数は𝑁𝐺+ 2となる．ここで，𝑁𝐺は評価群の総数である．

表 5.2 MUSHRA法の評点

評点説明

80～100点基準音声との違いが分からない

60～80点基準音声との違いが分かるが気にならない

40～60点基準音声との違いが少し気になる

20～40点基準音声との違いが気になる

0～20点基準音声との違いがとても気になる

5.4.3. 予測誤差の算出方法

聴取実験の結果を裏付けるために音声特徴量の予測誤差を計算する．ただし，音声特徴量の予測誤差と合成音声の品質との因果関係は絶対的なものではないため，音声特徴量の予測誤差は聴取実験の結果を補足するために用いる．本章において，3つの音声特徴量の予測誤差を計算した．1つめは時間フレームごとの音声特徴量の絶対誤差，2つめは音声特徴量の系列内分散の平方根の絶対誤差，3つめは音声特徴量の変調スペクトルの絶対誤差である [40]．音声特徴量の平均絶対誤差を次式で定義する．

𝔼_DC= {𝜀_DC | 𝜀_DC= 1

𝑇𝐷∑ ∑ |𝑦_𝑡^(𝑑)− 𝑦̂_𝑡^(𝑑)|

𝐷

𝑑=1 𝑇

𝑡=1

} (𝒚 ∈ 𝕌) （5.31）

ここで，𝕌は評価データセット，𝒚は𝕌に含まれる原音声の音声特徴量，𝑦_𝑡^(𝑑)は時間フレーム 𝑡における𝑑次の原音声の音声特徴量，𝑦̂_𝑡^(𝑑)は𝑦_𝑡^(𝑑)に対応する時間フレーム𝑡における𝑑次の予測した音声特徴量，𝜀_DCは𝒚についての平均絶対誤差，𝔼_DCは𝕌についての𝜀_DCの集合である．

系列内分散の平方根の平均絶対誤差を次式で定義する．

69 𝔼_GV = {𝜀_GV | 𝜀_GV =1

𝐷∑ |√𝑦_GV^(𝑑)− √𝑦̂_GV^(𝑑)|

𝐷

𝑑=1

} (𝒚 ∈ 𝕌) （5.32）

ここで，𝑦_GV^(𝑑)は𝑑次の原音声の音声特徴量の系列内分散，は𝑦_GV^(𝑑)に対応する𝑑次の予測した音声特徴量の系列内分散，𝜀GVは𝒚についての系列内分散の平均絶対誤差，𝔼GVは𝕌についての 𝜀GVの集合である．変調スペクトルの平均絶対誤差を次式で定義する．

𝔼_MS= {𝜀_MS | 𝜀_MS= 1

𝑇𝐷𝐻∑ ∑ ∑ |(𝑦_MS)_𝑡^{(𝑗, 𝑑)}− (𝑦̂_MS)_𝑡^{(𝑗, 𝑑)}|

𝐻

𝑗=1 𝐷

𝑑=1 𝑇

𝑡=1

} (𝒚 ∈ 𝕌) (𝑦_MS)_𝑡^{(𝑗, 𝑑)}= ℱ_MS(𝒚 | 𝑡, 𝑑, 𝐿_MS, 𝑅_MS) (𝑗 = 1, 2, ⋯ , 𝐻)

(𝑦̂_MS)_𝑡^{(𝑗, 𝑑)}= ℱ_MS(𝒚̂ | 𝑡, 𝑑, 𝐿_MS, 𝑅_MS) (𝑗 = 1, 2, ⋯ , 𝐻) 𝐻 =−𝐿_MS+ 𝑅_MS+ 1

2 + 1

（5.33）

ここで，(𝑦MS)_𝑡^{(𝑗, 𝑑)}は時間フレーム𝑡における𝑑次の音声特徴量の𝑗番目の周波数ビンの変調ス

ペクトル，𝐿MSは前方参照時間フレーム数，𝑅MSは後方参照時間フレーム数，𝜀MSは𝒚についての変調スペクトルの平均絶対誤差，𝔼MSは𝕌についての𝜀MSの集合である．ただし，𝐿MSは負数であり-64とした．𝑅MSは正数であり63とした．また，ℱMSは(𝑦MS)_𝑡^{(𝑗, 𝑑)}を算出する関数であり，次式で定義される．

ℱMS(𝒚 | 𝑡, 𝑑, 𝐿MS, 𝑅MS) ≡ 20 log10|𝔉 (𝒚_{(𝑡, 𝐿}^(𝑑)_MS_, 𝑅_MS₎)|

𝒚_{(𝑡, 𝐿}^(𝑑)_MS_, 𝑅_MS₎= [𝑦_𝑡+𝐿^(𝑑)_MSℎ𝐿_MS, ⋯ , 𝑦_𝑡+𝜏^(𝑑)ℎ𝜏, ⋯ , 𝑦_𝑡+𝑅^(𝑑)_MSℎ𝑅_MS] ℎ_𝜏=ℎ_𝜏^′

ℎ^′

ℎ𝜏′ = 0.5 − 0.5 cos (2𝜋(𝜏 + 𝐻 − 0.5)

−𝐿_MS+ 𝑅_MS+ 1) ℎ′ = ∑ ℎ_𝜏^′

𝑅_MS

𝜏=𝐿_MS

（5.34）

ここで，𝔉は離散フーリエ変換，𝒚_{(𝑡, 𝐿}

MS, 𝑅_MS)

(𝑑) は時間フレーム𝑡を中心とする短区間[𝑡 + 𝐿MS, 𝑡 +

𝑅MS]における窓関数を適用した𝑑次の音声特徴量ベクトル，ℎ𝜏は正規化されたハン窓の係数

である．

ドキュメント内計算資源が限られた音声合成システムに用いる深層学習モデルの学習法に関する研究 (ページ 70-73)