提案する損失関数 - 時系列の複数の属性を考慮した損失関数による FFNN の学習法

5. 時系列の複数の属性を考慮した損失関数による FFNN の学習法

5.3. 提案する損失関数

60 義する．

𝒚_TD = [(𝒚_TD)₁^⊤, ⋯ , (𝒚_TD)_𝑡^⊤, ⋯ , (𝒚_TD)^⊤_𝑇]^⊤ (𝒚TD)_𝑡 = [(𝒚_TD)_𝑡⁽¹⁾, ⋯ , (𝒚_TD)_𝑡^(𝑛), ⋯ , (𝒚_TD)_𝑡^(𝑁)] (𝒚_TD)_𝑡^(𝑛) = [(𝑦_TD)_𝑡^(𝑛, 1), ⋯ , (𝑦_TD)_𝑡^{(𝑛, 𝑑)}, ⋯ , (𝑦_TD)_𝑡^{(𝑛, 𝐷)}] (𝑦TD)_𝑡^{(𝑛, 𝑑)}= ∑ 𝑦_𝑡^(𝑑)(𝑤TD)_𝜏^(𝑛)

𝑅_TD

𝜏=𝐿_TD

（5.10）

ここで，𝒚TDは教師データとしてのTD特徴量ベクトル系列，(𝒚TD)_𝑡は教師データとしての時間フレーム𝑡におけるTD特徴量ベクトル，(𝒚TD)_𝑡^(𝑛)は教師データとしての時間フレーム𝑡 における𝑛次のTD特徴量ベクトル，(𝑦TD)_𝑡^{(𝑛, 𝑑)}は教師データとしての次元𝑑の音声特徴量についての時間フレーム𝑡における𝑛次のTD特徴量，𝑁はTD特徴量の次元数，(𝑤TD)_𝜏^(𝑛)は相対時間フレーム𝜏における𝑛次の TD 特徴量を求める係数，𝐿TDは後方参照時間フレーム数，

𝑅TDは前方参照時間フレーム数である．𝐿TDは0以下の値であり，𝑅TDは0以上の値である．

また，𝒚TDと同様に，TD損失関数で予測データとしての音声特徴量から算出されるTD特徴量を次式で定義する．

𝒚̂_TD = [(𝒚̂_TD)₁^⊤, ⋯ , (𝒚̂_TD)_𝑡^⊤, ⋯ , (𝒚̂_TD)^⊤_𝑇]^⊤ (𝒚̂_TD)_𝑡 = [(𝒚̂_TD)_𝑡⁽¹⁾, ⋯ , (𝒚̂_TD)_𝑡^(𝑛), ⋯ , (𝒚̂_TD)_𝑡^(𝑁)] (𝒚̂_TD)_𝑡^(𝑛) = [(𝑦̂_TD)_𝑡^(𝑛, 1), ⋯ , (𝑦̂_TD)_𝑡^{(𝑛, 𝑑)}, ⋯ , (𝑦̂_TD)_𝑡^{(𝑛, 𝐷)}] (𝑦̂TD)_𝑡^{(𝑛, 𝑑)} = ∑ 𝑦̂_𝑡+𝜏^(𝑑)(𝑤TD)_𝜏^(𝑛)

𝑅_TD

𝜏=𝐿_TD

（5.11）

ここで，𝒚̂TDは教師データとしてのTD特徴量ベクトル系列，(𝒚̂TD)_𝑡は教師データとしての時間フレーム𝑡におけるTD特徴量ベクトル，(𝒚̂TD)_𝑡^(𝑛)は教師データとしての時間フレーム𝑡 における𝑛次のTD特徴量ベクトル，(𝑦̂TD)_𝑡^{(𝑛, 𝑑)}は教師データとしての次元𝑑の音声特徴量についての時間フレーム𝑡における𝑛次の TD 特徴量である．TD 損失関数は𝒚TDと𝒚̂TDの平均二乗誤差で定義される．

(𝑒TD)_𝑡^{(𝑛, 𝑑)} = ((𝑦_TD)_𝑡^{(𝑛, 𝑑)}− (𝑦̂_TD)_𝑡^{(𝑛, 𝑑)})² ℒ_TD(𝒚, 𝒚̂) = 1

𝑇𝐷𝑁∑ ∑ ∑(𝑒_TD)_𝑡^{(𝑛, 𝑑)}

𝑁

𝑛=1 𝐷

𝑑=1 𝑇

𝑡=1

（5.12）

ここで，(𝑒TD)_𝑡^{(𝑛, 𝑑)}は(𝑦̂TD)_𝑡^{(𝑛, 𝑑)}の(𝑦TD)_𝑡^{(𝑛, 𝑑)}に対する二乗誤差である．(𝑦̂TD)_𝑡^{(𝑛, 𝑑)}は時間フレーム𝑡 + 𝐿TDから𝑡 + 𝑅TDまでの𝑦̂_𝑡+𝜏^(𝑑)から算出されるため，(𝑒TD)_𝑡^{(𝑛, 𝑑)}は𝑦̂_𝑡+𝜏^(𝑑)に関連する DNN のモデルパラメータの学習に寄与する．このようにすることで，隣接する時間フレーム間の音声特徴量の関係を学習できる．

(𝑤_TD)_𝜏^(𝑛)については，対象とする音声特徴量ごとに適した変換式や，経験則による知見に基づいて，各時間フレームの音声特徴量を関係づけることが好ましい．MLPG で用いる動

的特徴量と同様に，𝐿TD= −1，𝑅TD= 1として，(𝑤TD)_𝜏^(𝑛)を式（2.6）と同じ値にしても良いが，本章では，RNNの再帰構造を模擬するように，𝐿TD，𝑅TD，(𝑤TD)_𝜏^(𝑛)を以下のように設定した．

𝐿_TD= −1 𝑅_TD= 0 (𝑤_TD)_𝜏⁽¹⁾ = {0

𝑤1

(𝜏 = −1) (𝜏 = 0) (𝑤TD)_𝜏⁽²⁾ = {−𝑤₂

𝑤₂

(𝜏 = −1) (𝜏 = 0)

（5.13）

これらの値において，(𝑒TD)_𝑡^{(𝑛, 𝑑)}が0と仮定した場合，𝑦̂_𝑡^(𝑑)について式を整理すると次式の漸化式となる．

𝑦̂_𝑡^(𝑑)= 𝑦_𝑡^(𝑑)− 𝑤₁

𝑤₁+ 𝑤₂𝑦_𝑡−1^(𝑑)+ 𝑤₁

𝑤₁+ 𝑤₂𝑦̂_𝑡−1^(𝑑) （5.14）

TD損失関数は，この式を考慮するため，RNNと同様に再帰的な学習を可能にする．さらに，𝑤1の値や𝑤2の値を調整することで，再帰の強さを制御することができる．例えば，𝑤2

の値を𝑤1の値よりも大きくすることで，𝑦̂_𝑡^(𝑑)が𝑦̂_𝑡−1^(𝑑)と𝑦_𝑡^(𝑑)− 𝑦_𝑡^(𝑑)から学習されるようにできる．特に，日本語のアクセント知覚は基本周波数の相対的な変化に深く関係しているため，

𝑤2の値を𝑤1の値よりも大きく設定することで，このような知見に基づいた学習を可能にする．

5.3.3. 次元領域の損失関数

DD損失関数は，メルケプストラムのような多次元の音声特徴量に対して利用する損失関数であり，隣接する次元間の音声特徴量の関係を表す特徴量である DD 特徴量の誤差を計算することによって，DNNに隣接する次元間の音声特徴量の関係を教える．DD損失関数で教師データとしての音声特徴量から算出されるDD特徴量を次式で定義する．

𝒚_DD = [(𝒚_DD)₁^⊤, ⋯ , (𝒚_DD)_𝑡^⊤, ⋯ , (𝒚_DD)_𝑇^⊤]^⊤ (𝒚DD)_𝑡 = [(𝑦_DD)_𝑡⁽¹⁾, ⋯ , (𝑦_DD)_𝑡^(𝑚), ⋯ , (𝑦_DD)_𝑡^(𝑀)] (𝑦DD)_𝑡^(𝑚)= ∑ 𝑦_𝑡^(𝑑)(𝑤DD)_𝑑^(𝑚)

𝐷

𝑑=1

（5.15）

ここで，𝒚DDは教師データとしてのDD特徴量ベクトル系列，(𝒚DD)_𝑡は教師データとしての時間フレーム𝑡におけるDD特徴量ベクトル，(𝑦DD)_𝑡^(𝑚)は教師データとしての時間フレーム𝑡 における𝑚次のDD特徴量，𝑀はDD特徴量の次元数，(𝑤DD)_𝑑^(𝑚)は次元𝑑の音声特徴量についての𝑚次のDD特徴量を求める係数である．また，𝒚DDと同様に，DD損失関数で予測データとしての音声特徴量から算出されるDD特徴量を次式で定義する．

𝒚̂_DD = [(𝒚̂_DD)₁^⊤, ⋯ , (𝒚̂_DD)_𝑡^⊤, ⋯ , (𝒚̂_DD)_𝑇^⊤]^⊤ (𝒚̂_DD)_𝑡 = [(𝑦̂_DD)_𝑡⁽¹⁾, ⋯ , (𝑦̂_DD)_𝑡^(𝑚), ⋯ , (𝑦̂_DD)_𝑡^(𝑀)] (𝑦̂_DD)_𝑡^(𝑚)= ∑ 𝑦̂_𝑡^(𝑑)(𝑤_DD)_𝑑^(𝑚)

𝐷

𝑑=1

（5.16）

ここで，𝒚̂_DDは予測データとしての音声特徴量のDD特徴量ベクトル系列，(𝒚̂_DD)_𝑡は予測データとしての時間フレーム𝑡における DD特徴量ベクトル，(𝑦̂DD)_𝑡^(𝑚)は予測データとしての時間フレーム𝑡における𝑚次のDD特徴量である．DD損失関数は𝒚DDと𝒚̂_DDの平均二乗誤差で定義される．

(𝑒DD)_𝑡^(𝑚)= ((𝑦_DD)_𝑡^(𝑚)− (𝑦̂_DD)_𝑡^(𝑚))² ℒ_DD(𝒚, 𝒚̂) = 1

𝑇𝑀∑ ∑ (𝑒_DD)_𝑡^(𝑚)

𝑀

𝑚=1 𝑇

𝑡=1

（5.17）

ここで，(𝑒DD)_𝑡^(𝑚)は(𝑦̂DD)_𝑡^(𝑚)の(𝑦DD)_𝑡^(𝑚)に対する二乗誤差である．(𝑦̂DD)_𝑡^(𝑚)は次元1から𝐷までの𝑦̂_𝑡^(𝑑)から算出されるため，(𝑒DD)_𝑡^(𝑚)は次元1から𝐷までの𝑦̂_𝑡^(𝑑)に関連するDNNのモデルパラメータの学習に寄与する．このようにすることで，隣接する次元間の音声特徴量の関係を学習できる．

(𝑤DD)_𝑑^(𝑚)については，対象とする音声特徴量ごとに適した変換式や，経験則による知見に基づいて，各次元の音声特徴量を関係づけることが好ましい．メルケプストラムを対象とする場合は，メルケプストラムの各次元の係数を関連付けるため，式（2.9の周波数変換関数

「freqt」に従うように(𝑤DD)_𝑑^(𝑚)の値を設定する．

5.3.4. 局所内分散の損失関数

LV損失関数は，音声特徴量の短区間における分散の誤差を計算することによって，DNN に短区間における音声特徴量の振幅の大きさや，時間変動の程度を教える．LV損失関数で教師データとしての音声特徴量から算出される局所内分散を次式で定義する．

𝒚LV = [(𝒚LV)₁^⊤, ⋯ , (𝒚LV)_𝑡^⊤, ⋯ , (𝒚LV)^⊤_𝑇]^⊤ (𝒚LV)_𝑡 = [(𝑦_LV)_𝑡⁽¹⁾, ⋯ , (𝑦_LV)_𝑡^(𝑑), ⋯ , (𝑦_LV)_𝑡^(𝐷)] (𝑦LV)_𝑡^(𝑑)= 1

−𝐿_LV+ 𝑅_LV+ 1 ∑ (𝑦_𝑡+𝜏^(𝑑)− 𝑦̅_𝑡^(𝑑))²

𝑅_LV

𝜏=𝐿_LV

𝑦̅_𝑡^(𝑑) = 1

−𝐿LV+ 𝑅LV+ 1 ∑ 𝑦_𝑡+𝜏^(𝑑)

𝑅_LV

𝜏=𝐿_LV

（5.18）

ここで，𝒚LVは教師データとしての音声特徴量の局所内分散ベクトル系列，(𝒚LV)_𝑡は教師データとしての音声特徴量の時間フレーム𝑡における局所内分散ベクトル，(𝑦LV)_𝑡^(𝑑)は教師データとしての次元𝑑の音声特徴量の時間フレーム𝑡における局所内分散，𝑦̅_𝑡^(𝑑)は教師データとしての次元𝑑の音声特徴量の時間フレーム𝑡における局所内平均，𝐿_LVは後方参照時間フレーム

数，𝑅LVは前方参照時間フレーム数である．また，𝒚LVと同様に，LV損失関数で予測データとしての音声特徴量から算出される局所内分散を次式で定義する．

𝒚

̂_LV = [(𝒚̂_LV)₁^⊤, ⋯ , (𝒚̂_LV)_𝑡^⊤, ⋯ , (𝒚̂_LV)^⊤_𝑇]^⊤ (𝒚̂_LV)_𝑡 = [(𝑦̂_LV)_𝑡⁽¹⁾, ⋯ , (𝑦̂_LV)_𝑡^(𝑑), ⋯ , (𝑦̂_LV)_𝑡^(𝐷)] (𝑦̂LV)_𝑡^(𝑑)= 1

−𝐿_LV+ 𝑅_LV+ 1 ∑ (𝑦̂_𝑡+𝜏^(𝑑)− 𝑦̂̅_𝑡^(𝑑))²

𝑅_LV

𝜏=𝐿_LV

𝑦̂̅_𝑡^(𝑑) = 1

−𝐿LV+ 𝑅LV+ 1 ∑ 𝑦̂_𝑡+𝜏^(𝑑)

𝑅_LV

𝜏=𝐿_LV

（5.19）

ここで，𝒚̂_LVは教師データとしての音声特徴量の局所内分散ベクトル系列，(𝒚̂_LV)_𝑡は教師データとしての音声特徴量の時間フレーム𝑡における局所内分散ベクトル，(𝑦̂LV)_𝑡^(𝑑)は教師データとしての次元𝑑の音声特徴量の時間フレーム𝑡における局所内分散，𝑦̂̅_𝑡^(𝑑)は教師データとしての次元𝑑の音声特徴量の時間フレーム𝑡における局所内平均である．LV 損失関数は𝒚LVと 𝒚̂_LVの平均絶対誤差で定義される．

(𝑒LV)_𝑡^(𝑑)= |(𝑦_LV)_𝑡^(𝑑)− (𝑦̂_LV)_𝑡^(𝑑)| ℒ_LV(𝒚, 𝒚̂) = 1

𝑇𝐷∑ ∑(𝑒_LV)_𝑡^(𝑑)

𝐷

𝑑=1 𝑇

𝑡=1

（5.20）

ここで，(𝑒LV)_𝑡^(𝑑)は(𝑦̂LV)_𝑡^(𝑑)の(𝑦LV)_𝑡^(𝑑)に対する絶対誤差である．(𝑦̂LV)_𝑡^(𝑑)は𝑦̂_𝑡+𝜏^(𝑑) (𝐿LV ≤ 𝜏 ≤ 𝑅LV)から算出されるため，(𝑒LV)_𝑡^(𝑑)は𝑦̂_𝑡+𝜏^(𝑑) (𝐿LV ≤ 𝜏 ≤ 𝑅LV)に関連する DNN のモデルパラメータの学習に寄与する．このようにすることで，短区間[𝑡 + 𝐿LV, 𝑡 + 𝑅LV]における音声特徴量の分散を学習できる．

5.3.5. 局所内共分散の損失関数

LC損失関数は，メルケプストラムのような多次元の音声特徴量に対して利用する損失関数であり，音声特徴量の短区間における共分散の誤差を計算することで，DNNに短区間における音声特徴量の相関関係を教える．LC損失関数で教師データとしての音声特徴量から算出される局所内共分散を次式で定義する．

𝒚LC = [(𝒚LC)₁^⊤, ⋯ , (𝒚LC)_𝑡^⊤, ⋯ , (𝒚LC)^⊤_𝑇]^⊤ (𝒚LC)_𝑡 = [(𝒚LC)_𝑡⁽¹⁾, ⋯ , (𝒚LC)_𝑡^(𝑑¹⁾, ⋯ , (𝒚LC)_𝑡^(𝐷)] (𝒚LC)_𝑡^(𝑑¹⁾ = [(𝑦_LC)_𝑡^(𝑑¹^, 1), ⋯ , (𝑦_LC)_𝑡^(𝑑¹^, 𝑑²⁾, ⋯ , (𝑦_LC)_𝑡^{(𝑑, 𝐷)}] (𝑦LC)_𝑡^(𝑑¹^, 𝑑²⁾= 1

−𝐿_LV+ 𝑅_LV+ 1 ∑ (𝑦_𝑡+𝜏^(𝑑¹⁾− 𝑦̅_𝑡^(𝑑¹⁾) (𝑦_𝑡+𝜏^(𝑑²⁾− 𝑦̅_𝑡^(𝑑²⁾)

𝑅_LC

𝜏=𝐿_LC

（5.21）

ここで，𝒚_LCは教師データとしての音声特徴量の局所内共分散ベクトル系列，(𝒚_LC)_𝑡は教師データとしての音声特徴量の時間フレーム𝑡における局所内共分散ベクトル，(𝒚_LC)_𝑡^(𝑑¹⁾は教

師データとしての次元𝑑1の音声特徴量についての時間フレーム𝑡における局所内共分散ベクトル，(𝑦_LC)_𝑡^(𝑑¹^, 𝑑²⁾は教師データとしての次元𝑑₁の音声特徴量と次元𝑑₂の音声特徴量の時間フレーム𝑡における局所内共分散，𝐿LCは後方参照時間フレーム数，𝑅LCは前方参照時間フレーム数である．また，𝒚LCと同様に，LC損失関数で予測データとしての音声特徴量から算出される局所内共分散を次式で定義する．

𝒚

̂_LC = [(𝒚̂_LC)₁^⊤, ⋯ , (𝒚̂_LC)_𝑡^⊤, ⋯ , (𝒚̂_LC)^⊤_𝑇]^⊤ (𝒚̂_LC)_𝑡 = [(𝒚̂_LC)_𝑡⁽¹⁾, ⋯ , (𝒚̂_LC)_𝑡^(𝑑¹⁾, ⋯ , (𝒚̂_LC)_𝑡^(𝐷)] (𝑦̂LC)_𝑡^(𝑑¹⁾ = [(𝑦̂_LC)_𝑡^(𝑑¹^, 1), ⋯ , (𝑦̂_LC)_𝑡^(𝑑¹^, 𝑑²⁾, ⋯ , (𝑦̂_LC)_𝑡^{(𝑑, 𝐷)}] (𝑦̂LC)_𝑡^(𝑑¹^, 𝑑²⁾= 1

−𝐿_LV+ 𝑅_LV+ 1 ∑ (𝑦̂_𝑡+𝜏^(𝑑¹⁾− 𝑦̂̅_𝑡^(𝑑¹⁾) (𝑦̂_𝑡+𝜏^(𝑑²⁾− 𝑦̂̅_𝑡^(𝑑²⁾)

𝑅_LC

𝜏=𝐿_LC

（5.22）

ここで，𝒚̂_LCは予測データとしての音声特徴量の局所内共分散ベクトル系列，(𝒚̂_LC)_𝑡は予測データとしての音声特徴量の時間フレーム𝑡における局所内共分散ベクトル，(𝒚̂_LC)_𝑡^(𝑑¹⁾は予測データとしての次元𝑑1の音声特徴量についての時間フレーム𝑡における局所内共分散ベクトル，(𝑦̂_LC)_𝑡^(𝑑¹^, 𝑑²⁾は予測データとしての次元𝑑₁の音声特徴量と次元𝑑₂の音声特徴量の時間フレーム𝑡における局所内共分散である．LC 損失関数は𝒚LCと𝒚̂_LCの平均絶対誤差で定義される．

(𝑒LC)_𝑡^(𝑑¹^, 𝑑²⁾= |(𝑦_LC)_𝑡^(𝑑¹^, 𝑑²⁾− (𝑦̂_LC)_𝑡^(𝑑¹^, 𝑑²⁾| ℒ_LC(𝒚, 𝒚̂) = 1

𝑇𝐷²∑ ∑ ∑ (𝑒_LC)_𝑡^(𝑑¹^, 𝑑²⁾

𝐷

𝑑₂=1 𝐷

𝑑₁=1 𝑇

𝑡=1

（5.23）

ここで，(𝑒_LC)_𝑡^(𝑑¹^, 𝑑²⁾は(𝑦̂_LC)_𝑡^(𝑑¹^, 𝑑²⁾の(𝑦_LC)_𝑡^(𝑑¹^, 𝑑²⁾に対する絶対誤差である．(𝑦̂_LC)_𝑡^(𝑑¹^, 𝑑²⁾は 𝑦̂_𝑡+𝜏^(𝑑¹⁾ (𝐿_LC≤ 𝜏 ≤ 𝑅_LC)と𝑦̂_𝑡+𝜏^(𝑑²⁾ (𝐿_LC≤ 𝜏 ≤ 𝑅_LC)から算出されるため，(𝑒_LC)_𝑡^(𝑑¹^, 𝑑²⁾は𝑦̂_𝑡+𝜏^(𝑑¹⁾ (𝐿_LC≤ 𝜏 ≤ 𝑅_LC)と𝑦̂_𝑡+𝜏^(𝑑²⁾ (𝐿_LC≤ 𝜏 ≤ 𝑅_LC)に関連するモデルパラメータの学習に寄与する．このようにすることで，短区間[𝑡 + 𝐿LC, 𝑡 + 𝑅LC]における音声特徴量の共分散を学習できる．

5.3.6. 系列内分散の損失関数

GV 損失関数は音声特徴量の系列全体における分散の誤差を計算することによって，

DNNに系列全体における音声特徴量の振幅の大きさや，時間変動の程度を教える．教師データとしての音声特徴量から算出される系列内分散を次式で定義する．

𝒚_GV = [𝑦_GV⁽¹⁾, ⋯ , 𝑦_GV^(𝑑), ⋯ , 𝑦_GV^(𝐷)] 𝑦_GV^(𝑑)=1

𝑇∑ (𝑦_𝑡^(𝑑)− 𝑦̅^(𝑑))²

𝑇

𝑡=1

𝑦̅^(𝑑)=1

𝑇∑ 𝑦_𝑡^(𝑑)

𝑇

𝑡=1

（5.24）

ここで，𝒚GVは教師データとしての音声特徴量の系列内分散ベクトル，𝑦_GV^(𝑑)は教師データとしての次元𝑑の音声特徴量の系列内分散，𝑦̅^(𝑑)は教師データとしての次元の音声特徴量の系列内平均である．また，𝒚GVと同様に，GV 損失関数で予測データとしての音声特徴量から算出される系列内分散を次式で定義する．

𝒚̂GV = [𝑦̂_GV⁽¹⁾, ⋯ , 𝑦̂_GV^(𝑑), ⋯ , 𝑦̂_GV^(𝐷)] 𝑦̂_GV^(𝑑)=1

𝑇∑ (𝑦̂_𝑡^(𝑑)− 𝑦̂̅^(𝑑))²

𝑇

𝑡=1

𝑦̂̅^(𝑑)=1

𝑇∑ 𝑦̂_𝑡^(𝑑)

𝑇

𝑡=1

（5.25）

ここで，𝒚̂_GVは予測データとしての音声特徴量の系列内分散ベクトル，𝑦̂_GV^(𝑑)は予測データとしての次元𝑑の音声特徴量の系列内分散，𝑦̂̅^(𝑑)は予測データとしての次元の音声特徴量の系列内平均である．GV損失関数は𝒚GVと𝒚̂_GVの平均絶対誤差で定義される．

𝑒_GV^(𝑑)= |𝑦_GV^(𝑑)− 𝑦̂_GV^(𝑑)| ℒ_GV(𝒚, 𝒚̂) =1

𝐷∑ 𝑒_GV^(𝑑)

𝐷

𝑑=1

（5.26）

ここで，𝑒_GV^(𝑑)は𝑦̂_GV^(𝑑)の𝑦_GV^(𝑑)に対する絶対誤差である．𝑦̂_GV^(𝑑)は𝑦̂_𝑡^(𝑑) (1 ≤ 𝑡 ≤ 𝑇)から算出されるため，𝑒_GV^(𝑑)は𝑦̂_𝑡^(𝑑) (1 ≤ 𝑡 ≤ 𝑇)に関連するDNNのモデルパラメータの学習に寄与する．このようにすることで，系列全体における音声特徴量の分散を学習できる．

5.3.7. 系列内共分散の損失関数

GC損失関数は，メルケプストラムのような多次元の音声特徴量に対して利用する損失関数であり，音声特徴量の系列全体における共分散の誤差を計算することによって，DNNに系列全体における音声特徴量の相関関係を教える．GC損失関数で教師データとしての音声特徴量から算出される系列内共分散を次式で定義する．

𝒚GC = [𝒚_GC⁽¹⁾, ⋯ , 𝒚_GC^(𝑑¹⁾, ⋯ , 𝒚_GC^(𝐷)]

𝒚_GC^(𝑑¹⁾ = [𝑦_GC^(𝑑¹^, 1), ⋯ , 𝑦_GC^(𝑑¹^, 𝑑²⁾, ⋯ , 𝑦_GC^(𝑑¹^, 𝐷)] 𝑦_GC^(𝑑¹^, 𝑑²⁾=1

𝑇∑ (𝑦_𝑡^(𝑑¹⁾− 𝑦̅^(𝑑¹⁾) (𝑦_𝑡^(𝑑²⁾− 𝑦̅^(𝑑²⁾)

𝑇

𝑡=1

（5.27）

ここで，𝒚_GCは教師データとしての音声特徴量の共分散ベクトル，𝒚_GC^(𝑑¹⁾は教師データとしての次元𝑑₁の音声特徴量の共分散ベクトル，𝑦_GC^(𝑑¹^, 𝑑²⁾は教師データとしての次元𝑑₁の音声特徴量と次元𝑑2の音声特徴量の共分散である．また，𝒚GCと同様に，GC損失関数で予測データとしての音声特徴量から算出される系列内共分散を次式で定義する．

66 𝒚̂_GC = [𝒚̂_GC⁽¹⁾, ⋯ , 𝒚̂_GC^(𝑑¹⁾, ⋯ , 𝒚̂_GC^(𝐷)] 𝒚

̂_GC^(𝑑¹⁾ = [𝑦̂_GC^(𝑑¹^, 1), ⋯ , 𝑦̂_GC^(𝑑¹^, 𝑑²⁾, ⋯ , 𝑦̂_GC^(𝑑¹^, 𝐷)] 𝑦̂_GC^(𝑑¹^, 𝑑²⁾=1

𝑇∑ (𝑦̂_𝑡^(𝑑¹⁾− 𝑦̂̅^(𝑑¹⁾) (𝑦̂_𝑡^(𝑑²⁾− 𝑦̂̅^(𝑑²⁾)

𝑇

𝑡=1

（5.28）

ここで，𝒚̂_GCは予測データとしての音声特徴量の共分散ベクトル，𝒚̂_GC^(𝑑¹⁾は予測データとしての次元𝑑₁の音声特徴量の共分散ベクトル，𝑦̂_GC^(𝑑¹^, 𝑑²⁾は予測データとしての次元𝑑₁の音声特徴量と次元𝑑2の音声特徴量の共分散である．GC 損失関数は𝒚GCと𝒚̂_GCの平均絶対誤差で定義される．

𝑒_GC^(𝑑¹^, 𝑑²⁾= |𝑦_GV^(𝑑¹^, 𝑑²⁾− 𝑦̂_GV^(𝑑¹^, 𝑑²⁾| ℒ_GV(𝒚, 𝒚̂) = 1

𝐷²∑ ∑ 𝑒_GC^(𝑑¹^, 𝑑²⁾

𝐷

𝑑₂=1 𝐷

𝑑₁=1

（5.29）

ここで，𝑒_GC^(𝑑¹^, 𝑑²⁾は𝑦̂_GV^(𝑑¹^, 𝑑²⁾の𝑦_GV^(𝑑¹^, 𝑑²⁾に対する絶対誤差である．𝑦̂_GV^(𝑑¹^, 𝑑²⁾は𝑦̂_𝑡^(𝑑¹⁾ (1 ≤ 𝑡 ≤ 𝑇)と 𝑦̂_𝑡^(𝑑²⁾ (1 ≤ 𝑡 ≤ 𝑇)から算出されるため，𝑒_GC^(𝑑¹^, 𝑑²⁾は𝑦̂_𝑡^(𝑑¹⁾ (1 ≤ 𝑡 ≤ 𝑇)と𝑦̂_𝑡^(𝑑²⁾ (1 ≤ 𝑡 ≤ 𝑇)に関連するDNNのモデルパラメータの学習に寄与する．このようにすることで，系列全体における音声特徴量の共分散を学習できる．

ドキュメント内計算資源が限られた音声合成システムに用いる深層学習モデルの学習法に関する研究 (ページ 63-70)