DYN=64 DYN=32
歌詞
音量パラメータ推定における問題点
表現範囲に限界がある
真似ることが できない箇所
た ち ど ま る と き
DYN
を0
~127
まで与えて合成DYN=127 DYN=96 DYN=64 DYN=32
目標歌唱の音量 歌詞
DYN
を0
~127
まで与えて合成DYN=127 DYN=96 DYN=64 DYN=32
32
本研究における解決法
目標歌唱の音量
目標歌唱の音量の曲線と
DYN の中心値( =64 )の曲線との距離を最小化
全体としての再現度を高く
合成パラメータの反復推定
歌声合成システム
歌声合成パラメータの自動推定
音高(声の高さ) 音量(声の大きさ)
CV01 CV02
目標歌唱と合成歌唱との
音高・音量の差をパラメータに反映
34
実験1:反復の効果を確認
実験結果 : 反復推定による相対エラー量の減少
目標歌唱:RWC研究用音楽DB (ポピュラー音楽)
4曲(No.007, No.016, No.054, No.055) 冒頭
25%
25%
0%
0%
20%
20%
0%
音高(声の高さ) 音量(声の大きさ)
CV01
CV02
36
実験結果 : 反復推定による相対エラー量の減少
目標歌唱:RWC研究用音楽DB (ポピュラー音楽)
4曲(No.007, No.016, No.054, No.055) 冒頭
反復推定によって相対エラー量は減少した
25%
25%
0%
0%
20%
20%
0%
0%
音高(声の高さ) 音量(声の大きさ)
反復回数 CV01
CV02
本研究の三つのポイント
合成パラメータの反復推定
目標歌唱と歌詞の時間的対応付け
歌唱力補正
本研究の三つのポイント
38
目標歌唱と歌詞の時間的対応付け 歌唱力補正
合成パラメータの反復推定
目標歌唱と歌詞の時間的対応付け
すべての音節の境界を人間が手作業で指定
これまでの説明では各音節(「ひらがな」に対応)の
始端と終端が決まっていた
手作業で与えるのは大変
歌詞さえ与えれば音節の境界を自動推定
40
処理の流れ: Viterbi アラインメント (HMM)
こんな熱い夢
目標歌唱 歌詞
Viterbi アラインメント
結果 k o N n a a ts u i y u m e
※フレーズを超えるなどの大きな誤りは手作業で修正
処理の流れ:母音の始端と終端を利用して合成
こんな熱い夢
目標歌唱 歌詞
Viterbi アラインメント
結果 k o N n a a ts u i y u m e
こ ん な あ つ い ゆ め 歌詞の音節
割り当て こ ん な あ つ い ゆ め 歌詞の音節
割り当て
42
問題点
こんな熱い夢
目標歌唱 歌詞
Viterbi アラインメント
結果 k o N n a a ts u i y u m e
合成
(CV02)
こ ん な あ つ い ゆ め 歌詞の音節
割り当て
原因
こんな熱い夢
目標歌唱 歌詞
Viterbi アラインメント
結果 k o N n a a ts u i y u m e
こ ん な あ つ い ゆ め 歌詞の音節
割り当て
Viterbi アラインメントの性能
合成システムの特性
44
本研究の解決法:有声区間のずれを補正
有声区間
(CV02)
有声区間
(目標歌唱)
こ ん な あ つ い ゆ め
1. 有声区間中は前後の二音節を接続
2. 目標と合成の有声区間が一致するように各音節の始端と終端を伸縮 こ ん な あ つ い ゆ め
こ ん な あ つ い ゆ め
有声区間のずれを補正した結果
こ ん な あ つ い ゆ め
k o N n a a ts u i y u m e
目標歌唱
補正前
補正後
46
有声区間のずれを補正した結果
こ ん な あ つ い ゆ め
こ ん な あ つ い ゆ め
k o N n a a ts u i y u m e
目標歌唱
補正前
補正後
有声区間のずれがなくなり
品質がより向上
もう一つの問題
Viterbi アラインメント結果に誤りが生じる
o m o i m o i sh o n i そのまま合成
従来、自動推定結果の誤りへの
想いも一緒に
48
本研究の解決法 : 音節境界の誤り訂正
ユーザが誤り箇所を指摘する
新しい境界候補を自動的に推定して再提示 ステップ 1: ユーザによる指摘
ここが間違っている
お も い も い しょ に
ユーザ