STRAIGHTは音声を線形分離等価回路モデルに対応して符号化でき,かつ肉声に
匹敵する品質で音声信号を復号できる.そのため,様々な分野において音声や歌声 のオフライン分析や合成に用いられている.
またSTRAIGHTは線形分離等価回路モデルに基づくため,ピッチ(基本周期)やス
ペクトル包絡(調音フィルタ形状)に対応した特徴量を容易に得ることができる.特 に歌声においては,歌唱様式が基本周波数の遷移でモデル化[5, 11]され,声質や歌 唱フォルマントなど[71, 72]の特徴量がスペクトル包絡でモデル化されるなど,線 形分離等価回路モデルに基づく符号化が活用されている.
そこで本節では,高品質な音声分析合成技術であるSTRAIGHTを利用または改 良することで,使用者の歌声を実時間で制御する手法について提案する.
Analysis
Analysis
Pitch contour
Synthesis Preprocessing
Real-time processing Supervisory
vocal sound
User’s original vocal sound
Manipulated vocal Spectral envelope
Pitch contour
Spectral envelope
図7 提案システムの処理フロー
2.6.1 歌唱制御システムの概要
歌唱制御システム(提案システム)の概要を図7に示す. 提案システムは使用者の 声質と熟練歌唱者の歌唱様式を用いて歌唱信号を合成する. 提案システムでは熟練 歌唱者と使用者の歌唱信号から歌唱様式に対応する基本周波数と声質に対応するス ペクトル包絡を分析し, 熟練歌唱者の基本周波数と使用者のスペクトル包絡から歌 唱様式の変換された使用者の歌唱信号を合成する. 合成された歌唱信号を従来のカ ラオケのように使用者に提示することで, 使用者はあたかも自身が熟練歌唱者のよ うな歌唱を行っている体験を得ることが期待される. なお教師信号となる熟練歌唱 者の歌唱様式は事前に分析しておき,実時間性の求められる使用者の歌唱信号のみ, 提案システムの利用時に実時間で分析する.
time Pitch
time /a/
/a/
/e/ /o/
/e/ /o/
time Pitch
time
/a/
/e/ /o/
/a/
/a/
/e/ /o/
/e/ /o/
/a/
/e/ /o/
User’s original vocal sound (synchronized)
Supervisory vocal sound
Manipulated vocal sound
Transcribe
Synthesize
Transcribe
Synthesize
time time
User’s original vocal sound (Unynchronized) Supervisory vocal sound
Manipulated vocal sound
Incorrect manipulation
manipulatedNot
図8 基本周波数の同期した歌唱信号と非同期な歌唱における歌唱制御
2.6.2 伴奏に基づく歌唱における同期した基本周波数
基本周波数の転写に基づき歌唱制御を行うには両者の歌唱が同期している条件が 要求される. 基本周波数の時間変動において微細な変動が歌唱様式として知覚され ることから, 基本周波数の大局的な時間変動が一致していればこの条件を満たすと 考えられる. 図8は基本周波数の転写を同期および非同期な歌唱信号に対して行っ た例を示す. 各グラフは横軸を時間,縦軸を基本周波数とした基本周波数の時間変動 を示しており,左側では教師信号と使用者の歌唱信号が同期しているが,右側では各 信号が非同期となっている. 図下段はそれぞれの信号間における基本周波数の転写 に基づいた歌唱制御の結果を示しており, 図左側のような基本周波数の大局的な時 間変動が教師信号と使用者の歌唱信号で同期した場合, 各音素に対応した基本周波 数が転写され適切に制御されている. 一方で図右側のような基本周波数の大局的な 時間変動が教師信号と使用者の歌唱信号で非同期な場合,使用者が歌唱を行っていな い時刻に基本周波数が転写され,また使用者が歌唱を行っている時刻に基本周波数が 転写されないなど適切に制御されない. そこで歌唱信号に含まれる同期を調査する
0 0.5 1 1.5 2 2.5 3 3.5 4 300
350 400 450 500 550 600
Time[sec]
Fundamental frequency[cent]
Source F0 Target F0
図9 2名の歌手(Source, Target)が同一の楽曲を歌唱した場合におけるそれぞれの基
本周波数の時間変動
ため,予備実験を実施した.
2.6.3 基本周波数の同期に関する予備実験
予備実験では女性8名男性12名に歌唱された歌唱信号を対象に,基本周波数を推 定し,時間的な同期について調査した.推定には高SNRな音声信号を対象とした高 速な基本周波数推定法[73]を用いた. また評価試料として,歌唱制御システムがカ ラオケの歌唱に用いられることを考慮し,民生のカラオケ機にて定番楽曲として扱
われる(使用者に最も歌唱される)楽曲から,表1に示される男性楽曲3曲,女性楽
表1 評価に用いられた楽曲
歌手 楽曲
夏川りみ(女性) 涙そうそう 一青窈(女性) ハナミズキ DREAMS COME TRUE(女性) 未来予想図II
尾崎豊(男性) I love you
スピッツ(男性) cherry
サザンオールスターズ(男性) TSUNAMI
曲3曲を選出し用いた.推定された基本周波数の一例を図9に示す.図は2名の歌 手が同一の楽曲を歌唱した場合の基本周波数の時間変動を,横軸を時間sec,縦軸を 基本周波数(cent)として図示している.歌手の異なる歌唱信号では基本周波数の微 細な変動は異なる一方で,その基本周波数の終了時刻,開始(立ち上がり)時刻が近 く,大局的な変動は一致していることが確認できる.また1半音(100cent)以下の変 動は音階が移動しないと見なして丸め,1半音(100cent)以上連続して基本周波数が 変動する区間において,基本周波数の時間微分が0となる(遷移が終了する)時刻の 歌手間のずれについて,その絶対値を評価した.その結果基本周波数が遷移する時 刻のずれは平均118 msec,標準偏差113 msecであることを確認した.この値はテン
ポ120 bpsの32分音符の時間長125 msecを下回っている.対象の楽曲ではこれらの
音長を伴う歌唱が含まれないことから,対象の楽曲において1音の長さ以上のずれ が生じることはない.そのためテンポ歌唱様式の転写の精度を低下させる発話時刻 のずれは発生しないと考えられる.ただしテンポの高い楽曲や速い音高遷移を伴う 楽曲では遷移時刻のずれが発生する可能性が高く,テンポの高い楽曲では基本周波 数の遷移に対する対応付けが必要となる場合があるといえる.
表2 STRAIGHTを構成する各分析法の処理時間の比率 分析対象 分析に要する処理時間の比率 基本周波数 21.7 %
非周期性指標 72.8 % スペクトル包絡 5.5 %
合計 100 %