高品質な音声分析合成技術 STRAIGHT を用いた - 実時間音声分析合成技術と音場再現に基づく高臨場感歌唱体験システムの研究

STRAIGHTは音声を線形分離等価回路モデルに対応して符号化でき，かつ肉声に

匹敵する品質で音声信号を復号できる．そのため，様々な分野において音声や歌声のオフライン分析や合成に用いられている．

またSTRAIGHTは線形分離等価回路モデルに基づくため，ピッチ(基本周期)やス

ペクトル包絡(調音フィルタ形状)に対応した特徴量を容易に得ることができる．特に歌声においては，歌唱様式が基本周波数の遷移でモデル化[5, 11]され，声質や歌唱フォルマントなど[71, 72]の特徴量がスペクトル包絡でモデル化されるなど，線形分離等価回路モデルに基づく符号化が活用されている．

そこで本節では，高品質な音声分析合成技術であるSTRAIGHTを利用または改良することで，使用者の歌声を実時間で制御する手法について提案する．

Analysis

Pitch contour

Synthesis Preprocessing

Real-time processing Supervisory

vocal sound

User’s original vocal sound

Manipulated vocal Spectral envelope

Pitch contour

Spectral envelope

図7 提案システムの処理フロー

2.6.1 歌唱制御システムの概要

歌唱制御システム(提案システム)の概要を図7に示す. 提案システムは使用者の声質と熟練歌唱者の歌唱様式を用いて歌唱信号を合成する. 提案システムでは熟練歌唱者と使用者の歌唱信号から歌唱様式に対応する基本周波数と声質に対応するスペクトル包絡を分析し, 熟練歌唱者の基本周波数と使用者のスペクトル包絡から歌唱様式の変換された使用者の歌唱信号を合成する. 合成された歌唱信号を従来のカラオケのように使用者に提示することで, 使用者はあたかも自身が熟練歌唱者のような歌唱を行っている体験を得ることが期待される. なお教師信号となる熟練歌唱者の歌唱様式は事前に分析しておき,実時間性の求められる使用者の歌唱信号のみ, 提案システムの利用時に実時間で分析する.

time Pitch

time /a/

/a/

/e/ /o/

time Pitch

time

/a/

/e/ /o/

/a/

/e/ /o/

/a/

/e/ /o/

User’s original vocal sound (synchronized)

Supervisory vocal sound

Manipulated vocal sound

Transcribe

Synthesize

Transcribe

Synthesize

time time

User’s original vocal sound (Unynchronized) Supervisory vocal sound

Manipulated vocal sound

Incorrect manipulation

manipulatedNot

図8 基本周波数の同期した歌唱信号と非同期な歌唱における歌唱制御

2.6.2 伴奏に基づく歌唱における同期した基本周波数

基本周波数の転写に基づき歌唱制御を行うには両者の歌唱が同期している条件が要求される. 基本周波数の時間変動において微細な変動が歌唱様式として知覚されることから, 基本周波数の大局的な時間変動が一致していればこの条件を満たすと考えられる. 図8は基本周波数の転写を同期および非同期な歌唱信号に対して行った例を示す. 各グラフは横軸を時間,縦軸を基本周波数とした基本周波数の時間変動を示しており,左側では教師信号と使用者の歌唱信号が同期しているが,右側では各信号が非同期となっている. 図下段はそれぞれの信号間における基本周波数の転写に基づいた歌唱制御の結果を示しており, 図左側のような基本周波数の大局的な時間変動が教師信号と使用者の歌唱信号で同期した場合, 各音素に対応した基本周波数が転写され適切に制御されている. 一方で図右側のような基本周波数の大局的な時間変動が教師信号と使用者の歌唱信号で非同期な場合,使用者が歌唱を行っていない時刻に基本周波数が転写され,また使用者が歌唱を行っている時刻に基本周波数が転写されないなど適切に制御されない. そこで歌唱信号に含まれる同期を調査する

0 0.5 1 1.5 2 2.5 3 3.5 4 300

350 400 450 500 550 600

Time[sec]

Fundamental frequency[cent]

Source F0 Target F0

図9 2名の歌手(Source, Target)が同一の楽曲を歌唱した場合におけるそれぞれの基

本周波数の時間変動

ため，予備実験を実施した．

2.6.3 基本周波数の同期に関する予備実験

予備実験では女性8名男性12名に歌唱された歌唱信号を対象に，基本周波数を推定し，時間的な同期について調査した．推定には高SNRな音声信号を対象とした高速な基本周波数推定法[73]を用いた. また評価試料として，歌唱制御システムがカラオケの歌唱に用いられることを考慮し，民生のカラオケ機にて定番楽曲として扱

われる(使用者に最も歌唱される)楽曲から，表1に示される男性楽曲3曲，女性楽

表1 評価に用いられた楽曲

歌手楽曲

夏川りみ(女性) 涙そうそう一青窈(女性) ハナミズキ DREAMS COME TRUE(女性) 未来予想図II

尾崎豊(男性) I love you

スピッツ(男性) cherry

サザンオールスターズ(男性) TSUNAMI

曲3曲を選出し用いた．推定された基本周波数の一例を図9に示す．図は2名の歌手が同一の楽曲を歌唱した場合の基本周波数の時間変動を，横軸を時間sec，縦軸を基本周波数(cent)として図示している．歌手の異なる歌唱信号では基本周波数の微細な変動は異なる一方で，その基本周波数の終了時刻，開始(立ち上がり)時刻が近く，大局的な変動は一致していることが確認できる．また1半音(100cent)以下の変動は音階が移動しないと見なして丸め，1半音(100cent)以上連続して基本周波数が変動する区間において，基本周波数の時間微分が0となる(遷移が終了する)時刻の歌手間のずれについて，その絶対値を評価した．その結果基本周波数が遷移する時刻のずれは平均118 msec，標準偏差113 msecであることを確認した．この値はテン

ポ120 bpsの32分音符の時間長125 msecを下回っている．対象の楽曲ではこれらの

音長を伴う歌唱が含まれないことから，対象の楽曲において1音の長さ以上のずれが生じることはない．そのためテンポ歌唱様式の転写の精度を低下させる発話時刻のずれは発生しないと考えられる．ただしテンポの高い楽曲や速い音高遷移を伴う楽曲では遷移時刻のずれが発生する可能性が高く，テンポの高い楽曲では基本周波数の遷移に対する対応付けが必要となる場合があるといえる．

表2 STRAIGHTを構成する各分析法の処理時間の比率分析対象分析に要する処理時間の比率基本周波数 21.7 %

非周期性指標 72.8 % スペクトル包絡 5.5 %

合計 100 %

ドキュメント内実時間音声分析合成技術と音場再現に基づく高臨場感歌唱体験システムの研究 (ページ 32-37)