立命館大学博士論文
実時間音声分析合成技術と音場再現に基づく
高臨場感歌唱体験システムの研究
(A Highly-Realistic Singing-Experience System Based on
Real-Time Vocoder and Sound Field Reproduction)
2015年 3 月 March, 2015
立命館大学大学院
情報理工学研究科情報理工学専攻 博士課程後期課程
Doctoral Program in Advanced Information Science and Engineerring Graduate School of Information Science and Engineering
Ritsumeikan University
中野皓太
Kota Nakano
本論文は立命館大学大学院情報理工学研究科に 博士 (工学) 授与の要件として提出した博士論文である. 提出者氏名 : 中野皓太 主査 : 西浦敬信 教授 副査 : 山下洋一 教授 副査 : 平林晃 教授
実時間音声分析合成技術と音場再現に基づく
高臨場感歌唱体験システムの研究
∗中野皓太
内容梗概 エンタテインメントのひとつであるカラオケは,誰でも歌唱行為を楽しめるよう 設計されている.しかしながら歌唱力には個人差があり,カラオケは歌唱を苦手と する人々からは敬遠される場合もある.カラオケはエンタテインメントのみならず 社会的な交流を図る場や道具として利用される場合がある.一方で歌唱を苦手とす る人々はカラオケを敬遠するため,適切な交流が図られないなどの社会問題を生じ ている. カラオケでは楽曲のキー (音高) の制御により歌唱行為に対する使用者の負担低減 が行われているが,使用者の歌唱力そのものを支援するものではないため高い効果 は望めない. 本論文では使用者の歌声を実時間で制御し,使用者にあたかも自身が熟練歌唱者 であるかのような歌唱体験を提供するシステムを提案する.本提案では音声分析合 成技術に基づき熟練歌唱者の特徴を使用者の歌声に転写することで,使用者の声質 を保ちつつ熟練歌唱者の歌唱様式を伴う歌声を合成する.また合成された使用者の 歌声や楽曲の伴奏を提示する際に,公演用舞台などの音環境をスピーカシステムと 音場模擬技術によって高臨場に再現し使用者へ提示する.これらの処理により使用 者はあたかも自身が熟練歌手であるかのような歌唱体験を得ることができる.本シ ステムは使用者本人の歌唱力や歌唱される環境に依存しないため,歌唱の不得意な 使用者を支援することができる.またその他の使用者にとっては,他人の歌唱様式 や様々な音環境を体験できる新たなエンタテインメントを提供できる. ∗立命館大学大学院 情報理工学研究科情報理工学専攻 立命館大学博士論文, 2015 年 3 月 20 日.本論文では第 1 に,線形分離等価回路モデルに基づく音声分析合成技術を用いて 使用者の歌声を符号化し,熟練歌唱者の歌唱様式を使用者の歌声に転写するシステ ムを提案する.提案システムは高品質な音声分析合成技術である STRAIGHT を採 用する.STRAIGHT は高い品質を達成する一方で多くの演算を要求する.カラオケ においては実時間で歌声を合成する条件が求められるため,本論文では STRAIGHT スペクトルの逆フィルタに基づく STRAIGHT の演算量削減および実時間処理を提案 する.評価実験の結果,STRAIGHT の実時間処理が達成され,本システムが実時間 で熟練歌唱者の歌唱様式を使用者の歌声に転写できることが示された. 第 2 に,音場再現のためのスピーカシステムと音場模擬技術について検討し,ス ピーカシステムと音場模擬に基づく音場再現システムを提案する.提案システムは クロストークに対して頑健に音場を再現できるセミトランスオーラルシステムと, 座標変換によって演算精度の改善した有限差分時間領域法に基づき,様々な仮想環 境の音場を高い臨場感で使用者に提供する.なお本論文では,あたかも任意の方向 に音源があるかのように感じさせる (明瞭に音像が定位する) 音響信号を高臨場な音 響信号と定義する.評価実験の結果,提案手法が高精度に音場模擬を実現でき音像 の定位を制御できることが示された. 最後に高臨場感歌唱体験システムについて検討し,歌唱様式の転写と音場再現の 統合に基づくシステムを提案する.提案システムはカラオケの伴奏における楽器な どの音像を各方向に構築し,制御された使用者の歌唱をセミトランスオーラルシス テムに基づいて使用者に提示する.評価実験の結果,歌唱体験システムの不足分を 音場再現システムが補い,使用者の歌唱行為を効率的に支援できることを確認した. キーワード 歌唱モーフィング,音声分析合成技術,STRAIGHT,音場再現,セミトランスオー ラル,音場模擬,有限差分時間領域法,スペクトル法,ミンコフスキー空間,極座 標演算
A Highly-Realistic Singing-Experience System Based on
Real-Time Vocoder and Sound Field Reproduction
∗Kota Nakano
Abstract
Karaoke is one of the most popular forms of entertainment. Karaoke is singing, and
it provides everyone opportunities for enjoyment. Karaoke is often used as a tool for communication, however, singing is also a skill. Some people, such as tone-deaf peo-ple, tend to avoid singing Karaoke with their companions. This tendency prevents good communication for them. In this thesis, I propose a system to solve the problem. The proposed system provides virtual singing-experience to users. The system modifies the singing-style of the users’ singing-voice to professional-like one in real-time. The system also reproduces sound fields such as performance halls. Accordingly, the system provides users with good singing-experiences. The system supports singing for tone-deaf people, and also provides more entertainment than regular Karaoke to other users.
Firstly, I propose a singing morphing system by using vocoder framework based on the source-filter model. The system transcripts the singing-style of professional singers to am-ateur users’singing-voice in real-time. To achieve the system, I propose an approach for a high quality vocoder, STRAIGHT to rapidly process the singing-voice, which depends on inverse-filtering method with STRAIGHT spectrum. According to the evaluations, I confirm that the proposed system can transcript singing-style of professional singers to users’ singing-voice in real time.
Secondly, I propose a sound-reproduction system by using a semi-transaural loudspeaker-system and improved sound-field simulator. The semi-transaural loudspeaker-loudspeaker-system
∗Doctoral Dissertation, Doctoral Program in Advanced Information Science and Engineering, Graduate
achieves high robustness for crosstalk of loudspeaker-system. The sound-field simula-tor depends on the finite-difference time-domain method. I propose an improvement for the simulator by employing spectral method and coordinate conversion for accurate com-putation. According to the evaluations, I confirm that the proposed system can robustly present fine sound-images to users.
Finally, I propose a singing-experience system with high-realistic sensation. The sys-tem depends on the integrated syssys-tems which is proposed in the previous sections in this thesis. According to the evaluation, the sound-field simulator complemented the quality of singing morphing system. It was indicated that the integrated-systems could effectively provide good singing-experiences to users.
Keywords:
Singing morphing, Vocoder, STRAIGHT, Sound field reproduction, Semi-Transaural, Sound field simulation, Finite difference time domain method, Spectral method, Polar coordinate
目 次
1. 序論 1 2. 高品質音声分析合成技術 STRAIGHT の高速化と 応用に基づく歌唱体験システム 5 2.1 音声と信号処理の基礎 . . . . 6 2.2 ディジタル信号処理による音声のスペクトル密度解析の基礎 . . . . . 7 2.3 ディジタル信号処理による音声分析合成技術の基礎 . . . 10 2.3.1 音声分析合成技術の先行研究 . . . 10 2.4 音声分析合成技術のためのスペクトル密度推定の基礎 . . . 11 2.4.1 ケプストラムに基づく調音フィルタの推定 . . . 13 2.4.2 線形予測による調音フィルタの推定 . . . 16 2.5 先行研究:高品質音声分析合成技術 STRAIGHT . . . 18 2.6 高品質な音声分析合成技術 STRAIGHT を用いた 基本周波数の転写に基づく歌声制御システムの提案 . . . 19 2.6.1 歌唱制御システムの概要 . . . 20 2.6.2 伴奏に基づく歌唱における同期した基本周波数 . . . 21 2.6.3 基本周波数の同期に関する予備実験 . . . 22 2.7 逆フィルタ法の併用による歌声の実時間処理を目的とした 高品質音声分析合成技術 STRAIGHT に基づく実時間ボコーダの提案 24 2.7.1 励起信号の抽出を併用した STRAIGHT に基づく 提案ボコーダの概要 . . . 26 2.7.2 駆動信号の分離 . . . 26 2.7.3 駆動信号から雑音成分の分離 . . . 27 2.7.4 提案ボコーダを用いた音声信号の復号 . . . 30 2.8 様々な熟練歌唱者の歌唱様式体験を使用者へ提供する手法の 評価実験 . . . 31 2.8.1 評価実験の概要 . . . 31 2.8.2 提案ボコーダの分析合成時間の評価 . . . 322.8.3 提案ボコーダの分析合成時間の評価結果 . . . 32 2.8.4 提案ボコーダの品質評価 . . . 33 2.8.5 提案ボコーダの品質評価結果 . . . 34 2.8.6 歌唱制御システムによる歌唱様式の転写精度の評価 . . . 35 2.8.7 歌唱制御システムによる歌唱様式の転写精度の評価結果 . . . 36 2.8.8 歌唱制御システムの評価 . . . 36 2.8.9 歌唱制御システムの評価結果 . . . 37 2.9 様々な熟練歌唱者の歌唱様式の体験を 使用者へ提供する手法に関する考察 . . . 38 2.9.1 提案ボコーダの評価結果に関する考察 . . . 38 2.9.2 歌唱様式の転写に関する考察 . . . 39 2.9.3 歌唱制御システムの評価結果に関する考察 . . . 40 2.10 様々な熟練歌唱者の歌唱様式体験を使用者へ提供する 手法のまとめ . . . 41 3. セミトランスオーラルと音場模擬技術に基づく 音場再現システム 42 3.1 高臨場感音場再現システム . . . 43 3.2 高臨場感音場再現技術に関する先行研究 . . . 43 3.2.1 バイノーラルシステムと頭部伝達関数 . . . 43 3.2.2 トランスオーラルシステム . . . 45 3.2.3 サラウンドシステム . . . 46 3.2.4 空間の音圧分布を制御する手法 . . . 47 3.3 達成すべき課題 . . . 48 3.4 セミトランスオーラルシステムに基づく簡易かつ高品質な 音場再現手法の提案 . . . 50 3.4.1 セミトランスオーラルシステムのクロストークに関する予備 実験 . . . 50 3.4.2 逆フィルタと HRTF を利用したセミトランスオーラルシステム 51
3.4.3 有限差分時間領域法に基づく音場シミュレーションを利用し たセミトランスオーラルシステム . . . 52 3.5 有限差分時間領域法の高精度化の提案 . . . 56 3.5.1 数値分散による波束の乱れ . . . 57 3.5.2 スペクトル法に基づく数値分散の抑圧 . . . 61 3.5.3 周波数領域演算の数値分散抑圧に関する予備実験 . . . 72 3.5.4 数値分散の抑圧に関する予備実験結果 . . . 72 3.5.5 数値分散の抑圧効果に関する考察 . . . 74 3.5.6 極座標系ミンコフスキー空間での演算に基づく巡回性の問題 の回避 . . . 76 3.5.7 計算式の導出 . . . 77 3.5.8 計算機シミュレーションによる提案演算法の評価 . . . 80 3.5.9 計算機シミュレーションの結果と考察 . . . 81 3.6 インパルス応答を用いた音場再現性能に関する客観評価実験 . . . 97 3.6.1 音場再現性能に関する客観評価実験の条件 . . . 97 3.6.2 客観評価に関する実験結果 . . . 99 3.6.3 客観評価実験に対する考察 . . . 99 3.7 音像の定位性能に関する主観評価実験 . . . 100 3.7.1 主観評価に関する実験条件 . . . 100 3.7.2 主観評価に関する実験結果 . . . 101 3.7.3 主観評価実験結果の考察 . . . 102 3.8 音場模擬とセミトランスオーラルシステムに関するまとめ . . . 105 4. 歌唱体験システムと音場再現システムに基づく 高臨場感歌唱体験システム 106 4.1 高臨場感歌唱体験システムの構成 . . . 106 4.2 実時間歌唱補正と高臨場感音場再現に基づく 高臨場感歌唱体験システムの評価実験 . . . 108 4.3 高臨場感歌唱体験システムの評価実験結果 . . . 110 4.4 高臨場感歌唱体験システムの評価実験に関する考察 . . . 111
4.5 高臨場感歌唱体験システムの提案に関するまとめ . . . 115 5. 結論 120 謝辞 122
図 目 次
1 カラオケにおいて歌唱への抵抗に阻害される意思疎通 . . . . 2 2 使用者の歌声を補正しステージ上の専業歌手のような歌唱体験を提供 3 3 窓関数 (矩形窓) を用いた信号の切り出し . . . . 9 4 周期性を有する信号のスペクトル密度推定とピッチ同期分析 . . . 13 5 窓関数の切り出し位置によるスペクトル密度の振動 . . . 14 6 音声,励起信号,調音フィルタの応答に対するケプストラム . . . 15 7 提案システムの処理フロー . . . 20 8 基本周波数の同期した歌唱信号と非同期な歌唱における歌唱制御 . . 21 9 2名の歌手 (Source, Target) が同一の楽曲を歌唱した場合におけるそれ ぞれの基本周波数の時間変動 . . . 22 10 STRAIGHTと提案ボコーダの比較 . . . 25 11 日本語発話/a/の観測波形と分離された駆動信号および推定された非 周期性信号 . . . 28 12 駆動信号のケプストラムおよび周期性成分を抑圧するためのマスク 関数 . . . 29 13 音声の駆動信号に含まれる推定された雑音信号 . . . 29 14 基本周期 T0の周期信号 . . . 31 15 分離された雑音信号の付加された励起信号 . . . 31 16 入力と異なる基本周期で復号された日本語発話/a/の時間波形 . . . 32 17 提案ボコーダを用いて歌唱制御を伴わず分析合成された信号の主観 的品質 . . . 3418 提案ボコーダを用いて歌唱制御を伴い分析合成された信号の主観的 品質 . . . 35 19 提案法による歌唱様式の評価結果 . . . 37 20 歌唱制御システムの評価結果 . . . 39 21 バイノーラルシステム . . . 44 22 基礎的なトランスオーラルシステム . . . 46 23 境界音場制御のための 157 ch による全方位型スピーカアレイ (東北大 学電気通信研究所) . . . 49 24 頭部近傍スピーカアレイにおける各スピーカと両耳間の伝達関数 . . 64 25 頭部近傍スピーカアレイ . . . 65 26 左側のスピーカから両耳位置までのインパルス応答 . . . 66 27 頭部に到来する音響信号の予測と提示 . . . 67 28 有限差分時間領域法によって波束の乱れた応答 . . . 68 29 連続の微分と離散の差分の周波数領域において乗算される係数 . . . . 69 30 中央にエネルギーのある空間音圧分布と離散フーリエ変換を用いて 導出された 2 次導関数 . . . 70 31 境界付近にエネルギーのある空間音圧分布と離散フーリエ変換を用 いて導出された 2 次導関数 . . . 71 32 伝播前の音圧分布と各手法による伝播後の音圧分布 (1) . . . 83 33 伝播前の音圧分布と各手法による伝播後の音圧分布 (2) . . . 84 34 伝播前のガウス関数と,各手法で伝播させたガウス関数の応答波形 (1) 85 35 伝播前のガウス関数と,各手法で伝播させたガウス関数の応答波形 (2) 86 36 源信号と各手法による応答の利得差 . . . 87 37 源信号と各手法による応答の群遅延差 . . . 88 38 各方向に対する伝播過程にて生じたパワーの減衰量 . . . 89 39 伝播過程にて生じたパワーの減衰量の伝播方向に対する平均と標準 偏差 . . . 90 40 各方向に対する伝播過程で生じた群遅延歪の 2 乗平均平方根誤差 . . . 91
41 伝播過程にて生じた群遅延歪の 2 乗平均平方根誤差の伝播方向に対 する平均と標準偏差 . . . 92 42 時空間におけるインパルス応答の模擬結果 . . . 93 43 0.25 m, 0.75 mに障壁のある空間で模擬された時空間のインパルス応答 94 44 座標 0.0, 0.2, 0.4 m で観測される時間インパルス応答 . . . 95 45 1次反射成分の周波数特性 . . . 96 46 実音場と再現音場間の C 値誤差(受聴者の頭部なし) . . . 99 47 実音場と再現音場間の C 値誤差(受聴者の頭部あり) . . . 100 48 0.3 m遠方の仮想音源に対して知覚された音像方向 . . . 103 49 0.6 m遠方の仮想音源に対して知覚された音像方向 . . . 104 50 実時間歌唱補正と高臨場感音場再現に基づくの歌唱体験システムの 概略 . . . 107 51 実時間歌唱補正と高臨場感音場再現に基づく歌唱体験システムの処理 108 52 舞台上の仮想音源配置 . . . 109 53 ホール全体の形状 . . . 110 54 声の個人性に関するスコア . . . 116 55 カラオケシステムとしての自然さに関するスコア . . . 117 56 カラオケシステムとしての楽しさに関するスコア . . . 118 57 歌唱が不得意な使用者に対する効果の期待度に関するスコア . . . 119
表 目 次
1 評価に用いられた楽曲 . . . 23 2 STRAIGHTを構成する各分析法の処理時間の比率 . . . 24 3 各ボコーダの分析合成における処理時間の平均割合 . . . 33 4 主観評価におけるスコアと品質 . . . 33 5 制御された歌唱信号の聴取時に知覚される歌唱様式の再現度の評価 尺度 . . . 36 6 歌唱制御システムの評価項目 . . . 387 頭部近傍スピーカアレイにおけるクロストークに関する予備実験の 条件 . . . 51 8 数値分散に関する予備実験の計算機シミュレーション条件 . . . 72 9 提案手法の計算機シミュレーション条件 . . . 81 10 実験で用いた音場シミュレータのパラメタ . . . 98 11 客観評価実験の条件 . . . 98 12 音場シミュレータにおける仮想音源の座標 . . . 101 13 主観評価実験における測定条件 . . . 101 14 比較されるシステムの場合 . . . 111 15 回答項目 1, 出力音声の自分らしさ . . . 111 16 回答項目 2, カラオケシステムとしての自然さ (違和感のなさ) . . . 112 17 回答項目 3, カラオケシステムとしての楽しさ . . . 112 18 回答項目 4, 歌唱が不得意な使用者に対する効果の期待度 . . . 113 19 高臨場感歌唱体験システムの評価実験条件 . . . 113 20 Tukeyの方法に基づき算出された累積確率分布関数値 . . . 114
1.
序論
カラオケ [1, 2] は日本発祥の文化であり,歌唱という平易な表現を採用すること で老若男女問わず気軽に楽しめるように設計されたエンタテインメントである.そ のため,社会的な交流を図るための道具や場として利用される場合もある.しかし ながら,歌唱は各個人の歌唱力に依存するものであり,例えば図 1 のように歌唱行 為を伴うカラオケを敬遠することで,特定の集団への意思疎通において障害を生じ させる場合がある. 本論文ではそのような歌唱行為への抵抗から社会的不利益を受ける集団を対象と して,また歌唱行為への抵抗がない集団にとっては従来のカラオケを更に発展させ た歌唱体験を提供する次世代の歌唱支援システムを提案する.なお本論文では,特 定の音高に従う歌唱において付加価値として与えられる表現技法や歌手依存の歌い 回しを歌唱様式と定義し,歌唱行為を通じて得られるユーザ体験 [3] を歌唱体験と 定義する. 本論文における目標を図 2 に示す.使用者が本論文のシステムを用いて歌唱行為 を行うと,制御された歌声がスピーカを通じて使用者らに提示される.このとき定 時される歌声は,熟練歌唱者が歌唱しているかのような歌声に変換される.加えて, 使用者はあたかも公演用の舞台上で歌唱しているかのような体験を得る.これらの 両方の作用により,使用者にはあたかも使用者自身が専業歌手として舞台上で歌唱 しているかのような体験を得ることができる.本論文のシステムは使用者の歌唱力 や周辺の音環境を作り変えて提示することにより,使用者が抵抗なく歌唱行為を楽 しめることが期待できる.またカラオケを敬遠しない使用者にとっても,従来のカ ラオケでは達成されなかった新たな楽しみを提供できる. カラオケは比較的新しいエンタテインメントであり, MIDI 信号 [4] による通信や 楽曲の音高制御などの工夫を積極的に取り入れてきた. 現在カラオケは世界中のあ らゆる年齢層に広く利用される, 普及率の高いエンタテインメントのひとつとなって いる. 昨今では民生用の情報端末の発展や通信の広帯域化に伴い, 民生用におけるカ ラオケのアプリケーションが広く普及している. 特に 2010 年現在では SingStar⃝やRJOY SOUND Wii⃝などがそれぞれ 1,600 万本および 25 万本販売されるなど, その実R
My companions invite me
to join for singing Karaoke.
But, I'm not good at singing.
I'm afraid to go there.
図 1 カラオケにおいて歌唱への抵抗に阻害される意思疎通 利用法は多岐にわたる.しかしカラオケは歌唱という技能に基づくため,熟練度に よりカラオケを満足に利用できない可能性 (音痴等の劣等感に基づく敬遠など) があ る.これを受けカラオケでは熟練度の差異を補うため,MIDI 信号に基づく楽曲の音 高を制御する機能などが提案されてきた.しかしこの機能では使用者の歌唱を制御 しないため, 熟練度を補うには不十分と考えられる.そこで本論文では使用者の歌唱 に対する支援の新たな試みとして, 熟練度に依存せず使用者が熟練歌唱者のような 歌唱様式を行える歌唱制御システムを提案する. カラオケにおいてプロの歌い方を体験するシステムとして Impersonating system[5] が提案されている.Impersonating system では MIDI 信号に基づいて使用者の歌唱に 含まれる音素と歌詞情報に基づいた対応付けを行い, 歌唱の声質などを変化させるこ とができる. Impersonating system は使用者の歌唱に対する支援として有効な手法で あるが, Sinusoid モデル [6] に基づくため使用者の歌声において,個人性を保持した
User can experience
1. vocal style of
professional singer
2. auditory-sensation of
precious stages
Present manipulated
sound
Singing morphing
and sound field
reproduction system
図 2 使用者の歌声を補正しステージ上の専業歌手のような歌唱体験を提供 歌唱様式のみの制御は難しい.そのほか,Impersonating system では歌唱される空間 を想定しておらず臨場感を制御できない欠点もある.人の歌唱における歌唱様式が 歌手の体格に依存する調音機構 (声質) よりは,制御が容易な声帯振動 (基本周波数) に依存すると考えられている [7].加えて Text-to-speech[8] の技術においても基本周 波数を主に制御することで歌唱様式の制御を達成している [9] ことから,基本周波 数を制御することで,その歌唱様式を制御できるといえる. 基本周波数の制御に基づく Auto-Tune⃝[10] や SingBySpeaking[11] などが提案さR れている. Auto-Tune⃝は収録された歌唱信号の音高を制御できる. 特に音楽制作にR おいては有効性が効果的であり,広く利用されている. しかし歌唱様式などの概念 がなく, 実時間で歌唱様式を変換することは困難とされる. SingBySpeaking は使用者 の話し声を歌声へ変換できる. オーバーシュート, ヴィブラート, プレパレーション などの歌唱表現の差異が, 音声の音高である基本周波数の時間変動として観測されることが先行研究 [12] によって確認されており, SingBySpeaking では先行研究 [12] のモデルに基づいた歌声への変換を行う. SingBySpeaking は歌唱様式の教師信号に 依存せず汎用的に歌唱を制御できる一方で, 現在のモデルでは歌手固有の歌唱様式 や個性などを扱いきれず, 特定の熟練歌唱者のような歌唱様式を付与することが困 難である. そこで本論文ではモデル化を行わず,熟練歌唱者の歌唱における基本周 波数の時間変動を事例として使用者の歌唱に転写し,歌唱様式を変換するシステム を提案する.それと同時に,様々な舞台やホールなど音環境の特性を考慮し,高い 臨場感を伴って使用者に提示する.なお本論文では,任意の方向に明瞭な音像を定 位させる音響信号を高臨場な音響信号と定義する. 以下に本論文の構成を述べる.第 2 章では使用者の歌声に対する歌唱様式の変換 を目的とした,高品質な音声分析合成技術である STRAIGHT とその高速化および応 用について述べる.第 3 章では使用者の歌声を利用した音場再現について,スピー カシステムとその改良,および高精度な音場模擬技術について述べる.第 4 章では, 使用者の歌声に対する歌唱様式を実時間で変換し,仮想音場の再現に基づき使用者 に提示する手法,および評価実験による有効性の確認について述べる.第 5 章では 本論文のむすびとして,本論文の主題に対する結論と今後の課題について述べる.
2.
高品質音声分析合成技術
STRAIGHT
の高速化と
応用に基づく歌唱体験システム
ここでは,熟練者の歌唱体験を使用者に提示するシステムについて述べる.本提案 システムは使用者の歌声から,その歌唱様式を熟練者の歌唱様式で置き換えること により,あたかも使用者が熟練者の技量で歌唱しているかのような状況を構築する. 音声とは気圧の高低が時間ないし空間に分布した情報であり,時間や空間に分布 した信号 (音声の情報を持つ信号; 音声信号) として扱うことができる.使用者の歌 声をあたかも熟練者の歌唱のように置き換えるには,使用者や熟練歌唱者の音声を 分析して扱う必要性がある. 時間や空間などに分布したデータから有益な情報を抽出する技術は信号処理と呼 ばれる.信号処理の技術により,音声信号を音声特徴量で符号化し,音声特徴量か ら音声信号を復号する技術は音声分析合成技術と呼ばれる. 使用者の歌声から歌唱様式を制御するためには下記の条件を満たす必要がある. 1. 使用者の歌声から歌唱様式と個人性を符号化 2. 熟練歌唱者の歌唱様式と使用者の個人性から音声を復号 3. 肉声に匹敵する品質で音声を復号 4. 実時間処理 本章では音声を扱う信号処理と音声分析合成技術,音声分析合成技術の枠組みで 歌唱様式を置換する手法,および高品質な音声分析合成技術の改良による実時間処 理について述べる. 以下に本章の構成を述べる.第 2.1 節では,音声を処理するための信号処理の基 礎について説明する.第 2.2 節では,信号処理による音声の分析手法の基礎につい て説明する.第 2.3 節では,信号処理に基づく従来の音声分析合成技術について説 明する.第 2.4 節では,従来の音声分析合成技術の特徴量推定について説明する.第 2.5節では,高品質な音声分析合成技術である STRAIGHT の基礎について説明する. 第 2.6 節では,STRAIGHT の枠組みに基づき歌唱様式を制御する手法について提案する.第 2.7 節では,使用者の歌声の実時間処理を目的とした STRAIGHT の高速 化について提案する.第 2.8 節では,提案した歌唱様式の変換手法と高速化された STRAIGHTに関して実施した評価実験について述べる.第 2.10 節では,高品質音声 分析合成技術 STRAIGHT の高速化と応用に基づく歌唱体験システムの提案につい て達成された内容に関するまとめを述べる.
2.1
音声と信号処理の基礎
時間や空間などに分布した情報 (信号) は信号処理の技術によって処理できる.信 号処理は本論文で扱う音声や音響以外に,通信や医療などにも用いられる. 信号処理の対象である音波 [13] や電磁波 [14],生体信号 [15] などは実空間におい てアナログ信号として存在しており,初期の信号処理は対象の信号を感知器で電気 信号に変換し,素子の電気特性に基づいてアナログ回路で処理する (アナログ信号 処理 [16]) ものであった.しかしアナログでの信号処理は,環境による電気特性の変 化や電気的制限によって精度が安定せず,信号の劣化しない記録や暗号化が困難で あった.一方で,アナログ信号処理の他に論理回路に基づく信号処理 (ディジタル信 号処理 [17]) が提案されている.論理演算に基づくためアナログ信号処理よりも周 囲の環境の変化に頑健であり,情報が劣化しない記録を実現できるなど,従来では 非現実的であった信号処理を可能とする利点がある.加えて,ディジタル信号処理 はアナログ信号のディジタル化 (Analogue-to-digital; A/D 変換 [17, 18]) を必要とする が,標本化定理で保障される帯域において標本化はアナログ信号と相互変換が可能 であるため,有限の帯域においてディジタル信号処理はアナログ信号処理の上位互 換と考えられた. しかしながら,アナログ信号処理においては素子で得られる特性を,ディジタル 信号処理では多数の論理回路によって模倣し,また論理回路をクロック駆動させる 必要性があるため,高密度の集積回路や安定した高周波回路の実現する近年までは 性能が低くアナログ信号処理を置き換えるものではなかった. ムーアの法則 [19] に従い半導体による論理回路の集積度とクロック周波数が指数 的に向上した近年では,ディジタル信号処理の実装は実用的な水準に到達しつつあ る.加えて論理回路による演算アルゴリズムにおいても革新が続いており,1965 年には分割統治法 [20, 21] によって 1 次元あたりの演算量を O (n) = log (n)/n に抑えた 高速フーリエ変換 (fast Fourier transform; FFT) が提案された [22, 23].現在では高速 フーリエ変換に基づくディジタル信号処理の様々な技術が提案され応用されている.
2.2
ディジタル信号処理による音声のスペクトル密度解析の基礎
信号は時間や空間など任意の領域に分布する情報であるため,その分布に基づく 確率過程の解析 [24, 25, 26] はスペクトル密度の解析に有効であり,様々なディジタ ル信号処理の基礎となっている.帯域のエネルギを得るパワースペクトルの推定は 自己回帰モデル (Auto Regressive;AR モデル)[24] や Wigner 分布 [27] などのモデルに よる解析と,フーリエ変換やハンケル変換 (Hankel transform)[28, 29],ウェーブレッ ト変換 (Wavelet transform)[30, 31] を用いた関数の写像に基づく解析がある.それぞ れの解析は基底を異にするが,いずれも基底関数との相関で関数は写像される.
例えば時間領域 t の信号に対するフーリエ変換は,対象の信号 s (t) が可測な関
数であるとき,その関数は強度 α (ω) と位相 β (ω) の異なる時間周波数 ωtの円関数
(Circular function)の和として展開できるフーリエ級数展開 (Fourier series)[32] に基
づく. s (t) = ∫ ∞ −∞ α (ωt) cos (ωt− β (ωt)) dωt. (1) フーリエ変換において位相の異なる円関数は強度の異なる余弦関数と正弦関数の 和として表現でき,信号 s (t) およびスペクトル密度 S (ωt)を複素数とすることで, オイラーの公式 [33] から指数関数に集約できる.その結果として,時間領域の複素 信号 s (t) とその複素スペクトル密度 S (ω) は式 (2) のフーリエ変換および式 (3) の フーリエ逆変換で相互的に変換できる. s (t) = √1 2π ∫ ∞ −∞ S (ωt) exp (jωtt) dωt, (2) S (ωt) = 1 √ 2π ∫ ∞ −∞ s (t) exp (jωtt) dt. (3) なお,j は虚数単位を示し,π は円周率を示す.式 (2),(3) の右辺にかかる 1/√2π
は正規化項であり,式 (2) の順方向変換で 1 を乗算し,式 (3) の逆方向変換で 1/ (2π) を乗算する形式も利用される [22, 23].
関数の写像に基づく解析では対象を直接写像する Periodgram 法 [17] のほか,対象 の自己相関 (Autocorreleation) を写像する Blackman-Tukey 法 [34] がある.Periodgram 法では対象の信号を複素スペクトル密度へ変換し,全帯域の振幅を 2 乗することで エネルギ密度を導出する.Blackman-Turkey 法は自己相関のフーリエ変換がパワー スペクトルと等価であるという Wiener-Khintchine の定理に基づく手法と見なせる. 確率過程に基づくスペクトル密度解析では,領域全体の統計は分割された領域に 対する統計の総和と等価である.Welch 法 [35] は領域を単位区間で切り出して解析 し,全体の統計からパワースペクトル密度を得る.音波や電波に代表される時間領 域の信号を窓関数 [17, 36, 37] で切り出してフーリエ変換することを,特に短時間 フーリエ変換 (Short-time Fourier transform) と呼ぶ.時々刻々と特性の変化する信号 では,領域全体のスペクトル密度から各時間での特性を得ることはできない.短時 間フーリエ変換は音声など非定常の信号からスペクトル密度の時系列であるスペク トログラムを解析でき,特に短い窓関数を用いてオーバーラップさせることで詳細 に解析できるため [38],時間周波数解析 [27] における基礎的な手法の一つとされる. 時間領域 t の信号に対する短時間フーリエ変換は,長時間の信号を短い区間に切り 出し個別に時間周波数領域へ写像する.長時間の信号 s (t) から短い区間の信号 s′(t) を切り出す処理は,数学的には窓関数 w (t)[17, 35] との積として考えられる. s′(t) = s (t)· w (t) . (4) 窓関数は解析する対象の領域に高い重みをつけ,それ以外の領域に低い重みをつけ る関数としてみなすことができる.例えば矩形窓では,対象の時間領域 tstart≤t≤tend の重みを 1,それ以外の領域では重み 0 とすることで信号の切り出しを実現する. w (t) = 1 if tstart ≤ t ≤ tend 0 otherwise . (5) 窓関数は信号の領域 (時間や空間など) において信号に乗算される.そのため周波
Time
Am
pli
tude
s
(t
)w
(t
)w
(t
)·s
(t
) 図 3 窓関数 (矩形窓) を用いた信号の切り出し 数領域では窓関数と元信号のスペクトル密度 Sw(ωt)は畳み込み積分される. s (t) = √1 2π ∫ ∞ −∞ S (t) exp (jωtt) dωt, (6) w (t) = √1 2π ∫ ∞ −∞ W (t) exp (jωtt) dωt, (7) s (t) w (t) = √1 2π ∫ ∞ −∞ [ ∫ ∞ −∞ S (ωt− ϕt) W (ϕt) dϕt] exp (jωt) dωt. (8) 式 (8) 中の ωtは時間周波数を示す.周波数領域において窓関数は畳み込み演算と なる.そのため特定の帯域に対してメインローブの他に別の帯域がサイドローブと して影響し,真のスペクトル密度が得られない問題がある.真のスペクトル密度を 得るには,無限に長い窓関数を用いる他に手段はなく,窓関数で信号を切り出す場 合にはメインローブの狭さとサイドローブの強度を調整することが求められる.窓 関数は用途に応じて様々な形状が提案されており,メインローブが鋭く,サイドロー ブの小さいハニング窓 (Hanning window) やブラックマン窓 (Blackman window) など は汎用的に利用されている.近年では窓関数の形状だけでなく,切り出し方や組み合わせによって真のスペク トル密度を推定する手法へと応用されている.次節では本論文の対象である音声分
析合成技術のためのスペクトル密度推定について述べる.
2.3
ディジタル信号処理による音声分析合成技術の基礎
本システムは,使用者の歌唱における歌唱様式を熟練者の歌唱様式で置換するこ とを目的とする.これを達成するには使用者と熟練者の歌声を共通の特徴量で符号 化し,使用者の個人性と熟練者の歌唱様式に基づく音声を合成すれば良い. 聴取を目的として音声信号を符号化·復号する技術は音声分析合成技術(Voice coder; vocoder)と呼ばれる [39, 40].特に H. Dudly らに提案された元来の音声分析合成技 術 [40, 41] は帯域をチャネルに分離して,それぞれの帯域の時間エネルギ密度で符 号化するため,チャネルボコーダ (Channel vocoder) と呼ばれる.チャネルボコーダ の他に,線形予測 [42, 43] に基づく LPC ボコーダ [44] やリフタリング [45] を用い るケプストラムボコーダ [46, 47] がある.音声分析合成技術は元来,音声の情報量 を効率よく圧縮し有限の通信帯域で伝送するため提案・運用されてきたため,音素 や話者性を聴取できる最低限の品質であった.近年では通信の広帯域化や符号化・ 復号手法の改良によって肉声に匹敵する品質の音声分析合成技術も提案されている [48, 49, 50]. 2.3.1 音声分析合成技術の先行研究 音声は声門の開閉による振動の励起と,喉から口唇や鼻腔までの経路による調音 に分離して扱うことができる.励起は空気の流動に基づく声門の開閉による振動や気 流に基づき,励起された信号は口の形や喉の長さといった声道の過程で調音される. 多くの音声分析合成技術では励起と調音の分離を,線形分離等価回路モデル (ソース フィルタモデル; Source-filter model) として扱う [51]. 線形分離等価回路モデルに基づく音声分析合成技術において,励起信号 x (t) は有 声音と無声音では異なるモデルが与えられる.声帯振動を伴う有声音では,声門の 開閉に周期があるため式 (9)∼(12) に示される基本周期 T0に基づくパルス列 x (t) が 励起信号として用いられる.声帯振動を伴わない無声音では,声門の開閉による周 期がないため白色雑音が励起信号として用いられる.白色雑音とは統計的にすべての周波数帯域にエネルギが分布し位相に法則性がない信号であり,白色性とは電磁 波においては可視光全ての帯域 (波長が 380 nm から 750 nm) が含まれると視覚情報 として白色に見えることに由来する.帯域に偏りのある場合は有色雑音とも呼ばれ, 特に低域に偏る場合はピンクノイズと呼ばれる.白色雑音には振幅が一様分布に従 う無作為雑音やガウス分布に従うガウス雑音 (またはガウシアンノイズ),および無 作為に 2 値が決定される M 系列雑音 [52] などがある. x (t) = ∞ ∑ n=−∞ δ (t− nT0) , (9) X (ω) = ∞ ∑ n=−∞ δ (ωt− nωt,0) , (10) x (t) = √1 2π ∫ ∞ −∞ X (ω) exp (jωtt) dω, (11) ωt,0 = 2π T0 . (12) また調音のフィルタ (調音フィルタ) を h (t) とした場合,音声信号 y (t) は励起信 号 x (t) と調音フィルタ h (t) の畳み込み積分で表される.すなわち周波数領域では励 起信号 x (t) のスペクトル密度 X (ωt)と調音フィルタ h (t) のスペクトル密度 H (ωt) に対する乗算と等価である. y (t) = ∫ ∞ −∞ x (t− τ) p (τ) dτ, (13) Y (ωt) = X (ωt) H (ωt) . (14) 音声分析合成技術においては,励起信号 x (t) と調音フィルタ h (t) を符号化する ため,観測可能な信号 y (t) から励起信号 x (t) と調音フィルタ h (t) を推定する必要 がある.
2.4
音声分析合成技術のためのスペクトル密度推定の基礎
音声分析合成技術においては音声特徴量の高効率な符号化が求められる.音素な どは線形分離等価回路モデルにおける調音に基づくため,音声の符号化においては 調音のスペクトル密度推定が重要である.一方で,声帯振動に基づく音声は声門の開閉周期に基づき励起されるため周期性 を有し,基本周期の時間長で高い相関を示す信号となる.そのため,調音のスペク トル密度を推定するには確率過程で生じた分散だけでなく,励起の周期性を取り除 く必要がある. 線形分離等価回路モデルなど周期的に励起される信号からそのフィルタ項のスペ クトル密度を推定する手法として,ピッチ同期分析 [53] が提案されている.ピッチ 同期分析は切り出しに用いる窓関数の長さを励起の基本周期に基づき決定すること で,調音のスペクトル密度の推定精度を向上させる.図 4 は周期性を有する信号に対 する調音フィルタのスペクトル密度推定の例を示す.図の左側はあるフィルタ h (ω) に対する単一の応答を時間領域と周波数領域で示しており,調音フィルタの真値で ある.フィルタ h (ω) が 周期的に励起された応答は図の中央に示されており,基本 周波数の倍音にのみエネルギを有するスペクトル密度が得られる.一方で基本周期 が与えられれば,その周期に基づいた長さの窓関数を用いることで周期性の影響を 抑圧できる. しかしピッチ同期分析を用いた場合においても,切り出し位置によって歪みが生 じる場合がある.図 5 は基本周期の整数倍の窓関数で切り出した応答スペクトル密 度の解析を示している.主だった応答を窓関数で切り出せればスペクトル密度の推 定精度は向上するが,隣接した応答が混在すればスペクトル密度が干渉する.その ため,切り出し位置によって得られるスペクトル密度が振動する. 応答の周期性に基づくスペクトル密度の振動は,窓関数を用いた短時間フーリエ 変換において生じる問題とされていた [54]. 周波数領域で生じるスペクトル密度の振動については,ケプストラム [46, 47] に 基づく平滑化や線形予測 [42, 43, 55] に基づくスペクトル密度の推定などが用いられ てきた.それぞれの手法に基づいて調音フィルタを符号化する音声分析合成技術は, ケプストラムボコーダ [45, 56],LPC ボコーダ (または PARCOR ボコーダ)[57] と呼 ばれる.
Time
Am
pli
tude
Single response
0
Nyquist
Frequency
M
agni
tude
Time
Am
pli
tude
Multiple responses
0
Nyquist
Frequency
M
agni
tude
Time
Am
pli
tude
Pitch synchronous analysis
0
Nyquist
Frequency
M
agni
tude
図 4 周期性を有する信号のスペクトル密度推定とピッチ同期分析 2.4.1 ケプストラムに基づく調音フィルタの推定 線形分離等価回路モデルに基づくと,音声は励起信号と調音フィルタの畳み込み として扱われる.すなわち音声のスペクトル密度は励起信号のスペクトル密度と調 音フィルタのスペクトル密度の積として与えられる. Y (ωt) = H (ωt) X (ωt) . (15) このとき,式 (15) の両辺を対数関数で写像することにより,式 (16) のように右辺 は励起信号の対数スペクトル密度と調音フィルタの対数スペクトル密度の和として 置き換えられる.Time
Am
pli
tude
0
Nyquist
Frequency
M
agni
tude
Time
Am
pli
tude
0
Nyquist
Frequency
M
agni
tude
Time
Am
pli
tude
0
Nyquist
Frequency
M
agni
tude
図 5 窓関数の切り出し位置によるスペクトル密度の振動 ケプストラム qy(t)とは対数スペクトル密度の逆フーリエ変換として与えられる. qy(t) = 1 √ 2π ∫ ∞ −∞ log|Y (ωt)| exp (jωtt) dωt (17) = √1 2π ∫ ∞ −∞[log|H (ωt)| + log |X (ωt)|] exp (jωtt) dωt (18)
= √1 2π ∫ ∞ −∞ log|H (ωt)| exp (jωtt) dωt +√1 2π ∫ ∞ −∞ log|X (ωt)| exp (jωtt) dωt. (19) すなわち,音声のケプストラムは励起信号のケプストラム qh(t)と調音フィルタ のケプストラム qx(t)の和となる. qx(t) = 1 √ 2π ∫ ∞ −∞ log|X (ωt)| exp (jωtt) dωt, (20) qh(t) = 1 √ 2π ∫ ∞ −∞ log|H (ωt)| exp (jωtt) dωt. (21)
−T0 0 T0
Time
Am
pli
tude
Multiple responses
0
T 0 2T0 3T0Quefrency
Am
pli
tude
−T0 0 T0Time
Am
pli
tude
Excitation signal
0
T 0 2T0 3T0Quefrency
Am
pli
tude
−T0 0 T0Time
Am
pli
tude
Single response
0
T 0 2T0 3T0Quefrency
Am
pli
tude
図 6 音声,励起信号,調音フィルタの応答に対するケプストラム 図 5 の中央図に示されるとおり,励起信号の影響は基本周波数 ω0で振動する.ま た,この振動はデルタ関数 δ (ωt)の系列であるため,そのフーリエ逆変換で得られる ケプストラムもデルタ関数 δ (t) の系列として表すことができる.一方で,調音フィ ルタはスペクトル密度が平坦に近いため,調音フィルタに由来するケプストラムは 低次ケフレンシに集中する. 図 6 は調音フィルタが励起信号で駆動された信号 (音声),励起信号,および調音 フィルタ単一の応答から得られるケプストラムを示している.図に示されるとおり, 調音フィルタと励起信号の畳み込みで得られる音声はそれぞれのケプストラムの和 として得られる.なお図 6 の左図では励起信号に由来するケプストラム成分のデル タ関数 δ (t− nT0)付近にエネルギを持つが,これは窓関数の影響である.窓関数は 周波数領域で畳み込み積分となるため,励起信号と調音フィルタの対数スペクトル の和とは完全に一致しない.図 6 に示されるケプストラムにおいて,低次ケフレンシの信号が残り励起信号 のデルタ関数 δ (t) を抑圧するリフタリングを行えば,音声分析合成技術を目的と した調音フィルタの特性が得られる.本論文で採用する音声分析合成技術である STRAIGHT[48, 49, 58]はスペクトル密度解析において励起信号に基づき生じる振動 を回避する手法を提案しており,ケプストラムに基づく音声分析合成技術の発展型 であるとも言える. 2.4.2 線形予測による調音フィルタの推定 線形予測 [42, 43, 55] は情報の既知な区間が与えられたときに区間外の情報を予測 する外挿の一手法である.長さ L− 1 の標本 ykが与えられたとき,線形予測では与 えられた情報から次の標本 ˆynを予測する. ˆ yn=− 1 a0 L−1 ∑ k=1 akyn−k. (22) このとき,真の標本 ynを観測できればその二乗誤差 E を定義できる. En = yn− ˆyn (23) = a0y0+ L−1 ∑ k=1 akyn−k. (24) ここで a0 = 1とすれば次式が得られる. En= L−1 ∑ k=0 akyn−k. (25) ここで N 標本が観測されたときの平均二乗誤差∥E∥2は次式で得られる. ∥E∥2 = N−1 ∑ n=0 (L−1 ∑ k=0 akyn−k )2 . (26) 観測された N 標本について平均二乗誤差を最小化する akを求めることで観測さ れた標本に対する重みが決定し外挿が達成される.すなわち,平均二乗誤差に対す る akの導関数が 0 となる akが予測係数となる. ∂∥E∥2 ∂ak = 0. (27)
式 (27) は相関関数を用いることで Yule-Walker 方程式 [59, 60] に変換できる.こ こで係数 akは LPC 係数 (Linear prediction coefficient) と呼ばれ,その次数 N は LPC
次数と呼ばれる. 信号処理において線形予測は全極フィルタの推定と等価である. L∑y−1 ky=0 akyyky = L∑x−1 kx=0 bkxxkx. (28) 式 (28) は信号処理の中核をなす特性方程式と呼ばれる式であり,入力 xkx と出力 ykxの特性を示している.係数 bkxは入力に対する係数であり,フィードフォワードの フィルタ (全零のフィルタ効果) を成す.係数 akyは出力に対する係数であり,フィー ドバックのフィルタ (全零のフィルタ) 効果を成す.このとき,入力に対してフィル タ効果がない,すなわち bkxがクロネッカーのデルタ δkxであれば,式 (29) の形式と なり,線形予測の式と一致する. L∑y−1 ky=0 akyyky = b0xkx. (29) すなわち線形予測は全極モデルの特性方程式を解くことと等価である.音声の励 起信号がデルタ関数としてクロネッカーのデルタ δkであるならば,線形予測を利用 することで調音フィルタを全極モデルとしてフィッティングできる. しかしながら音声は時々刻々とスペクトル密度が変化する.すなわち有限の N 標本 について誤差を最小化する Yule-Walker の解では不十分な場合がある.そこで線形予 測を用いた調音フィルタの符号化では,新たな標本 ykが得られる毎に LPC 係数 akを 逐次的に更新する Levionson-Durbin 再帰法 [61, 62] が用いられる.Levionson-Durbin 再帰法を用いて LPC 係数を逐次的に推定する場合,誤差である Enも逐次的に算出 される.観測された標本について Levionson-Durbin 再帰法で LPC 係数を推定する場 合用いた標本と同数の誤差 Enが得られ,その信号は残差信号と呼ばれる.励起信 号と調音フィルタの畳み込みにおいて,単一の励起に対する調音フィルタの応答に おいてはほとんどスペクトル密度は変化しない.一方で,単一の励起に対する調音 フィルタの応答に,次の励起に対する応答が混入すると全極モデルから逸脱する.そ のため,入力である励起信号に高いエネルギが生じるたびに誤差も増加する.この
ことから残差信号は励起信号のエネルギ発生に関連あるものとして扱われることが 多い. 本論文においては,線形予測おける残差に相当する信号を推定すること後述の STRAIGHTに基づく高品質な実時間音声分析合成技術を提案する.
2.5
先行研究:高品質音声分析合成技術
STRAIGHT
従来の音声分析合成技術は音声を特徴量で符号化できるため,有限の帯域におけ る音声通信において有効であった.しかしながら機械的な音声であり,聴音を目的 とした品質は最低限のものであった. 原因の大半は下記に分類される. 1. 肉声の励起信号はデルタ関数の連なりではない 2. 完全な有声音無声音の切り替え 3. 聴音フィルタの推定精度が低い 実際の音声における励起信号はデルタ信号の連なりではなく,零を持つフィルタ が乗算されており,乱流などの加算性雑音も混入している.また線形分離等価回路 モデルでは有声音と無声音を完全に切り分けて扱うが,実際の音声は段階的に無声 化および有声化するため,励起信号に対する加算性雑音をも特徴量として扱う必要 性がある.加えて音声の励起信号はデルタ関数の連なりではないため,励起信号を デルタ関数の連なりとする線形分離等価回路モデルに基づく手法では聴音フィルタ は正しく推定されない. STRAIGHT[48, 49]およびその改良である TANDEM-STRAIGHT[54] はこれらの 問題を回避する手法を採用し,元の肉声に匹敵する品質を音声分析合成技術を用い て達成した. 図 4 に見られるとおり,調音フィルタの真のスペクトル密度は励起信号の基本周期 の整数倍に存在する.STRAIGHT はこの条件を満たし,かつ励起信号に基づく時間-周波数領域のスペクトル密度の振動を抑圧した STRAIGHT スペクトルを推定する. STRAIGHTスペクトルは,相補的時間窓と呼ばれる周波数領域に与える影響が対になる窓関数を用いて短時間フーリエ変換を実施し,合わせることで励起信号の時間 影響を抑圧する.TANDEM-STRAIGHT は 3/2 倍や 2 倍などの基本周期の分数倍長 の窓関数を用い,片方の窓関数の切り出し時刻を基本周期の半分シフトさせること で励起信号の時間影響を抑圧する.また STRAIGHT および TANDEM-STRAIGHT では,周波数領域における励起信号の影響を抑圧するため,ケプストラムのリフタ 処理に似た手法として対数スペクトルに基本周波数に同期した矩形窓を畳み込むと いった手法を採用している.これらの手法により,STRAIGHT スペクトルおよび TANDEM-STRAIGHTスペクトルは時間・周波数いずれの領域においても励起信号 の影響を受けずに得られる. また,STRAIGHT は従来の音声を基本周期,聴音フィルタに加えて,非周期性指 標と呼ばれる特徴量で音声を符号化する [63, 64, 65].非周期性指標は励起信号の各 帯域に含まれる雑音比に対応する. STRAIGHTはその高い品質ゆえに,音声の分析や合成など様々な分野に応用されて いる [66, 67, 68, 69, 70].なお,本論文では STRAIGHT および TANDEM-STRAIGHT を総称して STRAIGHT と呼ぶ.
2.6
高品質な音声分析合成技術
STRAIGHT
を用いた
基本周波数の転写に基づく歌声制御システムの提案
STRAIGHTは音声を線形分離等価回路モデルに対応して符号化でき,かつ肉声に 匹敵する品質で音声信号を復号できる.そのため,様々な分野において音声や歌声 のオフライン分析や合成に用いられている. また STRAIGHT は線形分離等価回路モデルに基づくため,ピッチ (基本周期) やス ペクトル包絡 (調音フィルタ形状) に対応した特徴量を容易に得ることができる.特 に歌声においては,歌唱様式が基本周波数の遷移でモデル化 [5, 11] され,声質や歌 唱フォルマントなど [71, 72] の特徴量がスペクトル包絡でモデル化されるなど,線 形分離等価回路モデルに基づく符号化が活用されている. そこで本節では,高品質な音声分析合成技術である STRAIGHT を利用または改 良することで,使用者の歌声を実時間で制御する手法について提案する.Analysis Analysis Pitch contour Synthesis Preprocessing Real-time processing Supervisory vocal sound User’s original vocal sound Manipulated vocal Spectral envelope Pitch contour Spectral envelope 図 7 提案システムの処理フロー 2.6.1 歌唱制御システムの概要 歌唱制御システム (提案システム) の概要を図 7 に示す. 提案システムは使用者の 声質と熟練歌唱者の歌唱様式を用いて歌唱信号を合成する. 提案システムでは熟練 歌唱者と使用者の歌唱信号から歌唱様式に対応する基本周波数と声質に対応するス ペクトル包絡を分析し, 熟練歌唱者の基本周波数と使用者のスペクトル包絡から歌 唱様式の変換された使用者の歌唱信号を合成する. 合成された歌唱信号を従来のカ ラオケのように使用者に提示することで, 使用者はあたかも自身が熟練歌唱者のよ うな歌唱を行っている体験を得ることが期待される. なお教師信号となる熟練歌唱 者の歌唱様式は事前に分析しておき, 実時間性の求められる使用者の歌唱信号のみ, 提案システムの利用時に実時間で分析する.
time Pitch time /a/ /a/ /e/ /o/ /e/ /o/ time Pitch time /a/ /e/ /o/ /a/ /a/ /e/ /o/ /e/ /o/ /a/ /e/ /o/ User’s original vocal sound (synchronized) Supervisory vocal sound Manipulated vocal sound Transcribe Synthesize Transcribe Synthesize time time User’s original vocal sound (Unynchronized) Supervisory vocal sound Manipulated vocal sound Incorrect manipulation Not manipulated 図 8 基本周波数の同期した歌唱信号と非同期な歌唱における歌唱制御 2.6.2 伴奏に基づく歌唱における同期した基本周波数 基本周波数の転写に基づき歌唱制御を行うには両者の歌唱が同期している条件が 要求される. 基本周波数の時間変動において微細な変動が歌唱様式として知覚され ることから, 基本周波数の大局的な時間変動が一致していればこの条件を満たすと 考えられる. 図 8 は基本周波数の転写を同期および非同期な歌唱信号に対して行っ た例を示す. 各グラフは横軸を時間, 縦軸を基本周波数とした基本周波数の時間変動 を示しており, 左側では教師信号と使用者の歌唱信号が同期しているが, 右側では各 信号が非同期となっている. 図下段はそれぞれの信号間における基本周波数の転写 に基づいた歌唱制御の結果を示しており, 図左側のような基本周波数の大局的な時 間変動が教師信号と使用者の歌唱信号で同期した場合, 各音素に対応した基本周波 数が転写され適切に制御されている. 一方で図右側のような基本周波数の大局的な 時間変動が教師信号と使用者の歌唱信号で非同期な場合, 使用者が歌唱を行っていな い時刻に基本周波数が転写され, また使用者が歌唱を行っている時刻に基本周波数が 転写されないなど適切に制御されない. そこで歌唱信号に含まれる同期を調査する
0
0.5
1
1.5
2
2.5
3
3.5
4
300
350
400
450
500
550
600
Time[sec]
Fundamental frequency[cent]
Source F0
Target F0
図 9 2 名の歌手 (Source, Target) が同一の楽曲を歌唱した場合におけるそれぞれの基 本周波数の時間変動 ため,予備実験を実施した. 2.6.3 基本周波数の同期に関する予備実験 予備実験では女性 8 名男性 12 名に歌唱された歌唱信号を対象に,基本周波数を推 定し,時間的な同期について調査した.推定には高 SNR な音声信号を対象とした高 速な基本周波数推定法 [73] を用いた. また評価試料として,歌唱制御システムがカ ラオケの歌唱に用いられることを考慮し,民生のカラオケ機にて定番楽曲として扱 われる (使用者に最も歌唱される) 楽曲から,表 1 に示される男性楽曲 3 曲,女性楽表 1 評価に用いられた楽曲
歌手 楽曲
夏川りみ (女性) 涙そうそう
一青窈 (女性) ハナミズキ
DREAMS COME TRUE(女性) 未来予想図 II
尾崎豊 (男性) I love you スピッツ (男性) cherry サザンオールスターズ (男性) TSUNAMI 曲 3 曲を選出し用いた.推定された基本周波数の一例を図 9 に示す.図は 2 名の歌 手が同一の楽曲を歌唱した場合の基本周波数の時間変動を,横軸を時間 sec,縦軸を 基本周波数 (cent) として図示している.歌手の異なる歌唱信号では基本周波数の微 細な変動は異なる一方で,その基本周波数の終了時刻,開始 (立ち上がり) 時刻が近 く,大局的な変動は一致していることが確認できる.また 1 半音 (100 cent) 以下の変 動は音階が移動しないと見なして丸め,1 半音 (100 cent) 以上連続して基本周波数が 変動する区間において,基本周波数の時間微分が 0 となる (遷移が終了する) 時刻の 歌手間のずれについて,その絶対値を評価した.その結果基本周波数が遷移する時 刻のずれは平均 118 msec,標準偏差 113 msec であることを確認した.この値はテン ポ 120 bps の 32 分音符の時間長 125 msec を下回っている.対象の楽曲ではこれらの 音長を伴う歌唱が含まれないことから,対象の楽曲において 1 音の長さ以上のずれ が生じることはない.そのためテンポ歌唱様式の転写の精度を低下させる発話時刻 のずれは発生しないと考えられる.ただしテンポの高い楽曲や速い音高遷移を伴う 楽曲では遷移時刻のずれが発生する可能性が高く,テンポの高い楽曲では基本周波 数の遷移に対する対応付けが必要となる場合があるといえる.
表 2 STRAIGHT を構成する各分析法の処理時間の比率 分析対象 分析に要する処理時間の比率 基本周波数 21.7 % 非周期性指標 72.8 % スペクトル包絡 5.5 % 合計 100 %
2.7
逆フィルタ法の併用による歌声の実時間処理を目的とした
高品質音声分析合成技術
STRAIGHT
に基づく実時間ボコーダの
提案
2.5節に示されたとおり,STRAIGHT は高品質な音声分析合成技術として様々な 応用に用いられている.しかしながら STRAIGHT は高い品質を達成するために非常 に多くの演算を必要とする.近年では計算機の性能も向上したため潤沢に計算資源 の利用できる環境では問題が顕在化しにくいが,カラオケ機などはまだまだマイク ロコントローラによる実装も多く実時間で STRAIGHT の演算を完全に行うことは難 しい.すなわち,実時間で歌唱制御を行うには STRAIGHT の品質をなるべく下げず 演算コストを下げなければならない.STRAIGHT は音声を基本周波数,STRAIGHT スペクトル,非周期性指標の特徴量で符号化する.STRAIGHT を用いて ATR 音素 バランス 216 単語データベース [74] を分析合成したところ, 各特徴量の分析におけ る平均処理時間の割合が表 2 であることが示された. 表 2 により非周期性指標の推 定が STRAIGHT の分析の処理時間におけるボトルネックであることが確認できる. STRAIGHTでは基本周波数の推定に群遅延に基づく手法 [75] や YIN 法 [76] に基づ く手法を採用しており,中でも YIN 法 [76] は実時間処理への展開も行われている. 更に近年ではより高速化された基本周波数の推定として DIO[73] の採用も検討され ている.STRAIGHT スペクトルの推定においても,TANDEM 窓 [54, 77] を用いた 高速化を実現している.図 7 に示された通り歌唱制御システムでは基本周波数のみ 制御されるため, 処理時間を必要とする非周期性指標の特徴量推定は要求されない.Synthesize a voice from
parameters
Input voiced sound
Articulationfilter
Sound source Pulse train Noise
Fundamental
frequency Aperiodic level Spectral
envelope
Input voiced sound
Articulationfilter
Sound source Pulse train Noise
Fundamental frequency Spectral
envelope
Output synthesized sound
Output synthesized sound
Original STRAIGHT
Simplified vocoder
Synthesize a voice from
parameter and waveform
Estimation Estimation Estimation Estimation Estimation
Extraction 図 10 STRAIGHT と提案ボコーダの比較 そこで駆動信号に含まれる雑音成分を符号化しない STRAIGHT に基づく歌唱制御 のための高品質音声分析合成技術を提案する. 駆動信号に含まれる雑音成分を符号 化せず波形のまま扱うことで分析における処理時間の高速化が期待される. また実 時間の歌唱制御では使用者の歌唱に追従して歌唱信号を合成することから入力信号 と出力信号の時間長が等しくなる. そのため合成においても分離された雑音成分の 加算のみで合成を完了でき, 合成においても処理時間の短縮が期待される.
2.7.1 励起信号の抽出を併用した STRAIGHT に基づく 提案ボコーダの概要 従来の STRAIGHT と励起信号の抽出を併用した STRAIGHT に基づく音声分析合 成技術 (以下,提案ボコーダと呼称) の比較を図 10 に示す.STRAIGHT では音声信 号の特徴量としてスペクトル包絡, 基本周波数, 非周期性指標の推定を行う.提案ボ コーダではスペクトル包絡および基本周波数の推定を行う一方で,非周期性指標の 推定は行わず,駆動信号に含まれる雑音成分を波形のまま分離する. 2.7.2 駆動信号の分離 駆動信号に含まれる雑音成分の分離手法について説明する.線形分離等価回路モ デルでは音声を駆動信号とインパルス応答 [78] の畳み込みとして定義するため,観 測信号 v(t) からインパルス h(t) の影響を除去することで駆動信号 g(t) の分離が期待 される.そこで逆フィルタ法 [79] に基づき式 (30) に示される通り,h(t) の逆フィル タ h−1(t)を観測信号 v(t) に畳み込むことで駆動信号 g(t) を分離する.逆フィルタ法 を適用するには観測信号 v(t) から h(t) を推定する必要性があるが,式 (31) に示され る通り,観測信号のスペクトル V (ω) はインパルス応答のスペクトル H(ω) に対して 駆動信号 g(t) の基本周期 T0に基づくスペクトル G(ω) の零 2nπT0 [n ∈ N ], (N : 自然数 )から影響を受けている.すなわち逆フィルタ h−1(t)の導出には観測信号 v(t) から 駆動信号 g(t) に依存せずインパルス応答 h(t) を推定することが要求される. g(t) = v(t)∗ h−1(t), (30) V (ω) = H(ω)G(ω) = H(ω) ∞ ∑ ω=−∞ δ(ω− n2π T0 ). (31) STRAIGHTでは基本周波数 (基本周期の逆数) の影響に頑健とされる STRAIGHT スペクトル S(ω) の推定を提案 [50] しており, 他の音声分析合成技術と比較して高精 度にインパルス応答 h(t) のスペクトル H(ω) を推定できることを示している. また 駆動信号をパルス列と雑音成分として扱う手法 [57] などではインパルス応答 h(t) は