実時間音声分析合成技術と音場再現に基づく高臨場感歌唱体験システムの研究

(1)

立命館大学博士論文

実時間音声分析合成技術と音場再現に基づく

高臨場感歌唱体験システムの研究

(A Highly-Realistic Singing-Experience System Based on

Real-Time Vocoder and Sound Field Reproduction)

2015年 3 月 March, 2015

立命館大学大学院

情報理工学研究科情報理工学専攻博士課程後期課程

Doctoral Program in Advanced Information Science and Engineerring Graduate School of Information Science and Engineering

Ritsumeikan University

中野皓太

Kota Nakano

(2)

本論文は立命館大学大学院情報理工学研究科に博士 (工学) 授与の要件として提出した博士論文である. 提出者氏名：中野皓太主査：西浦敬信教授副査：山下洋一教授副査：平林晃教授

(3)

実時間音声分析合成技術と音場再現に基づく

高臨場感歌唱体験システムの研究

∗

中野皓太

内容梗概エンタテインメントのひとつであるカラオケは，誰でも歌唱行為を楽しめるよう設計されている．しかしながら歌唱力には個人差があり，カラオケは歌唱を苦手とする人々からは敬遠される場合もある．カラオケはエンタテインメントのみならず社会的な交流を図る場や道具として利用される場合がある．一方で歌唱を苦手とする人々はカラオケを敬遠するため，適切な交流が図られないなどの社会問題を生じている．カラオケでは楽曲のキー (音高) の制御により歌唱行為に対する使用者の負担低減が行われているが，使用者の歌唱力そのものを支援するものではないため高い効果は望めない．本論文では使用者の歌声を実時間で制御し，使用者にあたかも自身が熟練歌唱者であるかのような歌唱体験を提供するシステムを提案する．本提案では音声分析合成技術に基づき熟練歌唱者の特徴を使用者の歌声に転写することで，使用者の声質を保ちつつ熟練歌唱者の歌唱様式を伴う歌声を合成する．また合成された使用者の歌声や楽曲の伴奏を提示する際に，公演用舞台などの音環境をスピーカシステムと音場模擬技術によって高臨場に再現し使用者へ提示する．これらの処理により使用者はあたかも自身が熟練歌手であるかのような歌唱体験を得ることができる．本システムは使用者本人の歌唱力や歌唱される環境に依存しないため，歌唱の不得意な使用者を支援することができる．またその他の使用者にとっては，他人の歌唱様式や様々な音環境を体験できる新たなエンタテインメントを提供できる． ∗_{立命館大学大学院情報理工学研究科情報理工学専攻立命館大学博士論文, 2015 年 3 月 20 日.}

(4)

本論文では第 1 に，線形分離等価回路モデルに基づく音声分析合成技術を用いて使用者の歌声を符号化し，熟練歌唱者の歌唱様式を使用者の歌声に転写するシステムを提案する．提案システムは高品質な音声分析合成技術である STRAIGHT を採用する．STRAIGHT は高い品質を達成する一方で多くの演算を要求する．カラオケにおいては実時間で歌声を合成する条件が求められるため，本論文では STRAIGHT スペクトルの逆フィルタに基づく STRAIGHT の演算量削減および実時間処理を提案する．評価実験の結果，STRAIGHT の実時間処理が達成され，本システムが実時間で熟練歌唱者の歌唱様式を使用者の歌声に転写できることが示された．第 2 に，音場再現のためのスピーカシステムと音場模擬技術について検討し，スピーカシステムと音場模擬に基づく音場再現システムを提案する．提案システムはクロストークに対して頑健に音場を再現できるセミトランスオーラルシステムと，座標変換によって演算精度の改善した有限差分時間領域法に基づき，様々な仮想環境の音場を高い臨場感で使用者に提供する．なお本論文では，あたかも任意の方向に音源があるかのように感じさせる (明瞭に音像が定位する) 音響信号を高臨場な音響信号と定義する．評価実験の結果，提案手法が高精度に音場模擬を実現でき音像の定位を制御できることが示された．最後に高臨場感歌唱体験システムについて検討し，歌唱様式の転写と音場再現の統合に基づくシステムを提案する．提案システムはカラオケの伴奏における楽器などの音像を各方向に構築し，制御された使用者の歌唱をセミトランスオーラルシステムに基づいて使用者に提示する．評価実験の結果，歌唱体験システムの不足分を音場再現システムが補い，使用者の歌唱行為を効率的に支援できることを確認した. キーワード歌唱モーフィング，音声分析合成技術，STRAIGHT，音場再現，セミトランスオーラル，音場模擬，有限差分時間領域法，スペクトル法，ミンコフスキー空間，極座標演算

(5)

A Highly-Realistic Singing-Experience System Based on

Real-Time Vocoder and Sound Field Reproduction

∗

Kota Nakano

Abstract

Karaoke is one of the most popular forms of entertainment. Karaoke is singing, and

it provides everyone opportunities for enjoyment. Karaoke is often used as a tool for communication, however, singing is also a skill. Some people, such as tone-deaf peo-ple, tend to avoid singing Karaoke with their companions. This tendency prevents good communication for them. In this thesis, I propose a system to solve the problem. The proposed system provides virtual singing-experience to users. The system modifies the singing-style of the users’ singing-voice to professional-like one in real-time. The system also reproduces sound fields such as performance halls. Accordingly, the system provides users with good singing-experiences. The system supports singing for tone-deaf people, and also provides more entertainment than regular Karaoke to other users.

Firstly, I propose a singing morphing system by using vocoder framework based on the source-filter model. The system transcripts the singing-style of professional singers to am-ateur users’singing-voice in real-time. To achieve the system, I propose an approach for a high quality vocoder, STRAIGHT to rapidly process the singing-voice, which depends on inverse-filtering method with STRAIGHT spectrum. According to the evaluations, I confirm that the proposed system can transcript singing-style of professional singers to users’ singing-voice in real time.

Secondly, I propose a sound-reproduction system by using a semi-transaural loudspeaker-system and improved sound-field simulator. The semi-transaural loudspeaker-loudspeaker-system

∗_{Doctoral Dissertation, Doctoral Program in Advanced Information Science and Engineering, Graduate}

(6)

achieves high robustness for crosstalk of loudspeaker-system. The sound-field simula-tor depends on the finite-difference time-domain method. I propose an improvement for the simulator by employing spectral method and coordinate conversion for accurate com-putation. According to the evaluations, I confirm that the proposed system can robustly present fine sound-images to users.

Finally, I propose a singing-experience system with high-realistic sensation. The sys-tem depends on the integrated syssys-tems which is proposed in the previous sections in this thesis. According to the evaluation, the sound-field simulator complemented the quality of singing morphing system. It was indicated that the integrated-systems could effectively provide good singing-experiences to users.

Keywords:

Singing morphing, Vocoder, STRAIGHT, Sound field reproduction, Semi-Transaural, Sound field simulation, Finite difference time domain method, Spectral method, Polar coordinate

(7)

1. 序論 1 2. 高品質音声分析合成技術 STRAIGHT の高速化と応用に基づく歌唱体験システム 5 2.1 音声と信号処理の基礎 . . . . 6 2.2 ディジタル信号処理による音声のスペクトル密度解析の基礎 . . . . . 7 2.3 ディジタル信号処理による音声分析合成技術の基礎 . . . 10 2.3.1 音声分析合成技術の先行研究 . . . 10 2.4 音声分析合成技術のためのスペクトル密度推定の基礎 . . . 11 2.4.1 ケプストラムに基づく調音フィルタの推定 . . . 13 2.4.2 線形予測による調音フィルタの推定 . . . 16 2.5 先行研究：高品質音声分析合成技術 STRAIGHT . . . 18 2.6 高品質な音声分析合成技術 STRAIGHT を用いた 基本周波数の転写に基づく歌声制御システムの提案 . . . 19 2.6.1 歌唱制御システムの概要 . . . 20 2.6.2 伴奏に基づく歌唱における同期した基本周波数 . . . 21 2.6.3 基本周波数の同期に関する予備実験 . . . 22 2.7 逆フィルタ法の併用による歌声の実時間処理を目的とした高品質音声分析合成技術 STRAIGHT に基づく実時間ボコーダの提案 24 2.7.1 励起信号の抽出を併用した STRAIGHT に基づく 提案ボコーダの概要 . . . 26 2.7.2 駆動信号の分離 . . . 26 2.7.3 駆動信号から雑音成分の分離 . . . 27 2.7.4 提案ボコーダを用いた音声信号の復号 . . . 30 2.8 様々な熟練歌唱者の歌唱様式体験を使用者へ提供する手法の 評価実験 . . . 31 2.8.1 評価実験の概要 . . . 31 2.8.2 提案ボコーダの分析合成時間の評価 . . . 32

(8)

2.8.3 提案ボコーダの分析合成時間の評価結果 . . . 32 2.8.4 提案ボコーダの品質評価 . . . 33 2.8.5 提案ボコーダの品質評価結果 . . . 34 2.8.6 歌唱制御システムによる歌唱様式の転写精度の評価 . . . 35 2.8.7 歌唱制御システムによる歌唱様式の転写精度の評価結果 . . . 36 2.8.8 歌唱制御システムの評価 . . . 36 2.8.9 歌唱制御システムの評価結果 . . . 37 2.9 様々な熟練歌唱者の歌唱様式の体験を 使用者へ提供する手法に関する考察 . . . 38 2.9.1 提案ボコーダの評価結果に関する考察 . . . 38 2.9.2 歌唱様式の転写に関する考察 . . . 39 2.9.3 歌唱制御システムの評価結果に関する考察 . . . 40 2.10 様々な熟練歌唱者の歌唱様式体験を使用者へ提供する 手法のまとめ . . . 41 3. セミトランスオーラルと音場模擬技術に基づく音場再現システム 42 3.1 高臨場感音場再現システム . . . 43 3.2 高臨場感音場再現技術に関する先行研究 . . . 43 3.2.1 バイノーラルシステムと頭部伝達関数 . . . 43 3.2.2 トランスオーラルシステム . . . 45 3.2.3 サラウンドシステム . . . 46 3.2.4 空間の音圧分布を制御する手法 . . . 47 3.3 達成すべき課題 . . . 48 3.4 セミトランスオーラルシステムに基づく簡易かつ高品質な 音場再現手法の提案 . . . 50 3.4.1 セミトランスオーラルシステムのクロストークに関する予備 実験 . . . 50 3.4.2 逆フィルタと HRTF を利用したセミトランスオーラルシステム 51

(9)

3.4.3 有限差分時間領域法に基づく音場シミュレーションを利用し たセミトランスオーラルシステム . . . 52 3.5 有限差分時間領域法の高精度化の提案 . . . 56 3.5.1 数値分散による波束の乱れ . . . 57 3.5.2 スペクトル法に基づく数値分散の抑圧 . . . 61 3.5.3 周波数領域演算の数値分散抑圧に関する予備実験 . . . 72 3.5.4 数値分散の抑圧に関する予備実験結果 . . . 72 3.5.5 数値分散の抑圧効果に関する考察 . . . 74 3.5.6 極座標系ミンコフスキー空間での演算に基づく巡回性の問題 の回避 . . . 76 3.5.7 計算式の導出 . . . 77 3.5.8 計算機シミュレーションによる提案演算法の評価 . . . 80 3.5.9 計算機シミュレーションの結果と考察 . . . 81 3.6 インパルス応答を用いた音場再現性能に関する客観評価実験 . . . 97 3.6.1 音場再現性能に関する客観評価実験の条件 . . . 97 3.6.2 客観評価に関する実験結果 . . . 99 3.6.3 客観評価実験に対する考察 . . . 99 3.7 音像の定位性能に関する主観評価実験 . . . 100 3.7.1 主観評価に関する実験条件 . . . 100 3.7.2 主観評価に関する実験結果 . . . 101 3.7.3 主観評価実験結果の考察 . . . 102 3.8 音場模擬とセミトランスオーラルシステムに関するまとめ . . . 105 4. 歌唱体験システムと音場再現システムに基づく高臨場感歌唱体験システム 106 4.1 高臨場感歌唱体験システムの構成 . . . 106 4.2 実時間歌唱補正と高臨場感音場再現に基づく高臨場感歌唱体験システムの評価実験 . . . 108 4.3 高臨場感歌唱体験システムの評価実験結果 . . . 110 4.4 高臨場感歌唱体験システムの評価実験に関する考察 . . . 111

(10)

4.5 高臨場感歌唱体験システムの提案に関するまとめ . . . 115 5. 結論 120 謝辞 122

図目次

1 カラオケにおいて歌唱への抵抗に阻害される意思疎通 . . . . 2 2 使用者の歌声を補正しステージ上の専業歌手のような歌唱体験を提供 3 3 窓関数 (矩形窓) を用いた信号の切り出し . . . . 9 4 周期性を有する信号のスペクトル密度推定とピッチ同期分析 . . . 13 5 窓関数の切り出し位置によるスペクトル密度の振動 . . . 14 6 音声，励起信号，調音フィルタの応答に対するケプストラム . . . 15 7 提案システムの処理フロー . . . 20 8 基本周波数の同期した歌唱信号と非同期な歌唱における歌唱制御 . . 21 9 2名の歌手 (Source, Target) が同一の楽曲を歌唱した場合におけるそれ ぞれの基本周波数の時間変動 . . . 22 10 STRAIGHTと提案ボコーダの比較 . . . 25 11 日本語発話/a/の観測波形と分離された駆動信号および推定された非 周期性信号 . . . 28 12 駆動信号のケプストラムおよび周期性成分を抑圧するためのマスク 関数 . . . 29 13 音声の駆動信号に含まれる推定された雑音信号 . . . 29 14 基本周期 T0の周期信号 . . . 31 15 分離された雑音信号の付加された励起信号 . . . 31 16 入力と異なる基本周期で復号された日本語発話/a/の時間波形 . . . 32 17 提案ボコーダを用いて歌唱制御を伴わず分析合成された信号の主観 的品質 . . . 34

(11)

18 提案ボコーダを用いて歌唱制御を伴い分析合成された信号の主観的 品質 . . . 35 19 提案法による歌唱様式の評価結果 . . . 37 20 歌唱制御システムの評価結果 . . . 39 21 バイノーラルシステム . . . 44 22 基礎的なトランスオーラルシステム . . . 46 23 境界音場制御のための 157 ch による全方位型スピーカアレイ (東北大 学電気通信研究所) . . . 49 24 頭部近傍スピーカアレイにおける各スピーカと両耳間の伝達関数 . . 64 25 頭部近傍スピーカアレイ . . . 65 26 左側のスピーカから両耳位置までのインパルス応答 . . . 66 27 頭部に到来する音響信号の予測と提示 . . . 67 28 有限差分時間領域法によって波束の乱れた応答 . . . 68 29 連続の微分と離散の差分の周波数領域において乗算される係数 . . . . 69 30 中央にエネルギーのある空間音圧分布と離散フーリエ変換を用いて 導出された 2 次導関数 . . . 70 31 境界付近にエネルギーのある空間音圧分布と離散フーリエ変換を用 いて導出された 2 次導関数 . . . 71 32 伝播前の音圧分布と各手法による伝播後の音圧分布 (1) . . . 83 33 伝播前の音圧分布と各手法による伝播後の音圧分布 (2) . . . 84 34 伝播前のガウス関数と，各手法で伝播させたガウス関数の応答波形 (1) 85 35 伝播前のガウス関数と，各手法で伝播させたガウス関数の応答波形 (2) 86 36 源信号と各手法による応答の利得差 . . . 87 37 源信号と各手法による応答の群遅延差 . . . 88 38 各方向に対する伝播過程にて生じたパワーの減衰量 . . . 89 39 伝播過程にて生じたパワーの減衰量の伝播方向に対する平均と標準 偏差 . . . 90 40 各方向に対する伝播過程で生じた群遅延歪の 2 乗平均平方根誤差 . . . 91

(12)

41 伝播過程にて生じた群遅延歪の 2 乗平均平方根誤差の伝播方向に対 する平均と標準偏差 . . . 92 42 時空間におけるインパルス応答の模擬結果 . . . 93 43 0.25 m, 0.75 mに障壁のある空間で模擬された時空間のインパルス応答 94 44 座標 0.0, 0.2, 0.4 m で観測される時間インパルス応答 . . . 95 45 1次反射成分の周波数特性 . . . 96 46 実音場と再現音場間の C 値誤差（受聴者の頭部なし） . . . 99 47 実音場と再現音場間の C 値誤差（受聴者の頭部あり） . . . 100 48 0.3 m遠方の仮想音源に対して知覚された音像方向 . . . 103 49 0.6 m遠方の仮想音源に対して知覚された音像方向 . . . 104 50 実時間歌唱補正と高臨場感音場再現に基づくの歌唱体験システムの 概略 . . . 107 51 実時間歌唱補正と高臨場感音場再現に基づく歌唱体験システムの処理 108 52 舞台上の仮想音源配置 . . . 109 53 ホール全体の形状 . . . 110 54 声の個人性に関するスコア . . . 116 55 カラオケシステムとしての自然さに関するスコア . . . 117 56 カラオケシステムとしての楽しさに関するスコア . . . 118 57 歌唱が不得意な使用者に対する効果の期待度に関するスコア . . . 119

表目次

1 評価に用いられた楽曲 . . . 23 2 STRAIGHTを構成する各分析法の処理時間の比率 . . . 24 3 各ボコーダの分析合成における処理時間の平均割合 . . . 33 4 主観評価におけるスコアと品質 . . . 33 5 制御された歌唱信号の聴取時に知覚される歌唱様式の再現度の評価 尺度 . . . 36 6 歌唱制御システムの評価項目 . . . 38

(13)

7 頭部近傍スピーカアレイにおけるクロストークに関する予備実験の 条件 . . . 51 8 数値分散に関する予備実験の計算機シミュレーション条件 . . . 72 9 提案手法の計算機シミュレーション条件 . . . 81 10 実験で用いた音場シミュレータのパラメタ . . . 98 11 客観評価実験の条件 . . . 98 12 音場シミュレータにおける仮想音源の座標 . . . 101 13 主観評価実験における測定条件 . . . 101 14 比較されるシステムの場合 . . . 111 15 回答項目 1, 出力音声の自分らしさ . . . 111 16 回答項目 2, カラオケシステムとしての自然さ (違和感のなさ) . . . 112 17 回答項目 3, カラオケシステムとしての楽しさ . . . 112 18 回答項目 4, 歌唱が不得意な使用者に対する効果の期待度 . . . 113 19 高臨場感歌唱体験システムの評価実験条件 . . . 113 20 Tukeyの方法に基づき算出された累積確率分布関数値 . . . 114

(14)

1. 序論

カラオケ [1, 2] は日本発祥の文化であり，歌唱という平易な表現を採用することで老若男女問わず気軽に楽しめるように設計されたエンタテインメントである．そのため，社会的な交流を図るための道具や場として利用される場合もある．しかしながら，歌唱は各個人の歌唱力に依存するものであり，例えば図 1 のように歌唱行為を伴うカラオケを敬遠することで，特定の集団への意思疎通において障害を生じさせる場合がある．本論文ではそのような歌唱行為への抵抗から社会的不利益を受ける集団を対象として，また歌唱行為への抵抗がない集団にとっては従来のカラオケを更に発展させた歌唱体験を提供する次世代の歌唱支援システムを提案する．なお本論文では，特定の音高に従う歌唱において付加価値として与えられる表現技法や歌手依存の歌い回しを歌唱様式と定義し，歌唱行為を通じて得られるユーザ体験 [3] を歌唱体験と定義する．本論文における目標を図 2 に示す．使用者が本論文のシステムを用いて歌唱行為を行うと，制御された歌声がスピーカを通じて使用者らに提示される．このとき定時される歌声は，熟練歌唱者が歌唱しているかのような歌声に変換される．加えて，使用者はあたかも公演用の舞台上で歌唱しているかのような体験を得る．これらの両方の作用により，使用者にはあたかも使用者自身が専業歌手として舞台上で歌唱しているかのような体験を得ることができる．本論文のシステムは使用者の歌唱力や周辺の音環境を作り変えて提示することにより，使用者が抵抗なく歌唱行為を楽しめることが期待できる．またカラオケを敬遠しない使用者にとっても，従来のカラオケでは達成されなかった新たな楽しみを提供できる．カラオケは比較的新しいエンタテインメントであり, MIDI 信号 [4] による通信や楽曲の音高制御などの工夫を積極的に取り入れてきた. 現在カラオケは世界中のあらゆる年齢層に広く利用される, 普及率の高いエンタテインメントのひとつとなっている. 昨今では民生用の情報端末の発展や通信の広帯域化に伴い, 民生用におけるカラオケのアプリケーションが広く普及している. 特に 2010 年現在では SingStar⃝やR

JOY SOUND Wii⃝などがそれぞれ 1,600 万本および 25 万本販売されるなど, その実R

(15)

My companions invite me

to join for singing Karaoke.

But, I'm not good at singing.

I'm afraid to go there.

図 1 カラオケにおいて歌唱への抵抗に阻害される意思疎通利用法は多岐にわたる．しかしカラオケは歌唱という技能に基づくため，熟練度によりカラオケを満足に利用できない可能性 (音痴等の劣等感に基づく敬遠など) がある．これを受けカラオケでは熟練度の差異を補うため，MIDI 信号に基づく楽曲の音高を制御する機能などが提案されてきた．しかしこの機能では使用者の歌唱を制御しないため, 熟練度を補うには不十分と考えられる．そこで本論文では使用者の歌唱に対する支援の新たな試みとして, 熟練度に依存せず使用者が熟練歌唱者のような歌唱様式を行える歌唱制御システムを提案する. カラオケにおいてプロの歌い方を体験するシステムとして Impersonating system[5] が提案されている．Impersonating system では MIDI 信号に基づいて使用者の歌唱に含まれる音素と歌詞情報に基づいた対応付けを行い, 歌唱の声質などを変化させることができる. Impersonating system は使用者の歌唱に対する支援として有効な手法であるが, Sinusoid モデル [6] に基づくため使用者の歌声において，個人性を保持した

(16)

User can experience

1. vocal style of

professional singer

2. auditory-sensation of

precious stages

Present manipulated

sound

Singing morphing

and sound field

reproduction system

図 2 使用者の歌声を補正しステージ上の専業歌手のような歌唱体験を提供歌唱様式のみの制御は難しい．そのほか，Impersonating system では歌唱される空間を想定しておらず臨場感を制御できない欠点もある．人の歌唱における歌唱様式が歌手の体格に依存する調音機構 (声質) よりは，制御が容易な声帯振動 (基本周波数) に依存すると考えられている [7]．加えて Text-to-speech[8] の技術においても基本周波数を主に制御することで歌唱様式の制御を達成している [9] ことから，基本周波数を制御することで，その歌唱様式を制御できるといえる．基本周波数の制御に基づく Auto-Tune⃝[10] や SingBySpeaking[11] などが提案さR れている. Auto-Tune⃝は収録された歌唱信号の音高を制御できる. 特に音楽制作にR おいては有効性が効果的であり，広く利用されている. しかし歌唱様式などの概念がなく, 実時間で歌唱様式を変換することは困難とされる. SingBySpeaking は使用者の話し声を歌声へ変換できる. オーバーシュート, ヴィブラート, プレパレーションなどの歌唱表現の差異が, 音声の音高である基本周波数の時間変動として観測され

(17)

ることが先行研究 [12] によって確認されており, SingBySpeaking では先行研究 [12] のモデルに基づいた歌声への変換を行う. SingBySpeaking は歌唱様式の教師信号に依存せず汎用的に歌唱を制御できる一方で, 現在のモデルでは歌手固有の歌唱様式や個性などを扱いきれず, 特定の熟練歌唱者のような歌唱様式を付与することが困難である. そこで本論文ではモデル化を行わず，熟練歌唱者の歌唱における基本周波数の時間変動を事例として使用者の歌唱に転写し，歌唱様式を変換するシステムを提案する．それと同時に，様々な舞台やホールなど音環境の特性を考慮し，高い臨場感を伴って使用者に提示する．なお本論文では，任意の方向に明瞭な音像を定位させる音響信号を高臨場な音響信号と定義する．以下に本論文の構成を述べる．第 2 章では使用者の歌声に対する歌唱様式の変換を目的とした，高品質な音声分析合成技術である STRAIGHT とその高速化および応用について述べる．第 3 章では使用者の歌声を利用した音場再現について，スピーカシステムとその改良，および高精度な音場模擬技術について述べる．第 4 章では，使用者の歌声に対する歌唱様式を実時間で変換し，仮想音場の再現に基づき使用者に提示する手法，および評価実験による有効性の確認について述べる．第 5 章では本論文のむすびとして，本論文の主題に対する結論と今後の課題について述べる．

(18)

2. 高品質音声分析合成技術

STRAIGHT

の高速化と

応用に基づく歌唱体験システム

ここでは，熟練者の歌唱体験を使用者に提示するシステムについて述べる．本提案システムは使用者の歌声から，その歌唱様式を熟練者の歌唱様式で置き換えることにより，あたかも使用者が熟練者の技量で歌唱しているかのような状況を構築する．音声とは気圧の高低が時間ないし空間に分布した情報であり，時間や空間に分布した信号 (音声の情報を持つ信号; 音声信号) として扱うことができる．使用者の歌声をあたかも熟練者の歌唱のように置き換えるには，使用者や熟練歌唱者の音声を分析して扱う必要性がある．時間や空間などに分布したデータから有益な情報を抽出する技術は信号処理と呼ばれる．信号処理の技術により，音声信号を音声特徴量で符号化し，音声特徴量から音声信号を復号する技術は音声分析合成技術と呼ばれる．使用者の歌声から歌唱様式を制御するためには下記の条件を満たす必要がある． 1. 使用者の歌声から歌唱様式と個人性を符号化 2. 熟練歌唱者の歌唱様式と使用者の個人性から音声を復号 3. 肉声に匹敵する品質で音声を復号 4. 実時間処理本章では音声を扱う信号処理と音声分析合成技術，音声分析合成技術の枠組みで歌唱様式を置換する手法，および高品質な音声分析合成技術の改良による実時間処理について述べる．以下に本章の構成を述べる．第 2.1 節では，音声を処理するための信号処理の基礎について説明する．第 2.2 節では，信号処理による音声の分析手法の基礎について説明する．第 2.3 節では，信号処理に基づく従来の音声分析合成技術について説明する．第 2.4 節では，従来の音声分析合成技術の特徴量推定について説明する．第 2.5節では，高品質な音声分析合成技術である STRAIGHT の基礎について説明する．第 2.6 節では，STRAIGHT の枠組みに基づき歌唱様式を制御する手法について提案

(19)

する．第 2.7 節では，使用者の歌声の実時間処理を目的とした STRAIGHT の高速化について提案する．第 2.8 節では，提案した歌唱様式の変換手法と高速化された STRAIGHTに関して実施した評価実験について述べる．第 2.10 節では，高品質音声分析合成技術 STRAIGHT の高速化と応用に基づく歌唱体験システムの提案について達成された内容に関するまとめを述べる．

2.1 音声と信号処理の基礎

時間や空間などに分布した情報 (信号) は信号処理の技術によって処理できる．信号処理は本論文で扱う音声や音響以外に，通信や医療などにも用いられる．信号処理の対象である音波 [13] や電磁波 [14]，生体信号 [15] などは実空間においてアナログ信号として存在しており，初期の信号処理は対象の信号を感知器で電気信号に変換し，素子の電気特性に基づいてアナログ回路で処理する (アナログ信号処理 [16]) ものであった．しかしアナログでの信号処理は，環境による電気特性の変化や電気的制限によって精度が安定せず，信号の劣化しない記録や暗号化が困難であった．一方で，アナログ信号処理の他に論理回路に基づく信号処理 (ディジタル信号処理 [17]) が提案されている．論理演算に基づくためアナログ信号処理よりも周囲の環境の変化に頑健であり，情報が劣化しない記録を実現できるなど，従来では非現実的であった信号処理を可能とする利点がある．加えて，ディジタル信号処理はアナログ信号のディジタル化 (Analogue-to-digital; A/D 変換 [17, 18]) を必要とするが，標本化定理で保障される帯域において標本化はアナログ信号と相互変換が可能であるため，有限の帯域においてディジタル信号処理はアナログ信号処理の上位互換と考えられた．しかしながら，アナログ信号処理においては素子で得られる特性を，ディジタル信号処理では多数の論理回路によって模倣し，また論理回路をクロック駆動させる必要性があるため，高密度の集積回路や安定した高周波回路の実現する近年までは性能が低くアナログ信号処理を置き換えるものではなかった．ムーアの法則 [19] に従い半導体による論理回路の集積度とクロック周波数が指数的に向上した近年では，ディジタル信号処理の実装は実用的な水準に到達しつつある．加えて論理回路による演算アルゴリズムにおいても革新が続いており，1965 年

(20)

には分割統治法 [20, 21] によって 1 次元あたりの演算量を O (n) = log (n)/n に抑えた 高速フーリエ変換 (fast Fourier transform; FFT) が提案された [22, 23]．現在では高速フーリエ変換に基づくディジタル信号処理の様々な技術が提案され応用されている．

2.2 ディジタル信号処理による音声のスペクトル密度解析の基礎

信号は時間や空間など任意の領域に分布する情報であるため，その分布に基づく確率過程の解析 [24, 25, 26] はスペクトル密度の解析に有効であり，様々なディジタル信号処理の基礎となっている．帯域のエネルギを得るパワースペクトルの推定は自己回帰モデル (Auto Regressive;AR モデル)[24] や Wigner 分布 [27] などのモデルによる解析と，フーリエ変換やハンケル変換 (Hankel transform)[28, 29]，ウェーブレット変換 (Wavelet transform)[30, 31] を用いた関数の写像に基づく解析がある．それぞれの解析は基底を異にするが，いずれも基底関数との相関で関数は写像される．

例えば時間領域 t の信号に対するフーリエ変換は，対象の信号 s (t) が可測な関

数であるとき，その関数は強度 α (ω) と位相 β (ω) の異なる時間周波数 ωtの円関数

(Circular function)の和として展開できるフーリエ級数展開 (Fourier series)[32] に基

づく． s (t) = ∫ _∞ −∞ α (ωt) cos (ωt− β (ωt)) dωt. (1) フーリエ変換において位相の異なる円関数は強度の異なる余弦関数と正弦関数の 和として表現でき，信号 s (t) およびスペクトル密度 S (ωt)を複素数とすることで，オイラーの公式 [33] から指数関数に集約できる．その結果として，時間領域の複素 信号 s (t) とその複素スペクトル密度 S (ω) は式 (2) のフーリエ変換および式 (3) の フーリエ逆変換で相互的に変換できる． s (t) = √1 2π ∫ _∞ −∞ S (ωt) exp (jωtt) dωt, (2) S (ωt) = 1 √ 2π ∫ _∞ −∞ s (t) exp (jωtt) dt. (3) なお，j は虚数単位を示し，π は円周率を示す．式 (2),(3) の右辺にかかる 1/√2π

(21)

は正規化項であり，式 (2) の順方向変換で 1 を乗算し，式 (3) の逆方向変換で 1/ (2π) を乗算する形式も利用される [22, 23]．

関数の写像に基づく解析では対象を直接写像する Periodgram 法 [17] のほか，対象の自己相関 (Autocorreleation) を写像する Blackman-Tukey 法 [34] がある．Periodgram 法では対象の信号を複素スペクトル密度へ変換し，全帯域の振幅を 2 乗することでエネルギ密度を導出する．Blackman-Turkey 法は自己相関のフーリエ変換がパワースペクトルと等価であるという Wiener-Khintchine の定理に基づく手法と見なせる．確率過程に基づくスペクトル密度解析では，領域全体の統計は分割された領域に対する統計の総和と等価である．Welch 法 [35] は領域を単位区間で切り出して解析し，全体の統計からパワースペクトル密度を得る．音波や電波に代表される時間領域の信号を窓関数 [17, 36, 37] で切り出してフーリエ変換することを，特に短時間フーリエ変換 (Short-time Fourier transform) と呼ぶ．時々刻々と特性の変化する信号では，領域全体のスペクトル密度から各時間での特性を得ることはできない．短時間フーリエ変換は音声など非定常の信号からスペクトル密度の時系列であるスペクトログラムを解析でき，特に短い窓関数を用いてオーバーラップさせることで詳細に解析できるため [38]，時間周波数解析 [27] における基礎的な手法の一つとされる． 時間領域 t の信号に対する短時間フーリエ変換は，長時間の信号を短い区間に切り 出し個別に時間周波数領域へ写像する．長時間の信号 s (t) から短い区間の信号 s′(t) を切り出す処理は，数学的には窓関数 w (t)[17, 35] との積として考えられる． s′(t) = s (t)· w (t) . (4) 窓関数は解析する対象の領域に高い重みをつけ，それ以外の領域に低い重みをつけ る関数としてみなすことができる．例えば矩形窓では，対象の時間領域 tstart≤t≤tend の重みを 1，それ以外の領域では重み 0 とすることで信号の切り出しを実現する． w (t) =    1 if tstart ≤ t ≤ tend 0 otherwise . (5) 窓関数は信号の領域 (時間や空間など) において信号に乗算される．そのため周波

(22)

Time

Am

pli

tude

s

(

t

)

w

(

t

)

w

(

t

)

·s

(

t

) 図 3 窓関数 (矩形窓) を用いた信号の切り出し 数領域では窓関数と元信号のスペクトル密度 Sw(ωt)は畳み込み積分される． s (t) = √1 2π ∫ _∞ −∞ S (t) exp (jωtt) dωt, (6) w (t) = √1 2π ∫ _∞ −∞ W (t) exp (jωtt) dωt, (7) s (t) w (t) = √1 2π ∫ _∞ −∞ [ ∫ _∞ −∞ S (ωt− ϕt) W (ϕt) dϕt] exp (jωt) dωt. (8) 式 (8) 中の ωtは時間周波数を示す．周波数領域において窓関数は畳み込み演算となる．そのため特定の帯域に対してメインローブの他に別の帯域がサイドローブとして影響し，真のスペクトル密度が得られない問題がある．真のスペクトル密度を得るには，無限に長い窓関数を用いる他に手段はなく，窓関数で信号を切り出す場合にはメインローブの狭さとサイドローブの強度を調整することが求められる．窓関数は用途に応じて様々な形状が提案されており，メインローブが鋭く，サイドローブの小さいハニング窓 (Hanning window) やブラックマン窓 (Blackman window) などは汎用的に利用されている．

近年では窓関数の形状だけでなく，切り出し方や組み合わせによって真のスペクトル密度を推定する手法へと応用されている．次節では本論文の対象である音声分

(23)

析合成技術のためのスペクトル密度推定について述べる．

2.3 ディジタル信号処理による音声分析合成技術の基礎

本システムは，使用者の歌唱における歌唱様式を熟練者の歌唱様式で置換することを目的とする．これを達成するには使用者と熟練者の歌声を共通の特徴量で符号化し，使用者の個人性と熟練者の歌唱様式に基づく音声を合成すれば良い．聴取を目的として音声信号を符号化·復号する技術は音声分析合成技術(Voice coder; vocoder)と呼ばれる [39, 40]．特に H. Dudly らに提案された元来の音声分析合成技術 [40, 41] は帯域をチャネルに分離して，それぞれの帯域の時間エネルギ密度で符号化するため，チャネルボコーダ (Channel vocoder) と呼ばれる．チャネルボコーダの他に，線形予測 [42, 43] に基づく LPC ボコーダ [44] やリフタリング [45] を用いるケプストラムボコーダ [46, 47] がある．音声分析合成技術は元来，音声の情報量を効率よく圧縮し有限の通信帯域で伝送するため提案・運用されてきたため，音素や話者性を聴取できる最低限の品質であった．近年では通信の広帯域化や符号化・復号手法の改良によって肉声に匹敵する品質の音声分析合成技術も提案されている [48, 49, 50]． 2.3.1 音声分析合成技術の先行研究音声は声門の開閉による振動の励起と，喉から口唇や鼻腔までの経路による調音に分離して扱うことができる．励起は空気の流動に基づく声門の開閉による振動や気流に基づき，励起された信号は口の形や喉の長さといった声道の過程で調音される．多くの音声分析合成技術では励起と調音の分離を，線形分離等価回路モデル (ソースフィルタモデル; Source-filter model) として扱う [51]． 線形分離等価回路モデルに基づく音声分析合成技術において，励起信号 x (t) は有 声音と無声音では異なるモデルが与えられる．声帯振動を伴う有声音では，声門の開閉に周期があるため式 (9)∼(12) に示される基本周期 T0に基づくパルス列 x (t) が励起信号として用いられる．声帯振動を伴わない無声音では，声門の開閉による周期がないため白色雑音が励起信号として用いられる．白色雑音とは統計的にすべて

(24)

の周波数帯域にエネルギが分布し位相に法則性がない信号であり，白色性とは電磁波においては可視光全ての帯域 (波長が 380 nm から 750 nm) が含まれると視覚情報として白色に見えることに由来する．帯域に偏りのある場合は有色雑音とも呼ばれ，特に低域に偏る場合はピンクノイズと呼ばれる．白色雑音には振幅が一様分布に従う無作為雑音やガウス分布に従うガウス雑音 (またはガウシアンノイズ)，および無作為に 2 値が決定される M 系列雑音 [52] などがある． x (t) = ∞ ∑ n=−∞ δ (t− nT0) , (9) X (ω) = ∞ ∑ n=−∞ δ (ωt− nωt,0) , (10) x (t) = √1 2π ∫ _∞ −∞ X (ω) exp (jωtt) dω, (11) ωt,0 = 2π T0 . (12) また調音のフィルタ (調音フィルタ) を h (t) とした場合，音声信号 y (t) は励起信 号 x (t) と調音フィルタ h (t) の畳み込み積分で表される．すなわち周波数領域では励 起信号 x (t) のスペクトル密度 X (ωt)と調音フィルタ h (t) のスペクトル密度 H (ωt) に対する乗算と等価である． y (t) = ∫ _∞ −∞ x (t− τ) p (τ) dτ, (13) Y (ωt) = X (ωt) H (ωt) . (14) 音声分析合成技術においては，励起信号 x (t) と調音フィルタ h (t) を符号化する ため，観測可能な信号 y (t) から励起信号 x (t) と調音フィルタ h (t) を推定する必要 がある．

2.4 音声分析合成技術のためのスペクトル密度推定の基礎

音声分析合成技術においては音声特徴量の高効率な符号化が求められる．音素などは線形分離等価回路モデルにおける調音に基づくため，音声の符号化においては調音のスペクトル密度推定が重要である．

(25)

一方で，声帯振動に基づく音声は声門の開閉周期に基づき励起されるため周期性を有し，基本周期の時間長で高い相関を示す信号となる．そのため，調音のスペクトル密度を推定するには確率過程で生じた分散だけでなく，励起の周期性を取り除く必要がある．線形分離等価回路モデルなど周期的に励起される信号からそのフィルタ項のスペクトル密度を推定する手法として，ピッチ同期分析 [53] が提案されている．ピッチ同期分析は切り出しに用いる窓関数の長さを励起の基本周期に基づき決定することで，調音のスペクトル密度の推定精度を向上させる．図 4 は周期性を有する信号に対 する調音フィルタのスペクトル密度推定の例を示す．図の左側はあるフィルタ h (ω) に対する単一の応答を時間領域と周波数領域で示しており，調音フィルタの真値で ある．フィルタ h (ω) が周期的に励起された応答は図の中央に示されており，基本 周波数の倍音にのみエネルギを有するスペクトル密度が得られる．一方で基本周期が与えられれば，その周期に基づいた長さの窓関数を用いることで周期性の影響を抑圧できる．しかしピッチ同期分析を用いた場合においても，切り出し位置によって歪みが生じる場合がある．図 5 は基本周期の整数倍の窓関数で切り出した応答スペクトル密度の解析を示している．主だった応答を窓関数で切り出せればスペクトル密度の推定精度は向上するが，隣接した応答が混在すればスペクトル密度が干渉する．そのため，切り出し位置によって得られるスペクトル密度が振動する．応答の周期性に基づくスペクトル密度の振動は，窓関数を用いた短時間フーリエ変換において生じる問題とされていた [54]．周波数領域で生じるスペクトル密度の振動については，ケプストラム [46, 47] に基づく平滑化や線形予測 [42, 43, 55] に基づくスペクトル密度の推定などが用いられてきた．それぞれの手法に基づいて調音フィルタを符号化する音声分析合成技術は，ケプストラムボコーダ [45, 56]，LPC ボコーダ (または PARCOR ボコーダ)[57] と呼ばれる．

(26)

Time

Am

pli

tude

Single response

0 Nyquist

Frequency

M

agni

tude

Time

Am

pli

tude

Multiple responses

0 Nyquist

Frequency

M

agni

tude

Time

Am

pli

tude

Pitch synchronous analysis

0 Nyquist

Frequency

M

agni

tude

図 4 周期性を有する信号のスペクトル密度推定とピッチ同期分析 2.4.1 ケプストラムに基づく調音フィルタの推定線形分離等価回路モデルに基づくと，音声は励起信号と調音フィルタの畳み込みとして扱われる．すなわち音声のスペクトル密度は励起信号のスペクトル密度と調音フィルタのスペクトル密度の積として与えられる． Y (ωt) = H (ωt) X (ωt) . (15) このとき，式 (15) の両辺を対数関数で写像することにより，式 (16) のように右辺は励起信号の対数スペクトル密度と調音フィルタの対数スペクトル密度の和として置き換えられる．

(27)

Time

Am

pli

tude

0 Nyquist

Frequency

M

agni

tude

Time

Am

pli

tude

0 Nyquist

Frequency

M

agni

tude

Time

Am

pli

tude

0 Nyquist

Frequency

M

agni

tude

図 5 窓関数の切り出し位置によるスペクトル密度の振動 ケプストラム qy(t)とは対数スペクトル密度の逆フーリエ変換として与えられる． qy(t) = 1 √ 2π ∫ _∞ −∞ log|Y (ωt)| exp (jωtt) dωt (17) = √1 2π ∫ _∞ −∞

[log|H (ωt)| + log |X (ωt)|] exp (jωtt) dωt (18)

= √1 2π ∫ _∞ −∞ log|H (ωt)| exp (jωtt) dωt +√1 2π ∫ _∞ −∞ log|X (ωt)| exp (jωtt) dωt. (19) すなわち，音声のケプストラムは励起信号のケプストラム qh(t)と調音フィルタ のケプストラム qx(t)の和となる． qx(t) = 1 √ 2π ∫ _∞ −∞ log|X (ωt)| exp (jωtt) dωt, (20) qh(t) = 1 √ 2π ∫ _∞ −∞ log|H (ωt)| exp (jωtt) dωt. (21)

(28)

−T₀ 0 T₀

Time

Am

pli

tude

Multiple responses

0

_T 0 2T0 3T0

Quefrency

Am

pli

tude

−T₀ 0 T₀

Time

Am

pli

tude

Excitation signal

0

_T 0 2T0 3T0

Quefrency

Am

pli

tude

−T₀ 0 T₀

Time

Am

pli

tude

Single response

0

_T 0 2T0 3T0

Quefrency

Am

pli

tude

図 6 音声，励起信号，調音フィルタの応答に対するケプストラム 図 5 の中央図に示されるとおり，励起信号の影響は基本周波数 ω0で振動する．ま た，この振動はデルタ関数 δ (ωt)の系列であるため，そのフーリエ逆変換で得られる ケプストラムもデルタ関数 δ (t) の系列として表すことができる．一方で，調音フィ ルタはスペクトル密度が平坦に近いため，調音フィルタに由来するケプストラムは低次ケフレンシに集中する．図 6 は調音フィルタが励起信号で駆動された信号 (音声)，励起信号，および調音フィルタ単一の応答から得られるケプストラムを示している．図に示されるとおり，調音フィルタと励起信号の畳み込みで得られる音声はそれぞれのケプストラムの和として得られる．なお図 6 の左図では励起信号に由来するケプストラム成分のデル タ関数 δ (t− nT0)付近にエネルギを持つが，これは窓関数の影響である．窓関数は周波数領域で畳み込み積分となるため，励起信号と調音フィルタの対数スペクトルの和とは完全に一致しない．

(29)

図 6 に示されるケプストラムにおいて，低次ケフレンシの信号が残り励起信号 のデルタ関数 δ (t) を抑圧するリフタリングを行えば，音声分析合成技術を目的と した調音フィルタの特性が得られる．本論文で採用する音声分析合成技術である STRAIGHT[48, 49, 58]はスペクトル密度解析において励起信号に基づき生じる振動を回避する手法を提案しており，ケプストラムに基づく音声分析合成技術の発展型であるとも言える． 2.4.2 線形予測による調音フィルタの推定線形予測 [42, 43, 55] は情報の既知な区間が与えられたときに区間外の情報を予測 する外挿の一手法である．長さ L− 1 の標本 ykが与えられたとき，線形予測では与えられた情報から次の標本 ˆynを予測する． ˆ yn=− 1 a0 L−1 ∑ k=1 akyn−k. (22) このとき，真の標本 ynを観測できればその二乗誤差 E を定義できる． En = yn− ˆyn (23) = a0y0+ L−1 ∑ k=1 akyn−k. (24) ここで a0 = 1とすれば次式が得られる． En= L−1 ∑ k=0 akyn−k. (25) ここで N 標本が観測されたときの平均二乗誤差∥E∥2_{は次式で得られる．} ∥E∥2 = N−1 ∑ n=0 (_L₋₁ ∑ k=0 akyn−k )2 . (26) 観測された N 標本について平均二乗誤差を最小化する akを求めることで観測された標本に対する重みが決定し外挿が達成される．すなわち，平均二乗誤差に対す る akの導関数が 0 となる akが予測係数となる． ∂∥E∥2 ∂ak = 0. (27)

(30)

式 (27) は相関関数を用いることで Yule-Walker 方程式 [59, 60] に変換できる．こ こで係数 akは LPC 係数 (Linear prediction coefficient) と呼ばれ，その次数 N は LPC

次数と呼ばれる．信号処理において線形予測は全極フィルタの推定と等価である． L∑y−1 ky=0 akyyky = L∑x−1 kx=0 bkxxkx. (28) 式 (28) は信号処理の中核をなす特性方程式と呼ばれる式であり，入力 xkx と出力 ykxの特性を示している．係数 bkxは入力に対する係数であり，フィードフォワードの フィルタ (全零のフィルタ効果) を成す．係数 akyは出力に対する係数であり，フィードバックのフィルタ (全零のフィルタ) 効果を成す．このとき，入力に対してフィル タ効果がない，すなわち bkxがクロネッカーのデルタ δkxであれば，式 (29) の形式となり，線形予測の式と一致する． L∑y−1 ky=0 akyyky = b0xkx. (29) すなわち線形予測は全極モデルの特性方程式を解くことと等価である．音声の励 起信号がデルタ関数としてクロネッカーのデルタ δkであるならば，線形予測を利用することで調音フィルタを全極モデルとしてフィッティングできる． しかしながら音声は時々刻々とスペクトル密度が変化する．すなわち有限の N 標本 について誤差を最小化する Yule-Walker の解では不十分な場合がある．そこで線形予 測を用いた調音フィルタの符号化では，新たな標本 ykが得られる毎に LPC 係数 akを逐次的に更新する Levionson-Durbin 再帰法 [61, 62] が用いられる．Levionson-Durbin 再帰法を用いて LPC 係数を逐次的に推定する場合，誤差である Enも逐次的に算出される．観測された標本について Levionson-Durbin 再帰法で LPC 係数を推定する場 合用いた標本と同数の誤差 Enが得られ，その信号は残差信号と呼ばれる．励起信号と調音フィルタの畳み込みにおいて，単一の励起に対する調音フィルタの応答においてはほとんどスペクトル密度は変化しない．一方で，単一の励起に対する調音フィルタの応答に，次の励起に対する応答が混入すると全極モデルから逸脱する．そのため，入力である励起信号に高いエネルギが生じるたびに誤差も増加する．この

(31)

ことから残差信号は励起信号のエネルギ発生に関連あるものとして扱われることが多い．本論文においては，線形予測おける残差に相当する信号を推定すること後述の STRAIGHTに基づく高品質な実時間音声分析合成技術を提案する．

2.5 先行研究：高品質音声分析合成技術

STRAIGHT

従来の音声分析合成技術は音声を特徴量で符号化できるため，有限の帯域における音声通信において有効であった．しかしながら機械的な音声であり，聴音を目的とした品質は最低限のものであった．原因の大半は下記に分類される． 1. 肉声の励起信号はデルタ関数の連なりではない 2. 完全な有声音無声音の切り替え 3. 聴音フィルタの推定精度が低い実際の音声における励起信号はデルタ信号の連なりではなく，零を持つフィルタが乗算されており，乱流などの加算性雑音も混入している．また線形分離等価回路モデルでは有声音と無声音を完全に切り分けて扱うが，実際の音声は段階的に無声化および有声化するため，励起信号に対する加算性雑音をも特徴量として扱う必要性がある．加えて音声の励起信号はデルタ関数の連なりではないため，励起信号をデルタ関数の連なりとする線形分離等価回路モデルに基づく手法では聴音フィルタは正しく推定されない． STRAIGHT[48, 49]およびその改良である TANDEM-STRAIGHT[54] はこれらの問題を回避する手法を採用し，元の肉声に匹敵する品質を音声分析合成技術を用いて達成した．図 4 に見られるとおり，調音フィルタの真のスペクトル密度は励起信号の基本周期の整数倍に存在する．STRAIGHT はこの条件を満たし，かつ励起信号に基づく時間-周波数領域のスペクトル密度の振動を抑圧した STRAIGHT スペクトルを推定する． STRAIGHTスペクトルは，相補的時間窓と呼ばれる周波数領域に与える影響が対に

(32)

なる窓関数を用いて短時間フーリエ変換を実施し，合わせることで励起信号の時間 影響を抑圧する．TANDEM-STRAIGHT は 3/2 倍や 2 倍などの基本周期の分数倍長 の窓関数を用い，片方の窓関数の切り出し時刻を基本周期の半分シフトさせることで励起信号の時間影響を抑圧する．また STRAIGHT および TANDEM-STRAIGHT では，周波数領域における励起信号の影響を抑圧するため，ケプストラムのリフタ処理に似た手法として対数スペクトルに基本周波数に同期した矩形窓を畳み込むといった手法を採用している．これらの手法により，STRAIGHT スペクトルおよび TANDEM-STRAIGHTスペクトルは時間・周波数いずれの領域においても励起信号の影響を受けずに得られる．また，STRAIGHT は従来の音声を基本周期，聴音フィルタに加えて，非周期性指標と呼ばれる特徴量で音声を符号化する [63, 64, 65]．非周期性指標は励起信号の各帯域に含まれる雑音比に対応する． STRAIGHTはその高い品質ゆえに，音声の分析や合成など様々な分野に応用されている [66, 67, 68, 69, 70]．なお，本論文では STRAIGHT および TANDEM-STRAIGHT を総称して STRAIGHT と呼ぶ．

2.6 高品質な音声分析合成技術

STRAIGHT

を用いた

基本周波数の転写に基づく歌声制御システムの提案

STRAIGHTは音声を線形分離等価回路モデルに対応して符号化でき，かつ肉声に匹敵する品質で音声信号を復号できる．そのため，様々な分野において音声や歌声のオフライン分析や合成に用いられている．また STRAIGHT は線形分離等価回路モデルに基づくため，ピッチ (基本周期) やスペクトル包絡 (調音フィルタ形状) に対応した特徴量を容易に得ることができる．特に歌声においては，歌唱様式が基本周波数の遷移でモデル化 [5, 11] され，声質や歌唱フォルマントなど [71, 72] の特徴量がスペクトル包絡でモデル化されるなど，線形分離等価回路モデルに基づく符号化が活用されている．そこで本節では，高品質な音声分析合成技術である STRAIGHT を利用または改良することで，使用者の歌声を実時間で制御する手法について提案する．

(33)

Analysis Analysis Pitch contour Synthesis Preprocessing Real-time processing Supervisory vocal sound User’s original vocal sound Manipulated vocal Spectral envelope Pitch contour Spectral envelope 図 7 提案システムの処理フロー 2.6.1 歌唱制御システムの概要歌唱制御システム (提案システム) の概要を図 7 に示す. 提案システムは使用者の声質と熟練歌唱者の歌唱様式を用いて歌唱信号を合成する. 提案システムでは熟練歌唱者と使用者の歌唱信号から歌唱様式に対応する基本周波数と声質に対応するスペクトル包絡を分析し, 熟練歌唱者の基本周波数と使用者のスペクトル包絡から歌唱様式の変換された使用者の歌唱信号を合成する. 合成された歌唱信号を従来のカラオケのように使用者に提示することで, 使用者はあたかも自身が熟練歌唱者のような歌唱を行っている体験を得ることが期待される. なお教師信号となる熟練歌唱者の歌唱様式は事前に分析しておき, 実時間性の求められる使用者の歌唱信号のみ, 提案システムの利用時に実時間で分析する.

(34)

time Pitch time /a/ /a/ /e/ /o/ /e/ /o/ time Pitch time /a/ /e/ /o/ /a/ /a/ /e/ /o/ /e/ /o/ /a/ /e/ /o/ User’s original vocal sound (synchronized) Supervisory vocal sound Manipulated vocal sound Transcribe Synthesize Transcribe Synthesize time time User’s original vocal sound (Unynchronized) Supervisory vocal sound Manipulated vocal sound Incorrect manipulation Not manipulated 図 8 基本周波数の同期した歌唱信号と非同期な歌唱における歌唱制御 2.6.2 伴奏に基づく歌唱における同期した基本周波数基本周波数の転写に基づき歌唱制御を行うには両者の歌唱が同期している条件が要求される. 基本周波数の時間変動において微細な変動が歌唱様式として知覚されることから, 基本周波数の大局的な時間変動が一致していればこの条件を満たすと考えられる. 図 8 は基本周波数の転写を同期および非同期な歌唱信号に対して行った例を示す. 各グラフは横軸を時間, 縦軸を基本周波数とした基本周波数の時間変動を示しており, 左側では教師信号と使用者の歌唱信号が同期しているが, 右側では各信号が非同期となっている. 図下段はそれぞれの信号間における基本周波数の転写に基づいた歌唱制御の結果を示しており, 図左側のような基本周波数の大局的な時間変動が教師信号と使用者の歌唱信号で同期した場合, 各音素に対応した基本周波数が転写され適切に制御されている. 一方で図右側のような基本周波数の大局的な時間変動が教師信号と使用者の歌唱信号で非同期な場合, 使用者が歌唱を行っていない時刻に基本周波数が転写され, また使用者が歌唱を行っている時刻に基本周波数が転写されないなど適切に制御されない. そこで歌唱信号に含まれる同期を調査する

(35)

0

0.5

1

1.5

2

2.5

3

3.5

4

300

350

400

450

500

550

600 Time[sec]

Fundamental frequency[cent]

Source F0

Target F0

図 9 2 名の歌手 (Source, Target) が同一の楽曲を歌唱した場合におけるそれぞれの基本周波数の時間変動ため，予備実験を実施した． 2.6.3 基本周波数の同期に関する予備実験予備実験では女性 8 名男性 12 名に歌唱された歌唱信号を対象に，基本周波数を推定し，時間的な同期について調査した．推定には高 SNR な音声信号を対象とした高速な基本周波数推定法 [73] を用いた. また評価試料として，歌唱制御システムがカラオケの歌唱に用いられることを考慮し，民生のカラオケ機にて定番楽曲として扱われる (使用者に最も歌唱される) 楽曲から，表 1 に示される男性楽曲 3 曲，女性楽

(36)

表 1 評価に用いられた楽曲

歌手楽曲

夏川りみ (女性) 涙そうそう

一青窈 (女性) ハナミズキ

DREAMS COME TRUE(女性) 未来予想図 II

尾崎豊 (男性) I love you スピッツ (男性) cherry サザンオールスターズ (男性) TSUNAMI 曲 3 曲を選出し用いた．推定された基本周波数の一例を図 9 に示す．図は 2 名の歌手が同一の楽曲を歌唱した場合の基本周波数の時間変動を，横軸を時間 sec，縦軸を基本周波数 (cent) として図示している．歌手の異なる歌唱信号では基本周波数の微細な変動は異なる一方で，その基本周波数の終了時刻，開始 (立ち上がり) 時刻が近く，大局的な変動は一致していることが確認できる．また 1 半音 (100 cent) 以下の変動は音階が移動しないと見なして丸め，1 半音 (100 cent) 以上連続して基本周波数が変動する区間において，基本周波数の時間微分が 0 となる (遷移が終了する) 時刻の歌手間のずれについて，その絶対値を評価した．その結果基本周波数が遷移する時刻のずれは平均 118 msec，標準偏差 113 msec であることを確認した．この値はテンポ 120 bps の 32 分音符の時間長 125 msec を下回っている．対象の楽曲ではこれらの音長を伴う歌唱が含まれないことから，対象の楽曲において 1 音の長さ以上のずれが生じることはない．そのためテンポ歌唱様式の転写の精度を低下させる発話時刻のずれは発生しないと考えられる．ただしテンポの高い楽曲や速い音高遷移を伴う楽曲では遷移時刻のずれが発生する可能性が高く，テンポの高い楽曲では基本周波数の遷移に対する対応付けが必要となる場合があるといえる．

(37)

表 2 STRAIGHT を構成する各分析法の処理時間の比率分析対象分析に要する処理時間の比率基本周波数 21.7 % 非周期性指標 72.8 % スペクトル包絡 5.5 % 合計 100 %

2.7 逆フィルタ法の併用による歌声の実時間処理を目的とした

高品質音声分析合成技術

STRAIGHT

に基づく実時間ボコーダの

提案

2.5節に示されたとおり，STRAIGHT は高品質な音声分析合成技術として様々な応用に用いられている．しかしながら STRAIGHT は高い品質を達成するために非常に多くの演算を必要とする．近年では計算機の性能も向上したため潤沢に計算資源の利用できる環境では問題が顕在化しにくいが，カラオケ機などはまだまだマイクロコントローラによる実装も多く実時間で STRAIGHT の演算を完全に行うことは難しい．すなわち，実時間で歌唱制御を行うには STRAIGHT の品質をなるべく下げず演算コストを下げなければならない．STRAIGHT は音声を基本周波数，STRAIGHT スペクトル，非周期性指標の特徴量で符号化する．STRAIGHT を用いて ATR 音素バランス 216 単語データベース [74] を分析合成したところ, 各特徴量の分析における平均処理時間の割合が表 2 であることが示された. 表 2 により非周期性指標の推定が STRAIGHT の分析の処理時間におけるボトルネックであることが確認できる． STRAIGHTでは基本周波数の推定に群遅延に基づく手法 [75] や YIN 法 [76] に基づく手法を採用しており，中でも YIN 法 [76] は実時間処理への展開も行われている．更に近年ではより高速化された基本周波数の推定として DIO[73] の採用も検討されている．STRAIGHT スペクトルの推定においても，TANDEM 窓 [54, 77] を用いた高速化を実現している．図 7 に示された通り歌唱制御システムでは基本周波数のみ制御されるため, 処理時間を必要とする非周期性指標の特徴量推定は要求されない.

(38)

Synthesize a voice from

parameters

Input voiced sound

Articulation

filter

Sound source Pulse train Noise

Fundamental

frequency Aperiodic level Spectral

envelope

Input voiced sound

Articulation

filter

Sound source Pulse train Noise

Fundamental frequency Spectral

envelope

Output synthesized sound

Original STRAIGHT

Simplified vocoder

Synthesize a voice from

parameter and waveform

Estimation Estimation Estimation Estimation Estimation

Extraction 図 10 STRAIGHT と提案ボコーダの比較そこで駆動信号に含まれる雑音成分を符号化しない STRAIGHT に基づく歌唱制御のための高品質音声分析合成技術を提案する. 駆動信号に含まれる雑音成分を符号化せず波形のまま扱うことで分析における処理時間の高速化が期待される. また実時間の歌唱制御では使用者の歌唱に追従して歌唱信号を合成することから入力信号と出力信号の時間長が等しくなる. そのため合成においても分離された雑音成分の加算のみで合成を完了でき, 合成においても処理時間の短縮が期待される.

(39)

2.7.1 励起信号の抽出を併用した STRAIGHT に基づく提案ボコーダの概要従来の STRAIGHT と励起信号の抽出を併用した STRAIGHT に基づく音声分析合成技術 (以下，提案ボコーダと呼称) の比較を図 10 に示す．STRAIGHT では音声信号の特徴量としてスペクトル包絡, 基本周波数, 非周期性指標の推定を行う．提案ボコーダではスペクトル包絡および基本周波数の推定を行う一方で，非周期性指標の推定は行わず，駆動信号に含まれる雑音成分を波形のまま分離する． 2.7.2 駆動信号の分離駆動信号に含まれる雑音成分の分離手法について説明する．線形分離等価回路モデルでは音声を駆動信号とインパルス応答 [78] の畳み込みとして定義するため，観 測信号 v(t) からインパルス h(t) の影響を除去することで駆動信号 g(t) の分離が期待 される．そこで逆フィルタ法 [79] に基づき式 (30) に示される通り，h(t) の逆フィル タ h−1(t)を観測信号 v(t) に畳み込むことで駆動信号 g(t) を分離する．逆フィルタ法 を適用するには観測信号 v(t) から h(t) を推定する必要性があるが，式 (31) に示され る通り，観測信号のスペクトル V (ω) はインパルス応答のスペクトル H(ω) に対して 駆動信号 g(t) の基本周期 T0に基づくスペクトル G(ω) の零 2nπ_T₀ [n ∈ N ], (N : 自然数 )から影響を受けている．すなわち逆フィルタ h−1(t)の導出には観測信号 v(t) から 駆動信号 g(t) に依存せずインパルス応答 h(t) を推定することが要求される． g(t) = v(t)∗ h−1(t), (30) V (ω) = H(ω)G(ω) = H(ω) ∞ ∑ ω=−∞ δ(ω− n2π T0 ). (31) STRAIGHTでは基本周波数 (基本周期の逆数) の影響に頑健とされる STRAIGHT スペクトル S(ω) の推定を提案 [50] しており, 他の音声分析合成技術と比較して高精 度にインパルス応答 h(t) のスペクトル H(ω) を推定できることを示している. また 駆動信号をパルス列と雑音成分として扱う手法 [57] などではインパルス応答 h(t) は

実時間音声分析合成技術と音場再現に基づく高臨場感歌唱体験システムの研究

立命館大学博士論文

実時間音声分析合成技術と音場再現に基づく

高臨場感歌唱体験システムの研究

(A Highly-Realistic Singing-Experience System Based on

Real-Time Vocoder and Sound Field Reproduction)

中野皓太

Kota Nakano

実時間音声分析合成技術と音場再現に基づく

高臨場感歌唱体験システムの研究

中野皓太

A Highly-Realistic Singing-Experience System Based on

Real-Time Vocoder and Sound Field Reproduction

Kota Nakano

目 次

図 目 次

表 目 次

1.

序論

My companions invite me

to join for singing Karaoke.

But, I'm not good at singing.

I'm afraid to go there.

User can experience

1. vocal style of

professional singer

2. auditory-sensation of

precious stages

Present manipulated

sound

Singing morphing

and sound field

reproduction system

2.

高品質音声分析合成技術

STRAIGHT

の高速化と

応用に基づく歌唱体験システム

2.1

音声と信号処理の基礎

2.2

ディジタル信号処理による音声のスペクトル密度解析の基礎

Time

Am

pli

tude

s

t

w

t

w

t

·s

t

2.3

ディジタル信号処理による音声分析合成技術の基礎

2.4

音声分析合成技術のためのスペクトル密度推定の基礎

Time

Am

pli

tude

Single response

0

Nyquist

Frequency

M

agni

tude

Time

Am

pli

tude

Multiple responses

0

Nyquist

Frequency

M

agni

tude

目次

図目次

表目次