高臨場感音場再現技術に関する先行研究 - セミトランスオーラルと音場模擬技術に基づく

3. セミトランスオーラルと音場模擬技術に基づく

3.2 高臨場感音場再現技術に関する先行研究

3.2.1 バイノーラルシステムと頭部伝達関数

バイノーラルシステム[89]はヘッドフォンを利用して厳密に原音場を再現する手法である．図21に示されるように，原音場にダミーヘッド(またはHead and Torso

Simulator; HATS)と呼ばれる人間の頭部を模した収録装置を用いる．ダミーヘッド

には両耳鼓膜位置に収録用マイクロフォンが設置されており，人間の頭部近傍における音響信号の伝播に対する影響まで含めて音響信号を収録する．ダミーヘッドを用いて収録された音響信号を受聴者の両耳で提示することで収録された音場での受聴を忠実に再現できるとされる．また対象の音源をインパルスとし，任意の音源位置から両耳への頭部伝達関数(Head-related transfer function; HRTF)[90, 91]を計測することで，任意の音響信号に対して高臨場感音場再現を行うことができる．

しかしながらバイノーラルシステムでは頭部伝達関数に基づき両耳へのみ音を放射するため，頭部の形状の違いによって性能が低下し，顔面の骨伝導などの影響も再現できない．これらの原因から，音像定位の頭内定位[92]や定位の前後誤り[93]

などの問題が知られている．

Headphone Synthesis

Loudspeaker Sound image

図21 バイノーラルシステム

受聴者が両耳で受音する信号は次式で表せる．

X_n(ω) =Q_n(ω)S(ω), (45)

ここで，nはLまたはRであり，Lは左チャネル，Rは右チャネル，ω は周波数，

X_n(ω)は受聴者の両耳位置の受音信号，Q_n(ω)はHRTFを含む室内伝達関数，S(ω) は音源であるドライソースの信号である．バイノーラル方式は，式(45)における Q_n(ω)を頭部形状を模擬したマイクロホンであるダミーヘッドを用いて実計測して，

それを適用した信号をヘッドホンにより受聴させることで3次元音場再現を実現し

ている[89]．バイノーラル方式ではヘッドフォンの着用が不可欠であるため，ヘッ

ドホン着用の煩わしさが問題となる．

そのため，頭部伝達関数は音源の方向や室内環境など様々な条件に依存するため，

音源方向や室内環境を変えて音場再現を行うには条件を変えた計測が必要となる．

加えて，受聴者の頭部形状にも依存するため，再現する音場を自由に変えるために必要な計測数は更に発散する問題がある[92, 94]．

3.2.2 トランスオーラルシステム

バイノーラルシステムと同様の効果をヘッドフォンではなくスピーカを用いて制御する手法がトランスオーラルシステム[95]である．基礎的なトランスオーラルシステムは図22に示される通りバイノーラルシステムによって収録された音源を，遠隔にある受聴者の両耳付近にて再現する手法である．

左右に異なる信号を提示するため2機以上のスピーカを用いて遠方から音を放射する場合，受聴者の両耳には伝播経路の特性やクロストークなどの特性を含めて音が到来する．トランスオーラルシステムでは，これらの影響を逆系によって抑圧することにより，ヘッドフォンの着用なくバイノーラルシステムと同等の音場再現を達成する[96, 97]．

トランスオーラルシステムにおける受聴者が両耳で受音する信号は次式で表せる．

Y(ω) = G(ω)H(ω)X(ω). (46)

ここで，Y(ω) = [Y_L(ω), Y_R(ω)]^T は受聴者の両耳位置の受音信号，G(ω)は遠隔スピーカと受聴者の両耳位置までの伝達関数の行列，H(ω)はG(ω)に対する逆フィルタの行列，X(ω) = [X_L(ω), X_R(ω)]^T は式(45)のバイノーラル方式における受音信号である．また，[·]^T は転置を表す．式(46)の通り，室内伝達関数とクロストークの行列G(ω)に対する多チャンネル逆フィルタの設計が不可欠であるため，機器の個数や計算量の点で非常に複雑かつ大規模なシステムとなる．

またMINT法(Multi-input/output INverse Theorem:多入出力系逆フィルタ)に基づくトランスオーラルシステム[95, 98]では，提示用スピーカを増やすことで，スピーカ数-1の受聴点の音圧を制御する．

すなわちスピーカ数を増やし受聴者の正面や背面に対して音圧の制御を行うことで，バイノーラルシステムで問題とされた頭内定位や定位の前後誤りを低減することが期待される．一方で制御される受聴点に対して逆フィルタは一意に定まるため，受聴者の移動などの系の変動には追従が必要となり，その品質が低下する問題がある．

Dummy head

Crosstalk signal

Direct signal Loudspeaker

図22 基礎的なトランスオーラルシステム

3.2.3 サラウンドシステム

スピーカの数を増やすことで音場を制御する手法の最たるものとしてサラウンドシステムが挙げられる．サラウンドシステムは古くから用いられているスピーカを用いたマルチチャネルな提示装置の体系であり，基本である5.1chサラウンド[99]，

ドルビーデジタル⃝^R6.1chサラウンド，ドルビーデジタル⃝^RサラウンドEX(7.1ch)，

NHK放送技術研究所の22.2chサラウンド方式[100]などがある．トランスオーラルシステムのように受聴点に対する点制御は行わず，物理的に多方向に配置されたスピーカに各音源を振り分けることでスピーカの配置に基づいた音像を構築する．

サラウンドシステムは受聴点の点制御を行わないことから，広範囲にスピーカを配置することで多人数の受聴者に音場を共有させることができ，商業用娯楽施設などで広く利用されている．特に5.1chサラウンドなど正面方向にスピーカを配置する場合には，ステレオ信号で正面の音像を作るファンタムセンタ[101]と異なり，直接的に正面の音像を作ることができる(ハードセンタ[101])で，バイノーラルシステムやトランスオーラルシステムに勝る[102]．

しかしスピーカの配置されない方向の音像に対しては音圧の強度差や時間差といった簡易な処理での制御しか行えず，直接音以外の音(反射音や残響音など)を適切に各スピーカに振り分けることが困難となる．そのため音場の主観的属性を忠実に再現することは困難であった．

3.2.4 空間の音圧分布を制御する手法

音場再現の一手法として，受聴者の存在を無視して空間の状態を再現する手法も提案されている．これはホイヘンス＝フレネル定理によれば，平面波は無限に並んだ点音源からの拡散として扱えるため，例えば直線に並んだ複数のスピーカを順に制御することで特定の方向に進行する平面波を構成と考えられた．特定の音場において波面を多点のマイクロホンで切り出し別の環境に配置したスピーカから放射する手法は古くCamrasの論文[88]で提案されているが，近年では数理的に波面の構成を扱う手法が主流である．

時間(x, y, z)および空間tの音圧分布関数p(t, x, y, z)に対する波動方程式は次式で与えられる．

1 c²

∂²

∂t²p = ∇²p, (47)

∇² = ∂²

∂x² + ∂²

∂y² + ∂²

∂z². (48)

なお，cは音速を示す．

波動方程式を時間の関数T (t)と空間の関数A(x, y, z)に分離すると，時間と空間に対する偏微分方程式が得られる．

(∇²+k²)

A = 0, (49)

(d²

dt² +k²c² )

T = 0. (50)

ここで式(49)は時間に依存せず空間の状態を示すことができ，ヘルムホルツ方程式と呼ばれる．

厚さが0で連続した境界Sで囲まれた領域V を想定した時，領域内x_rの音圧と境界S上の音圧x_sはキルヒホッフ-ヘルムホルツ積分方程式として得られる．

p(x_s) =

∫ ∫

G(x_r|x_r) ∂

∂⃗np(x_r)−p(x_r) ∂

∂⃗nG(x_r|x_s). (51) なお⃗nは境界Sの法線ベクトルを示し，G(x_r|x_s)はヘルムホルツ方程式に対するグリーン関数である．

G(x_r|x_s) = 1

4π|x_r−x_s|exp (−jk|x_r−x_s|). (52)

波面合成法や境界音場制御[88, 103, 104]はキルヒホッフ-ヘルムホルツ方程式に基づき，境界線上のスピーカアレイを制御することで特定の閉空間における音場を制御する．一般的に境界音場制御の制御領域に対してスピーカは，多数かつ遠方に配置される．そのため，境界音場制御においてもスピーカと境界の間に生じる伝達特性を打ち消す逆フィルタが用いられる．この点において，境界音場制御はトランスオーラルシステムにおける制御“点”を，キルヒホッフ-ヘルムホルツ積分方程式によって“領域”に拡張した手法であると言える．

境界音場制御では境界内の音を制御できる先鋭的な手法といえる．一方で，想定する領域に受聴者の頭部がある場合などへの対応が難しく，境界上に無限の点音源が存在すると仮定するため制御に膨大なスピーカが必要となる．すなわち図23のような膨大な設備と，高次の逆フィルタ推定が必要となる問題がある．

ドキュメント内実時間音声分析合成技術と音場再現に基づく高臨場感歌唱体験システムの研究 (ページ 56-61)