H(ω) = ( G H (ω)g(ω) ) 1 G H (ω) (6) 2 H 11 (ω) H 1N (ω) H(ω)= (2) H M1 (ω) H MN (ω) [ X(ω)= X 1 (ω) X 2 (ω) X N (ω) ] T (3)

(1)

立体音響再現に基づく柔軟な音インタ

フェース

*

立蔵洋介

（静岡大学）∗∗ 43.60.Pt; 43.38.Md; 43.60.Sx

1. はじめに

スマートフォンやハイレゾリューションオーディオなどが身近となった昨今，手軽にどこでも高品質で臨場感あふれる楽曲を再生できるようになった。その一方で，個人がオーディオを再生する手段としてヘッドホンやイヤホンが用いられることが多い。これは可搬性の問題以外にも，スピーカで音を再生すると音は四方八方へと放射され，他者にも聞こえてしまうのが一因である。再生した人には聴きたい音であっても他者には騒音源となってしまったり，逆に他者には聞かせたくないのに聞こえてしまうといったプライバシーの問題も生じる。従って，複数のユーザに対してそれぞれ個別の音を提示したり，音を消すことができれば，図

–1

，図

–2

のように様々なシーンでの活用が期待できる。このように，各ユーザにそれぞれ固有の音を再生し，しかも他の音の干渉を防ぐような音場再生法の実現は，今後更に需要の見込まれる重要な応用技術である。近年では，これまで蓄積されてきた立体音響再生の技術を活用することによって，特定の位置だけに必要な音を提示したり，複数の位置にそれぞれ個別の音を提示する手法の研究開発が盛んである。このような概念に対して，「マルチゾーン音場」，「パーソナル音響ゾーン」，「マルチスポット再生」，「エリア再生」，「個別音像生成」など多くの呼称があり，用いられる手法もスピーカアレーやパラメトリックスピーカによる指向性制御，スピーカアレーによる波面制御に基づくもの，音響コントラスト制御，多点制御など非常に多岐に渡る

[1–8]

。このような中から，本解説では音場の逆フィル ∗_{Flexible acoustic interface based on 3D sound}

repro-duction.

∗∗_{Yosuke Tatekura (Shizuoka University, Hamamatsu,}

432–8561) タ処理の観点からのアプローチを紹介する。音場の逆フィルタ処理では，駆動する複数のスピーカから制御点までの室内音響伝達特性を相殺することによって，制御点上の音のコントロールを図る。それゆえに，制御点から離れた位置での音の状態は何等保証されず，様々な再生音の混合として観測される。しかしながら，逆フィルタ処理ではスピーカ配置に対する制約はほとんどなく，原理的には自由に配置できることから，現実の室内へ比較的容易に適用可能である。そこで本解説では，音場の逆フィルタ処理の基礎を概説した後，これが音場のマルチゾーン化に応用できることを解説する。また，筆者らが取り組んでいるデモンストレーションシステムや，より実環境への適用を志向した取り組みについても紹介する。

2. 逆フィルタ処理による音場のマルチゾー

ン化

2.1

音場の逆フィルタ処理まず，図

–3

に示すような

_M

個のスピーカを用いて

N

点の制御点上の音圧を逆フィルタ処理によってコントロールする音場再現について説明する。

m (= 1, 2, · · · , M )

番目のスピーカ

S

_m から

n (= 1, 2, · · · , N )

番目の制御点

C

_nまでの室内音響伝達関数を

Gnm

(ω)

とすると，その音響系全体の室内音響伝達関数

G(ω)

は，下記のような行列形式で表現できる。

G(ω) =

⎡

⎢

⎣

G

11

(ω)

· · ·

G

1M

(ω)

..

.

. ..

..

.

GN1

(ω) · · ·

GNM

(ω)

⎤

⎥

⎦ (1)

ここで，

ω

は周波数のインデックスを表す。同様に，逆フィルタを表す行列を

H(ω)

，システムへ入力する原信号（各制御点上で再現させたい所望の信号）の行列を

X(ω)

とすると，それぞれは下記のように表現できる。

(2)

図–1 音場のマルチゾーン化のイメージ（自動車室内）図–2 音場のマルチゾーン化のイメージ（テレビ視聴における音声多重放送）

H(ω)=

⎡

⎢

⎣

H

11

(ω)

· · ·

H

1N

(ω)

..

.

. ..

..

.

HM1

(ω) · · ·

HMN

(ω)

⎤

⎥

⎦ (2)

X(ω)=

X

1

(ω) X

2

(ω) · · ·

XN

(ω)

T

(3)

これらに基づいて逆フィルタ処理がなされたとき，制御点上における観測信号

X(ω)

ˆ

は以下のように表される。

ˆ

X(ω) =

_X

ˆ

₁

_(ω)

_X

ˆ

₂

_{(ω) · · ·}

_XN

ˆ

_(ω)

T

=

G(ω)H(ω)X(ω)

(4)

音場再現においては，原信号が制御点上でそのまま再生されることが要求される。すなわち，

ˆ

X(ω) = X(ω)

となることが求められるが，そのためには

(4)

式において

G(ω)H(ω) = I

N

(5)

なる関係を満たす

H(ω)

を設計しなければならない。ここで，

I

_N は

N

行

N

列の単位行列である。逆フィルタ設計において，伝達関数の行列

G(ω)

がフルランクである場合は，スピーカの個数

M

と制御点の個数

N

の大小関係により設計方法が変わる。まず，

M = N

のとき，逆フィルタは

H(ω) = G

−1

_(ω)

_{として一意に決定される。次} に，

_{M < N}

のとき，厳密解は存在しないので下記のような最小二乗法による近似解が採用される。図–3 逆フィルタ処理に基づく多チャンネル音場制御システムの構成

H(ω) =

G

H

_(ω)G(ω)

−1

_G

H

_(ω)

₍₆₎

ここで，

·

Hは行列のエルミート転置を表す。最後に，

M > N

のとき，解は無数に存在することになるので，何等かの制約条件を課した解を求める必要がある。解のノルムが最小となる制約条件の場合，逆フィルタは以下のように計算される。

H(ω) = G

H

_(ω)

_G(ω)G

H

_(ω)

−1

₍₇₎

ただし，実際の音響系においては必ずしも

G(ω)

がフルランクであるとは限らない。このような場合は正則化法

[9]

や，打ち切り特異値分解に基づく設計法

[10]

が採用される。

2.2

逆フィルタ処理のマルチゾーン化に対する解釈ここで，逆フィルタ処理の意味を考察したい。逆フィルタ処理を含んだ音響系の伝達特性は，理想的には

(5)

式のとおりに単位行列となる。単位行列の対角成分はすべて

1

であるが，これは

n

番目の原信号

X

n

(ω)

が

n

番目の制御点で再生されるときの伝達特性が

1

であることを表している。すなわち，

X

n

(ω)

が制御点上において無歪でそのまま再生されることを意味する。一方，単位行列の非対角成分はすべて

0

である。これは

n

番目の原信号が

_n

番目以外の制御点で再生されるときの伝達特性が

0

であるということであり，これらの制御点では無音として再生されることを表現している。以上をまとめると，音場逆フィルタ処理では，

n

番目の制御点では原信号

X

n

(ω)

のみがそのまま再生されるような制御が行われる。すなわち，逆フィルタが適切に作用していれば，

X

n

(ω)

は互いに干渉することなく，それぞれの制御点上で独立に再生される。

(3)

この知見を利用すれば，音場のマルチゾーン化へ適用させることができる。例えば，

1

名のユーザの両耳部を制御点としたときに，右耳側と左耳側でそれぞれ異なった音楽が再生可能となる。あるいは，複数のユーザが同一室内にいる環境下において，各ユーザの耳元に対してユーザごとに異なる音楽を再生することもできる。これはユーザ頭部周辺における音場のマルチゾーン化であると解釈できる。ただし，実際には，もとの室内音響伝達特性に対する完全な逆特性を持たせることは，逆フィルタの設計精度や伝達系の時変性などのために困難である。このような場合，

(5)

式の右辺は単位行列とかけ離れたものとなる。よって，

X

n

(ω)

が

n

番目の制御点で再生されるときにはひずみが生じたり，

n

番目以外の制御点においてゼロ信号とはならず，目的音に対する妨害音として観測されることとなる。本解説では，このように観測される妨害音をクロストークと呼ぶ。

2.3

実装例音場のマルチゾーン化の取り組み例として，筆者の研究室によるデモンストレーションシステムの紹介をする。筆者の所属先では毎年

11

月に一般の来場者を対象としたテクノフェスタ（研究公開展示イベント）が開催されており，筆者らはこれまでに音場のマルチゾーン化に関する体験デモンストレーションを実施している。このシステムでは，参加者自身の頭を用いて室内音響伝達関数のインパルス応答を測定するところから始まり，逆フィルタ設計を経て，各体験者ごとに異なる音楽が再生されているのを体験してもらうところまでが一括して実施される。

2015

年のテクノフェスタでは，

16

個のスピーカによって

4

人分の音場マルチゾーン形成を行うデモを公開した（図

–4

参照）。体験者の両耳部を制御点としたため，制御点数は

8

点とした。スピーカの駆動や室内音響伝達関数のインパルス応答を測定するためのマイク接続のオーディオインタフェー

スとして，

ROLAND

製

OCTA-CAPTURE

UA-1010

を

2

台同時使用した。スピーカには

Bose

製

Companion 20

を

8

セット，マイクロホンには

Sony

製

ECM-44B

を

8

本用い，これらすべてをオーディオインタフェースに直結した。オーディオインタフェースは

USB

ケーブルでノート

PC

図–4 4 人向け音場マルチゾーン化のデモンストレーションの様子と接続され，

MATLAB

で作成されたプログラムによって制御されている。

MATLAB

で多チャンネル録音再生を行うために，

pa-wavplay

パッケージ

[11]

を用いた。このようにデモシステムは簡素な構成であり，機材もネット通販などで容易に入手可能なものが使用されている。また，室内音響伝達関数のインパルス応答の測定においては，広く用いられている

TSP

法

[12]

ではなく，楽曲を用いた同時測定法

[13]

を使用しており，体験者が音楽を聞いている間にインパルス応答を測定できるような工夫もなされている。図

–4

で紹介した部屋の残響時間は約

0.4

秒である上，窓の外からは野外ライブなどの音が室内に飛び込んでおり，決して恵まれたデモ環境ではない。しかしながら，見学者からのデモシステムへの反応は概ね良好であった。一方で，目的音と同時にクロストーク音も相応に残留する問題も生じた。ただし，クロストークは

3

曲が重なった状態であったため，目的音以外の曲の楽想は掴めないような音として知覚された。このクロストークの影響をいかに実質的に除去できるかが今後の課題である。

3. 少数個のスピーカによる制御領域の拡大

3.1

背景

2.3

節で述べたデモシステムでは，各体験者の耳元のみを制御点としていたため，わずかな頭部の移動によっても再生音の品質劣化が知覚された。ユーザの頭部移動を許容し，より広い空間としての制御を試みるのであれば，耳元だけでなくユーザの頭部付近に複数の制御点を設定する必要がある。一方で，スピーカ数が制御点数よりも多い場

(4)

図–5 制御点によって制御周波数帯域を切り替える音場マルチゾーン化システム合に逆フィルタの精度は良好となる傾向にある。しかしながら，多数の制御点を制御するためにそれを上回る膨大な数のスピーカを使用するのは，配置や配線の問題からも現実的ではない。そこで，少数個のスピーカでありながらそれより多い制御点を効率的に制御する音場マルチゾーン化手法

[14, 15]

について紹介する。この手法では，ユーザの耳元に設置した制御点で低周波数帯域のみを制御し，それ以外の制御点で全制御帯域の制御を図る。つまり，逆フィルタの制御精度が相対的に低下し易い高周波数帯域の制御を一部の制御点では行わないため，高周波数帯域では制御点数の実質的な削減に相当する。よって，高周波数帯域における制御精度の劣化の抑制が期待でき，結果として高周波数帯域のクロストークの抑圧が見込まれる。

3.2

制御点ごとの制御帯域のスイッチング図

–5

に提案システムの構成を示す。

M

個のスピーカによって

_N

点の制御点が制御されるが，そのうち

N

E点では低周波数帯域が，

(N − N

E

)

点では全周波数帯域が制御される。本手法の特徴として，各ユーザに提示される音は立体感を除去したモノラル音であることがあげられる。従って，システムへの入力信号

X(ω)

の要素

_Xn

_(ω)

は

_N

個であるが，実際には

_N

個すべてが互いに異なっているわけではなく，

Xn

(ω)

の種類はユーザ数と同数となる。立体音響の立場では，バイノーラル信号のように，各制御点ごとに振幅や位相などが異なることによって，ユーザに対して音に立体感を付加させることができる。これに対して本手法では，提示する音の立体感を犠牲にする代わりに，制御点間の信号の微妙な違いと逆フィルタの制御誤差によって生じるクロストークの抑圧や，原音の音質劣化や定位感悪化の防止を図っている。低帯域と高帯域とに制御帯域を切り替えるための閾周波数を

_f

_Tとし，低周波数帯域と高周波数帯域の制御を示すラベルをそれぞれ

·

(L)

, ·

(H)とすると，

_{ω < f}

_T における逆フィルタ

H

(L)

_(ω)

と

ω ≥ f

Tにおける逆フィルタ

H

(H)

(ω)

はおのおの以下のとおりとなる。

H

(L)

_{(ω) =}

⎡

⎢

⎣

H

₁₁(L)

(ω) · · ·

H

_1N(L)

(ω)

..

.

. ..

..

.

H

_M1(L)

(ω) · · ·

H

_MN(L)

(ω)

⎤

⎥

⎦

(8)

H

(H)

_{(ω) =}

⎡

⎢

⎣

H

_1(N(H)_E₊₁₎

(ω)

· · · H

_1N(H)

(ω)

O

M,NE

..

.

. ..

..

.

H

_M(N(H) _E₊₁₎

(ω) · · ·

H

_MN(H)

(ω)

⎤

⎥

⎦

(9)

ここで，

H

(L)

_{(ω), H}

(H)

_(ω)

はともに

_M

行

_N

列の行列であり，

O

_M,N_Eは

M

行

NE

列の零行列である。これらから，観測信号

X(ω)

ˆ

は以下のように与えられる。

ˆ

X(ω)=

⎧

⎨

⎩

G(ω)H

(L)

_(ω)X(ω)

_{if ω < f}

T

G(ω)H

(H)

_{(ω)X(ω) otherwise}

(10)

3.3

数値計算例図

–6

のような環境において，中央部の二つの領域を制御した場合を計算した例を示す。ユーザは

2

名の環境を想定し，ユーザの頭部の回転や移動を考慮するとユーザ

1

名に要する制御点は少なくとも

6

点必要である

[16]

と考え，制御点数を

12

点，スピーカ数を

8

個とした。図

–6

の

Area A

，

B

は各ユーザの頭部を囲む範囲を示しており，それぞれに男性音声と女性音声を提示した。

Area A

，

B

それぞれにユーザの耳元を想定した位置である

4

点の制御点（図

–6

中の白丸○）で全周波数帯域を，それ以外の

8

点の制御点（図

–6

中の黒丸●）で低周波数帯域を制御した。残響時間を約

0.46

秒，サ

(5)

図–6 シミュレーション配置図ンプリング周波数を

8,000 Hz

，インパルス応答長を

4,096

点，逆フィルタ長を

16,384

点，周波数の通過帯域を

150–3,850 Hz

とし，逆フィルタの帯域切り替えのための閾周波数は

500 Hz

とした。各スピーカから任意の位置までのインパルス応答は，鏡像法

[17]

によって求められた。便宜的に，空間の中央から左側（

Width: 2.50–3.00 m

）を男性音声が再生された

Male area

，右側（

Width: 3.00–

3.50 m

）を女性音声が再生された

Female area

と呼ぶことする。

クロストーク量の評価値として，以下に定義される

SCR

（

Signal to Crosstalk Ratio

）を導入する。

SCR [dB] = 10 log

₁₀

t

|d

P

(t)|

2

t

|ˆxP

(t) − d

P

(t)|

2

(11)

ここで，

t

は時間のインデックス，

xP

ˆ

(t)

は空間内の任意点

_P

上での観測信号の時間領域表現，

_dP

_(t)

は点

P

上で観測される原信号の時間領域表現を表す。この

SCR

は，値が高いほど原信号に比べてクロストークが少ないことを示す。図

–7

，図

–8

に通常の逆フィルタ処理（以下，従来法）と提案法に関する

SCR

分布をそれぞれ示す。図中の破線の円は

Area A

，

B

を表す。この結果から，提案法ではクロストークが広い範囲で抑圧されており，従来法より制御領域を拡大可能であることが示唆される。

3.4

主観評価図

–6

と同配置，同条件にある実環境のデータを図–7 通常の逆フィルタ処理による SCR 分布図–8 制御点ごとに制御帯域を変えた場合の SCR 分布用いた主観評価結果について紹介する。ここでは，被験者が変わることによる環境変動の影響などを取り除くのが困難であったため，ダミーヘッドを用いたバイノーラル信号のヘッドホン受聴による主観評価とした。バイノーラル信号は，ダミーヘッドによる測定で得られた実環境インパルス応答とそれらから設計された逆フィルタ，並びに原音を畳み込むことで得られた。頭部が元の位置から移動した場合の影響を考慮するため，ダミーヘッドを元の位置で固定させたパターン，頭部を元の位置から

40

◦左回転させたパターン，頭部を元の位置から

5 cm

右方向に移動したパターンの計

3

パターンについて評価した。それぞれの頭部パターンに対して，提案法，従来法，ステレオ再生の

3

種の手法における観測信号を求めた。ここで，ステレオ再生とは，図

–6

中のスピーカ

Sp1

から男性音声を，スピーカ

Sp8

から女性音声を再生したものである。

(6)

図–9 クロストーク抑圧に関する主観評価実験の結果被験者は正常な聴力を持つ

20

歳代の男女

8

名である。評価手法には

Scheﬀ´

e

の一対比較法（浦の変法）

[18]

を用い，先に提示した刺激音を基準にして，後に提示した刺激音を被験者に評定させた。目的音声に対する妨害音声の大きさについては，

7

段階（

+3:

妨害音声が非常に小さい，

+2:

妨害音声がかなり小さい，

+1:

妨害音声が小さい，

0:

妨害音声が同程度の大きさである，

−1:

妨害音声が大きい，

−2:

妨害音声がかなり大きい，

−3:

妨害音声が非常に大きい）で評定させた。刺激音の提示にはヘッドホンを用い，音量は被験者ごとに聴取し易いレベルに設定させた。主観評価の結果を図

–9

に示す。図中のエラーバーはヤードスティックによる

95%

信頼区間を表す。頭部の移動がない場合，各手法間で有意差が見られたが，提案法は他手法よりも優位であった。一方，頭部が回転や移動をした場合，従来法とステレオ再生で有意差が見られなかったのに対し，提案法は他の

2

手法に比べて優位であり，提案法によるクロストークの抑圧が示唆される。

4. おわりに

本解説では，複数のユーザそれぞれに音空間を形成する「音場のマルチゾーン化」について，音場の逆フィルタ処理を適用する立場から概説した。まず，逆フィルタの設計法と逆フィルタ処理の意味について説明した。次いで，筆者らによるマルチゾーン化のデモシステムについて紹介した。更に，少数個のスピーカによるマルチゾーン化を実現するため，クロストーク抑圧の観点から取り組まれている技術について解説を行った。謝辞静岡大学立蔵研究室の学生の皆さんに感謝する。文献

[ 1 ] T. Betlehem, W. Zhang, M. A. Poletti and T. D. Abhayapala, “Personal sound zones: Delivering interface-free audio to multiple listeners,” IEEE Sig-nal Process. Mag.,32, 81–91 (2015).

[ 2 ] J. Chang, C. Lee, J. Park and Y. Kim, “A real-ization of sound focused personal audio system using acoustic contrast control,” J. Acoust. Soc. Am.,125, 2091–2097 (2009).

[ 3 ] Y. J. Wu and T. D. Abhayapala, “Spatial mul-tizone soundﬁeld reproduction: Theory and design,” IEEE Trans. Audio Speech Lang. Process.,19, 1711– 1720 (2011).

[ 4 ] T. Okamoto, “Generation of multiple sound zones by spatial ﬁltering in wavenumber domain using a linear array of loudspeakers,” Proc. ICASSP 2014, 4733–4737 (2014).

[ 5 ] Y. Nakayama, M. Adachi, K. Ishimoto and Y. Tatekura, “Individual sound image generation for multiple users based on loudspeaker array with NB-SFC,” Proc. DSP 2013 (2013).

[ 6 ] 松井唯, 生藤大典, 中山雅人, 西浦敬信, “キャリア波と側帯波の分離放射によるオーディオスポット形成,” 信学論 (A),J97-A, 304–312 (2014).

[ 7 ] M. F. Galvez, S. J. Elliott and J. Cheer, “Per-sonal audio loudspeaker array as a complementary TV sound system for the hard of hearing,” IEICE Trans. Fundam.,E97-A, 1824–1831 (2015).

[ 8 ] T. Shimizu, J. Trevino, S. Sakamoto and Y. Suzuki, “A multi-zone approach to sound ﬁeld re-production based on spherical harmonic analysis,” Acoust. Sci. & Tech.,36, 441–444 (2015).

[ 9 ] 李容子, 伊勢史郎, “正則化パラメータに着目した多チャネル逆システムの最適化設計法,” 音響学会誌,69, 276–284 (2013).

[10] Y. Tatekura, S. Urata, S. Saruwatari and K. Shikano, “On-line relaxation algorithm applicable to acoustic ﬂuctuation for inverse ﬁlter in multichannel sound reproduction system,” IEICE Trans. Fundam.,

E88-A, 1747–1756 (2005). [11] http://www.mathworks.com/matlabcentral/ ﬁleexchange/47336-pa-wavplay-for-32-bit-and-64-bit （参照 2016-10-19）. [12] 佐藤史明, “Swept-Sine 法に基づく音響伝搬測定,” 音響学会誌,63, 322–327 (2007).

[13] T. Amano and Y. Tatekura, “Multichannel simul-taneous measurement of room impulse responses us-ing instrument part sounds of ensemble music,” Proc. WESPAC 2015 (2013). [14] 石本幸太郎, 立蔵洋介, “劣決定条件下の音場再現における複数ユーザへの個別音像提示,” 信学論 (A),J95-A, 640–644 (2012)． [15] 石本幸太郎, 立蔵洋介, “劣決定条件下の個別音像生成におけるクロストーク抑圧手法の評価,” 音講論集, 1-10-14 (2013.3). [16] 神沼充伸, 伊勢史郎, 鹿野清宏, “受聴者の頭部の動きを考慮した多チャンネル音場再現システム,” バーチャルリアリティ学会論文誌,5, 957–964 (2000).

[17] J. B. Allen and D. A. Berkley, “Image method for eﬀeciently simulating smallroom acoustics,” J. Acoust. Soc. Am.,65, 943–950 (1979).

[18] 日科技連官能検査委員会, 官能検査ハンドブック（日科技連出版社, 東京, 1973）.

H(ω) = ( G H (ω)g(ω) ) 1 G H (ω) (6) 2 H 11 (ω) H 1N (ω) H(ω)= (2) H M1 (ω) H MN (ω) [ X(ω)= X 1 (ω) X 2 (ω) X N (ω) ] T (3)

立体音響再現に基づく柔軟な音インタ

フェース

*

立 蔵 洋 介

1. は じ め に

–1

–2

[1–8]

2. 逆フィルタ処理による音場のマルチゾー

ン化

2.1

–3

M

N

m (= 1, 2, · · · , M )

S

n (= 1, 2, · · · , N )

C

Gnm

(ω)

G(ω)

G(ω) =

⎡

⎢

⎢

⎣

G

(ω)

· · ·

G

(ω)

..

.

. ..

..

.

GN1

(ω) · · ·

GNM

(ω)

⎤

⎥

⎥

⎦ (1)

ω

H(ω)

X(ω)

H(ω)=

⎡

⎢

⎢

⎣

H

(ω)

· · ·

H

(ω)

..

.

. ..

..

.

HM1

(ω) · · ·

HMN

(ω)

⎤

⎥

⎥

⎦ (2)

X(ω)=



X

(ω) X

(ω) · · ·

XN

(ω)



(3)

立蔵洋介

1. はじめに

_M

_X

_(ω)

_X

_{(ω) · · ·}

_XN

_(ω)

_(ω)

_{M < N}

_(ω)G(ω)

_G

_(ω)

₍₆₎

_(ω)

_G(ω)G

_(ω)

₍₇₎

_n