H(ω) = ( G H (ω)g(ω) ) 1 G H (ω) (6) 2 H 11 (ω) H 1N (ω) H(ω)= (2) H M1 (ω) H MN (ω) [ X(ω)= X 1 (ω) X 2 (ω) X N (ω) ] T (3)

Loading.... (view fulltext now)

Loading....

Loading....

Loading....

Loading....

全文

(1)

立体音響再現に基づく柔軟な音インタ

フェース

*

立 蔵 洋 介

(静岡大学)∗∗ 43.60.Pt; 43.38.Md; 43.60.Sx

1. は じ め に

スマートフォンやハイレゾリューションオーディ オなどが身近となった昨今,手軽にどこでも高品 質で臨場感あふれる楽曲を再生できるようになっ た。その一方で,個人がオーディオを再生する手 段としてヘッドホンやイヤホンが用いられること が多い。これは可搬性の問題以外にも,スピーカ で音を再生すると音は四方八方へと放射され,他者 にも聞こえてしまうのが一因である。再生した人 には聴きたい音であっても他者には騒音源となっ てしまったり,逆に他者には聞かせたくないのに 聞こえてしまうといったプライバシーの問題も生 じる。従って,複数のユーザに対してそれぞれ個 別の音を提示したり,音を消すことができれば, 図

–1

,図

–2

のように様々なシーンでの活用が期待 できる。このように,各ユーザにそれぞれ固有の 音を再生し,しかも他の音の干渉を防ぐような音 場再生法の実現は,今後更に需要の見込まれる重 要な応用技術である。 近年では,これまで蓄積されてきた立体音響再 生の技術を活用することによって,特定の位置だ けに必要な音を提示したり,複数の位置にそれぞ れ個別の音を提示する手法の研究開発が盛んであ る。このような概念に対して,「マルチゾーン音 場」,「パーソナル音響ゾーン」,「マルチスポット 再生」,「エリア再生」,「個別音像生成」など多く の呼称があり,用いられる手法もスピーカアレー やパラメトリックスピーカによる指向性制御,ス ピーカアレーによる波面制御に基づくもの,音響 コントラスト制御,多点制御など非常に多岐に渡 る

[1–8]

。 このような中から,本解説では音場の逆フィル Flexible acoustic interface based on 3D sound

repro-duction.

∗∗Yosuke Tatekura (Shizuoka University, Hamamatsu,

432–8561) タ処理の観点からのアプローチを紹介する。音場 の逆フィルタ処理では,駆動する複数のスピーカ から制御点までの室内音響伝達特性を相殺するこ とによって,制御点上の音のコントロールを図る。 それゆえに,制御点から離れた位置での音の状態 は何等保証されず,様々な再生音の混合として観 測される。しかしながら,逆フィルタ処理ではス ピーカ配置に対する制約はほとんどなく,原理的 には自由に配置できることから,現実の室内へ比 較的容易に適用可能である。そこで本解説では, 音場の逆フィルタ処理の基礎を概説した後,これ が音場のマルチゾーン化に応用できることを解説 する。また,筆者らが取り組んでいるデモンスト レーションシステムや,より実環境への適用を志 向した取り組みについても紹介する。

2. 逆フィルタ処理による音場のマルチゾー

ン化

2.1

音場の逆フィルタ処理 まず,図

–3

に示すような

M

個のスピーカを用 いて

N

点の制御点上の音圧を逆フィルタ処理に よってコントロールする音場再現について説明す る。

m (= 1, 2, · · · , M )

番目のスピーカ

S

m から

n (= 1, 2, · · · , N )

番目の制御点

C

nまでの室内音 響伝達関数を

Gnm

(ω)

とすると,その音響系全体 の室内音響伝達関数

G(ω)

は,下記のような行列 形式で表現できる。

G(ω) =

G

11

(ω)

· · ·

G

1M

(ω)

..

.

. ..

..

.

GN1

(ω) · · ·

GNM

(ω)

⎦ (1)

ここで,

ω

は周波数のインデックスを表す。同様 に,逆フィルタを表す行列を

H(ω)

,システムへ 入力する原信号(各制御点上で再現させたい所望 の信号)の行列を

X(ω)

とすると,それぞれは下 記のように表現できる。

(2)

図–1 音場のマルチゾーン化のイメージ(自動車室内) 図–2 音場のマルチゾーン化のイメージ(テレビ視聴にお ける音声多重放送)

H(ω)=

H

11

(ω)

· · ·

H

1N

(ω)

..

.

. ..

..

.

HM1

(ω) · · ·

HMN

(ω)

⎦ (2)

X(ω)=



X

1

(ω) X

2

(ω) · · ·

XN

(ω)



T

(3)

これらに基づいて逆フィルタ処理がなされたとき, 制御点上における観測信号

X(ω)

ˆ

は以下のように 表される。

ˆ

X(ω) =



X

ˆ

1

(ω)

X

ˆ

2

(ω) · · ·

XN

ˆ

(ω)



T

=

G(ω)H(ω)X(ω)

(4)

音場再現においては,原信号が制御点上でそ のまま再生されることが要求される。すなわち,

ˆ

X(ω) = X(ω)

となることが求められるが,その ためには

(4)

式において

G(ω)H(ω) = I

N

(5)

なる関係を満たす

H(ω)

を設計しなければならな い。ここで,

I

N

N

N

列の単位行列である。 逆フィルタ設計において,伝達関数の行列

G(ω)

がフルランクである場合は,スピーカの個数

M

と制御点の個数

N

の大小関係により設計方法が 変わる。まず,

M = N

のとき,逆フィルタは

H(ω) = G

−1

(ω)

として一意に決定される。次 に,

M < N

のとき,厳密解は存在しないので下記 のような最小二乗法による近似解が採用される。 図–3 逆フィルタ処理に基づく多チャンネル音場制御シス テムの構成

H(ω) =

G

H

(ω)G(ω)

−1

G

H

(ω)

(6)

ここで,

·

Hは行列のエルミート転置を表す。最後 に,

M > N

のとき,解は無数に存在することに なるので,何等かの制約条件を課した解を求める 必要がある。解のノルムが最小となる制約条件の 場合,逆フィルタは以下のように計算される。

H(ω) = G

H

(ω)

G(ω)G

H

(ω)

−1

(7)

ただし,実際の音響系においては必ずしも

G(ω)

がフルランクであるとは限らない。このような場 合は正則化法

[9]

や,打ち切り特異値分解に基づ く設計法

[10]

が採用される。

2.2

逆フィルタ処理のマルチゾーン化に対する 解釈 ここで,逆フィルタ処理の意味を考察したい。 逆フィルタ処理を含んだ音響系の伝達特性は,理 想的には

(5)

式のとおりに単位行列となる。単位 行列の対角成分はすべて

1

であるが,これは

n

番 目の原信号

X

n

(ω)

n

番目の制御点で再生され るときの伝達特性が

1

であることを表している。 すなわち,

X

n

(ω)

が制御点上において無歪でその まま再生されることを意味する。一方,単位行列 の非対角成分はすべて

0

である。これは

n

番目の 原信号が

n

番目以外の制御点で再生されるときの 伝達特性が

0

であるということであり,これらの 制御点では無音として再生されることを表現して いる。以上をまとめると,音場逆フィルタ処理で は,

n

番目の制御点では原信号

X

n

(ω)

のみがその まま再生されるような制御が行われる。すなわち, 逆フィルタが適切に作用していれば,

X

n

(ω)

は互 いに干渉することなく,それぞれの制御点上で独 立に再生される。

(3)

この知見を利用すれば,音場のマルチゾーン化 へ適用させることができる。例えば,

1

名のユー ザの両耳部を制御点としたときに,右耳側と左耳 側でそれぞれ異なった音楽が再生可能となる。あ るいは,複数のユーザが同一室内にいる環境下に おいて,各ユーザの耳元に対してユーザごとに異 なる音楽を再生することもできる。これはユーザ 頭部周辺における音場のマルチゾーン化であると 解釈できる。 ただし,実際には,もとの室内音響伝達特性に 対する完全な逆特性を持たせることは,逆フィル タの設計精度や伝達系の時変性などのために困難 である。このような場合,

(5)

式の右辺は単位行 列とかけ離れたものとなる。よって,

X

n

(ω)

n

番目の制御点で再生されるときにはひずみが生じ たり,

n

番目以外の制御点においてゼロ信号とは ならず,目的音に対する妨害音として観測される こととなる。本解説では,このように観測される 妨害音をクロストークと呼ぶ。

2.3

実 装 例 音場のマルチゾーン化の取り組み例として,筆 者の研究室によるデモンストレーションシステム の紹介をする。筆者の所属先では毎年

11

月に一 般の来場者を対象としたテクノフェスタ(研究公 開展示イベント)が開催されており,筆者らはこれ までに音場のマルチゾーン化に関する体験デモン ストレーションを実施している。このシステムで は,参加者自身の頭を用いて室内音響伝達関数の インパルス応答を測定するところから始まり,逆 フィルタ設計を経て,各体験者ごとに異なる音楽 が再生されているのを体験してもらうところまで が一括して実施される。

2015

年のテクノフェスタでは,

16

個のスピーカ によって

4

人分の音場マルチゾーン形成を行うデ モを公開した(図

–4

参照)。体験者の両耳部を制御 点としたため,制御点数は

8

点とした。スピーカの 駆動や室内音響伝達関数のインパルス応答を測定 するためのマイク接続のオーディオインタフェー

スとして,

ROLAND

OCTA-CAPTURE

UA-1010

2

台同時使用した。スピーカには

Bose

Companion 20

8

セット,マイクロホンには

Sony

ECM-44B

8

本用い,これらすべてを オーディオインタフェースに直結した。オーディ オインタフェースは

USB

ケーブルでノート

PC

図–4 4 人向け音場マルチゾーン化のデモンストレーショ ンの様子 と接続され,

MATLAB

で作成されたプログラム によって制御されている。

MATLAB

で多チャン ネル録音再生を行うために,

pa-wavplay

パッケー ジ

[11]

を用いた。このようにデモシステムは簡素 な構成であり,機材もネット通販などで容易に入 手可能なものが使用されている。また,室内音響 伝達関数のインパルス応答の測定においては,広 く用いられている

TSP

[12]

ではなく,楽曲を 用いた同時測定法

[13]

を使用しており,体験者が 音楽を聞いている間にインパルス応答を測定でき るような工夫もなされている。 図

–4

で紹介した部屋の残響時間は約

0.4

秒であ る上,窓の外からは野外ライブなどの音が室内に 飛び込んでおり,決して恵まれたデモ環境ではな い。しかしながら,見学者からのデモシステムへ の反応は概ね良好であった。一方で,目的音と同 時にクロストーク音も相応に残留する問題も生じ た。ただし,クロストークは

3

曲が重なった状態 であったため,目的音以外の曲の楽想は掴めない ような音として知覚された。このクロストークの 影響をいかに実質的に除去できるかが今後の課題 である。

3. 少数個のスピーカによる制御領域の拡大

3.1

背 景

2.3

節で述べたデモシステムでは,各体験者の 耳元のみを制御点としていたため,わずかな頭部 の移動によっても再生音の品質劣化が知覚された。 ユーザの頭部移動を許容し,より広い空間として の制御を試みるのであれば,耳元だけでなくユー ザの頭部付近に複数の制御点を設定する必要があ る。一方で,スピーカ数が制御点数よりも多い場

(4)

図–5 制御点によって制御周波数帯域を切り替える音場マ ルチゾーン化システム 合に逆フィルタの精度は良好となる傾向にある。 しかしながら,多数の制御点を制御するためにそ れを上回る膨大な数のスピーカを使用するのは, 配置や配線の問題からも現実的ではない。 そこで,少数個のスピーカでありながらそれよ り多い制御点を効率的に制御する音場マルチゾー ン化手法

[14, 15]

について紹介する。この手法で は,ユーザの耳元に設置した制御点で低周波数帯 域のみを制御し,それ以外の制御点で全制御帯域 の制御を図る。つまり,逆フィルタの制御精度が 相対的に低下し易い高周波数帯域の制御を一部の 制御点では行わないため,高周波数帯域では制御 点数の実質的な削減に相当する。よって,高周波 数帯域における制御精度の劣化の抑制が期待でき, 結果として高周波数帯域のクロストークの抑圧が 見込まれる。

3.2

制御点ごとの制御帯域のスイッチング 図

–5

に提案システムの構成を示す。

M

個のス ピーカによって

N

点の制御点が制御されるが,そ のうち

N

E点では低周波数帯域が,

(N − N

E

)

点 では全周波数帯域が制御される。 本手法の特徴として,各ユーザに提示される音 は立体感を除去したモノラル音であることがあげ られる。従って,システムへの入力信号

X(ω)

の 要素

Xn

(ω)

N

個であるが,実際には

N

個すべ てが互いに異なっているわけではなく,

Xn

(ω)

の 種類はユーザ数と同数となる。立体音響の立場で は,バイノーラル信号のように,各制御点ごとに振 幅や位相などが異なることによって,ユーザに対 して音に立体感を付加させることができる。これ に対して本手法では,提示する音の立体感を犠牲 にする代わりに,制御点間の信号の微妙な違いと 逆フィルタの制御誤差によって生じるクロストー クの抑圧や,原音の音質劣化や定位感悪化の防止 を図っている。 低帯域と高帯域とに制御帯域を切り替えるため の閾周波数を

f

Tとし,低周波数帯域と高周波数 帯域の制御を示すラベルをそれぞれ

·

(L)

, ·

(H)とす ると,

ω < f

T における逆フィルタ

H

(L)

(ω)

ω ≥ f

Tにおける逆フィルタ

H

(H)

(ω)

はおのおの 以下のとおりとなる。

H

(L)

(ω) =

H

11(L)

(ω) · · ·

H

1N(L)

(ω)

..

.

. ..

..

.

H

M1(L)

(ω) · · ·

H

MN(L)

(ω)

(8)

H

(H)

(ω) =

H

1(N(H)E+1)

(ω)

· · · H

1N(H)

(ω)

O

M,NE

..

.

. ..

..

.

H

M(N(H) E+1)

(ω) · · ·

H

MN(H)

(ω)

(9)

ここで,

H

(L)

(ω), H

(H)

(ω)

はともに

M

N

列 の行列であり,

O

M,NE

M

NE

列の零行列で ある。これらから,観測信号

X(ω)

ˆ

は以下のよう に与えられる。

ˆ

X(ω)=

G(ω)H

(L)

(ω)X(ω)

if ω < f

T

G(ω)H

(H)

(ω)X(ω) otherwise

(10)

3.3

数値計算例 図

–6

のような環境において,中央部の二つの領 域を制御した場合を計算した例を示す。ユーザは

2

名の環境を想定し,ユーザの頭部の回転や移動を 考慮するとユーザ

1

名に要する制御点は少なくと も

6

点必要である

[16]

と考え,制御点数を

12

点, スピーカ数を

8

個とした。図

–6

Area A

B

は 各ユーザの頭部を囲む範囲を示しており,それぞ れに男性音声と女性音声を提示した。

Area A

B

それぞれにユーザの耳元を想定した位置である

4

点の制御点(図

–6

中の白丸○)で全周波数帯域を, それ以外の

8

点の制御点(図

–6

中の黒丸●)で低 周波数帯域を制御した。残響時間を約

0.46

秒,サ

(5)

図–6 シミュレーション配置図 ンプリング周波数を

8,000 Hz

,インパルス応答長 を

4,096

点,逆フィルタ長を

16,384

点,周波数の 通過帯域を

150–3,850 Hz

とし,逆フィルタの帯域 切り替えのための閾周波数は

500 Hz

とした。各 スピーカから任意の位置までのインパルス応答は, 鏡像法

[17]

によって求められた。便宜的に,空間 の中央から左側(

Width: 2.50–3.00 m

)を男性音 声が再生された

Male area

,右側(

Width: 3.00–

3.50 m

)を女性音声が再生された

Female area

と 呼ぶことする。

クロストーク量の評価値として,以下に定義され る

SCR

Signal to Crosstalk Ratio

)を導入する。

SCR [dB] = 10 log

10



t

|d

P

(t)|

2



t

|ˆxP

(t) − d

P

(t)|

2

(11)

ここで,

t

は時間のインデックス,

xP

ˆ

(t)

は空間内 の任意点

P

上での観測信号の時間領域表現,

dP

(t)

は点

P

上で観測される原信号の時間領域表現を表 す。この

SCR

は,値が高いほど原信号に比べて クロストークが少ないことを示す。 図

–7

,図

–8

に通常の逆フィルタ処理(以下,従 来法)と提案法に関する

SCR

分布をそれぞれ示 す。図中の破線の円は

Area A

B

を表す。この 結果から,提案法ではクロストークが広い範囲で 抑圧されており,従来法より制御領域を拡大可能 であることが示唆される。

3.4

主 観 評 価 図

–6

と同配置,同条件にある実環境のデータを 図–7 通常の逆フィルタ処理による SCR 分布 図–8 制御点ごとに制御帯域を変えた場合の SCR 分布 用いた主観評価結果について紹介する。ここでは, 被験者が変わることによる環境変動の影響などを 取り除くのが困難であったため,ダミーヘッドを用 いたバイノーラル信号のヘッドホン受聴による主 観評価とした。バイノーラル信号は,ダミーヘッ ドによる測定で得られた実環境インパルス応答と それらから設計された逆フィルタ,並びに原音を 畳み込むことで得られた。頭部が元の位置から移 動した場合の影響を考慮するため,ダミーヘッド を元の位置で固定させたパターン,頭部を元の位 置から

40

左回転させたパターン,頭部を元の位 置から

5 cm

右方向に移動したパターンの計

3

パ ターンについて評価した。それぞれの頭部パター ンに対して,提案法,従来法,ステレオ再生の

3

種の手法における観測信号を求めた。ここで,ス テレオ再生とは,図

–6

中のスピーカ

Sp1

から男 性音声を,スピーカ

Sp8

から女性音声を再生した ものである。

(6)

図–9 クロストーク抑圧に関する主観評価実験の結果 被験者は正常な聴力を持つ

20

歳代の男女

8

名 である。評価手法には

Scheff´

e

の一対比較法(浦 の変法)

[18]

を用い,先に提示した刺激音を基準に して,後に提示した刺激音を被験者に評定させた。 目的音声に対する妨害音声の大きさについては,

7

段階(

+3:

妨害音声が非常に小さい,

+2:

妨害音 声がかなり小さい,

+1:

妨害音声が小さい,

0:

妨 害音声が同程度の大きさである,

−1:

妨害音声が 大きい,

−2:

妨害音声がかなり大きい,

−3:

妨害 音声が非常に大きい)で評定させた。刺激音の提 示にはヘッドホンを用い,音量は被験者ごとに聴 取し易いレベルに設定させた。 主観評価の結果を図

–9

に示す。図中のエラー バーはヤードスティックによる

95%

信頼区間を表 す。頭部の移動がない場合,各手法間で有意差が 見られたが,提案法は他手法よりも優位であった。 一方,頭部が回転や移動をした場合,従来法とステ レオ再生で有意差が見られなかったのに対し,提 案法は他の

2

手法に比べて優位であり,提案法に よるクロストークの抑圧が示唆される。

4. お わ り に

本解説では,複数のユーザそれぞれに音空間を 形成する「音場のマルチゾーン化」について,音 場の逆フィルタ処理を適用する立場から概説した。 まず,逆フィルタの設計法と逆フィルタ処理の意 味について説明した。次いで,筆者らによるマル チゾーン化のデモシステムについて紹介した。更 に,少数個のスピーカによるマルチゾーン化を実 現するため,クロストーク抑圧の観点から取り組 まれている技術について解説を行った。 謝 辞 静岡大学立蔵研究室の学生の皆さんに感謝する。 文 献

[ 1 ] T. Betlehem, W. Zhang, M. A. Poletti and T. D. Abhayapala, “Personal sound zones: Delivering interface-free audio to multiple listeners,” IEEE Sig-nal Process. Mag.,32, 81–91 (2015).

[ 2 ] J. Chang, C. Lee, J. Park and Y. Kim, “A real-ization of sound focused personal audio system using acoustic contrast control,” J. Acoust. Soc. Am.,125, 2091–2097 (2009).

[ 3 ] Y. J. Wu and T. D. Abhayapala, “Spatial mul-tizone soundfield reproduction: Theory and design,” IEEE Trans. Audio Speech Lang. Process.,19, 1711– 1720 (2011).

[ 4 ] T. Okamoto, “Generation of multiple sound zones by spatial filtering in wavenumber domain using a linear array of loudspeakers,” Proc. ICASSP 2014, 4733–4737 (2014).

[ 5 ] Y. Nakayama, M. Adachi, K. Ishimoto and Y. Tatekura, “Individual sound image generation for multiple users based on loudspeaker array with NB-SFC,” Proc. DSP 2013 (2013).

[ 6 ] 松井 唯, 生藤大典, 中山雅人, 西浦敬信, “キャリア 波と側帯波の分離放射によるオーディオスポット形成,” 信学論 (A),J97-A, 304–312 (2014).

[ 7 ] M. F. Galvez, S. J. Elliott and J. Cheer, “Per-sonal audio loudspeaker array as a complementary TV sound system for the hard of hearing,” IEICE Trans. Fundam.,E97-A, 1824–1831 (2015).

[ 8 ] T. Shimizu, J. Trevino, S. Sakamoto and Y. Suzuki, “A multi-zone approach to sound field re-production based on spherical harmonic analysis,” Acoust. Sci. & Tech.,36, 441–444 (2015).

[ 9 ] 李 容子, 伊勢史郎, “正則化パラメータに着目した 多チャネル逆システムの最適化設計法,” 音響学会誌,69, 276–284 (2013).

[10] Y. Tatekura, S. Urata, S. Saruwatari and K. Shikano, “On-line relaxation algorithm applicable to acoustic fluctuation for inverse filter in multichannel sound reproduction system,” IEICE Trans. Fundam.,

E88-A, 1747–1756 (2005). [11] http://www.mathworks.com/matlabcentral/ fileexchange/47336-pa-wavplay-for-32-bit-and-64-bit (参照 2016-10-19). [12] 佐藤史明, “Swept-Sine 法に基づく音響伝搬測定,” 音 響学会誌,63, 322–327 (2007).

[13] T. Amano and Y. Tatekura, “Multichannel simul-taneous measurement of room impulse responses us-ing instrument part sounds of ensemble music,” Proc. WESPAC 2015 (2013). [14] 石本幸太郎, 立蔵洋介, “劣決定条件下の音場再現にお ける複数ユーザへの個別音像提示,” 信学論 (A),J95-A, 640–644 (2012). [15] 石本幸太郎, 立蔵洋介, “劣決定条件下の個別音像生 成におけるクロストーク抑圧手法の評価,” 音講論集, 1-10-14 (2013.3). [16] 神沼充伸, 伊勢史郎, 鹿野清宏, “受聴者の頭部の動き を考慮した多チャンネル音場再現システム,” バーチャル リアリティ学会論文誌,5, 957–964 (2000).

[17] J. B. Allen and D. A. Berkley, “Image method for effeciently simulating smallroom acoustics,” J. Acoust. Soc. Am.,65, 943–950 (1979).

[18] 日科技連官能検査委員会, 官能検査ハンドブック(日 科技連出版社, 東京, 1973).

Updating...

参照

Updating...

関連した話題 :