立体音響再現に基づく柔軟な音インタ
フェース
*
立 蔵 洋 介
(静岡大学)∗∗ 43.60.Pt; 43.38.Md; 43.60.Sx1. は じ め に
スマートフォンやハイレゾリューションオーディ オなどが身近となった昨今,手軽にどこでも高品 質で臨場感あふれる楽曲を再生できるようになっ た。その一方で,個人がオーディオを再生する手 段としてヘッドホンやイヤホンが用いられること が多い。これは可搬性の問題以外にも,スピーカ で音を再生すると音は四方八方へと放射され,他者 にも聞こえてしまうのが一因である。再生した人 には聴きたい音であっても他者には騒音源となっ てしまったり,逆に他者には聞かせたくないのに 聞こえてしまうといったプライバシーの問題も生 じる。従って,複数のユーザに対してそれぞれ個 別の音を提示したり,音を消すことができれば, 図–1
,図–2
のように様々なシーンでの活用が期待 できる。このように,各ユーザにそれぞれ固有の 音を再生し,しかも他の音の干渉を防ぐような音 場再生法の実現は,今後更に需要の見込まれる重 要な応用技術である。 近年では,これまで蓄積されてきた立体音響再 生の技術を活用することによって,特定の位置だ けに必要な音を提示したり,複数の位置にそれぞ れ個別の音を提示する手法の研究開発が盛んであ る。このような概念に対して,「マルチゾーン音 場」,「パーソナル音響ゾーン」,「マルチスポット 再生」,「エリア再生」,「個別音像生成」など多く の呼称があり,用いられる手法もスピーカアレー やパラメトリックスピーカによる指向性制御,ス ピーカアレーによる波面制御に基づくもの,音響 コントラスト制御,多点制御など非常に多岐に渡 る[1–8]
。 このような中から,本解説では音場の逆フィル ∗Flexible acoustic interface based on 3D soundrepro-duction.
∗∗Yosuke Tatekura (Shizuoka University, Hamamatsu,
432–8561) タ処理の観点からのアプローチを紹介する。音場 の逆フィルタ処理では,駆動する複数のスピーカ から制御点までの室内音響伝達特性を相殺するこ とによって,制御点上の音のコントロールを図る。 それゆえに,制御点から離れた位置での音の状態 は何等保証されず,様々な再生音の混合として観 測される。しかしながら,逆フィルタ処理ではス ピーカ配置に対する制約はほとんどなく,原理的 には自由に配置できることから,現実の室内へ比 較的容易に適用可能である。そこで本解説では, 音場の逆フィルタ処理の基礎を概説した後,これ が音場のマルチゾーン化に応用できることを解説 する。また,筆者らが取り組んでいるデモンスト レーションシステムや,より実環境への適用を志 向した取り組みについても紹介する。
2. 逆フィルタ処理による音場のマルチゾー
ン化
2.1
音場の逆フィルタ処理 まず,図–3
に示すようなM
個のスピーカを用 いてN
点の制御点上の音圧を逆フィルタ処理に よってコントロールする音場再現について説明す る。m (= 1, 2, · · · , M )
番目のスピーカS
m からn (= 1, 2, · · · , N )
番目の制御点C
nまでの室内音 響伝達関数をGnm
(ω)
とすると,その音響系全体 の室内音響伝達関数G(ω)
は,下記のような行列 形式で表現できる。G(ω) =
⎡
⎢
⎢
⎣
G
11(ω)
· · ·
G
1M(ω)
..
.
. ..
..
.
GN1
(ω) · · ·
GNM
(ω)
⎤
⎥
⎥
⎦ (1)
ここで,ω
は周波数のインデックスを表す。同様 に,逆フィルタを表す行列をH(ω)
,システムへ 入力する原信号(各制御点上で再現させたい所望 の信号)の行列をX(ω)
とすると,それぞれは下 記のように表現できる。図–1 音場のマルチゾーン化のイメージ(自動車室内) 図–2 音場のマルチゾーン化のイメージ(テレビ視聴にお ける音声多重放送)
H(ω)=
⎡
⎢
⎢
⎣
H
11(ω)
· · ·
H
1N(ω)
..
.
. ..
..
.
HM1
(ω) · · ·
HMN
(ω)
⎤
⎥
⎥
⎦ (2)
X(ω)=
X
1(ω) X
2(ω) · · ·
XN
(ω)
T(3)
これらに基づいて逆フィルタ処理がなされたとき, 制御点上における観測信号X(ω)
ˆ
は以下のように 表される。ˆ
X(ω) =
X
ˆ
1(ω)
X
ˆ
2(ω) · · ·
XN
ˆ
(ω)
T=
G(ω)H(ω)X(ω)
(4)
音場再現においては,原信号が制御点上でそ のまま再生されることが要求される。すなわち,ˆ
X(ω) = X(ω)
となることが求められるが,その ためには(4)
式においてG(ω)H(ω) = I
N(5)
なる関係を満たすH(ω)
を設計しなければならな い。ここで,I
N はN
行N
列の単位行列である。 逆フィルタ設計において,伝達関数の行列G(ω)
がフルランクである場合は,スピーカの個数M
と制御点の個数N
の大小関係により設計方法が 変わる。まず,M = N
のとき,逆フィルタはH(ω) = G
−1(ω)
として一意に決定される。次 に,M < N
のとき,厳密解は存在しないので下記 のような最小二乗法による近似解が採用される。 図–3 逆フィルタ処理に基づく多チャンネル音場制御シス テムの構成H(ω) =
G
H(ω)G(ω)
−1G
H(ω)
(6)
ここで,·
Hは行列のエルミート転置を表す。最後 に,M > N
のとき,解は無数に存在することに なるので,何等かの制約条件を課した解を求める 必要がある。解のノルムが最小となる制約条件の 場合,逆フィルタは以下のように計算される。H(ω) = G
H(ω)
G(ω)G
H(ω)
−1(7)
ただし,実際の音響系においては必ずしもG(ω)
がフルランクであるとは限らない。このような場 合は正則化法[9]
や,打ち切り特異値分解に基づ く設計法[10]
が採用される。2.2
逆フィルタ処理のマルチゾーン化に対する 解釈 ここで,逆フィルタ処理の意味を考察したい。 逆フィルタ処理を含んだ音響系の伝達特性は,理 想的には(5)
式のとおりに単位行列となる。単位 行列の対角成分はすべて1
であるが,これはn
番 目の原信号X
n(ω)
がn
番目の制御点で再生され るときの伝達特性が1
であることを表している。 すなわち,X
n(ω)
が制御点上において無歪でその まま再生されることを意味する。一方,単位行列 の非対角成分はすべて0
である。これはn
番目の 原信号がn
番目以外の制御点で再生されるときの 伝達特性が0
であるということであり,これらの 制御点では無音として再生されることを表現して いる。以上をまとめると,音場逆フィルタ処理で は,n
番目の制御点では原信号X
n(ω)
のみがその まま再生されるような制御が行われる。すなわち, 逆フィルタが適切に作用していれば,X
n(ω)
は互 いに干渉することなく,それぞれの制御点上で独 立に再生される。この知見を利用すれば,音場のマルチゾーン化 へ適用させることができる。例えば,
1
名のユー ザの両耳部を制御点としたときに,右耳側と左耳 側でそれぞれ異なった音楽が再生可能となる。あ るいは,複数のユーザが同一室内にいる環境下に おいて,各ユーザの耳元に対してユーザごとに異 なる音楽を再生することもできる。これはユーザ 頭部周辺における音場のマルチゾーン化であると 解釈できる。 ただし,実際には,もとの室内音響伝達特性に 対する完全な逆特性を持たせることは,逆フィル タの設計精度や伝達系の時変性などのために困難 である。このような場合,(5)
式の右辺は単位行 列とかけ離れたものとなる。よって,X
n(ω)
がn
番目の制御点で再生されるときにはひずみが生じ たり,n
番目以外の制御点においてゼロ信号とは ならず,目的音に対する妨害音として観測される こととなる。本解説では,このように観測される 妨害音をクロストークと呼ぶ。2.3
実 装 例 音場のマルチゾーン化の取り組み例として,筆 者の研究室によるデモンストレーションシステム の紹介をする。筆者の所属先では毎年11
月に一 般の来場者を対象としたテクノフェスタ(研究公 開展示イベント)が開催されており,筆者らはこれ までに音場のマルチゾーン化に関する体験デモン ストレーションを実施している。このシステムで は,参加者自身の頭を用いて室内音響伝達関数の インパルス応答を測定するところから始まり,逆 フィルタ設計を経て,各体験者ごとに異なる音楽 が再生されているのを体験してもらうところまで が一括して実施される。2015
年のテクノフェスタでは,16
個のスピーカ によって4
人分の音場マルチゾーン形成を行うデ モを公開した(図–4
参照)。体験者の両耳部を制御 点としたため,制御点数は8
点とした。スピーカの 駆動や室内音響伝達関数のインパルス応答を測定 するためのマイク接続のオーディオインタフェースとして,
ROLAND
製OCTA-CAPTURE
UA-1010
を2
台同時使用した。スピーカにはBose
製Companion 20
を8
セット,マイクロホンにはSony
製ECM-44B
を8
本用い,これらすべてを オーディオインタフェースに直結した。オーディ オインタフェースはUSB
ケーブルでノートPC
図–4 4 人向け音場マルチゾーン化のデモンストレーショ ンの様子 と接続され,MATLAB
で作成されたプログラム によって制御されている。MATLAB
で多チャン ネル録音再生を行うために,pa-wavplay
パッケー ジ[11]
を用いた。このようにデモシステムは簡素 な構成であり,機材もネット通販などで容易に入 手可能なものが使用されている。また,室内音響 伝達関数のインパルス応答の測定においては,広 く用いられているTSP
法[12]
ではなく,楽曲を 用いた同時測定法[13]
を使用しており,体験者が 音楽を聞いている間にインパルス応答を測定でき るような工夫もなされている。 図–4
で紹介した部屋の残響時間は約0.4
秒であ る上,窓の外からは野外ライブなどの音が室内に 飛び込んでおり,決して恵まれたデモ環境ではな い。しかしながら,見学者からのデモシステムへ の反応は概ね良好であった。一方で,目的音と同 時にクロストーク音も相応に残留する問題も生じ た。ただし,クロストークは3
曲が重なった状態 であったため,目的音以外の曲の楽想は掴めない ような音として知覚された。このクロストークの 影響をいかに実質的に除去できるかが今後の課題 である。3. 少数個のスピーカによる制御領域の拡大
3.1
背 景2.3
節で述べたデモシステムでは,各体験者の 耳元のみを制御点としていたため,わずかな頭部 の移動によっても再生音の品質劣化が知覚された。 ユーザの頭部移動を許容し,より広い空間として の制御を試みるのであれば,耳元だけでなくユー ザの頭部付近に複数の制御点を設定する必要があ る。一方で,スピーカ数が制御点数よりも多い場図–5 制御点によって制御周波数帯域を切り替える音場マ ルチゾーン化システム 合に逆フィルタの精度は良好となる傾向にある。 しかしながら,多数の制御点を制御するためにそ れを上回る膨大な数のスピーカを使用するのは, 配置や配線の問題からも現実的ではない。 そこで,少数個のスピーカでありながらそれよ り多い制御点を効率的に制御する音場マルチゾー ン化手法
[14, 15]
について紹介する。この手法で は,ユーザの耳元に設置した制御点で低周波数帯 域のみを制御し,それ以外の制御点で全制御帯域 の制御を図る。つまり,逆フィルタの制御精度が 相対的に低下し易い高周波数帯域の制御を一部の 制御点では行わないため,高周波数帯域では制御 点数の実質的な削減に相当する。よって,高周波 数帯域における制御精度の劣化の抑制が期待でき, 結果として高周波数帯域のクロストークの抑圧が 見込まれる。3.2
制御点ごとの制御帯域のスイッチング 図–5
に提案システムの構成を示す。M
個のス ピーカによってN
点の制御点が制御されるが,そ のうちN
E点では低周波数帯域が,(N − N
E)
点 では全周波数帯域が制御される。 本手法の特徴として,各ユーザに提示される音 は立体感を除去したモノラル音であることがあげ られる。従って,システムへの入力信号X(ω)
の 要素Xn
(ω)
はN
個であるが,実際にはN
個すべ てが互いに異なっているわけではなく,Xn
(ω)
の 種類はユーザ数と同数となる。立体音響の立場で は,バイノーラル信号のように,各制御点ごとに振 幅や位相などが異なることによって,ユーザに対 して音に立体感を付加させることができる。これ に対して本手法では,提示する音の立体感を犠牲 にする代わりに,制御点間の信号の微妙な違いと 逆フィルタの制御誤差によって生じるクロストー クの抑圧や,原音の音質劣化や定位感悪化の防止 を図っている。 低帯域と高帯域とに制御帯域を切り替えるため の閾周波数をf
Tとし,低周波数帯域と高周波数 帯域の制御を示すラベルをそれぞれ·
(L), ·
(H)とす ると,ω < f
T における逆フィルタH
(L)(ω)
とω ≥ f
Tにおける逆フィルタH
(H)(ω)
はおのおの 以下のとおりとなる。H
(L)(ω) =
⎡
⎢
⎢
⎣
H
11(L)(ω) · · ·
H
1N(L)(ω)
..
.
. ..
..
.
H
M1(L)(ω) · · ·
H
MN(L)(ω)
⎤
⎥
⎥
⎦
(8)
H
(H)(ω) =
⎡
⎢
⎢
⎣
H
1(N(H)E+1)(ω)
· · · H
1N(H)(ω)
O
M,NE..
.
. ..
..
.
H
M(N(H) E+1)(ω) · · ·
H
MN(H)(ω)
⎤
⎥
⎥
⎦
(9)
ここで,H
(L)(ω), H
(H)(ω)
はともにM
行N
列 の行列であり,O
M,NEはM
行NE
列の零行列で ある。これらから,観測信号X(ω)
ˆ
は以下のよう に与えられる。ˆ
X(ω)=
⎧
⎨
⎩
G(ω)H
(L)(ω)X(ω)
if ω < f
TG(ω)H
(H)(ω)X(ω) otherwise
(10)
3.3
数値計算例 図–6
のような環境において,中央部の二つの領 域を制御した場合を計算した例を示す。ユーザは2
名の環境を想定し,ユーザの頭部の回転や移動を 考慮するとユーザ1
名に要する制御点は少なくと も6
点必要である[16]
と考え,制御点数を12
点, スピーカ数を8
個とした。図–6
のArea A
,B
は 各ユーザの頭部を囲む範囲を示しており,それぞ れに男性音声と女性音声を提示した。Area A
,B
それぞれにユーザの耳元を想定した位置である4
点の制御点(図–6
中の白丸○)で全周波数帯域を, それ以外の8
点の制御点(図–6
中の黒丸●)で低 周波数帯域を制御した。残響時間を約0.46
秒,サ図–6 シミュレーション配置図 ンプリング周波数を
8,000 Hz
,インパルス応答長 を4,096
点,逆フィルタ長を16,384
点,周波数の 通過帯域を150–3,850 Hz
とし,逆フィルタの帯域 切り替えのための閾周波数は500 Hz
とした。各 スピーカから任意の位置までのインパルス応答は, 鏡像法[17]
によって求められた。便宜的に,空間 の中央から左側(Width: 2.50–3.00 m
)を男性音 声が再生されたMale area
,右側(Width: 3.00–
3.50 m
)を女性音声が再生されたFemale area
と 呼ぶことする。クロストーク量の評価値として,以下に定義され る
SCR
(Signal to Crosstalk Ratio
)を導入する。SCR [dB] = 10 log
10 t|d
P(t)|
2 t|ˆxP
(t) − d
P(t)|
2(11)
ここで,t
は時間のインデックス,xP
ˆ
(t)
は空間内 の任意点P
上での観測信号の時間領域表現,dP
(t)
は点P
上で観測される原信号の時間領域表現を表 す。このSCR
は,値が高いほど原信号に比べて クロストークが少ないことを示す。 図–7
,図–8
に通常の逆フィルタ処理(以下,従 来法)と提案法に関するSCR
分布をそれぞれ示 す。図中の破線の円はArea A
,B
を表す。この 結果から,提案法ではクロストークが広い範囲で 抑圧されており,従来法より制御領域を拡大可能 であることが示唆される。3.4
主 観 評 価 図–6
と同配置,同条件にある実環境のデータを 図–7 通常の逆フィルタ処理による SCR 分布 図–8 制御点ごとに制御帯域を変えた場合の SCR 分布 用いた主観評価結果について紹介する。ここでは, 被験者が変わることによる環境変動の影響などを 取り除くのが困難であったため,ダミーヘッドを用 いたバイノーラル信号のヘッドホン受聴による主 観評価とした。バイノーラル信号は,ダミーヘッ ドによる測定で得られた実環境インパルス応答と それらから設計された逆フィルタ,並びに原音を 畳み込むことで得られた。頭部が元の位置から移 動した場合の影響を考慮するため,ダミーヘッド を元の位置で固定させたパターン,頭部を元の位 置から40
◦左回転させたパターン,頭部を元の位 置から5 cm
右方向に移動したパターンの計3
パ ターンについて評価した。それぞれの頭部パター ンに対して,提案法,従来法,ステレオ再生の3
種の手法における観測信号を求めた。ここで,ス テレオ再生とは,図–6
中のスピーカSp1
から男 性音声を,スピーカSp8
から女性音声を再生した ものである。図–9 クロストーク抑圧に関する主観評価実験の結果 被験者は正常な聴力を持つ
20
歳代の男女8
名 である。評価手法にはScheff´
e
の一対比較法(浦 の変法)[18]
を用い,先に提示した刺激音を基準に して,後に提示した刺激音を被験者に評定させた。 目的音声に対する妨害音声の大きさについては,7
段階(+3:
妨害音声が非常に小さい,+2:
妨害音 声がかなり小さい,+1:
妨害音声が小さい,0:
妨 害音声が同程度の大きさである,−1:
妨害音声が 大きい,−2:
妨害音声がかなり大きい,−3:
妨害 音声が非常に大きい)で評定させた。刺激音の提 示にはヘッドホンを用い,音量は被験者ごとに聴 取し易いレベルに設定させた。 主観評価の結果を図–9
に示す。図中のエラー バーはヤードスティックによる95%
信頼区間を表 す。頭部の移動がない場合,各手法間で有意差が 見られたが,提案法は他手法よりも優位であった。 一方,頭部が回転や移動をした場合,従来法とステ レオ再生で有意差が見られなかったのに対し,提 案法は他の2
手法に比べて優位であり,提案法に よるクロストークの抑圧が示唆される。4. お わ り に
本解説では,複数のユーザそれぞれに音空間を 形成する「音場のマルチゾーン化」について,音 場の逆フィルタ処理を適用する立場から概説した。 まず,逆フィルタの設計法と逆フィルタ処理の意 味について説明した。次いで,筆者らによるマル チゾーン化のデモシステムについて紹介した。更 に,少数個のスピーカによるマルチゾーン化を実 現するため,クロストーク抑圧の観点から取り組 まれている技術について解説を行った。 謝 辞 静岡大学立蔵研究室の学生の皆さんに感謝する。 文 献[ 1 ] T. Betlehem, W. Zhang, M. A. Poletti and T. D. Abhayapala, “Personal sound zones: Delivering interface-free audio to multiple listeners,” IEEE Sig-nal Process. Mag.,32, 81–91 (2015).
[ 2 ] J. Chang, C. Lee, J. Park and Y. Kim, “A real-ization of sound focused personal audio system using acoustic contrast control,” J. Acoust. Soc. Am.,125, 2091–2097 (2009).
[ 3 ] Y. J. Wu and T. D. Abhayapala, “Spatial mul-tizone soundfield reproduction: Theory and design,” IEEE Trans. Audio Speech Lang. Process.,19, 1711– 1720 (2011).
[ 4 ] T. Okamoto, “Generation of multiple sound zones by spatial filtering in wavenumber domain using a linear array of loudspeakers,” Proc. ICASSP 2014, 4733–4737 (2014).
[ 5 ] Y. Nakayama, M. Adachi, K. Ishimoto and Y. Tatekura, “Individual sound image generation for multiple users based on loudspeaker array with NB-SFC,” Proc. DSP 2013 (2013).
[ 6 ] 松井 唯, 生藤大典, 中山雅人, 西浦敬信, “キャリア 波と側帯波の分離放射によるオーディオスポット形成,” 信学論 (A),J97-A, 304–312 (2014).
[ 7 ] M. F. Galvez, S. J. Elliott and J. Cheer, “Per-sonal audio loudspeaker array as a complementary TV sound system for the hard of hearing,” IEICE Trans. Fundam.,E97-A, 1824–1831 (2015).
[ 8 ] T. Shimizu, J. Trevino, S. Sakamoto and Y. Suzuki, “A multi-zone approach to sound field re-production based on spherical harmonic analysis,” Acoust. Sci. & Tech.,36, 441–444 (2015).
[ 9 ] 李 容子, 伊勢史郎, “正則化パラメータに着目した 多チャネル逆システムの最適化設計法,” 音響学会誌,69, 276–284 (2013).
[10] Y. Tatekura, S. Urata, S. Saruwatari and K. Shikano, “On-line relaxation algorithm applicable to acoustic fluctuation for inverse filter in multichannel sound reproduction system,” IEICE Trans. Fundam.,
E88-A, 1747–1756 (2005). [11] http://www.mathworks.com/matlabcentral/ fileexchange/47336-pa-wavplay-for-32-bit-and-64-bit (参照 2016-10-19). [12] 佐藤史明, “Swept-Sine 法に基づく音響伝搬測定,” 音 響学会誌,63, 322–327 (2007).
[13] T. Amano and Y. Tatekura, “Multichannel simul-taneous measurement of room impulse responses us-ing instrument part sounds of ensemble music,” Proc. WESPAC 2015 (2013). [14] 石本幸太郎, 立蔵洋介, “劣決定条件下の音場再現にお ける複数ユーザへの個別音像提示,” 信学論 (A),J95-A, 640–644 (2012). [15] 石本幸太郎, 立蔵洋介, “劣決定条件下の個別音像生 成におけるクロストーク抑圧手法の評価,” 音講論集, 1-10-14 (2013.3). [16] 神沼充伸, 伊勢史郎, 鹿野清宏, “受聴者の頭部の動き を考慮した多チャンネル音場再現システム,” バーチャル リアリティ学会論文誌,5, 957–964 (2000).
[17] J. B. Allen and D. A. Berkley, “Image method for effeciently simulating smallroom acoustics,” J. Acoust. Soc. Am.,65, 943–950 (1979).
[18] 日科技連官能検査委員会, 官能検査ハンドブック(日 科技連出版社, 東京, 1973).