外部雑音の影響にロバストな適応的音場再現システム

(1)

29

1．はじめに

情報通信技術の発展と共に、視聴覚メディア を用いたユビキタスでユニバーサルなコミュニ ケーションシステムの実現が期待されている。

聴覚メディアの観点からは、特定のデバイスを 身に着けることなく肉体的にフリーな状態で人-- 人、人--機械での音声コミュニケーションや、音 の場の雰囲気を共有しあえるような環境で互い の音声などをやり取りする超臨場感通信などが 望まれている。この要求に対する1つの解として、

境界音場制御の原理に基づいた音場制御が提案 されている。この方法では、複数のスピーカと 室内の音響的な反射・残響といった伝達特性を 除去する制御フィルタ（以下、逆フィルタと呼 ぶ）を用いて、あらかじめ想定した音空間の制 御を行う。これを真に実現するためには、リス ニングルーム内の物体配置の変化や温度、湿度 といった自然環境的な変化によって伝達特性の 変動について対策を講じなければならない。な ぜなら、逆フィルタはある時点で計測された伝 達特性を基に設計されるため、計測時の伝達特 性と再生時の伝達特性が異なれば再生音の品質 が劣化してしまうからである。

伝達特性変動の問題を解決するため、申請者 は図1に示す適応的に逆フィルタを更新する音場 再現システムを提案している。この方式は

エラーセンサをユーザから離れた位置に 配置する。ただし、この位置でも音の制 御を行う。

観測信号から伝達特性の変動を推定する

ので、エラーセンサの数は少数で済む。

という特色を持つ。これらの利点を利用し、逆 フィルタ更新のアルゴリズムとして温度変化の 補正処理、逆フィルタの緩和処理、およびこれ らの統合処理などを提案した。

ところで、上記音場再現システムではエラー センサで観測される音がスピーカから再生され た音のみであることを前提としていた。しかし ながら、実際には室内ではユーザ自身や他者の 発話、ユーザが何らかの物体を使用することに より生じる環境音、あるいは室内外から混入す る外部雑音などが容易に生じてしまう。したが って、システム外で生じた外部雑音がエラーセ ンサに混入すると補正アルゴリズムは所望の動 作を行うことができず、ユーザに高品質な再生 音を提示できなくなる。

そこで本研究では、利用する周囲環境や場所 に依存されることなく、外部雑音に対してロバ ストに動作する音場再現システムの実現を目的

外部雑音の影響にロバストな適応的音場再現システム

静岡大学工学部電気電子工学科 立蔵洋介 [email protected]

再生環境が変動しても高品質に音を再生できる音場再現システムの構築

・臨場感通信

・場所に応じた個別再生

・ヘッドホンなしの同時通訳システム

・高齢者に対する聴覚補正応用課題

図1 適応的音場再現システム

●

〔村田基金研究助成〕

(2)

30 とした。本助成金による研究期間内では、マイ

クロホンに混入する外部雑音を取り除くアルゴ リズムの構築を目指した。

2．提案する音場再現システムの全体構想 図1に示した適応的音場再現システムパートと 音源分離パートを接続した提案システムを図2に 示す。このシステムではM個のスピーカを用い てN個の受音点における音を逆フィルタH(ω)に よって制御する。N番目の受音点にはエラーセ ンサを配置し、再現されている音の品質に応じ て逆フィルタの更新を行う。しかしながら、こ のままではエラーセンサにとって余計な音（ユ ーザの話し声、エアコンの音など再生音以外の あらゆる雑音）が参照信号とともに観測されて しまう影響について考慮されていない。

そこで、エラーセンサで本来観測される音は

「システムが再生しようとする音とほぼ同じ音」

と雑音が混ざったものであることに着目し、こ の「ほぼ同じ音」を正しく抽出するために独立 成分分析に基づくブラインド音源分離（BSS）

を拡張させたセミブラインド音源分離（semi- BSS）の導入を図った。BSSはマイクロホンで 観測された混合音から、観測音以外の何らの事 前情報なしに個々の音に分解する技術である。

混合音のうちいずれか一方についての情報があ る場合に、それ以外の音を抽出する技術につい

てはsemi-BSSと呼ばれている。

ここでは簡単にsemi-BSSに入力する信号数を 2として考える。Semi-BSSによる分離信号を Y(ω)=[Y¹(ω), Y2(ω)]^T、semi-BSSに入力する信号をS(ω)=[S¹(ω), S²(ω)]^Tと定義する。ただし、

S1(ω)はエラーセンサで観測された信号、S2(ω) は本来再生されるべき信号であり、これは既知 信号とみなせる。このとき、Y(ω)は分離行列 W(ω)を用いて以下のように計算される。

Y(ω)=W(ω)S(ω)

通常のBSSではW(ω)の全ての要素について計算 する必要があるが、semi-BSSでは入力のうちい ずれか一方が既知信号であることを利用して分 離行列W(ω)の成分を以下のように取り扱うこ とができる。

W(ω)については、出力成分であるY(ω)の各要 素が独立となるよう、以下の更新学習によって 求められる。

W(ω)←W(ω)+μ

(

^I-E

[ (

^Y(ω)

)

^Y(ω)^T

])

^W(ω)

ここで、μはステップサイズ、Iは単位行列、

(・)は非線形関数である。

3．観測信号からの参照信号の抽出

エラーセンサで観測された信号からシステム 図2 外部雑音の影響を除去した適応的音場再現システム

W(ω)=

[

^W⁰¹¹^(ω) ^W^W¹²²²^(ω)^(ω)

]

(3)

31

の更新に必要な参照信号のみを抽出する方法に ついて述べる。我々が欲しいのは「反射や残響 の特性の変動のために歪みを含んで再生された 参照信号」である。なぜなら適応的音場再現シ ステムは、本来観測されるべき参照信号と実際 に観測された（歪みを含んだ）参照信号との残 差の情報に基づいて逆フィルタの更新を行うか らである。一方、システムは本来観測されるべ き参照信号に関する情報を有している。そこで 本手法では、まず、観測信号と元の参照信号を semi-BSSアルゴリズムに入力し、エラーセンサ で観測された雑音信号を推定する。次いで、観 測信号から雑音信号を減算することにより、歪 みを含んだ参照信号の抽出を行う。すなわち、

最終的に欲しい信号をZ(ω)とすると、

Z(ω)=S1(ω)-αY1(ω)

と表わされる。ここでαはスケーリングパラメ ータであり、その最適値としてZ(ω)とS²(ω)の スペクトル歪みを最小とするものが用いられる。

4．数値計算による検討

提案手法の有効性を検証するため、実環境デ ータを用いた数値計算を行った。

スピーカ数12、リスニング用受音点数6の音場 再現システムを残響時間0.14秒の室内にセット アップした。各配置を図3に示す。室内の環境変 動を温度変化と想定し、ある基準温度とそこか ら3通りの温度変動における計4通りの室内温度 において各スピーカから各受音点までの室内イ ンパルス応答を計測した。再現する音声信号と して、9秒間の女性話者音声を用いた。また、室 内の1カ所に雑音源用のスピーカを用意し、そこ から3種類の雑音（携帯電話の着信音、時計のア ラーム、別の話者音声）をそれぞれ再生した。

図4に室内温度が変化したときの提案アルゴリ ズムによる抽出精度の変化の結果を示す。横軸 は入力SNRであり、これはエラーセンサにおけ る観測信号中に含まれる参照信号と雑音のパワ ー比を示すものである。すなわち、入力SNRが 0dB以下であるということは観測信号中の参照 信号よりも雑音の方が大きなパワーを持つこと を意味する。縦軸は抽出された参照信号の信号 対歪比であり、この値が高いほど参照信号を高 精度に抽出できていることを表す。この結果よ り、入力SNRが0dB以上の場合では抽出精度は

高い水準で一定の値を取っていることがわかる。

また、入力SNRが0dB以下の時でも十分な精度 で抽出できている。

一方、雑音の種類によるパフォーマンスの違 いを調べ、その結果を図5に示した。このときの 室内温度は基準温度から2.3℃変化したものを用 いた。この結果から、入力SNRが低い場合にお いては、雑音の種類によってパフォーマンスに

図3 実験環境

図4 異なる温度変動における各入力SNRに対する参照信号の抽出精度

図5 異なる外部雑音における各入力SNRに対する参照信号の抽出精度

(4)

32 差が生じているのがわかる。これは雑音の時間

的構造やスペクトル構造の差異に起因するもの だと考えられるが、詳細な検討については今後 の課題である。しかしながら、入力SNRが15dB 以上のときではいずれの雑音の場合でも十分高 い抽出精度が得られているとみなせる。

5．おわりに

本研究では、外部雑音の影響に対してロバス

トな音場再現システムを構築するために、semi- BSSを用いた雑音抑圧・信号抽出アルゴリズム の提案および検討を行った。実環境データを用 いた数値計算の結果、提案アルゴリズムは十分 な精度で所望の信号を抽出できることがわかっ た。今後の展開として、提案アルゴリズムを逆 フィルタ更新処理に組み込み、音場再現システ ムとしての改善パフォーマンスに関する評価を 行う予定である。