音響信号処理基礎
東京大学 情報理工学系研究科 特任助教
奈良先端大 音情報処理論第5回 (2017/11/02)
本講義の目的
音を理解する,音の場を作る,音を分離する
音の知覚 … 音を理解する
音場再現技術 … 音の場を作る
音の到来方向をどうやって知覚する?
ある位置から音が到来した.どうやってその方向を知覚する?
– 当然ながら,両耳の情報だけで判断している 両耳に到来する音はどう違う?
– 両耳間時間差 と 両耳間音圧差 – 両者とも到来経路の差により生じる頭部における音波の伝達経路
頭部を球に近似すると,その到来を明示的に記述できる
[高道 他, 2011.] 点音源 直接波 第一散乱波 直接波 表耳に直接到来 散乱波 まず頭部に音波が到来し,その後, 頭部表面を伝播して影耳に到来 直接波と散乱波の経路差 頭部を球に近似すると,音源距離と 方位角から解析的に計算可能実際に計測した両耳間時間差
角度[°] 0 90 180 270 360 0.4 0.8 0 -0.2 時間差 [msec ] -0.4 4 時間 [msec] 0 1 2 3 右 左 両耳間時間差 到来の時間差は1msec以下
– 我々はその時間差を知覚できる実際に計測した両耳間音圧差
G ain [ dB ] -30 10 -10 -50 0.5 1 5 10 周波数 [kHz] 20 0 0 180 270 360 90 音圧差 [d B] 20 -20 到達経路の違いにより,音圧が変わる
右 左帯域毎の時間差・音圧差の影響
両耳間音圧差 両耳間時間差 0 周波数 [kHz] 0.5 1 2 4 8 12 16 20 広帯域の音源は定位しやすい
逆に,純音の定位精度は悪い
時間差・音圧差以外に聴こえを変える要素
ピーク・ノッチの影響
先行音効果
– 最初に到来する音源の方向が音像の定位に支配的に影響する 視覚情報との相互作用
– カクテルパーティ効果 – 腹話術効果 – マガーク効果ピーク・ノッチ
Gain [ dB ] -30 10 -10 -50 耳介形状等の影響により,伝達特性は大きく変化する
– ピーク (P1, P2…) … 信号が増幅される帯域 – ノッチ (N1, N2…) … 信号が減衰される帯域 P1 N1ピーク・ノッチは何故発生する?
z変換を思い出すと…
– ピーク: 音波の共振による増幅 – ノッチ: 音波の遅延による減衰 ピーク … 耳介で生じる共振
ノッチ … 直接波と耳介による反射波の影響
[竹本 他, 2010.]先行音効果
2つのスピーカの間に音像を知覚 右側のスピーカからの音しか
知覚できない
最初に到来する音源の方向が音像の定位に支配的に影響すること
先行音効果
時間 音圧 先行音効果の成立する領域 先行音効果の成立する条件
– コヒーレントな信号 – 信号の到来時間差や音圧差が影響人間の感覚器の比較
[“Communication”,P.13,No.61,vol.11,1996.] 人間の感覚器と受容器の数
中枢神経の数で比較すれば,視覚は聴覚の100倍の情報量
– 視覚情報との相互作用が生じる – 次ページ以降のような,相互作用による効果が起こる 種類 受容器 (数) 中枢神経への数 視覚 網膜の視細胞 (108) 106 聴覚 蝸牛殻の有毛細胞 (104) 104 嗅覚 嗅粒膜の嗅細胞 (107) 103 触覚 皮膚の触覚細胞 (105) 104カクテルパーティ効果
人間は,聴取した音を処理して必要な情報だけを再構築する
– 音声の選択的聴取 両耳受聴(聴覚)+ +口の動き(視覚) +思考(脳)⇒一致判断 ~~~ ~~~ ~~~ ~~~ ~~~ A君,結婚したん だって!腹話術効果
音像位置が映像位置に引っ張られる
– 両耳情報の曖昧さに起因 時間的に同期した映像と音像.ただし, 空間位置は違う しかし,受聴者は,映像と同じ位置から 音がなっているように知覚する → 音像が映像に引っ張られる (腹話術効果)マガーク効果
音声の音韻知覚における視覚・聴覚の相互作用
– 音韻Aの視覚刺激 + 音韻Bの聴覚刺激 = 音韻Cを知覚 聴覚情報 視覚情報ば
が
だ
マガーク効果(動画)
https://www.youtube.com/watch?v=G-lN8vWm3m0
(BBC channel on YouTube)
音場再現技術
音場再現技術
– 所望の音場 (音波の存在する空間) を人工的に再現する技術 – → 時空間の制約を超えた高臨場感 立体音響システム 再生系による区分
– 拡声型 (開放型とも) … スピーカによる再現 – 両耳型 (没入型とも) … ヘッドホンによる再現 評価要素
– 受聴領域の大きさ – 空間解像度音場再現技術とは
5.1ch surround
Binaural Transaural
22.2ch surround
Higher Order Ambisonics
受 聴 領 域 の 大 き さ
Wave Field Synthesis
広い受聴領域と高い空間解像度を 目指した物理的な音場再現へ
従来の音響再生技術
(ステレオ,サラウンド5.1ch)
欠点
聴くことができる位置がスピーカの中心 (スィートスポット) に限定 音をデザインする人が必要(あくまで人工的な音の表現) エンジニア音場再現による高臨場音響再生
音場そのものを物理的に再現 (物理音響モデルベース)
Secondary source distribution
Virtual
primary sources
広い受聴領域を 実現できる可能性
音場再現手法の比較
アレイ配置 概要 収録音場 の再現
Wave Field Synthesis
(WFS) 平面/直線
Kirchhoff-Helmholtz積分/ Rayleigh積分に基づく
スピーカ駆動信号 ×
Higher Order Ambisonics
(HOA) 球 球面調和関数展開に基づく エンコーディング/ デコーディング ○ 逆フィルタに基づく手法 (e.g. 境界音場制御) 任意 最小二乗法などに基づく 多点音圧制御 ○ 波面再構成フィルタ法 (WFR) 平面/直線/ 円筒/球/円 空間スペクトル上での 直接的な信号変換 ○
ホイヘンスの原理
ある時点での波面の形状は,その前段階の波面上の各点から
Wave Field Synthesis (WFS)
[Berkhout+ JASA 1993] [Spors+ AES Conv 2008]
Secondary source plane
空間位置𝒓s,周波数𝜔の駆動信号
境界面上の音圧勾配を二次音源の駆動信号として,音場を再現
Higher Order Ambisonics (HOA)
球面調和関数 所望音場の球面 調和スペクトル スピーカ中心を原点とする球面調和スペ クトル領域で合成音場が所望音場と一致 するように制御 合成音場の球面 調和スペクトル 球面調和関数を要素にもつ行列の (一般化)逆行列を用いて駆動信号を得る逆フィルタに基づく手法
Control points (𝑀個) 所望の音圧 Loudspeakers (𝐿個) 𝑮 𝜔 の 逆システム 制御点上で所望の音圧と一致するような逆システムを用いる 最小二乗法による𝑮 𝜔 ∈ 𝐶𝐿×𝑀の逆フィルタの設計 [Gautheir+ JASA 2005]𝑷
des𝜔
𝑫 𝜔
𝑮 𝜔
𝑷
syn𝜔
𝑫 𝜔 = 𝑮
𝐻𝜔 𝑮 𝜔 + 𝛽𝑰
−1𝑮
𝐻𝜔 𝑷
des𝜔
両耳系の音場再現技術
拡声型の音場再現
– 多人数で音場を共有可能 両耳型の音場再現
– 受聴者毎に音場を個別化可能・省スペース – バイノーラル技術ヘッドホンの影響
耳覆い型~イントラコンカ型は,耳介の影響を強く受ける
– 耳介形状や装着具合に影響 – 個人依存性が強い 挿入型は伝達経路に耳介を含まない
– 個人依存性が低い – 外耳道は一次元音響管であると仮定すれば, イヤホンの振動面から鼓膜まで平面波が伝播する.バイノーラル
Inverse System
Head And Torso Simulator
(HATS) 原音場 聴取者 ヘッドホン& 外耳道特性の キャンセル ・ダミーヘッド(もしくはHATS)を用いて収音,ヘッドフォンで再生 ・システムが簡易 ・聴取者の頭部回転や移動に弱く,音像が頭内定位する
頭部伝達関数
(HRTF: Head Related Transfer Function)
実際に現音場を構築しなくとも,HRTFとの畳み込みで実現可能
研究背景 (1)
複数の楽器音が混合された音楽信号から,楽器音を分離・抽出
→ 音楽信号分解
応用例
– ユーザが好み応じて各楽器音を編集 – 音楽信号の自動採譜 – 音の拡張現実 (AR) 等研究背景 (2)
非負値行列因子分解 (NMF)
[Lee, et al., 1999] データのスパース性,重ね合わせ表現を考慮.効率的な
乗法型更新式
画像処理,信号処理等様々な分野への応用
𝒀 = 𝑭𝑮
𝑌
𝜔,𝑡≥ 0, 𝐹
𝜔,𝑘≥ 0, 𝐺
𝑘,𝑡≥ 0
(添え字のk,tは行列のk行t列目を表す)𝐹
𝜔,𝑘
← 𝐹
𝜔,𝑘
𝒀𝑮
⊤ 𝜔,𝑘𝑭𝑮𝑮
⊤ 𝜔,𝑘, 𝐺
𝑘,𝑡
← 𝐺
𝑘,𝑡
𝑭
⊤𝒀
𝑘,𝑡𝑭
⊤𝑭𝑮
𝑘,𝑡Time [sec]
Fr
eque
ncy [H
z]
Nonnegative Matrix Factorization (NMF)
… … 頻出スペクトル
𝒀 = 𝑭𝑮
𝒀
𝑮
𝑭
Time [sec]
Fr
eque
ncy [H
z]
Nonnegative Matrix Factorization (NMF)
… … 頻出スペクトル 各スペクトルの
𝒀 = 𝑭𝑮
𝒀
𝑮
𝑭
スペクトル基底行列
NMF では,行列因子の 𝑭 と 𝑮 を最適化するための目的関数が
距離関数として与えられる
この距離関数はデータや分解する目的に応じて使い分けられる
– 音源分離: 一般化KLダイバージェンス – 自動採譜: 板倉-斉藤擬距離NMF の目的関数
𝐷 ⋅ | ⋅ : 任意の距離関数𝐽
NMF
= 𝐷 𝒀|𝑭𝑮
一般化距離関数 𝛽-divergence
[Eguchi et al., 2001]𝛽-divergence について
𝛽 = 2: ユークリッド距離
𝛽 = 1: 一般化KLダイバージェンス
𝛽 = 0: 板倉-斉藤擬距離
5x102 4 3 2 1 0 IS -d iver g e n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =0) 25 20 15 10 5 0 K L -d iver g e n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =1) 12 10 8 6 4 2 0 E UC -d ista n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =2) 𝑦 − 𝑥が負 → 入力変数 𝑥 がデータ 𝑦 より大きい 板倉-斉藤擬距離やKL-divergenceでは大きな距離値に
𝐷
𝛽𝑦|𝑥 におけるy − 𝑥のグラフ
𝑥𝛽-divergence について
5x102 4 3 2 1 0 IS -d iver g e n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =0) 25 20 15 10 5 0 K L -d iver g e n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =1) 12 10 8 6 4 2 0 E UC -d ista n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =2) -10 -8 -6 -4 -2 0 A m p litu d e [ d B ] 5 4 3 2 1 0 Frequency [kHz] -10 -8 -6 -4 -2 0 A m p litu d e [ d B ] 5 4 3 2 1 0 Frequency [kHz]
𝐷
𝛽𝑦|𝑥 におけるy − 𝑥のグラフ
𝛽-divergence について
100 80 60 40 20 0 -d iver g e n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =3) 9x10 2 8 7 6 5 4 3 2 1 0 -d iver g e n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =4) 5x10 97 0 -d iver g e n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =100) さらに𝛽を大きくすると,入力変数 𝑥 とデータ 𝑦 を 入れ替えたような性質になる
𝐷
𝛽𝑦|𝑥 におけるy − 𝑥のグラフ
𝛽-divergence について
𝛽-divergence の全ての 𝛽 において収束性が保障された更新式
𝛽-divergence規範NMF
[Nakano, et al., 2010]
分離する楽器の教師音を用いる手法
学習プロセス 目的の楽器の教師音を用いて 学習した基底 分離プロセス 教師基底 𝑭 を固定して 𝑮, 𝑯, 𝑼 を構成 [Kitamura, et al., 2013]Penalized Supervised NMF (PSNMF)
分離する楽器の教師音を用いる手法
学習プロセス 目的の楽器の教師音を用いて 学習した基底 分離プロセス 教師基底 𝑭 を固定して 𝑮, 𝑯, 𝑼 を構成 [Kitamura, et al., 2013]Penalized Supervised NMF (PSNMF)
音源分離デモ1
原曲
教師1
分離音1
教師2
実際の演奏曲を教師有りNMFで分解してみた.
音源分離デモ2
原曲(プロ演奏)
Saxのみを抜いた
伴奏部分
Copyright © 2014 Yamaha Corp. All rights reserved.
サックス奏者が 消えた!?