• 検索結果がありません。

slide

N/A
N/A
Protected

Academic year: 2021

シェア "slide"

Copied!
50
0
0

読み込み中.... (全文を見る)

全文

(1)

音響信号処理基礎

東京大学 情報理工学系研究科 特任助教

奈良先端大 音情報処理論第5回 (2017/11/02)

(2)

本講義の目的

音を理解する,音の場を作る,音を分離する

音の知覚 … 音を理解する

音場再現技術 … 音の場を作る

(3)
(4)

音の到来方向をどうやって知覚する?

ある位置から音が到来した.どうやってその方向を知覚する?

– 当然ながら,両耳の情報だけで判断している 

両耳に到来する音はどう違う?

両耳間時間差両耳間音圧差 – 両者とも到来経路の差により生じる

(5)

頭部における音波の伝達経路

頭部を球に近似すると,その到来を明示的に記述できる

[高道 他, 2011.] 点音源 直接波 第一散乱波 直接波 表耳に直接到来 散乱波 まず頭部に音波が到来し,その後, 頭部表面を伝播して影耳に到来 直接波と散乱波の経路差 頭部を球に近似すると,音源距離と 方位角から解析的に計算可能

(6)

実際に計測した両耳間時間差

角度[°] 0 90 180 270 360 0.4 0.8 0 -0.2 時間差 [msec ] -0.4 4 時間 [msec] 0 1 2 3 右 左 両耳間時間差 

到来の時間差は1msec以下

– 我々はその時間差を知覚できる

(7)

実際に計測した両耳間音圧差

G ain [ dB ] -30 10 -10 -50 0.5 1 5 10 周波数 [kHz] 20 0 0 180 270 360 90 音圧差 [d B] 20 -20 

到達経路の違いにより,音圧が変わる

右 左

(8)

帯域毎の時間差・音圧差の影響

両耳間音圧差 両耳間時間差 0 周波数 [kHz] 0.5 1 2 4 8 12 16 20 

広帯域の音源は定位しやすい

逆に,純音の定位精度は悪い

(9)

時間差・音圧差以外に聴こえを変える要素

ピーク・ノッチの影響

先行音効果

– 最初に到来する音源の方向が音像の定位に支配的に影響する 

視覚情報との相互作用

– カクテルパーティ効果 – 腹話術効果 – マガーク効果

(10)

ピーク・ノッチ

Gain [ dB ] -30 10 -10 -50 

耳介形状等の影響により,伝達特性は大きく変化する

– ピーク (P1, P2…) … 信号が増幅される帯域 – ノッチ (N1, N2…) … 信号が減衰される帯域 P1 N1

(11)

ピーク・ノッチは何故発生する?

z変換を思い出すと…

– ピーク: 音波の共振による増幅 – ノッチ: 音波の遅延による減衰 

ピーク … 耳介で生じる共振

ノッチ … 直接波と耳介による反射波の影響

[竹本 他, 2010.]

(12)

先行音効果

2つのスピーカの間に音像を知覚 右側のスピーカからの音しか

知覚できない

最初に到来する音源の方向が音像の定位に支配的に影響すること

(13)

先行音効果

時間 音圧 先行音効果の成立する領域 

先行音効果の成立する条件

– コヒーレントな信号 – 信号の到来時間差や音圧差が影響

(14)

人間の感覚器の比較

[“Communication”,P.13,No.61,vol.11,1996.] 

人間の感覚器と受容器の数

中枢神経の数で比較すれば,視覚は聴覚の100倍の情報量

– 視覚情報との相互作用が生じる – 次ページ以降のような,相互作用による効果が起こる 種類 受容器 (数) 中枢神経への数 視覚 網膜の視細胞 (108) 106 聴覚 蝸牛殻の有毛細胞 (104) 104 嗅覚 嗅粒膜の嗅細胞 (107) 103 触覚 皮膚の触覚細胞 (105) 104

(15)

カクテルパーティ効果

人間は,聴取した音を処理して必要な情報だけを再構築する

– 音声の選択的聴取 両耳受聴(聴覚)+ +口の動き(視覚) +思考(脳)⇒一致判断 ~~~ ~~~ ~~~ ~~~ ~~~ A君,結婚したん だって!

(16)

腹話術効果

音像位置が映像位置に引っ張られる

– 両耳情報の曖昧さに起因 時間的に同期した映像と音像.ただし, 空間位置は違う しかし,受聴者は,映像と同じ位置から 音がなっているように知覚する → 音像が映像に引っ張られる (腹話術効果)

(17)

マガーク効果

音声の音韻知覚における視覚・聴覚の相互作用

– 音韻Aの視覚刺激 + 音韻Bの聴覚刺激 = 音韻Cを知覚 聴覚情報 視覚情報

(18)

マガーク効果(動画)

https://www.youtube.com/watch?v=G-lN8vWm3m0

(BBC channel on YouTube)

(19)
(20)

音場再現技術

音場再現技術

– 所望の音場 (音波の存在する空間) を人工的に再現する技術 – → 時空間の制約を超えた高臨場感 立体音響システム

再生系による区分

– 拡声型 (開放型とも) … スピーカによる再現 – 両耳型 (没入型とも) … ヘッドホンによる再現 

評価要素

– 受聴領域の大きさ – 空間解像度

(21)

音場再現技術とは

5.1ch surround

Binaural Transaural

22.2ch surround

Higher Order Ambisonics

受 聴 領 域 の 大 き さ

Wave Field Synthesis

広い受聴領域と高い空間解像度を 目指した物理的な音場再現へ

(22)

従来の音響再生技術

(ステレオ,サラウンド5.1ch)

欠点

 聴くことができる位置がスピーカの中心 (スィートスポット) に限定  音をデザインする人が必要(あくまで人工的な音の表現) エンジニア

(23)

音場再現による高臨場音響再生

音場そのものを物理的に再現 (物理音響モデルベース)

Secondary source distribution

Virtual

primary sources

広い受聴領域を 実現できる可能性

(24)

音場再現手法の比較

アレイ配置 概要 収録音場 の再現

Wave Field Synthesis

(WFS) 平面/直線

Kirchhoff-Helmholtz積分/ Rayleigh積分に基づく

スピーカ駆動信号 ×

Higher Order Ambisonics

(HOA) 球 球面調和関数展開に基づく エンコーディング/ デコーディング 逆フィルタに基づく手法 (e.g. 境界音場制御) 任意 最小二乗法などに基づく 多点音圧制御 波面再構成フィルタ法 (WFR) 平面/直線/ 円筒/球/円 空間スペクトル上での 直接的な信号変換

(25)

ホイヘンスの原理

ある時点での波面の形状は,その前段階の波面上の各点から

(26)

Wave Field Synthesis (WFS)

[Berkhout+ JASA 1993] [Spors+ AES Conv 2008]

Secondary source plane

空間位置𝒓s,周波数𝜔の駆動信号

境界面上の音圧勾配を二次音源の駆動信号として,音場を再現

(27)

Higher Order Ambisonics (HOA)

球面調和関数 所望音場の球面 調和スペクトル  スピーカ中心を原点とする球面調和スペ クトル領域で合成音場が所望音場と一致 するように制御 合成音場の球面 調和スペクトル 球面調和関数を要素にもつ行列の (一般化)逆行列を用いて駆動信号を得る

(28)

逆フィルタに基づく手法

Control points (𝑀個) 所望の音圧 Loudspeakers (𝐿個) 𝑮 𝜔 の 逆システム 制御点上で所望の音圧と一致するような逆システムを用いる 最小二乗法による𝑮 𝜔 ∈ 𝐶𝐿×𝑀の逆フィルタの設計 [Gautheir+ JASA 2005]

𝑷

des

𝜔

𝑫 𝜔

𝑮 𝜔

𝑷

syn

𝜔

𝑫 𝜔 = 𝑮

𝐻

𝜔 𝑮 𝜔 + 𝛽𝑰

−1

𝑮

𝐻

𝜔 𝑷

des

𝜔

(29)

両耳系の音場再現技術

拡声型の音場再現

– 多人数で音場を共有可能 

両耳型の音場再現

– 受聴者毎に音場を個別化可能・省スペース – バイノーラル技術

(30)
(31)

ヘッドホンの影響

耳覆い型~イントラコンカ型は,耳介の影響を強く受ける

– 耳介形状や装着具合に影響 – 個人依存性が強い 

挿入型は伝達経路に耳介を含まない

– 個人依存性が低い – 外耳道は一次元音響管であると仮定すれば, イヤホンの振動面から鼓膜まで平面波が伝播する.

(32)

バイノーラル

Inverse System

Head And Torso Simulator

(HATS) 原音場 聴取者 ヘッドホン& 外耳道特性の キャンセル ・ダミーヘッド(もしくはHATS)を用いて収音,ヘッドフォンで再生 ・システムが簡易 ・聴取者の頭部回転や移動に弱く,音像が頭内定位する

(33)

頭部伝達関数

(HRTF: Head Related Transfer Function)

実際に現音場を構築しなくとも,HRTFとの畳み込みで実現可能

(34)
(35)

研究背景 (1)

複数の楽器音が混合された音楽信号から,楽器音を分離・抽出

→ 音楽信号分解

応用例

– ユーザが好み応じて各楽器音を編集 – 音楽信号の自動採譜 – 音の拡張現実 (AR) 等

(36)

研究背景 (2)

非負値行列因子分解 (NMF)

[Lee, et al., 1999] 

データのスパース性,重ね合わせ表現を考慮.効率的な

乗法型更新式

画像処理,信号処理等様々な分野への応用

𝒀 = 𝑭𝑮

𝑌

𝜔,𝑡

≥ 0, 𝐹

𝜔,𝑘

≥ 0, 𝐺

𝑘,𝑡

≥ 0

(添え字のk,tは行列のk行t列目を表す)

𝐹

𝜔,𝑘

← 𝐹

𝜔,𝑘

𝒀𝑮

⊤ 𝜔,𝑘

𝑭𝑮𝑮

𝜔,𝑘

, 𝐺

𝑘,𝑡

← 𝐺

𝑘,𝑡

𝑭

𝒀

𝑘,𝑡

𝑭

𝑭𝑮

𝑘,𝑡

(37)

Time [sec]

Fr

eque

ncy [H

z]

Nonnegative Matrix Factorization (NMF)

… … 頻出スペクトル

𝒀 = 𝑭𝑮

𝒀

𝑮

𝑭

(38)

Time [sec]

Fr

eque

ncy [H

z]

Nonnegative Matrix Factorization (NMF)

… … 頻出スペクトル 各スペクトルの

𝒀 = 𝑭𝑮

𝒀

𝑮

𝑭

スペクトル基底行列

(39)

NMF では,行列因子の 𝑭 と 𝑮 を最適化するための目的関数が

距離関数として与えられる

この距離関数はデータや分解する目的に応じて使い分けられる

– 音源分離: 一般化KLダイバージェンス – 自動採譜: 板倉-斉藤擬距離

NMF の目的関数

𝐷 ⋅ | ⋅ : 任意の距離関数

𝐽

NMF

= 𝐷 𝒀|𝑭𝑮

(40)

一般化距離関数 𝛽-divergence

[Eguchi et al., 2001]

𝛽-divergence について

𝛽 = 2: ユークリッド距離

𝛽 = 1: 一般化KLダイバージェンス

𝛽 = 0: 板倉-斉藤擬距離

(41)

5x102 4 3 2 1 0 IS -d iver g e n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =0) 25 20 15 10 5 0 K L -d iver g e n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =1) 12 10 8 6 4 2 0 E UC -d ista n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =2) 𝑦 − 𝑥が負 → 入力変数 𝑥 がデータ 𝑦 より大きい 板倉-斉藤擬距離やKL-divergenceでは大きな距離値に 

𝐷

𝛽

𝑦|𝑥 におけるy − 𝑥のグラフ

𝑥

𝛽-divergence について

(42)

5x102 4 3 2 1 0 IS -d iver g e n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =0) 25 20 15 10 5 0 K L -d iver g e n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =1) 12 10 8 6 4 2 0 E UC -d ista n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =2) -10 -8 -6 -4 -2 0 A m p litu d e [ d B ] 5 4 3 2 1 0 Frequency [kHz] -10 -8 -6 -4 -2 0 A m p litu d e [ d B ] 5 4 3 2 1 0 Frequency [kHz] 

𝐷

𝛽

𝑦|𝑥 におけるy − 𝑥のグラフ

𝛽-divergence について

(43)

100 80 60 40 20 0  -d iver g e n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =3) 9x10 2 8 7 6 5 4 3 2 1 0  -d iver g e n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =4) 5x10 97 0  -d iver g e n ce -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =100) さらに𝛽を大きくすると,入力変数 𝑥 とデータ 𝑦 を 入れ替えたような性質になる 

𝐷

𝛽

𝑦|𝑥 におけるy − 𝑥のグラフ

𝛽-divergence について

(44)

𝛽-divergence の全ての 𝛽 において収束性が保障された更新式

𝛽-divergence規範NMF

[Nakano, et al., 2010]

(45)

分離する楽器の教師音を用いる手法

学習プロセス 目的の楽器の教師音を用いて 学習した基底 分離プロセス 教師基底 𝑭 を固定して 𝑮, 𝑯, 𝑼 を構成 [Kitamura, et al., 2013]

Penalized Supervised NMF (PSNMF)

(46)

分離する楽器の教師音を用いる手法

学習プロセス 目的の楽器の教師音を用いて 学習した基底 分離プロセス 教師基底 𝑭 を固定して 𝑮, 𝑯, 𝑼 を構成 [Kitamura, et al., 2013]

Penalized Supervised NMF (PSNMF)

(47)

音源分離デモ1

原曲

教師1

分離音1

教師2

実際の演奏曲を教師有りNMFで分解してみた.

(48)

音源分離デモ2

原曲(プロ演奏)

Saxのみを抜いた

伴奏部分

Copyright © 2014 Yamaha Corp. All rights reserved.

サックス奏者が 消えた!?

(49)
(50)

まとめ

音の知覚

– 両耳間時間差・両耳間音圧差 – 視覚との相互作用 

音場再現技術

– 両耳型・拡声型 

音源分離技術

音を理解する,音の場を作る,音を分離する

参照

関連したドキュメント

7月 10 日〜7月 17 日 教育学部芸術棟音楽演習室・.

活用のエキスパート教員による学力向上を意 図した授業設計・学習環境設計,日本教育工

ゼオライトが充填されている吸着層を通過させることにより、超臨界状態で吸着分離を行うもので ある。

目標を、子どもと教師のオリエンテーションでいくつかの文節に分け」、学習課題としている。例

「1.地域の音楽家・音楽団体ネットワークの運用」については、公式 LINE 等 SNS

英国のギルドホール音楽学校を卒業。1972

具体的な取組の 状況とその効果 に対する評価.

具体的な取組の 状況とその効果 に対する評価.