U055-3
全文
(2)
(3) iii. 目次 第 1 章 序論 1.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 本論文の構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 第2章 2.1 2.2 2.3. 一般的な雑音抑圧技術 指向性雑音と拡散性雑音 . . . . . . . . 指向性雑音抑圧 . . . . . . . . . . . . . 拡散性雑音抑圧 . . . . . . . . . . . . . 2.3.1 単一マイクロホンを用いた手法 2.3.2 複数マイクロホンを用いた手法. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 第 3 章 正方形マイクロホンアレイを用いた指向性雑音抑圧 3.1 2 個のマイクロホンを用いた指向性雑音抑圧 . . . . . . . . 3.1.1 アレイ処理 . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Spectral Subtraction . . . . . . . . . . . . . . . . . 3.2 3 個のマイクロホンを用いた指向性雑音抑圧 . . . . . . . . 3.3 指向性雑音抑圧実験 . . . . . . . . . . . . . . . . . . . . . 3.3.1 実験状況 . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 2ch 手法と 3ch 手法による指向性雑音抑圧実験結果 3.3.3 従来の指向性雑音抑圧手法との比較結果 . . . . . .. . . . . .. . . . . . . . .. . . . . .. . . . . . . . .. . . . . .. . . . . . . . .. . . . . .. . . . . . . . .. 1 1 4. . . . . .. 7 7 10 15 16 19. . . . . . . . .. 23 23 24 27 28 31 31 33 34. 第 4 章 正方形マイクロホンアレイを用いた拡散性雑音抑圧 4.1 空間フィルタの出力を利用した multi-channel 型と single-channel 型 Wiener filter の統合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 空間フィルタ群の形成 . . . . . . . . . . . . . . . . . . . . . 4.1.2 空間フィルタ群の出力を利用した multi-channel 型 Wiener filter 4.1.3 single-channel 型 Wiener filter による残留ノイズ除去 . . . . 4.2 拡散性雑音抑圧実験 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 実験状況 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 単語正解精度による提案手法の性能評価 . . . . . . . . . . .. 37 38 38 40 42 45 45 47.
(4) iv 4.2.3. PESQ-MOS による提案手法の性能評価 . . . . . . . . . . . . 48. 第 5 章 指向性雑音抑圧と拡散性雑音抑圧の統合 5.1 問題設定とマイクロホン配置 . . . . . . . . . . . . . . . . . . . . 5.2 正方形マイクロホンアレイを用いた音声強調手法 . . . . . . . . . 5.2.1 空間フィルタ群の形成 . . . . . . . . . . . . . . . . . . . . 5.2.2 空間フィルタ群の選択による指向性雑音抑圧 . . . . . . . . 5.2.3 空間フィルタの出力を利用した multi-channel 型 Wiener filtering による拡散性雑音抑圧 . . . . . . . . . . . . . . . . 5.2.4 single-channel 型 Wiener filtering による残留ノイズ除去 . . 5.3 指向性と拡散性の雑音が混在する環境下での雑音抑圧実験 . . . . 5.3.1 実験状況 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 提案手法の各段階での雑音抑圧性能 . . . . . . . . . . . . . 5.3.3 提案手法と他の雑音抑圧技術との比較 . . . . . . . . . . .. . . . .. 51 52 53 54 55. . . . . . .. 56 57 58 58 59 65. 第 6 章 結論と今後の課題 69 6.1 結論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 6.2 今後の課題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 付 録 A 拡散性雑音のコヒーレンス関数の導出 73 A.1 無指向性マイクロホン . . . . . . . . . . . . . . . . . . . . . . . . . 73 A.2 指向性マイクロホン . . . . . . . . . . . . . . . . . . . . . . . . . . 75 付 録B B.1 B.2 B.3 B.4. 本論文における実験の手順の解説 インパルス応答計測 . . . . . . . 評価音声作成 . . . . . . . . . . . 分離処理 . . . . . . . . . . . . . . 評価 . . . . . . . . . . . . . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 79 79 80 83 85. 謝辞. 87. 参考文献. 89. 研究業績. 93.
(5) v. 表目次 2.1 記号の定義. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 3.1 他の指向性雑音抑圧手法と提案手法との比較結果. . . . . . . . . . 36.
(6)
(7) vii. 図目次 2.1 指向性雑音と拡散性雑音のマイクロホンアレイへの到達. . . . . . 2.2 (a)(b) 目的音声の時間波形とスペクトログラム,(c)(d) 指向性雑音を 重畳した音声の時間波形とスペクトログラム (SNR = 5 dB),(e)(f) 拡散性雑音を重畳した音声の時間波形とスペクトログラム (SNR = 10 dB). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 3.1 各信号とマイクロホンアレイの配置. . . . . . . . . . . . . . . . . 3.2 提案手法ブロック図 (two-channel method). . . . . . . . . . . . . . 0 (f = 2000 Hz, dmic 3.3 各空間フィルタの指向特性 φB12 , φB21 , φN12 , φS12 = 4 cm, τ = 3/32k sec). . . . . . . . . . . . . . . . . . . . . . . . 0 3.4 SS 後の出力 |S12 (ω, k)| に生じる周波数軸上の歪の例 (τ = 3/32k sec). 3.5 正方形マイクロホンアレイのマイク配置 . . . . . . . . . . . . . . . 3.6 提案手法ブロック図 (three-channel method). . . . . . . . . . . . . 3.7 目的音声と指向性雑音の収録環境.θ = 0◦ , 30◦ , 60◦ , 90◦ , 120◦ , 150◦ , 180◦ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8 目的音声,指向性雑音,マイクロホンアレイの位置関係.θ = 0◦ , 30◦ , 60◦ , 90◦ , 120◦ , 150◦ , 180◦ , φ = 30◦ . . . . . . . . . . . . . . . . . 3.9 2 話者同時発話における単語正解精度. . . . . . . . . . . . . . . . . 3.10 2 話者同時発話における PESQ-MOS. . . . . . . . . . . . . . . . .. 24 25. 4.1 提案手法ブロック図 (拡散性雑音抑圧). . . . . . . . . . . . . . . 4.2 形成する空間フィルタ群のパターン. . . . . . . . . . . . . . . . 4.3 無指向性マイクロホンを用いた場合と空間フィルタの出力を用いた 場合の拡散性雑音の magnitude-squared coherence (MSC) の理論値 (マイク間隔 4 cm). . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 音声存在確率 SPP と雑音更新パラメーター λ の振るまい. : (a) マ イクロホン観測信号 (SNR = 10 dB) (b) SPP (c) 雑音更新パラメー ター λ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 各 SNR における拡散性雑音重畳音声に対し,各手法を施したとき の単語正解精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 26 28 29 30 32 32 34 35. . 38 . 39. . 41. . 44 . 47.
(8) viii 4.6 各 SNR における拡散性雑音重畳音声に対し,各手法を施したとき の単語正解精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 5.1 各章での実験に使用した正方形マイクロホンアレイ. . . . . . . . . 5.2 提案手法ブロック図 (指向性雑音,拡散性雑音抑圧). . . . . . . . . 5.3 提案手法の各段階毎の出力波形 : (a) 目的音声,(b) 雑音重畳音声 (SNRdir = 5 dB, SNRdif = 15 dB),(c) 指向性雑音抑圧処理後音声, (d) 拡散性雑音抑圧処理後音声,(e) 残留ノイズ除去後音声. . . . . 5.4 提案手法による段階毎の単語正解精度 (SNRdir = 10 dB, SNRdif = 10 dB, SNRtotal = 3.98 dB). . . . . . . . . . . . . . . . . . . . . . . 5.5 提案手法による段階毎の単語正解精度 (SNRdir = 10 dB, SNRdif = 15 dB, SNRtotal = 6.12 dB). . . . . . . . . . . . . . . . . . . . . . . 5.6 提案手法による段階毎の単語正解精度 (SNRdir = 10 dB, SNRdif = 20 dB, SNRtotal = 7.61 dB). . . . . . . . . . . . . . . . . . . . . . . 5.7 提案手法による段階毎の PESQ-MOS (SNRdir = 10 dB, SNRdif = 10 dB, SNRtotal = 3.98 dB). . . . . . . . . . . . . . . . . . . . . . . 5.8 提案手法による段階毎の PESQ-MOS (SNRdir = 10 dB, SNRdif = 15 dB, SNRtotal = 6.12 dB). . . . . . . . . . . . . . . . . . . . . . . 5.9 提案手法による段階毎の PESQ-MOS (SNRdir = 10 dB, SNRdif = 20 dB, SNRtotal = 7.61 dB). . . . . . . . . . . . . . . . . . . . . . . 5.10 各 SNRdif での従来手法,提案手法を施した際の単語正解精度 . . . 5.11 各 SNRdif での従来手法,提案手法を施した際の PESQ-MOS . . . .. 53 54. 60 62 62 63 63 64 64 66 66. A.1 無指向性マイクロホンに到達する信号 . . . . . . . . . . . . . . . . 73 A.2 指向性マイクロホンに到達する信号 . . . . . . . . . . . . . . . . . . 75 B.1 マイクロホンの配置図 . . . . . . . . . . . . . . . . . . . . . . . . . 83.
(9) 1. 第 1 章 序論 1.1. 背景. 近年音声認識技術,雑音抑圧技術の発展に伴い,携帯電話等の携帯端末や TV 等 の家電製品のリモコンの操作に音声認識を適用することが期待されている.また 音声認識だけでなく,TV 電話やハンズフリー電話等,周囲の雑音環境に影響を受 けず目的とする話者の音声のみを伝達する音声強調技術の実現も期待されている. 上述した使用状況では,機器類に設置された発話収集用のマイクロホンは必ずし も発話者の口元付近にあるとは限らない.この結果,目的音声と周囲雑音の SNR はマイクロホンが口元付近にある場合と比べ,極端に下がり,音声認識の失敗,雑 音を含んだままの音声の伝達等の問題を引き起こす.これらの問題を解決をする には,マイクロホンに入力された信号に対して信号処理を施し,目的音声と周囲 雑音を分離することで目的音声のみを得る手法や,雑音環境にロバストな音声認 識手法を適用する必要がある.本研究では,上述したような SNR が低い状況にお いても,周囲雑音を含まない目的音声のみの信号を抽出することができ,かつ高 い音声認識率を実現することを可能とする携帯端末向け音声強調技術の実現を目 標とする. 一般的に雑音を抑圧し,目的音声のみを抽出する技術として,多数のマイクロ ホンを直線上や円状に配置したマイクロホンアレイを用いた技術が多く報告され ている [1].マイクロホンアレイを用いた音声強調技術は,単一のマイクロホンを 用いた場合に比べ,計算コスト,雑音抑圧性能共に優れたパフォーマンスを発揮 する技術として現在も盛んに研究が行われている.しかしながら,多数のマイク.
(10) 第1章. 2. 序論. ロホンを用意する必要があり,装置の規模が大きくなってしまうという欠点を有 する.携帯端末に搭載することを考慮すると,以下のような制約条件が挙げられ る.まず携帯端末は設置面積が限られるため,マイクロホンアレイを使用する場 合のマイクロホン数,マイク間隔に制限が生じる.加えて,よりロバスト性を高 めるためにはできるだけ少ないマイクロホン数,小さなマイク間隔であることが 要求される.次に,迅速な音声認識や音声伝達を実現させるためには,携帯端末 上で音声強調処理を行えることが望ましく,そのためには音声強調処理のアルゴ リズムはできるだけ少ない計算コストである必要がある.適応や学習等,複雑な 計算を必要としないアルゴリズムは,突発性ノイズの発生等にも追従がしやすく, その点でも有用である.最後に,携帯端末の性質上,使用する環境は屋内,屋外 問わず様々な種類が考えられ,それら全てで使用できることが求められる.環境 雑音は様々な性質の雑音が存在し,特に指向性雑音と拡散性雑音の二種類に大き く大別できる.例として,指向性雑音は目的話者以外の話者の発話や,TV,オー ディオ等の点音源とみなせるものから発せられるもの,拡散性雑音は部屋の空調 の音や,部屋に響く PC のファンノイズ,屋外での道路や駅の騒音等がそれぞれ挙 げられる.目標とする携帯端末向けの音声強調システムは,このような雑音の性 質に関わらず,雑音を抑圧できることが必要不可欠である. 指向性雑音を抑圧する技術として,複数のマイクロホン間で生じる差を利用し た技術が多く報告されている [4–8].Griffiths らは Delay and Sum 法によって得た 目的音声強調フィルタと減算型空間フィルタによって得たブロッキングフィルタの 出力を利用し,それぞれの差が最小となるように適応フィルタリングを行うこと で指向性雑音の抑圧を行った [4].また浅野らは,二系統の空間フィルタの出力を 周波数領域で減算することで指向性雑音の高い抑圧効果を得た [5].また近年,人 間の音声は時間-周波数領域で分析すると疎に分布しており,時間波形上では重な りあっている複数話者同士の発話でも,時間-周波数領域では重なりが少ないとう いう性質を利用した手法が報告されている [6–8].この性質を利用することで,各.
(11) 1.1 背景. 3. 時間-周波数 bin の成分がどの音源によるものかわかりさえすれば,目的とする音 源の成分のみを通過させるフィルタを設計するだけで雑音抑圧が可能なため,抑 圧効果の向上のみだけでなく計算コスト削減にも大きく貢献している. 拡散性雑音を抑圧する技術としては,単一マイクロホンを用いたものと,複数 マイクロホンを用いたものに大別できる.単一マイクロホンを用いた手法として,. Boll らは拡散性ノイズは比較的定常であり,かつ目的音声とは無相関であること を仮定し,あらかじめ推定しておいた雑音のスペクトルを周波数領域で減算する ことで雑音抑圧を行った [9].Boll らが提案した Spectral Subtraction (SS) は広く 研究され改善,応用がなされている [10–17].また Ephraim らは,過去の時間情 報を利用した decision directed 法によって推定した a prioriSNR を用いて Wiener. filter を設計することで,Spectral Subtraction で発生する musical noise を大きく 低減する手法を提案している [18–20].また複数のマイクロホンを用いた手法とし て,拡散性雑音は,複数のマイクロホン間では相関が無いという仮定を利用した,. multi-channel 型の Wiener filter を設計する手法が Zelinski によって提案されてい る [21].しかし,Zelinski の仮定は,マイクロホン間隔が狭い場合や,低周波数領 域で成り立たなくなり,それに対する解決案が提案されている [22–25]. 上述した従来技術は,決められた条件で,個々の雑音が存在する場合において は,非常に高い雑音抑圧効果を発揮する.しかし,これらの技術をそのまま携帯 端末の音声強調システムに適用することはできない.なぜなら複数マイクロホン を用いる手法では,携帯端末ではマイク間隔が狭くなり十分な性能が期待できな いからである.また単一のマイクロホンを用いる手法では,雑音成分の推定のた めに多大な計算コストを必要としてしまう.加えて突発的な指向性雑音には対応 できないという問題もある.さらに,実環境においてそれぞれの雑音が個々に存 在することは極めて稀であるという問題もある.したがって,このような,個々 の雑音に対する雑音抑圧性能面での問題を解決すると同時に,それぞれの雑音抑 圧のアルゴリズムが親和性の高い形で組み合わされ,どちらの種類の雑音にも対.
(12) 第1章. 4. 序論. 応できる枠組を持った音声強調システムが求められる. 本論文では,4 個の無指向性マイクロホンを正方形の各頂点に配置した正方形 マイクロホンアレイを用いた複数の新しい携帯端末向け音声強調技術を提案する. このマイクロホンアレイは各辺が 4 cm の正方形で,非常にコンパクトな配置であ るため,設置面積が限られる携帯端末にも設置することが可能である.このマイ クロホン配置を積極的に利用することで,まず指向性雑音,拡散性雑音が単独で 存在する場合における,新しい音声強調手法を提案する.これらは上述した,マ イクロホン配置を利用して得られる,特性の異なる空間フィルタを最大限に利用 することで,高性能に指向性雑音,拡散性雑音をそれぞれ抑圧することが可能と なる.さらに,これらの手法から得られた知見を利用して,指向性雑音抑圧と拡 散性雑音抑圧をそれぞれ親和性の高い形で統合することで,両雑音に対して頑健 な音声強調技術を提案する.. 1.2. 本論文の構成. 本論文は 6 章から構成されている. 第 2 章ではまず,従来から存在する一般的な音声強調技術について述べる.指 向性雑音を抑圧する技術は,主にマイクロホンアレイを用いた手法が一般的であ る.これはマイクロホンアレイを用いることで,複数のマイクロホン間に生じる 振幅差,位相差を有効に使用できるため,計算コストを削減できることに起因す る.また拡散性雑音を抑圧する技術は,単一マイクロホンを用いた手法と,マイ クロホンアレイを用いた手法が存在する.マイクロホンアレイを用いる利点は指 向性雑音抑圧技術の場合と同様である.単一マイクロホンを用いる手法は,拡散 性雑音は主に定常的であり,音声との相関は無いと仮定することで,あらかじめ 推定した雑音成分を減算することで,雑音を抑圧できる.これは雑音の推定が高 精度な場合,高い雑音抑圧効果を得られる.これら代表的な雑音抑圧技術につい て本章では概説するとともに,これらの技術を携帯端末に搭載する際に生じる問.
(13) 1.2 本論文の構成. 5. 題について述べる. 第 3 章では,マイクロホンペアから得られる,複数の空間フィルタと,SS を利 用した指向性雑音抑圧手法を提案する.複数の空間フィルタリングと SS を組み合 わせることで,マイク間隔が小さい場合においても,目的音声方向に急峻なビー ムを向ける指向性を得ることが可能となる.提案する指向性雑音抑圧手法の性能 を,従来の手法との比較を交え,連続音声認識性能と PESQ [26] による音質の尺 度で評価した. 第 4 章では,4 通りのマイクロホンペアの減算処理によって形成された,指向特 性の異なる 4 種類の空間フィルタ群の出力を用いた multi-channel 型の Wiener filter と single-channel 型の Wiener filter を組み合わせた,拡散性雑音抑圧手法を提案す る.マイク間隔がせまくなればなるほど,性能が劣化する multi-channel 型 Wiener. filter と雑音の定常性の仮定と推定を要する single-channel 型の Wiener filter を組 み合わせることで,それぞれを単独に用いた場合の短所を補う.さらに,空間フィ ルタ群の出力を用いた multi-channel 型の Wiener filter を用いることで他の手法と 比べた場合の優位性を拡散性雑音抑圧実験によって示す. 第 5 章では,第 3 章,第 4 章で提案した,指向性雑音抑圧手法と拡散性雑音抑圧 手法から得られた知見を利用した,両雑音を対象とした統合手法を提案する.4 通 りのマイクロホンペアの減算処理によって形成された指向特性の異なる 4 種類の 空間フィルタ群を,指向性雑音,拡散性雑音抑圧に用いる.まず指向性雑音の抑 圧は,4 種類の空間フィルタ群の出力信号を時間-周波数領域において,最小化選 択を行うことで実現する.これは,提案手法において自然に導出可能な仮定とし て,4 種類の出力信号のパワーは,指向性の音源の到来方向にのみ依存することを 利用した処理である.同時に,拡散性雑音の抑圧は,4 種類の空間フィルタ群の出 力信号を用いた multi-channel 型の Wiener filtering で実現する.最後に前述した 二つの処理で残留したノイズを,single-channel 型の Wiener filtering を適用し,除 去することで所望とする音声を高精度に得る.提案する指向性雑音抑圧と拡散性.
(14) 第1章. 6. 序論. 雑音抑圧統合手法の性能を,音声認識性能と PESQ による評価で行い,さらに他 の従来手法との比較を,指向性雑音と拡散性雑音が混在する環境で実験を行った. 第 6 章で結論と今後の課題をまとめる.本論文の結論を延べ,提案する種々の 音声強調手法を,実用的な観点で見た場合,どのような問題が挙げられるのかに ついて述べる..
(15) 7. 第 2 章 一般的な雑音抑圧技術 本章では指向性雑音もしくは,拡散性雑音抑圧を志向した従来の雑音抑圧技術に ついて述べる.各種の雑音抑圧は雑音の性質を利用したものであり,まず始めに 指向性雑音,拡散性雑音の性質について述べた後,マイクロホンアレイを用いた 指向性雑音抑圧技術,単一マイクロホンまたはマイクロホンアレイを用いた拡散 性抑圧技術について,それぞれ述べる.なお,ここで紹介する手法は,計算量や, マイクロホンアレイ規模等の点で,性能は無視し,現実的に携帯端末に搭載し得 る手法であり,かつ,次章から解説する提案手法の要素技術と成り得る手法に限っ て選択した. 表 2.1 にて式の記述に用いる記号について定義する.なお,t は離散時間,ω は 周波数ビン,k は短時間フレームのインデックスをそれぞれ表す.また N はマイ クロホンアレイのマイクロホン総数である.. 2.1. 指向性雑音と拡散性雑音. 指向性雑音,拡散性雑音の性質について述べる.指向性雑音は,点音源とみな すことができるものから発せられる音声,もしくは雑音である.例えば,目的と する話者以外の人物の話声やテレビやオーディオから発せられる音声や音楽等が 挙げられる.一方,拡散性雑音は,特定の到来方向を有しない雑音である.例と しては,室内ならば空調や PC ファンのノイズ,室外ならば,人混みや駅構内等 の雑音である.これらの雑音が存在する場において,目的とする話者が音声収集 装置に向けて発声している様子を図 2.1 に,指向性雑音の場合と拡散性雑音の場合.
(16) 第 2 章 一般的な雑音抑圧技術. 8. 表 2.1 記号の定義.. x(t) X(ω, k) xi (t) Xi (ω, k) s(t) S(ω, k) n(t) N (ω, k) sˆ(t) ˆ S(ω, k). マイクロホンの観測信号 x(t) の周波数領域表現 マイクロホンアレイにおける i 番目のマイクロホンでの観測信号 (i = 1, …, N ) xi (t) の周波数領域表現 目的音声信号 s(t) の周波数領域表現 雑音信号 n(t) の周波数領域表現 (雑音抑圧処理による) 推定目的音声信号 sˆ(t) の周波数領域表現. target voice. target voice directional noise. diffuse noise. …. …. 図 2.1 指向性雑音と拡散性雑音のマイクロホンアレイへの到達.. をそれぞれ示す.ここで,簡単のため目的音声はマイクロホンアレイにて同相化, つまり正面方向から到来しているものとする.指向性雑音の場合,目的音声はマ イクロホンアレイの正面,雑音はそれ以外の方向から到来することから,各マイ クロホンで観測される信号は,目的音声信号は全て同一,指向性雑音信号はマイ ク間隔と到来方向に応じた位相差もしくは遅延をともなうことがわかる.このよ.
(17) 2.1 指向性雑音と拡散性雑音. 9. . Frequency [Hz].
(18) .
(19) . . . . . . sample point. (a). . . . . . . . . . *' (. +. +' (. >; <. ?. ?; <. Time [sec]. (b). .&&& -&&& Frequency [Hz].
(20) $ %. #
(21) $ %. +&&& *&&& ) &&&. # . . . . . sample point. (c). 3. &' (. ! ". ). ) '(. * Time [sec]. (d). B::: A::: Frequency [Hz]. 4
(22) 8 9 4 7 4
(23) 8 9 7 3. (&&& ,&&&. <::: @::: ?::: >::: = :::. /. 0. 1. 2. sample point. (e). 34. 3/ 5 34 6. :; <. =. = ;<. > Time [sec]. (f). 図 2.2 (a)(b) 目的音声の時間波形とスペクトログラム,(c)(d) 指向性雑音を重畳 した音声の時間波形とスペクトログラム (SNR = 5 dB),(e)(f) 拡散性雑音を重畳 した音声の時間波形とスペクトログラム (SNR = 10 dB).. うに指向性雑音は複数のマイクロホンで観測すれば,各観測信号に差が生じるた め,これを有効に活用できることから,マイクロホンアレイを用いて雑音抑圧を おこなう手法が一般的である.また,拡散性雑音については単一マイクロホンを 用いた手法とマイクロホンアレイを用いた手法が存在する. 次に,指向性雑音もしくは拡散性雑音が存在する場において,発声された音声 を観測した信号を時間波形と周波数領域で分析したものを図 2.2 に示す.ここで, 目的音声,指向性雑音はそれぞれ別の発話であり,目的音声と指向性雑音の SNR は 5 dB,拡散性雑音はサーバールームで収録した雑音であり,目的音声と拡散性.
(24) 第 2 章 一般的な雑音抑圧技術. 10. 雑音の SNR は 10 dB である.これによると,指向性雑音は時間波形では突発的で り,目的音声に重なっているが,時間-周波数領域で分析すると,目的音声との重 なりはそれほど無いことがわかる.また,拡散性雑音は指向性雑音の場合と比べ, 時間-周波数領域で分析すると,ほぼ全周波数帯域に均等に分布しており,目的音 声の上に重なっている様子がわかる.しかし,時間軸上での変化はあまり無く,比 較的定常である性質がわかる. 以上で述べた各雑音の性質は,従来提案されている雑音抑圧技術でふんだんに 利用されている.. 2.2. 指向性雑音抑圧. 指向性雑音は前述したように,マイクロホンアレイを用いることが効果的であ る.Delay and Sum (DS) 法は,目的とする方向に感度を向ける最も単純なビーム フォーミング手法である.マイクロホンアレイの各観測信号の和をとり,平均化 することで,正面方向からの目的信号は同相化され強められ,その他の方向から 到来する信号は各観測信号で位相が異なるため弱められる. N 1 X ˆ Xi (ω, k) S(ω, k) = N i=1. (2.1). DS 法は非常に単純な処理で,目的とする方向にビームを向けることができる手法 ではあるが,実用的な性能を実現するためには,非常に大きなマイクロホンアレ イを用い,大量のマイクロホンを用意する必要がある.. DS 法のようにある特定の方向のみの感度をあげようとすると,装置規模が大き くなってしまう.それに対してある特定の方向だけの感度を下げることは,二つ のマイクロホンがあれば実現できる.二つのマイクロホンの観測信号を減算すれ ば,各マイクロホンに同相で入力した信号は打ち消しあい,相殺される.これは 減算型の空間フィルタまたは減算型のビームフォーミングと呼ばれ,マイクロホ ンアレイの規模が小さい場合でも,有効に雑音を抑圧できる手法である.除去す.
(25) 2.2 指向性雑音抑圧. 11. べき信号が,二つのマイクロホンに,ある遅延量 τ に相当する方向から到来する 場合,片側のマイクロホン観測信号に τ を付加し,減算すれば,その信号を抑圧 することができる.. sˆ(t) = x2 (t − τ ) − x1 (t). (2.2). なお,任意の方向からの雑音を除去するためには,指向性雑音の到来方向を予測 する枠組みがシステムに含まれていることが必要である.. 適応ビームフォーマー 上述した減算型ビームフォーマーは雑音の到来方向が必要である.これに対し て,マイクロホンアレイの観測信号それぞれにある適応フィルタ係数をかけ,目 的音声方向の利得は 1 となる拘束条件を保った上で,ビームフォーマーの出力が 最小となるよう,適応的な処理を行っていくことで,結果として,指向性雑音方 向に死角を向けるような枠組を持った,適応ビームフォーマーの技術が存在する. 代表的なものとして,アレーアンテナ信号処理の技術から由来する Directionally. Constrained Minimization of Power(DCMP) がある [2].DCMP は目的音声方向で の応答を 1 と拘束した上で,出力を最小にする適応フィルタ係数を算出する.こ こで,. X(t) =. h. x1 (t) x2 (t) · · · xN (t). iT. (2.3). としたとき,出力は. sˆ(t) = WT X(t). (2.4). のように表せ,最適なフィルタ係数は, −1 ∗ −1 −1 ∗ C) H C (CT Rxx Wopt = Rxx. (2.5). となる.ここで,T は転置を表す.また,Rxx は観測信号ベクトルの共分散行列,. C は拘束ベクトル,H は拘束応答ベクトルを表す..
(26) 第 2 章 一般的な雑音抑圧技術. 12. DCMP は,目的音声方向に対して,1 という応答しか許容していない.そこで, 金田らは,目的音声方向の拘束条件にある程度の許容を許すことで,大幅な雑音 抑圧効果を得られる,AMNOR 方式を提案した [3].. Z π 1 D = |1 − F (ω)|2 dω 2π −π ≤ Dth. (2.6). ここで,D は拘束として定めた値と拘束応答 F (ω) の 2 乗誤差である.この誤差成 分 Dth を一定値以下に抑える規準で適応フィルタを更新していくことで,目的音 声方向の信号に対し,周波数成分である程度の歪を許容する代わりに,大きな雑 音抑圧効果を得る. ただし,適応ビームフォーマー全体の問題として,雑音区間中にその方向への 死角を向ける処理を行うため,発話区間検出が必須となることが挙げられる.. Griffiths-Jim 型ビームフォーマー Griffiths らは,DS 法で除去しきれない指向性雑音を,減算型ビームフォーマー から得られた雑音成分を適応的に減算することで除去する,Griffiths-Jim 型ビー ムフォーマーを提案した [4].まず DS 法による目的音声強調フィルタと,減算型 ビームフォーミングによる目的音声抑圧フィルタ (ブロッキングフィルタ) の出力 を得る.目的音声強調信号 d(t) と目的音声抑圧信号 u(t) とのエラー出力が最小と なるように,フィルタ係数を適応的に求める. Mtap. sˆ(t) = d(t − Q) −. X. WGJBF (t)u(t). (2.7). t=1. ここで,Q は除去に必要な因果律を満たすように,ビームフォーミングや適応フィ ルタの遅延を補償するための遅延サンプル数である.また,WGJBF (t) は適応フィ ルタの係数,Mtap はタップ数である.Griffiths-Jim 型ビームフォーマーは雑音信 号成分を目的音声抑圧フィルタによって得ているため,雑音区間の検出は必要な.
(27) 2.2 指向性雑音抑圧. 13. い.また,適応ビームフォーマーと同様に目的音声方向に対する拘束条件にある 程度の誤差を許容することで,性能を向上させている.. 2ch 型の Spectral Subtraction 浅野らは,マイクロホン観測信号と目的音声抑圧信号を周波数領域で減算する. 2ch 型の Spectral Subtraction (2ch-SS) を提案した [5].ブロッキングフィルタ中 に含まれる指向性雑音成分は,減算型のビームフォーミングによる周波数領域で の歪を含むため,観測信号中に含まれるものとは異なる.そこで,その歪を補正 項によって補正した後,観測信号から雑音成分を SS する.. ˆ k)|2 = |XL (ω, k)|2 − |N ˆ2ch−SS (ω, k)|2 |S(ω,. (2.8). ˆ2ch−SS (ω, k)|2 = [XL (ω, k) − XR (ω, k)]2 /|1 − ejωτ |2 |N. (2.9). ここで XL (ω, k),XR (ω, k) はそれぞれ目的音声の正面に配置された,2 個のマイ クロホンの観測信号を表す.. 上述した適応ビームフォーマー,Griffiths-Jim 型ビームフォーマーや 2ch-SS は,. DS 法もしくは減算型ビームフォーミング等の技術が基になっている.しかし,こ れらの技術の雑音抑圧性能はマイクロホンアレイの規模に大きく依存するため,装 置規模にロバストではない.近年では,図 2.2 で示したような,人間の音声は時間周波数領域では疎に分布しているという仮定を積極的に利用した手法が提案され ている.ある複数話者の混合音声を分析したとき,上述した音声のスパース性の 仮定が成り立っているならば,各時間-周波数ビンに着目した場合,その成分はあ る特定の 1 音源の成分のみが優勢であると考えられる.したがって,何らかの方 法で各時間-周波数ビンの成分がどの音源によるものなのかがわかりさえすれば,0 と 1 のバイナリー型のマスキングを行うことで,所望とする音源のみを抽出する ことができる.このような時間-周波数マスキングを用いることで,装置規模に関 係なく高精度に特定の音声のみを抽出できる..
(28) 第 2 章 一般的な雑音抑圧技術. 14. 複数マイク間に生じた強度差を利用した時間-周波数マスキング 青木らは所望とする音声と,それ以外の音声または雑音を装置上の工夫によっ て,複数のセンサーに強度差をつけた状態で観測し,それら複数のセンサーの情 報を用いて時間-周波数マスキングを行った [6].例として,複数の話者にそれぞれ 指向性を向けた指向性マイクロホンを設置する等が挙げられる.話者 A 側に指向 性を向けた指向性マイクロホンの入力信号を XA (ω, k),話者 B 側に指向性を向け た指向性マイクロホンの入力信号を XB (ω, k) としたとき,ある時間-周波数 bin に おいて,話者 A の音声が優勢ならば,その bin では,|XA (ω, k)| > |XB (ω, k)| とな るはずである.したがって話者 A を目的音声とした場合,以下のように話者 A の 成分を抽出する時間-周波数マスクを生成できる. ( 1, |XB (ω, k)| < |XA (ω, k)| M (ω, k) = 0, otherwise. (2.10). このようにして得られた時間-周波数マスクを観測信号のスペクトルにかけること で,目的音声の成分のみを通過させ,雑音をマスキングすることができる.. ˆ k) = M (ω, k) · XA (ω, k) S(ω,. (2.11). 複数マイク間に生じた位相差を利用した時間-周波数マスキング. Yilmaz らは,マイクロホンアレイの各観測信号に生じる音声の位相差に着目し た時間-周波数マスキングを提案した [7].これは,青木らの手法と比較して,目 的音声を強調するような装置上の工夫は必要なく,マイクロホン間の位相差から, 音源の到来方向を推定し,それから時間-周波数マスクを生成する.ある時間-周波 数 bin における,位相差が所望とする音源方向と対応したものならば,その bin を 通過させるようなマスクを生成する.マイクロホンアレイ正面方向を 0 °とした場 合,信号の到来方向 θT F mask (ω, k) は以下のように求まる.. θT F mask (ω, k) = sin−1. ϕ(ω, k)c 2πf dij. (2.12).
(29) 2.3 拡散性雑音抑圧. 15 ϕ(ω, k) = ∠. Xi (ω, k) (i 6= j) Xj (ω, k). (2.13). ここで,c は音速,f は周波数,dij はマイクロホン i と j のマイク間距離である. 得られた到来方向に基づいて,以下のような時間-周波数マスキングを行う. ( 1, θtarget − δ < θT F mask (ω, k) < θtarget + δ M (ω, k) = (2.14) 0, otherwise. θtarget は目的とする信号の到来方向であり,δ は目的音声と許容する到来方向の範 囲である.最後にマスキングを行い所望とする音声を抽出する.. ˆ k) = M (ω, k) · Xi (ω, k) S(ω,. (2.15). このように音声のスパース性の仮定を利用した手法は,従来のビームフォーミ ングと比べ,複数のセンサーが必要という点では優位性は無いが,マイク間隔が 小さい場合でも,少しの差が生じれば,マスクを生成できるため,小規模なマイ クロホンアレイへの適用に向いている.一方で,線形処理であるビームフォーミ ングと比べ,時間-周波数マスキングは非線形の処理となるため,仮定が全く成り 立たない環境では,目的音声成分をマスクしてしまう等,著しく性能を劣化させ てしまう恐れもある.. 2.3. 拡散性雑音抑圧. 拡散性雑音抑圧技術は,単一マイクロホンを用いた手法と,マイクロホンアレ イを用いた手法が存在する.単一マイクロホンを用いた手法は,拡散性雑音の時 間的定常性と無相関性に基づいて,雑音抑圧を行う.マイクロホンアレイを用い た手法は,拡散性雑音のマイクロホン間での無相関性,つまり空間的無相関性に 基づいてる.以下,それぞれについて詳しく述べる..
(30) 第 2 章 一般的な雑音抑圧技術. 16. 2.3.1. 単一マイクロホンを用いた手法. 拡散性雑音は一般的に比較的定常的であることが考えられるため,非発話区間 中に雑音成分を推定して,それを雑音除去に用いることが可能なため,単一マイ クロホンを用いた手法が数多く存在する.. Spectral Subtraction 単一マイクロホンを用いた手法として,最も単純なものは,Boll が提案した Spec-. tral Subtraction (SS) である [9].まず,発話が存在しない区間において,雑音の みのスペクトルを得る.例としては,Voice Activity Detection (VAD) 等を用いて 非発話区間を定め,その区間における周波数 bin 毎のスペクトルの平均値,すなわ ち雑音成分のパワースペクトルの推定値を得る.このようにして得られた雑音成 分の推定値を入力信号のパワースペクトルから周波数領域における減算を行うこ とで,目的音声の推定パワースペクトルを得る.. ˆ k)|2 = |X(ω, k)|2 − |N ˆ (ω, k)|2 |S(ω,. (2.16). Boll による SS は雑音が完全に定常的であるならば,観測信号に含まれる雑音を とても単純な処理で除去することが可能である.しかし,取り扱う雑音の分散が 大きい場合,推定値として平均値を用いているため,誤差が生じることになる.こ の誤差は,周波数領域上でランダムに発生し,SS で消し残した成分は,時間- 周波 数領域上で孤立した成分として存在する.これは自然現象では起き得ない現象で あり,人間が耳にした場合,大きく耳障りなノイズとなる.これは musical noise と呼ばれ,SS を使用する上での大きな問題となっている.. Berouti らは,推定雑音成分をそのまま観測信号から減算するのでなく減算成 分を定数倍するようなサブトラクション係数を導入して,SS を行う over spectral. subtraction を提案した [10].サブトラクション係数は,Siganl to noise ration (SNR).
(31) 2.3 拡散性雑音抑圧. 17. に基づいて決定される 1 以上の数である.. ˆ k)|2 = |X(ω, k)|2 − α|N ˆ (ω, k)|2 |S(ω,. (2.17). SNR が小さいとき,その区間では発話成分は無く,雑音のみであると考えられる. そのとき,サブトラクション係数 α の値が大きくなることで,雑音成分の分散が 大きい場合においても,全て引き去ることができるため,musical noise が大きく 目立つのを防ぐことができる.一方,SNR が大きいとき,雑音成分を大きく減算 をする必要はないため α は 1 となる.この over spectral subtraction の考えは後に 大きく応用され,SS 処理音声の音質,musical noise の低減に大きく貢献している.. Virag らはサブトラクション係数に加え,SS 後の音声の減算に下限値を設け,さら にそれらの値を聴覚的な特性に応じて決定した [11].Cho らは,マイクロホンア レイの各観測信号それぞれに SS を行い,その出力信号に DS 法を適用することで, 定常的な雑音と指向性の雑音の除去を試みた [12].山ノ内らは発話区間中にて雑音 成分が推定雑音から,変化していくことに追従するため,音声成分が存在しない超 高域,または超低域の変化を参照しながらサブトラクション係数を変える手法を 提案している [13, 14].また,SS によって生じる musical noise を SS の後処理とし て除去する手法が,Zenton や Udera らによって,提案されている [15,16].musical. noise は時間-周波数領域では孤立するものであり,前後時間フレームまたは前後の 周波数で分析し,突発的に発生しているならば,それを消すことで,musical noise を抑圧することが可能である.. MMSE に基づく single-channel 型 Wiener filter SS は短時間フレーム毎の情報しか用いていない.したがって,突然出力のパワー スペクトルが大きくなったり,小さくなる等の不自然な状況に対応できない.出力 信号は不連続な信号はとらず,時間的に連続な振るまいをすることが予測できる. つまり,過去の情報を利用して過去からの振るまいと大きく異なるような現象を 防ぐ枠組を導入することで,不自然なスペクトル,musical noise の発生を防げる.
(32) 第 2 章 一般的な雑音抑圧技術. 18. はずである.Ephraim らは,過去の時間情報を利用する Decision Directed (DD) 法よって求めた a priori SNR を用いて single-channel 型の Wiener filter を設計す ることで,SS で発生する musical noise を大きく低減することを実現した [18].最 適な single-channel 型の Wiener filter は以下の式で表せる.. SNRpriori (ω, k) SNRpriori (ω, k) + 1 E[|S(ω, k)|2 ] SNRpriori (ω, k) = E[|N (ω, k)|2 ] Ws (ω, k) =. (2.18) (2.19). a priori SNR と定義される SNRpriori (ω, k) は目的信号と雑音成分のパワーの期待値 の比であり,これがわかれば最小二乗誤差に基づいた上述した形の最適な Wiener. filter が求まる.しかし,目的信号の期待値は未知であるから,どのようにして a priori SNR を求めるかが焦点となる.Ephraim らは,観測信号と推定雑音成分 のパワー比で定義される,a posteriori SNR ならば求めることが可能であることに 着目し,過去フレームの推定目的音声成分も利用した DD 法によって,a priori SNR を推定した.. |X(ω, k)|2 E[|N (ω, k)|2 ] 2 ˆ post (ω, k) = |X(ω, k)| SNR ˆ (ω, k)|2 |N. SNRpost (ω, k) =. DD. ˆ SNR priori (ω, k) = β. ˆ k − 1)|2 |S(ω, ˆ post (ω, k) − 1] + (1 − β)P [SNR 2 ˆ |N (ω, k)|. (2.20) (2.21) (2.22). ここで,P [·] は 0 以下の値を 0 にするための関数,β は時間スムージングのための 係数であり,通常は β = 0.98 である.このように過去の情報をふんだんに活用す ることで,短時間フレームの情報のみを利用する処理と比べ,大幅に musical noise の発生を防ぐことが可能となる.また,Plapous らは DD 法によって得た推定目的 音声成分を使ってもう一度 a priori SNR を求めることで,時間平滑化による正確 なスペクトルの追従の遅れを解消している [19, 20]..
(33) 2.3 拡散性雑音抑圧. 2.3.2. 19. 複数マイクロホンを用いた手法. 指向性を有さない拡散性雑音ならば,複数のマイク間での相関は無いというこ とに着目した,マイクロホンアレイを用いた multi-channel 型の Wiener filter が提 案されている.multi-channel 型の Wiener filter は single-channel 型の Wiener filter と比べ,装置の規模が大きくなってしまうという欠点を有するが,雑音をあらか じめ推定しておくことが必要無く,変化する雑音にも追従しやすい.また,前述 したビームフォーミング技術とも組み合わせることで指向性雑音抑圧も可能とな り,多く研究されている.. 観測信号を用いた multi-channel 型 Wiener filter. Zelinski は複数の観測信号中に含まれる拡散性雑音は完全に無相関であると仮定 し,以下のような multi-channel 型の Wiener filter を設計した. PN −1 PN 2 ∗ i=1 j=i+1 [Re{Xi (ω, k)Xj (ω, k)}] N (N −1) Wm (ω, k) = PN 1 ∗ i=1 [Xi (ω, k)Xi (ω, k)] N. (2.23). ここで,Re{·} はリアルオペレータを表す.また,分子分母の相互相関,自己相関 はそれぞれ,時間平均をとることで,期待値に近い値を得る.これによって,分 子の自己相関部分はマイク間の相関に応じた値となり,それを自己相関でわるこ とで無相関な拡散性雑音を抑圧する最適なゲイン係数となる.一方,Zelinski と同 様に Bouquin らによって複数マイクロホンを用いた拡散性雑音抑圧がなされてい る [22].Bouquin らは,雑音抑圧に Wiener filter では無く,複数マイク間のコヒー レンス関数を雑音抑圧ゲインとして用いている.. M SC(ω, k) =. |XL (ω, k)XR∗ (ω, k)|2 |XL (ω, k)|2 |XR (ω, k)|2. (2.24). Zelinski の観測信号中に含まれる拡散性雑音は完全に無相関であるという仮定 は,マイク間隔が十分に大きい場合は成り立つが,マイク間隔が小さくなるにつ れ,低周波数帯域の部分から次第に拡散性雑音でも相関を持ってしまうことが知.
(34) 第 2 章 一般的な雑音抑圧技術. 20. られている [24].この問題に対して,拡散性雑音の相関を有する成分が残留した 残留ノイズを除去する手法が提案されている.Bouquin らは,非発話区間におけ る複数マイクロホンの相互相関成分は,拡散性雑音の有相関成分であるとみなし, 非発話区間にて推定しておいた,相互相関成分を減算することで,拡散性雑音の 有相関成分を除去することを試みた [23].. 拡散性雑音の coherene 関数で補正した multi-channel 型 Wiener filter. McCowan らは,理論的な拡散性雑音のコヒーレンス関数は既知であることを利 用して,拡散性雑音の残留成分をコヒーレンス関数から導くことで,残留ノイズ を除去することを試みた [24].multi-channel 型の Wiener filter の残留ノイズが除 去された分子部分を φij ss (ω, k) とすると,これは理論的な拡散性雑音のコヒーレン ス関数 Γij を用いて,以下のように導出される.. φij ss (ω, k). Re{Xi (ω, k)Xj∗ (ω, k)} − 21 Re{Γij }(|Xi (ω, k)|2 + |Xj (ω, k)|2 (2.25) = 1 − Re{Γij }. このようにして求めた φij ss (ω, k) を観測信号の自己相関で割ることで,multi-channel 型の Wiener filter を設計する.. Wmcco (ω, k) =. PN −1 PN 2 ij i=1 j=i+1 [φss (ω, k)] N (N −1) PN 1 ∗ i=1 [Xi (ω, k)Xi (ω, k)] N. (2.26). multi-channel 型と single-channel 型 Wiener filter の混合手法 Li らは拡散性雑音の相関が低い高周波数領域は multi-channel 型の Wiener filter を,相関の高い低周波数領域では single-channel 型の Wiener filter を適用した hybrid 型の拡散性雑音抑圧手法を提案している [25].拡散性雑音の無相関性の仮定がある 程度成り立つ周波数帯域では,Zelinski が提案したような multi-channel 型の Wiener. filter を改良したものを設計する.これは全てのマイクロホンペアを選択するので は無く,信頼性の高いマイクロホンペアを選択し Wiener filter を設計することで, ロバスト性を高めている.また,拡散性雑音の無相関性の仮定が成り立たないよう.
(35) 2.3 拡散性雑音抑圧. 21. な周波数帯域では,DD 法によって求めた a priori SNR を用いた,single-channel 型の Wiener filter を適用する.. 以上,指向性雑音もしくは拡散性雑音を抑圧する一般的な雑音抑圧技術につい て述べた.これらの技術は,理想的なマイクロホンアレイ配置や,計算資源があれ ば,対象とする種類の雑音を抑圧できることが可能となる.しかし,これらの技術 は本研究が目的とする携帯端末への搭載に適していない.なぜなら,携帯端末は マイクロホンアレイを使用する場合,設置面積が限られることから理想的な設置 が不可能であるためである.これによって適応ビームフォーマーや multi-channel 型の Wiener filter 等,多数のマイクロホンを用いた手法には効果的な雑音抑圧は 期待できない.また,単一マイクロホンを用いた手法はマイクロホンが一つで済 むため,携帯端末に設置することは可能であるが,指向性雑音に対応しにくいと いう問題がある.さらに,雑音成分を学習するための VAD には膨大な計算量が必 要となる場合もあり,携帯端末への適用は現実的ではない.加えて,実環境にお いてそれぞれの種類の雑音が個々に存在することは極めて稀であるため,雑音抑 圧の枠組に指向性雑音抑圧と拡散性雑音抑圧の枠組が親和性の高い形で組み合わ されていなければならない. 次章からは,これらの問題を克服することを目的とした提案手法について詳し く述べる..
(36)
(37) 23. 第 3 章 正方形マイクロホンアレイを 用いた指向性雑音抑圧 本章では,小規模なマイクロホンアレイで実現可能な新しい指向性雑音抑圧手法 について述べる.提案手法は,2 個の無指向性マイクロホンの入力信号に対し,減 算型のアレイ処理を施し,その後,Spectral Subtraction (SS) を行う.アレイ処理 部では,目的音声強調の空間フィルタと目的音声抑圧空間フィルタの 2 系統の空間 フィルタを得る.目的音声以外の方向に死角を向けた空間フィルタを複数得た後, それらの最小化選択によって擬似的に目的音声方向を強調するような空間フィル タを得る.このようにして得られた 2 系統の空間フィルタを用いて SS を行うこと で,目的音声方向に鋭い焦点を向けることが可能となる.さらに,より広範囲か らの妨害音にも対応できるようにするため,その技術を 3 個のマイクロホンへと 拡張する. 以下,3.1 で 2 個のマイクロホンを用いた指向性雑音抑圧手法を,3.2 で 3 個のマ イクロホンを用いた指向性雑音抑圧手法について,それぞれ述べる.3.3 では,提案 手法の効果を確認するため,2 話者の同時発話状況における雑音抑圧実験について 述べる.雑音抑圧性能の評価は,連続音声を対象とした音声認識性能と PESQ [26] によって行った.. 3.1. 2 個のマイクロホンを用いた指向性雑音抑圧. 図 3.1 に 2 個のマイクロホンと目的音声,指向性雑音の配置例を示す.s(t) は目 的音声信号,d(t) は指向性雑音信号をそれぞれ示す.また,dmic はマイク間距離,.
(38) 第3章. 24. 正方形マイクロホンアレイを用いた指向性雑音抑圧. s(t). target source. d(t). disturbance source. dmic. ch1. x1 (t). ch2. x 2 (t). 図 3.1 各信号とマイクロホンアレイの配置.. xi (t) は ch-i のマイクロホンにおける観測信号を示す.目的音声は 2 個のマイクロ ホンの正面に位置し,指向性雑音は正面方向に対して θ 方向から到来するものと する. 図 3.2 に提案する 2 個のマイクロホンを用いた指向性雑音抑圧手法のブロック図 を示す.本章では以後この手法を”2ch 手法 (two-channel method)” と呼ぶ.2ch 手 法はアレイ処理部と SS 部に別れる.. 3.1.1. アレイ処理. アレイ処理部では,減算処理によって複数の指向特性の異なる空間フィルタを 得る.一つは目的音声方向から到来する信号を強める空間フィルタ,もう一つは目 的音声方向から到来する信号を弱める空間フィルタである. 目的音声抑圧フィルタは二つのマイクロホンの観測信号を用いて,以下のよう な減算処理によって得られる.. n12 (t) = x1 (t) − x2 (t). (3.1).
(39) 3.1 2 個のマイクロホンを用いた指向性雑音抑圧. x1 (t). +. ch1 x (t) 2. n12 (t). -. 25. |.| Spectral Subtraction. ch2 delay +. b12 (t). + delay. -. phase information. N12 ( , k ) . FFT. B12 ( , k ) . FFT. ′ ( , k) S12 . b 21 (t). min |.|. M12 ( , k ) . IFFT /OLA. sˆ(t). distortion correction S ˆ ( , k) 12 . FFT. B21 ( , k ) . calculate distortion. 図 3.2 提案手法ブロック図 (two-channel method).. ここで, n12 (t) は目的音声抑圧フィルタの出力に対応する信号である. 次に,二つのマイクロホンの観測信号の片側に,ある遅延量 τ を付加しもう片 方の信号と減算処理を行うことで,付加した遅延量 τ に応じた方向に死角を向け るような空間フィルタを得る.ここでは,遅延を付加するマイクロホンを変える ことで,2 通りの空間フィルタを得る.. b12 (t) = x1 (t − τ ) − x2 (t). (3.2). b21 (t) = x1 (t) − x2 (t − τ ). (3.3). ここで,b12 (t) と b21 (t) は付加した遅延量 τ に応じた方向に死角を向けるような空 間フィルタの出力信号に対応する.以後,nij (t) と bij (t) の周波数領域表現である. Nij (ω, k) と Bij (ω, k) を用いて話を進める.これらの出力信号に対応する各空間 フィルタ φN12 ,φBij の指向特性を図 3.3 に示す.ここで,青木らが論じているよ うな音声のスパース性の仮定 [6] が成り立っているとき,B12 (ω, k) と B21 (ω, k) を 時間-周波数 bin 毎に小さいほうの信号を選択することは,目的音声方向に擬似的 なビームを向けることと等価である言える.. |M12 (ω, k)| = min[|B12 (ω, k)|, |B21 (ω, k)|]. (3.4).
(40) 第3章. 26. 正方形マイクロホンアレイを用いた指向性雑音抑圧. φ .
(41) . φ φ . Gain. φ. ′. . . . . . . . direction θ [deg] 0 図 3.3 各空間フィルタの指向特性 φB12 , φB21 , φN12 , φS12 (f = 2000 Hz, dmic = 4 cm, τ = 3/32k sec).. 例えば,ある時間-周波数 bin において,その bin で優勢な音源が図 3.3 における 45 °方向から到来している場合,図における φB12 が選択され,その音源方向には死 角が向けられる.一方,優勢な音源が-45 °方向から到来している場合は,図にお ける φB21 が選択され,その音源方向に死角が向けられることになる.したがって,. B12 (ω, k) と B21 (ω, k) の最小化選択の出力である |M12 (ω, k)| は擬似的に目的音声 方向に焦点を向けた空間フィルタの出力とみなすことができる.結果的に,アレ イ処理部にて,目的音声抑圧信号 |N12 (ω, k)| と,目的音声強調信号 |M12 (ω, k)| の. 2 系統のスペクトルを得ることができる..
(42) 3.1 2 個のマイクロホンを用いた指向性雑音抑圧. 3.1.2. 27. Spectral Subtraction. アレイ処理によって得られた特性の異なる 2 個の信号を用いて SS を行う.目的 音声方向により鋭い焦点を向けるため,|M12 (ω, k)| から |N12 (ω, k)| を以下の式の ように減算する.. 2 2 |M12 (ω, k)| − |N12 (ω, k)| , 0 (ω, k)|2 = |S12 if |M12 (ω, k)| > |N12 (ω, k)| 0, otherwise. (3.5). 0 0 を図 3.3 に示す.この図より,SS SS の出力信号 |S12 (ω, k)| が形成する指向特性 φS12. によって目的音声方向への指向特性がより鋭くなっていることがわかる.なお,図 における片側のマイクロホンに付加する遅延量 τ は 3/32 k sec であるが,これは 指向性雑音によらず決定できる値であり,例えば, τ を大きくすると,目的音声 方向へのビーム幅が広くなり,逆に小さくすることで,目的音声方向へのビーム 幅が狭くなる. また,前述したアレイ処理によって得られる |M12 (ω, k)| は,目的音声方向に対 して,周波数軸上で均一な利得では無いため,目的音声成分の周波数上での歪を 0 生じさせてしまう.SS の出力である |S12 (ω, k)| にも歪は含まれているため,これ. を補正する必要がある.マイクロホンアレイの正面に目的音声のみが存在する場 合を考える.このとき,各マイクロホンの観測信号は全て同一の信号であると考 えられる.. x1 (t) = x2 (t) = s(t). (3.6). このことから,アレイ処理で得られる二つの信号は以下のように表せる.. |N12 (ω, k)| = 0 p |M12 (ω, k)| = 2 − 2 cos(ω · τ ) · |S(ω, k)|. (3.7) (3.8). ここで,|S(ω, k)| は目的音声信号 s(t) の周波数領域表現である.このことから,SS 0 (ω, k)| は以下のように表せる. の出力 |S12 p 0 |S12 (ω, k)| = |M12 (ω, k)|2 − |N12 (ω, k)|2.
(43) 第3章. 28. 正方形マイクロホンアレイを用いた指向性雑音抑圧.
(44) . Gain.
(45) . . . . . . Frequency [Hz] 0 図 3.4 SS 後の出力 |S12 (ω, k)| に生じる周波数軸上の歪の例 (τ = 3/32k sec).. =. p 2(1 − cos(ω · τ )) · |S(ω, k)|. (3.9). 上式において,|S(ω, k)| にかかる項が,歪を生じる項であり,例えば周波数軸上 で図 3.4 のような振るまいをとる.この歪を以下のようにして補正する.. |Sˆ12 (ω, k)| = p. 0 |S12 (ω, k)|. 2(1 − cos(ω · τ )). (3.10). こうして得られた真の推定目的音声のスペクトル |Sˆ12 (ω, k)| は,時間領域に復元 する際には,入力信号の位相等を用いて推定目的音声信号 sˆ(t) を得る.. 3.2. 3 個のマイクロホンを用いた指向性雑音抑圧. 前節で述べた 2ch 手法は真横から到来する指向性雑音,例えばマイクロホンア レイの真横等から到来するようなものは効果的に除去することができる.しかし, 目的音声方向以外からの方向であるのに関わらず,マイクロホンに対し,同時に到.
(46) 3.2 3 個のマイクロホンを用いた指向性雑音抑圧. 29. y ch3. . ch4. ch3. ch4. 4cm. ch2. ch1. ch2. 4cm. ch1. 図 3.5 正方形マイクロホンアレイのマイク配置. 達するような雑音は除去できない.例えば,目的音声とマイクロホンアレイをは さんでちょうど反対の方向から到来するような雑音である.これは原理的に,2ch 手法は 2 個のマイクロホンに対し,位相差を伴って入力された信号を除去する枠 組であり,そのような信号には対応できないためである.実際の使用環境を考え ると,上述した状況から指向性雑音が到来する場合も大いに考えられ,2ch 手法だ けでは十分とは言えない.本節では,2ch 手法を 4 個のマイクロホンを正方形の各 頂点に配置した正方形マイクロホンアレイのうちの 3 個を使う手法へと拡張する. なおここで提案する手法を”3ch 手法 (three-channel method)” と呼ぶものとする. 図 3.5 に正方形マイクロホンアレイのマイクロホン配置を示す.正方形マイクロ ホンアレイのマイク配置は,前述した指向性雑音抑圧可能方向の制限を克服する 目的のマイク配置がなされている.目的音声が到来する方向は図における z 軸方 向から到来するものとする.このような配置をすることで,マイクロホンアレイ 平面方向 360 °から到来する信号の区別をつけることが可能となる.なお,本節で 提案する 3ch 手法では,実際に用いるマイクロホンは 4 個の中から 3 個を選択す ることになる..
(47) 第3章. 30. 正方形マイクロホンアレイを用いた指向性雑音抑圧. x1 (t) two-channel method. ch1. Sˆ12 (ω , k). phase information Sˆ(ω , k). x 2 (t). minimization. ch2 two-channel method ch3. x 3 (t). IFFT sˆ(t) /OLA. Sˆ23 (ω , k). 図 3.6 提案手法ブロック図 (three-channel method).. このようなマイクロホン配置において,2 通りのマイクペアで 2ch 手法を適用す れば,z 軸方向から到来する音声のみを抽出することができると考えられる.例え ば,ch1 と ch2,ch2 と ch3 の組合せが挙げられる.図 3.6 に 3ch 手法のブロック図 を示す.|Sˆ12 (ω, k)| は,ch1 と ch2 を使用して,推定された目的音声のスペクトル であり,図 3.5 における y-z 平面から到来する信号が抽出されたものであると考え ることができる.一方,|Sˆ23 (ω, k)| は,ch2 と ch3 を使用して,推定された目的音 声のスペクトルであり,図 3.5 における x-z 平面から到来する信号が抽出されたも のであると考えることができる.2ch 手法での最小化選択の場合と同様に,音声の スパース性が仮定できるならば,|Sˆ12 (ω, k)| と |Sˆ23 (ω, k)| の最小化選択を行うこと で,z 軸方向から到来する音声のみを抽出することが可能であると考えられる.. ˆ k)| = min[|Sˆ12 (ω, k)|, |Sˆ23 (ω, k)|] |S(ω,. (3.11). ˆ k)| は,図 3.5 における z 軸方向からの音声のみを抽 このようにして得られた |S(ω, 出したものであり,携帯端末の使用者の音声のみを抽出できるものと考えられる..
(48) 3.3 指向性雑音抑圧実験. 3.3. 31. 指向性雑音抑圧実験. 指向性雑音が存在する環境下で,雑音を抑圧し目的音声を強調する実験を行い, 連続音声認識と強調された音声の音質の二つの観点から,提案手法の評価を行っ た.雑音抑圧性能は連続発話音声の単語正解精度と,PESQ によって算出される. mean opinion score (MOS) によって評価される.雑音が到来する方向を変化させ, 3 個のマイクロホンを用いた 3ch 手法が指向性雑音の到来方向にロバストであるこ とを確認するとともに,同じ雑音環境下にて従来手法と提案手法の性能を比較を 行った.. 3.3.1. 実験状況. 実験は携帯端末の使用者が端末に向かって発話を行っていて,その端末に指向 性雑音として他者の発話が向けられている,という 2 話者の同時発話状況を想定 して行った.図 3.7 にマイクロホンアレイと目的音声,指向性雑音の位置関係と収 録環境を示す.目的音声は傾けられたマイクロホンアレイに対し,25 cm の距離か ら発話される.指向性雑音である妨害音声は,マイクロホンアレイから 1 m の距 離で角度 θ 方向から発話される.それぞれのより詳細な位置関係を,図 3.8 に示す. マイクロホンアレイ平面と床がなす角 φ は 30 °とし,図 3.8 における b 軸と指向性 雑音の到来方向とがなす角 θ は,0 °,30 °,60 °,90 °,120 °,150 °,180 °の 7 通 りの場合を考える.なおマイクロホンの高さは床から 100 cm,各スピーカーの高 さは 140 cm であり,収録を行った部屋の残響は 240 ms である.各スピーカーか ら Time streched pulse (TSP) を鳴らし,マイクロホンアレイで収録した TSP 波 形からインパルス応答を計算した [28].目的音声,妨害音声ともに ASJ-JNAS の 男性 23 名の新聞読み上げ連続音声 100 発話 [29] にインパルス応答を畳み込むこと で,発話をシミュレートした.なお,目的音声と指向性雑音の SNR は 0 dB とし た.このようにして得られた,目的音声と指向性雑音が混入した混合音声に対し て提案手法による雑音抑圧処理を施し,連続音声認識性能と PESQ による評価を.
(49) 第3章. 32. 正方形マイクロホンアレイを用いた指向性雑音抑圧. 5.5 m. 1m 2m. 4m 2m 25cm Target. Disturbance. MIC ARRAY. 図 3.7 目的音声と指向性雑音の収録環境.θ = 0◦ , 30◦ , 60◦ , 90◦ , 120◦ , 150◦ , 180◦ . target speech disturbance speech. ch3 ch4. θ. b. φ. ch2 ch1. a. 図 3.8 目的音声,指向性雑音,マイクロホンアレイの位置関係.θ = 0◦ , 30◦ , 60◦ , 90◦ , 120◦ , 150◦ , 180◦ , φ = 30◦ .. 行った..
(50) 3.3 指向性雑音抑圧実験. 33. 音声認識に用いる音響モデルには,ASJ-JNAS の男性話者 133 人が接話型マイク ロホンによって収録した連続発話音声 20414 文から学習した状態共有トライフォン を使用し, 認識器には当研究室開発のワンパストライグラムデコーダ SKOOD [30] を使用した.なお,目的音のみをマイクロホンが観測した場合の単語正解精度は. 88.6 %であった.PESQ による評価では,目的音声を参照信号とし,雑音抑圧処 理後音声,または無処理音声を被試験信号とした. 雑音抑圧処理時には分析フレー ム長 32 ms のハミング窓を使用し,フレームシフトは 8 ms,空間フィルタを形成 する際の遅延量 τ の値は 3/32 k sec とした.なお,本稿にて考慮する音声の帯域 は,全ての実験において 300-7500 Hz とした.. 3.3.2. 2ch 手法と 3ch 手法による指向性雑音抑圧実験結果. 提案手法の指向性雑音抑圧効果を調べるため,2ch 手法と 3ch 手法による処理後 音声の単語正解精度と PESQ-MOS を算出した.評価項目は,1) 雑音抑圧処理 を施していない音声 (mic input),2) 図 3.8 における ch1 と ch2 を使用した 2ch 手 法 (ch1 & ch2),3) ch2 と ch3 を使用した 2ch 手法 (ch2 & ch3),4) ch1,ch2,. ch3 を使用した 3ch 手法 (ch1 & ch2 & ch3) の 4 通りである. 単語正解精度と PESQ-MOS を図 3.9,図 3.10 にそれぞれ示す. まず,図 3.9 に 着目する.2ch 手法を適用した場合,理論通りの角度から到来する指向性雑音が 抑圧できていることがわかる.例として,図 3.8 における ch1 と ch2 を使用した 場合,θ = 90°方向から到来する信号が最も 2 個のマイク間に位相差がつくため, 雑音抑圧効果が大きいと考えられるが,図 3.9 における θ = 90°の単語正解精度 を見ると,mic input がほぼ 0 %であるのに対し,ch1&ch2 で 62.3 %と大幅に向 上しているのがわかる.対称的に,図 3.8 における ch2 と ch3 を使用した場合,同 様に θ = 180°方向から到来する信号に対する雑音抑圧効果が最も大きいと考えら れ,実際に図 3.9 における θ = 180°の単語正解精度を見ると,mic input でほぼ. 0 %から,ch2&ch3 で 68.6 %と大幅に向上している.この結果から,2ch 手法が効.
(51) 第3章. 34.
(52) 3 4. 正方形マイクロホンアレイを用いた指向性雑音抑圧. 5 6 5 . 5 6 5 . 5 6 75 6 5 . . 2. 01. .,/ ,-. +,. . . . .
(53) . "! # !%$'& ()*. 図 3.9 2 話者同時発話における単語正解精度.. 果的に指向性雑音を抑圧できていることが確認できる.しかし,2ch 手法では結果 からもわかる通り,指向性雑音がうまく抑圧できていない到来方向が存在するこ とがわかる.2ch 手法を 3 個のマイクロホンへ拡張した 3ch 手法の結果を見ると, ほぼ全ての指向性雑音の到来方向に対応できていることがわかる.また図 3.10 の. PESQ-MOS の結果もほぼ同等の傾向が見られ,単語正解精度だけでなく,音質の 面でも大きく向上が見られる.このことから,提案した 3ch 手法によって,ほぼ 全ての方向から到来する指向性雑音を効果的に抑圧できることが可能であること がわかる.. 3.3.3. 従来の指向性雑音抑圧手法との比較結果. 2 章において解説した,他の指向性雑音抑圧手法と提案手法との比較実験を行っ た.実験状況は,目的音声と指向性雑音の SNR は 0 dB とし,妨害音声の到来方向.
(54) 3.3 指向性雑音抑圧実験. . 3 " 4. 35. 5 6 5 . 5 6 5 . 5 6 5 6 5 . . 2. . ./. 1 ,-. 0 . .
(55) . "!$# #&%(' ) * +. . . 図 3.10 2 話者同時発話における PESQ-MOS.. は図 3.8 において,θ = 90 °とした.比較を行った手法は,図 3.8 における 4 個の マイクロホンを用いた Delay & sum 法 (DS),図 3.8 において ch1 と ch2 を用いて,. Griffiths-Jim 型のビームフォーマーを施したもの (2ch-GJBF) [4],浅野らによる 2 チャンネルのマイクロホンに基づく SS を施したもの (2ch-SS) [5],マイクロホン間 の位相差に基づいて時間-周波数マスキングを施したもの (2ch-TFmasking) [7] であ る.なお,Griffiths-Jim 型のビームフォーマーでの適応フィルタのタップ数は 512. tap とし,2ch-SS での雑音の到来方向は真値を与えた.さらに,2ch-TFmasking で は目的音声とする角度をマイクロホンアレイ正面に対して ±20 °の範囲とした.単 語正解精度と PESQ-MOS による結果を表 3.1 に示す. この結果より,マイクロホンアレイによるビームフォーミングが基になってい る,DS,2ch-GJBF,2ch-SS は若干の性能の向上は見られるものの効果的とは言 えない.これはマイク間隔が非常に狭いため,急峻な死角またはビームが向けら.
図
関連したドキュメント
For other K , it appears that the Arone spectral sequences are organized more usefully than the older Anderson spectral sequence [An] for computing the homology and cohomology of Map
Esto puede ser probado de diversas maneras, pero aparecer´a como un hecho evidente tras la lectura de la secci´on 3: el grupo F contiene subgrupos solubles de orden de solubilidad
In this paper, we have investigated the parameter estimation problem for a class of linear stochastic systems called Hull-White stochastic differential equations which are
ESTIMATION FOR BOUNDED SOLUTIONS OF INTEGRAL INEQUALITIES INVOLVING INFINITE INTEGRATION LIMITS.. MAN-CHUN TAN AND
Adaptive image approximation by linear splines over locally optimal Delaunay triangulations.. IEEE Signal Processing Letters
Zhang, “The G /G-expansion method and travelling wave solutions of nonlinear evolution equations in mathematical physics,” Physics Letters A, vol. Li, “Application of the G
Abstract: By using subtraction-free expressions, we are able to provide a new proof of the Turán inequalities for the Taylor coefficients of a real entire function when the zeros
In the non-Archimedean case, the spectral theory differs from the classical results of Gelfand-Mazur, because quotients of commutative Banach algebras over a field K by maximal ideals