U055-3

全文

(1)2007 年度修士論文. 多様な雑音に頑健な携帯端末向け音声強調技術. 指導教授. 小林哲則教授. 早稲田大学理工学研究科情報・ネットワーク専攻知覚情報システム研究室. 3606U055-3. 高田晋太郎.

(2)

(3) iii. 目次第 1 章序論 1.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 本論文の構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 第2章 2.1 2.2 2.3. 一般的な雑音抑圧技術指向性雑音と拡散性雑音 . . . . . . . . 指向性雑音抑圧 . . . . . . . . . . . . . 拡散性雑音抑圧 . . . . . . . . . . . . . 2.3.1 単一マイクロホンを用いた手法 2.3.2 複数マイクロホンを用いた手法. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 第 3 章正方形マイクロホンアレイを用いた指向性雑音抑圧 3.1 2 個のマイクロホンを用いた指向性雑音抑圧 . . . . . . . . 3.1.1 アレイ処理 . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Spectral Subtraction . . . . . . . . . . . . . . . . . 3.2 3 個のマイクロホンを用いた指向性雑音抑圧 . . . . . . . . 3.3 指向性雑音抑圧実験 . . . . . . . . . . . . . . . . . . . . . 3.3.1 実験状況 . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 2ch 手法と 3ch 手法による指向性雑音抑圧実験結果 3.3.3 従来の指向性雑音抑圧手法との比較結果 . . . . . .. . . . . .. . . . . . . . .. . . . . .. . . . . . . . .. . . . . .. . . . . . . . .. . . . . .. . . . . . . . .. 1 1 4. . . . . .. 7 7 10 15 16 19. . . . . . . . .. 23 23 24 27 28 31 31 33 34. 第 4 章正方形マイクロホンアレイを用いた拡散性雑音抑圧 4.1 空間フィルタの出力を利用した multi-channel 型と single-channel 型 Wiener filter の統合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 空間フィルタ群の形成 . . . . . . . . . . . . . . . . . . . . . 4.1.2 空間フィルタ群の出力を利用した multi-channel 型 Wiener filter 4.1.3 single-channel 型 Wiener filter による残留ノイズ除去 . . . . 4.2 拡散性雑音抑圧実験 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 実験状況 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 単語正解精度による提案手法の性能評価 . . . . . . . . . . .. 37 38 38 40 42 45 45 47.

(4) iv 4.2.3. PESQ-MOS による提案手法の性能評価 . . . . . . . . . . . . 48. 第 5 章指向性雑音抑圧と拡散性雑音抑圧の統合 5.1 問題設定とマイクロホン配置 . . . . . . . . . . . . . . . . . . . . 5.2 正方形マイクロホンアレイを用いた音声強調手法 . . . . . . . . . 5.2.1 空間フィルタ群の形成 . . . . . . . . . . . . . . . . . . . . 5.2.2 空間フィルタ群の選択による指向性雑音抑圧 . . . . . . . . 5.2.3 空間フィルタの出力を利用した multi-channel 型 Wiener filtering による拡散性雑音抑圧 . . . . . . . . . . . . . . . . 5.2.4 single-channel 型 Wiener filtering による残留ノイズ除去 . . 5.3 指向性と拡散性の雑音が混在する環境下での雑音抑圧実験 . . . . 5.3.1 実験状況 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 提案手法の各段階での雑音抑圧性能 . . . . . . . . . . . . . 5.3.3 提案手法と他の雑音抑圧技術との比較 . . . . . . . . . . .. . . . .. 51 52 53 54 55. . . . . . .. 56 57 58 58 59 65. 第 6 章結論と今後の課題 69 6.1 結論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 6.2 今後の課題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 付録 A 拡散性雑音のコヒーレンス関数の導出 73 A.1 無指向性マイクロホン . . . . . . . . . . . . . . . . . . . . . . . . . 73 A.2 指向性マイクロホン . . . . . . . . . . . . . . . . . . . . . . . . . . 75 付録B B.1 B.2 B.3 B.4. 本論文における実験の手順の解説インパルス応答計測 . . . . . . . 評価音声作成 . . . . . . . . . . . 分離処理 . . . . . . . . . . . . . . 評価 . . . . . . . . . . . . . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 79 79 80 83 85. 謝辞. 87. 参考文献. 89. 研究業績. 93.

(5) v. 表目次 2.1 記号の定義． . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 3.1 他の指向性雑音抑圧手法と提案手法との比較結果． . . . . . . . . . 36.

(6)

(7) vii. 図目次 2.1 指向性雑音と拡散性雑音のマイクロホンアレイへの到達． . . . . . 2.2 (a)(b) 目的音声の時間波形とスペクトログラム，(c)(d) 指向性雑音を重畳した音声の時間波形とスペクトログラム (SNR = 5 dB)，(e)(f) 拡散性雑音を重畳した音声の時間波形とスペクトログラム (SNR = 10 dB)． . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 3.1 各信号とマイクロホンアレイの配置． . . . . . . . . . . . . . . . . 3.2 提案手法ブロック図 (two-channel method)． . . . . . . . . . . . . . 0 (f = 2000 Hz, dmic 3.3 各空間フィルタの指向特性 φB12 , φB21 , φN12 , φS12 = 4 cm, τ = 3/32k sec)． . . . . . . . . . . . . . . . . . . . . . . . 0 3.4 SS 後の出力 |S12 (ω, k)| に生じる周波数軸上の歪の例 (τ = 3/32k sec)． 3.5 正方形マイクロホンアレイのマイク配置 . . . . . . . . . . . . . . . 3.6 提案手法ブロック図 (three-channel method)． . . . . . . . . . . . . 3.7 目的音声と指向性雑音の収録環境．θ = 0◦ , 30◦ , 60◦ , 90◦ , 120◦ , 150◦ , 180◦ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8 目的音声，指向性雑音，マイクロホンアレイの位置関係．θ = 0◦ , 30◦ , 60◦ , 90◦ , 120◦ , 150◦ , 180◦ , φ = 30◦ . . . . . . . . . . . . . . . . . 3.9 2 話者同時発話における単語正解精度． . . . . . . . . . . . . . . . . 3.10 2 話者同時発話における PESQ-MOS． . . . . . . . . . . . . . . . .. 24 25. 4.1 提案手法ブロック図 (拡散性雑音抑圧)． . . . . . . . . . . . . . . 4.2 形成する空間フィルタ群のパターン． . . . . . . . . . . . . . . . 4.3 無指向性マイクロホンを用いた場合と空間フィルタの出力を用いた場合の拡散性雑音の magnitude-squared coherence (MSC) の理論値 (マイク間隔 4 cm)． . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 音声存在確率 SPP と雑音更新パラメーター λ の振るまい． : (a) マイクロホン観測信号 (SNR = 10 dB) (b) SPP (c) 雑音更新パラメーター λ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 各 SNR における拡散性雑音重畳音声に対し，各手法を施したときの単語正解精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 26 28 29 30 32 32 34 35. . 38 . 39. . 41. . 44 . 47.

(8) viii 4.6 各 SNR における拡散性雑音重畳音声に対し，各手法を施したときの単語正解精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 5.1 各章での実験に使用した正方形マイクロホンアレイ． . . . . . . . . 5.2 提案手法ブロック図 (指向性雑音，拡散性雑音抑圧)． . . . . . . . . 5.3 提案手法の各段階毎の出力波形 : (a) 目的音声，(b) 雑音重畳音声 (SNRdir = 5 dB, SNRdif = 15 dB)，(c) 指向性雑音抑圧処理後音声， (d) 拡散性雑音抑圧処理後音声，(e) 残留ノイズ除去後音声． . . . . 5.4 提案手法による段階毎の単語正解精度 (SNRdir = 10 dB, SNRdif = 10 dB, SNRtotal = 3.98 dB). . . . . . . . . . . . . . . . . . . . . . . 5.5 提案手法による段階毎の単語正解精度 (SNRdir = 10 dB, SNRdif = 15 dB, SNRtotal = 6.12 dB). . . . . . . . . . . . . . . . . . . . . . . 5.6 提案手法による段階毎の単語正解精度 (SNRdir = 10 dB, SNRdif = 20 dB, SNRtotal = 7.61 dB). . . . . . . . . . . . . . . . . . . . . . . 5.7 提案手法による段階毎の PESQ-MOS (SNRdir = 10 dB, SNRdif = 10 dB, SNRtotal = 3.98 dB). . . . . . . . . . . . . . . . . . . . . . . 5.8 提案手法による段階毎の PESQ-MOS (SNRdir = 10 dB, SNRdif = 15 dB, SNRtotal = 6.12 dB). . . . . . . . . . . . . . . . . . . . . . . 5.9 提案手法による段階毎の PESQ-MOS (SNRdir = 10 dB, SNRdif = 20 dB, SNRtotal = 7.61 dB). . . . . . . . . . . . . . . . . . . . . . . 5.10 各 SNRdif での従来手法，提案手法を施した際の単語正解精度 . . . 5.11 各 SNRdif での従来手法，提案手法を施した際の PESQ-MOS . . . .. 53 54. 60 62 62 63 63 64 64 66 66. A.1 無指向性マイクロホンに到達する信号 . . . . . . . . . . . . . . . . 73 A.2 指向性マイクロホンに到達する信号 . . . . . . . . . . . . . . . . . . 75 B.1 マイクロホンの配置図 . . . . . . . . . . . . . . . . . . . . . . . . . 83.

(9) 1. 第 1 章序論 1.1. 背景. 近年音声認識技術，雑音抑圧技術の発展に伴い，携帯電話等の携帯端末や TV 等の家電製品のリモコンの操作に音声認識を適用することが期待されている．また音声認識だけでなく，TV 電話やハンズフリー電話等，周囲の雑音環境に影響を受けず目的とする話者の音声のみを伝達する音声強調技術の実現も期待されている．上述した使用状況では，機器類に設置された発話収集用のマイクロホンは必ずしも発話者の口元付近にあるとは限らない．この結果，目的音声と周囲雑音の SNR はマイクロホンが口元付近にある場合と比べ，極端に下がり，音声認識の失敗，雑音を含んだままの音声の伝達等の問題を引き起こす．これらの問題を解決をするには，マイクロホンに入力された信号に対して信号処理を施し，目的音声と周囲雑音を分離することで目的音声のみを得る手法や，雑音環境にロバストな音声認識手法を適用する必要がある．本研究では，上述したような SNR が低い状況においても，周囲雑音を含まない目的音声のみの信号を抽出することができ，かつ高い音声認識率を実現することを可能とする携帯端末向け音声強調技術の実現を目標とする．一般的に雑音を抑圧し，目的音声のみを抽出する技術として，多数のマイクロホンを直線上や円状に配置したマイクロホンアレイを用いた技術が多く報告されている [1]．マイクロホンアレイを用いた音声強調技術は，単一のマイクロホンを用いた場合に比べ，計算コスト，雑音抑圧性能共に優れたパフォーマンスを発揮する技術として現在も盛んに研究が行われている．しかしながら，多数のマイク.

(10) 第1章. 2. 序論. ロホンを用意する必要があり，装置の規模が大きくなってしまうという欠点を有する．携帯端末に搭載することを考慮すると，以下のような制約条件が挙げられる．まず携帯端末は設置面積が限られるため，マイクロホンアレイを使用する場合のマイクロホン数，マイク間隔に制限が生じる．加えて，よりロバスト性を高めるためにはできるだけ少ないマイクロホン数，小さなマイク間隔であることが要求される．次に，迅速な音声認識や音声伝達を実現させるためには，携帯端末上で音声強調処理を行えることが望ましく，そのためには音声強調処理のアルゴリズムはできるだけ少ない計算コストである必要がある．適応や学習等，複雑な計算を必要としないアルゴリズムは，突発性ノイズの発生等にも追従がしやすく，その点でも有用である．最後に，携帯端末の性質上，使用する環境は屋内，屋外問わず様々な種類が考えられ，それら全てで使用できることが求められる．環境雑音は様々な性質の雑音が存在し，特に指向性雑音と拡散性雑音の二種類に大きく大別できる．例として，指向性雑音は目的話者以外の話者の発話や，TV，オーディオ等の点音源とみなせるものから発せられるもの，拡散性雑音は部屋の空調の音や，部屋に響く PC のファンノイズ，屋外での道路や駅の騒音等がそれぞれ挙げられる．目標とする携帯端末向けの音声強調システムは，このような雑音の性質に関わらず，雑音を抑圧できることが必要不可欠である．指向性雑音を抑圧する技術として，複数のマイクロホン間で生じる差を利用した技術が多く報告されている [4–8]．Griffiths らは Delay and Sum 法によって得た目的音声強調フィルタと減算型空間フィルタによって得たブロッキングフィルタの出力を利用し，それぞれの差が最小となるように適応フィルタリングを行うことで指向性雑音の抑圧を行った [4]．また浅野らは，二系統の空間フィルタの出力を周波数領域で減算することで指向性雑音の高い抑圧効果を得た [5]．また近年，人間の音声は時間-周波数領域で分析すると疎に分布しており，時間波形上では重なりあっている複数話者同士の発話でも，時間-周波数領域では重なりが少ないとういう性質を利用した手法が報告されている [6–8]．この性質を利用することで，各.

(11) 1.1 背景. 3. 時間-周波数 bin の成分がどの音源によるものかわかりさえすれば，目的とする音源の成分のみを通過させるフィルタを設計するだけで雑音抑圧が可能なため，抑圧効果の向上のみだけでなく計算コスト削減にも大きく貢献している．拡散性雑音を抑圧する技術としては，単一マイクロホンを用いたものと，複数マイクロホンを用いたものに大別できる．単一マイクロホンを用いた手法として，. Boll らは拡散性ノイズは比較的定常であり，かつ目的音声とは無相関であることを仮定し，あらかじめ推定しておいた雑音のスペクトルを周波数領域で減算することで雑音抑圧を行った [9]．Boll らが提案した Spectral Subtraction (SS) は広く研究され改善，応用がなされている [10–17]．また Ephraim らは，過去の時間情報を利用した decision directed 法によって推定した a prioriSNR を用いて Wiener. filter を設計することで，Spectral Subtraction で発生する musical noise を大きく低減する手法を提案している [18–20]．また複数のマイクロホンを用いた手法として，拡散性雑音は，複数のマイクロホン間では相関が無いという仮定を利用した，. multi-channel 型の Wiener filter を設計する手法が Zelinski によって提案されている [21]．しかし，Zelinski の仮定は，マイクロホン間隔が狭い場合や，低周波数領域で成り立たなくなり，それに対する解決案が提案されている [22–25]．上述した従来技術は，決められた条件で，個々の雑音が存在する場合においては，非常に高い雑音抑圧効果を発揮する．しかし，これらの技術をそのまま携帯端末の音声強調システムに適用することはできない．なぜなら複数マイクロホンを用いる手法では，携帯端末ではマイク間隔が狭くなり十分な性能が期待できないからである．また単一のマイクロホンを用いる手法では，雑音成分の推定のために多大な計算コストを必要としてしまう．加えて突発的な指向性雑音には対応できないという問題もある．さらに，実環境においてそれぞれの雑音が個々に存在することは極めて稀であるという問題もある．したがって，このような，個々の雑音に対する雑音抑圧性能面での問題を解決すると同時に，それぞれの雑音抑圧のアルゴリズムが親和性の高い形で組み合わされ，どちらの種類の雑音にも対.

(12) 第1章. 4. 序論. 応できる枠組を持った音声強調システムが求められる．本論文では，4 個の無指向性マイクロホンを正方形の各頂点に配置した正方形マイクロホンアレイを用いた複数の新しい携帯端末向け音声強調技術を提案する．このマイクロホンアレイは各辺が 4 cm の正方形で，非常にコンパクトな配置であるため，設置面積が限られる携帯端末にも設置することが可能である．このマイクロホン配置を積極的に利用することで，まず指向性雑音，拡散性雑音が単独で存在する場合における，新しい音声強調手法を提案する．これらは上述した，マイクロホン配置を利用して得られる，特性の異なる空間フィルタを最大限に利用することで，高性能に指向性雑音，拡散性雑音をそれぞれ抑圧することが可能となる．さらに，これらの手法から得られた知見を利用して，指向性雑音抑圧と拡散性雑音抑圧をそれぞれ親和性の高い形で統合することで，両雑音に対して頑健な音声強調技術を提案する．. 1.2. 本論文の構成. 本論文は 6 章から構成されている．第 2 章ではまず，従来から存在する一般的な音声強調技術について述べる．指向性雑音を抑圧する技術は，主にマイクロホンアレイを用いた手法が一般的である．これはマイクロホンアレイを用いることで，複数のマイクロホン間に生じる振幅差，位相差を有効に使用できるため，計算コストを削減できることに起因する．また拡散性雑音を抑圧する技術は，単一マイクロホンを用いた手法と，マイクロホンアレイを用いた手法が存在する．マイクロホンアレイを用いる利点は指向性雑音抑圧技術の場合と同様である．単一マイクロホンを用いる手法は，拡散性雑音は主に定常的であり，音声との相関は無いと仮定することで，あらかじめ推定した雑音成分を減算することで，雑音を抑圧できる．これは雑音の推定が高精度な場合，高い雑音抑圧効果を得られる．これら代表的な雑音抑圧技術について本章では概説するとともに，これらの技術を携帯端末に搭載する際に生じる問.

(13) 1.2 本論文の構成. 5. 題について述べる．第 3 章では，マイクロホンペアから得られる，複数の空間フィルタと，SS を利用した指向性雑音抑圧手法を提案する．複数の空間フィルタリングと SS を組み合わせることで，マイク間隔が小さい場合においても，目的音声方向に急峻なビームを向ける指向性を得ることが可能となる．提案する指向性雑音抑圧手法の性能を，従来の手法との比較を交え，連続音声認識性能と PESQ [26] による音質の尺度で評価した．第 4 章では，4 通りのマイクロホンペアの減算処理によって形成された，指向特性の異なる 4 種類の空間フィルタ群の出力を用いた multi-channel 型の Wiener filter と single-channel 型の Wiener filter を組み合わせた，拡散性雑音抑圧手法を提案する．マイク間隔がせまくなればなるほど，性能が劣化する multi-channel 型 Wiener. filter と雑音の定常性の仮定と推定を要する single-channel 型の Wiener filter を組み合わせることで，それぞれを単独に用いた場合の短所を補う．さらに，空間フィルタ群の出力を用いた multi-channel 型の Wiener filter を用いることで他の手法と比べた場合の優位性を拡散性雑音抑圧実験によって示す．第 5 章では，第 3 章，第 4 章で提案した，指向性雑音抑圧手法と拡散性雑音抑圧手法から得られた知見を利用した，両雑音を対象とした統合手法を提案する．4 通りのマイクロホンペアの減算処理によって形成された指向特性の異なる 4 種類の空間フィルタ群を，指向性雑音，拡散性雑音抑圧に用いる．まず指向性雑音の抑圧は，4 種類の空間フィルタ群の出力信号を時間-周波数領域において，最小化選択を行うことで実現する．これは，提案手法において自然に導出可能な仮定として，4 種類の出力信号のパワーは，指向性の音源の到来方向にのみ依存することを利用した処理である．同時に，拡散性雑音の抑圧は，4 種類の空間フィルタ群の出力信号を用いた multi-channel 型の Wiener filtering で実現する．最後に前述した二つの処理で残留したノイズを，single-channel 型の Wiener filtering を適用し，除去することで所望とする音声を高精度に得る．提案する指向性雑音抑圧と拡散性.

(14) 第1章. 6. 序論. 雑音抑圧統合手法の性能を，音声認識性能と PESQ による評価で行い，さらに他の従来手法との比較を，指向性雑音と拡散性雑音が混在する環境で実験を行った．第 6 章で結論と今後の課題をまとめる．本論文の結論を延べ，提案する種々の音声強調手法を，実用的な観点で見た場合，どのような問題が挙げられるのかについて述べる．.

(15) 7. 第 2 章一般的な雑音抑圧技術本章では指向性雑音もしくは，拡散性雑音抑圧を志向した従来の雑音抑圧技術について述べる．各種の雑音抑圧は雑音の性質を利用したものであり，まず始めに指向性雑音，拡散性雑音の性質について述べた後，マイクロホンアレイを用いた指向性雑音抑圧技術，単一マイクロホンまたはマイクロホンアレイを用いた拡散性抑圧技術について，それぞれ述べる．なお，ここで紹介する手法は，計算量や，マイクロホンアレイ規模等の点で，性能は無視し，現実的に携帯端末に搭載し得る手法であり，かつ，次章から解説する提案手法の要素技術と成り得る手法に限って選択した．表 2.1 にて式の記述に用いる記号について定義する．なお，t は離散時間，ω は周波数ビン，k は短時間フレームのインデックスをそれぞれ表す．また N はマイクロホンアレイのマイクロホン総数である．. 2.1. 指向性雑音と拡散性雑音. 指向性雑音，拡散性雑音の性質について述べる．指向性雑音は，点音源とみなすことができるものから発せられる音声，もしくは雑音である．例えば，目的とする話者以外の人物の話声やテレビやオーディオから発せられる音声や音楽等が挙げられる．一方，拡散性雑音は，特定の到来方向を有しない雑音である．例としては，室内ならば空調や PC ファンのノイズ，室外ならば，人混みや駅構内等の雑音である．これらの雑音が存在する場において，目的とする話者が音声収集装置に向けて発声している様子を図 2.1 に，指向性雑音の場合と拡散性雑音の場合.

(16) 第 2 章一般的な雑音抑圧技術. 8. 表 2.1 記号の定義．. x(t) X(ω, k) xi (t) Xi (ω, k) s(t) S(ω, k) n(t) N (ω, k) sˆ(t) ˆ S(ω, k). マイクロホンの観測信号 x(t) の周波数領域表現マイクロホンアレイにおける i 番目のマイクロホンでの観測信号 (i = 1, …, N ) xi (t) の周波数領域表現目的音声信号 s(t) の周波数領域表現雑音信号 n(t) の周波数領域表現 (雑音抑圧処理による) 推定目的音声信号 sˆ(t) の周波数領域表現. target voice. target voice directional noise. diffuse noise. …. …. 図 2.1 指向性雑音と拡散性雑音のマイクロホンアレイへの到達．. をそれぞれ示す．ここで，簡単のため目的音声はマイクロホンアレイにて同相化，つまり正面方向から到来しているものとする．指向性雑音の場合，目的音声はマイクロホンアレイの正面，雑音はそれ以外の方向から到来することから，各マイクロホンで観測される信号は，目的音声信号は全て同一，指向性雑音信号はマイク間隔と到来方向に応じた位相差もしくは遅延をともなうことがわかる．このよ.

(17) 2.1 指向性雑音と拡散性雑音. 9. . Frequency [Hz].

(18) .

(19) . . . . . . sample point. (a). . . . . . . . . . *' (. +. +' (. >; <. ?. ?; <. Time [sec]. (b). .&&& -&&& Frequency [Hz].

(20) $ %. #

(21) $ %. +&&& *&&& ) &&&. # . . . . . sample point. (c). 3. &' (. ! ". ). ) '(. * Time [sec]. (d). B::: A::: Frequency [Hz]. 4

(22) 8 9 4 7 4

(23) 8 9 7 3. (&&& ,&&&. <::: @::: ?::: >::: = :::. /. 0. 1. 2. sample point. (e). 34. 3/ 5 34 6. :; <. =. = ;<. > Time [sec]. (f). 図 2.2 (a)(b) 目的音声の時間波形とスペクトログラム，(c)(d) 指向性雑音を重畳した音声の時間波形とスペクトログラム (SNR = 5 dB)，(e)(f) 拡散性雑音を重畳した音声の時間波形とスペクトログラム (SNR = 10 dB)．. うに指向性雑音は複数のマイクロホンで観測すれば，各観測信号に差が生じるため，これを有効に活用できることから，マイクロホンアレイを用いて雑音抑圧をおこなう手法が一般的である．また，拡散性雑音については単一マイクロホンを用いた手法とマイクロホンアレイを用いた手法が存在する．次に，指向性雑音もしくは拡散性雑音が存在する場において，発声された音声を観測した信号を時間波形と周波数領域で分析したものを図 2.2 に示す．ここで，目的音声，指向性雑音はそれぞれ別の発話であり，目的音声と指向性雑音の SNR は 5 dB，拡散性雑音はサーバールームで収録した雑音であり，目的音声と拡散性.

(24) 第 2 章一般的な雑音抑圧技術. 10. 雑音の SNR は 10 dB である．これによると，指向性雑音は時間波形では突発的でり，目的音声に重なっているが，時間-周波数領域で分析すると，目的音声との重なりはそれほど無いことがわかる．また，拡散性雑音は指向性雑音の場合と比べ，時間-周波数領域で分析すると，ほぼ全周波数帯域に均等に分布しており，目的音声の上に重なっている様子がわかる．しかし，時間軸上での変化はあまり無く，比較的定常である性質がわかる．以上で述べた各雑音の性質は，従来提案されている雑音抑圧技術でふんだんに利用されている．. 2.2. 指向性雑音抑圧. 指向性雑音は前述したように，マイクロホンアレイを用いることが効果的である．Delay and Sum (DS) 法は，目的とする方向に感度を向ける最も単純なビームフォーミング手法である．マイクロホンアレイの各観測信号の和をとり，平均化することで，正面方向からの目的信号は同相化され強められ，その他の方向から到来する信号は各観測信号で位相が異なるため弱められる． N 1 X ˆ Xi (ω, k) S(ω, k) = N i=1. (2.1). DS 法は非常に単純な処理で，目的とする方向にビームを向けることができる手法ではあるが，実用的な性能を実現するためには，非常に大きなマイクロホンアレイを用い，大量のマイクロホンを用意する必要がある．. DS 法のようにある特定の方向のみの感度をあげようとすると，装置規模が大きくなってしまう．それに対してある特定の方向だけの感度を下げることは，二つのマイクロホンがあれば実現できる．二つのマイクロホンの観測信号を減算すれば，各マイクロホンに同相で入力した信号は打ち消しあい，相殺される．これは減算型の空間フィルタまたは減算型のビームフォーミングと呼ばれ，マイクロホンアレイの規模が小さい場合でも，有効に雑音を抑圧できる手法である．除去す.

(25) 2.2 指向性雑音抑圧. 11. べき信号が，二つのマイクロホンに，ある遅延量 τ に相当する方向から到来する場合，片側のマイクロホン観測信号に τ を付加し，減算すれば，その信号を抑圧することができる．. sˆ(t) = x2 (t − τ ) − x1 (t). (2.2). なお，任意の方向からの雑音を除去するためには，指向性雑音の到来方向を予測する枠組みがシステムに含まれていることが必要である．. 適応ビームフォーマー上述した減算型ビームフォーマーは雑音の到来方向が必要である．これに対して，マイクロホンアレイの観測信号それぞれにある適応フィルタ係数をかけ，目的音声方向の利得は 1 となる拘束条件を保った上で，ビームフォーマーの出力が最小となるよう，適応的な処理を行っていくことで，結果として，指向性雑音方向に死角を向けるような枠組を持った，適応ビームフォーマーの技術が存在する．代表的なものとして，アレーアンテナ信号処理の技術から由来する Directionally. Constrained Minimization of Power(DCMP) がある [2]．DCMP は目的音声方向での応答を 1 と拘束した上で，出力を最小にする適応フィルタ係数を算出する．ここで，. X(t) =. h. x1 (t) x2 (t) · · · xN (t). iT. (2.3). としたとき，出力は. sˆ(t) = WT X(t). (2.4). のように表せ，最適なフィルタ係数は， −1 ∗ −1 −1 ∗ C) H C (CT Rxx Wopt = Rxx. (2.5). となる．ここで，T は転置を表す．また，Rxx は観測信号ベクトルの共分散行列，. C は拘束ベクトル，H は拘束応答ベクトルを表す．.

(26) 第 2 章一般的な雑音抑圧技術. 12. DCMP は，目的音声方向に対して，1 という応答しか許容していない．そこで，金田らは，目的音声方向の拘束条件にある程度の許容を許すことで，大幅な雑音抑圧効果を得られる，AMNOR 方式を提案した [3]．. Z π 1 D = |1 − F (ω)|2 dω 2π −π ≤ Dth. (2.6). ここで，D は拘束として定めた値と拘束応答 F (ω) の 2 乗誤差である．この誤差成分 Dth を一定値以下に抑える規準で適応フィルタを更新していくことで，目的音声方向の信号に対し，周波数成分である程度の歪を許容する代わりに，大きな雑音抑圧効果を得る．ただし，適応ビームフォーマー全体の問題として，雑音区間中にその方向への死角を向ける処理を行うため，発話区間検出が必須となることが挙げられる．. Griffiths-Jim 型ビームフォーマー Griffiths らは，DS 法で除去しきれない指向性雑音を，減算型ビームフォーマーから得られた雑音成分を適応的に減算することで除去する，Griffiths-Jim 型ビームフォーマーを提案した [4]．まず DS 法による目的音声強調フィルタと，減算型ビームフォーミングによる目的音声抑圧フィルタ (ブロッキングフィルタ) の出力を得る．目的音声強調信号 d(t) と目的音声抑圧信号 u(t) とのエラー出力が最小となるように，フィルタ係数を適応的に求める． Mtap. sˆ(t) = d(t − Q) −. X. WGJBF (t)u(t). (2.7). t=1. ここで，Q は除去に必要な因果律を満たすように，ビームフォーミングや適応フィルタの遅延を補償するための遅延サンプル数である．また，WGJBF (t) は適応フィルタの係数，Mtap はタップ数である．Griffiths-Jim 型ビームフォーマーは雑音信号成分を目的音声抑圧フィルタによって得ているため，雑音区間の検出は必要な.

(27) 2.2 指向性雑音抑圧. 13. い．また，適応ビームフォーマーと同様に目的音声方向に対する拘束条件にある程度の誤差を許容することで，性能を向上させている．. 2ch 型の Spectral Subtraction 浅野らは，マイクロホン観測信号と目的音声抑圧信号を周波数領域で減算する. 2ch 型の Spectral Subtraction (2ch-SS) を提案した [5]．ブロッキングフィルタ中に含まれる指向性雑音成分は，減算型のビームフォーミングによる周波数領域での歪を含むため，観測信号中に含まれるものとは異なる．そこで，その歪を補正項によって補正した後，観測信号から雑音成分を SS する．. ˆ k)|2 = |XL (ω, k)|2 − |N ˆ2ch−SS (ω, k)|2 |S(ω,. (2.8). ˆ2ch−SS (ω, k)|2 = [XL (ω, k) − XR (ω, k)]2 /|1 − ejωτ |2 |N. (2.9). ここで XL (ω, k)，XR (ω, k) はそれぞれ目的音声の正面に配置された，2 個のマイクロホンの観測信号を表す．. 上述した適応ビームフォーマー，Griffiths-Jim 型ビームフォーマーや 2ch-SS は，. DS 法もしくは減算型ビームフォーミング等の技術が基になっている．しかし，これらの技術の雑音抑圧性能はマイクロホンアレイの規模に大きく依存するため，装置規模にロバストではない．近年では，図 2.2 で示したような，人間の音声は時間周波数領域では疎に分布しているという仮定を積極的に利用した手法が提案されている．ある複数話者の混合音声を分析したとき，上述した音声のスパース性の仮定が成り立っているならば，各時間-周波数ビンに着目した場合，その成分はある特定の 1 音源の成分のみが優勢であると考えられる．したがって，何らかの方法で各時間-周波数ビンの成分がどの音源によるものなのかがわかりさえすれば，0 と 1 のバイナリー型のマスキングを行うことで，所望とする音源のみを抽出することができる．このような時間-周波数マスキングを用いることで，装置規模に関係なく高精度に特定の音声のみを抽出できる．.

(28) 第 2 章一般的な雑音抑圧技術. 14. 複数マイク間に生じた強度差を利用した時間-周波数マスキング青木らは所望とする音声と，それ以外の音声または雑音を装置上の工夫によって，複数のセンサーに強度差をつけた状態で観測し，それら複数のセンサーの情報を用いて時間-周波数マスキングを行った [6]．例として，複数の話者にそれぞれ指向性を向けた指向性マイクロホンを設置する等が挙げられる．話者 A 側に指向性を向けた指向性マイクロホンの入力信号を XA (ω, k)，話者 B 側に指向性を向けた指向性マイクロホンの入力信号を XB (ω, k) としたとき，ある時間-周波数 bin において，話者 A の音声が優勢ならば，その bin では，|XA (ω, k)| > |XB (ω, k)| となるはずである．したがって話者 A を目的音声とした場合，以下のように話者 A の成分を抽出する時間-周波数マスクを生成できる． ( 1, |XB (ω, k)| < |XA (ω, k)| M (ω, k) = 0, otherwise. (2.10). このようにして得られた時間-周波数マスクを観測信号のスペクトルにかけることで，目的音声の成分のみを通過させ，雑音をマスキングすることができる．. ˆ k) = M (ω, k) · XA (ω, k) S(ω,. (2.11). 複数マイク間に生じた位相差を利用した時間-周波数マスキング. Yilmaz らは，マイクロホンアレイの各観測信号に生じる音声の位相差に着目した時間-周波数マスキングを提案した [7]．これは，青木らの手法と比較して，目的音声を強調するような装置上の工夫は必要なく，マイクロホン間の位相差から，音源の到来方向を推定し，それから時間-周波数マスクを生成する．ある時間-周波数 bin における，位相差が所望とする音源方向と対応したものならば，その bin を通過させるようなマスクを生成する．マイクロホンアレイ正面方向を 0 °とした場合，信号の到来方向 θT F mask (ω, k) は以下のように求まる．. θT F mask (ω, k) = sin−1. ϕ(ω, k)c 2πf dij. (2.12).

(29) 2.3 拡散性雑音抑圧. 15 ϕ(ω, k) = ∠. Xi (ω, k) (i 6= j) Xj (ω, k). (2.13). ここで，c は音速，f は周波数，dij はマイクロホン i と j のマイク間距離である．得られた到来方向に基づいて，以下のような時間-周波数マスキングを行う． ( 1, θtarget − δ < θT F mask (ω, k) < θtarget + δ M (ω, k) = (2.14) 0, otherwise. θtarget は目的とする信号の到来方向であり，δ は目的音声と許容する到来方向の範囲である．最後にマスキングを行い所望とする音声を抽出する．. ˆ k) = M (ω, k) · Xi (ω, k) S(ω,. (2.15). このように音声のスパース性の仮定を利用した手法は，従来のビームフォーミングと比べ，複数のセンサーが必要という点では優位性は無いが，マイク間隔が小さい場合でも，少しの差が生じれば，マスクを生成できるため，小規模なマイクロホンアレイへの適用に向いている．一方で，線形処理であるビームフォーミングと比べ，時間-周波数マスキングは非線形の処理となるため，仮定が全く成り立たない環境では，目的音声成分をマスクしてしまう等，著しく性能を劣化させてしまう恐れもある．. 2.3. 拡散性雑音抑圧. 拡散性雑音抑圧技術は，単一マイクロホンを用いた手法と，マイクロホンアレイを用いた手法が存在する．単一マイクロホンを用いた手法は，拡散性雑音の時間的定常性と無相関性に基づいて，雑音抑圧を行う．マイクロホンアレイを用いた手法は，拡散性雑音のマイクロホン間での無相関性，つまり空間的無相関性に基づいてる．以下，それぞれについて詳しく述べる．.

(30) 第 2 章一般的な雑音抑圧技術. 16. 2.3.1. 単一マイクロホンを用いた手法. 拡散性雑音は一般的に比較的定常的であることが考えられるため，非発話区間中に雑音成分を推定して，それを雑音除去に用いることが可能なため，単一マイクロホンを用いた手法が数多く存在する．. Spectral Subtraction 単一マイクロホンを用いた手法として，最も単純なものは，Boll が提案した Spec-. tral Subtraction (SS) である [9]．まず，発話が存在しない区間において，雑音のみのスペクトルを得る．例としては，Voice Activity Detection (VAD) 等を用いて非発話区間を定め，その区間における周波数 bin 毎のスペクトルの平均値，すなわち雑音成分のパワースペクトルの推定値を得る．このようにして得られた雑音成分の推定値を入力信号のパワースペクトルから周波数領域における減算を行うことで，目的音声の推定パワースペクトルを得る．. ˆ k)|2 = |X(ω, k)|2 − |N ˆ (ω, k)|2 |S(ω,. (2.16). Boll による SS は雑音が完全に定常的であるならば，観測信号に含まれる雑音をとても単純な処理で除去することが可能である．しかし，取り扱う雑音の分散が大きい場合，推定値として平均値を用いているため，誤差が生じることになる．この誤差は，周波数領域上でランダムに発生し，SS で消し残した成分は，時間- 周波数領域上で孤立した成分として存在する．これは自然現象では起き得ない現象であり，人間が耳にした場合，大きく耳障りなノイズとなる．これは musical noise と呼ばれ，SS を使用する上での大きな問題となっている．. Berouti らは，推定雑音成分をそのまま観測信号から減算するのでなく減算成分を定数倍するようなサブトラクション係数を導入して，SS を行う over spectral. subtraction を提案した [10]．サブトラクション係数は，Siganl to noise ration (SNR).

(31) 2.3 拡散性雑音抑圧. 17. に基づいて決定される 1 以上の数である．. ˆ k)|2 = |X(ω, k)|2 − α|N ˆ (ω, k)|2 |S(ω,. (2.17). SNR が小さいとき，その区間では発話成分は無く，雑音のみであると考えられる．そのとき，サブトラクション係数 α の値が大きくなることで，雑音成分の分散が大きい場合においても，全て引き去ることができるため，musical noise が大きく目立つのを防ぐことができる．一方，SNR が大きいとき，雑音成分を大きく減算をする必要はないため α は 1 となる．この over spectral subtraction の考えは後に大きく応用され，SS 処理音声の音質，musical noise の低減に大きく貢献している．. Virag らはサブトラクション係数に加え，SS 後の音声の減算に下限値を設け，さらにそれらの値を聴覚的な特性に応じて決定した [11]．Cho らは，マイクロホンアレイの各観測信号それぞれに SS を行い，その出力信号に DS 法を適用することで，定常的な雑音と指向性の雑音の除去を試みた [12]．山ノ内らは発話区間中にて雑音成分が推定雑音から，変化していくことに追従するため，音声成分が存在しない超高域，または超低域の変化を参照しながらサブトラクション係数を変える手法を提案している [13, 14]．また，SS によって生じる musical noise を SS の後処理として除去する手法が，Zenton や Udera らによって，提案されている [15,16]．musical. noise は時間-周波数領域では孤立するものであり，前後時間フレームまたは前後の周波数で分析し，突発的に発生しているならば，それを消すことで，musical noise を抑圧することが可能である．. MMSE に基づく single-channel 型 Wiener filter SS は短時間フレーム毎の情報しか用いていない．したがって，突然出力のパワースペクトルが大きくなったり，小さくなる等の不自然な状況に対応できない．出力信号は不連続な信号はとらず，時間的に連続な振るまいをすることが予測できる．つまり，過去の情報を利用して過去からの振るまいと大きく異なるような現象を防ぐ枠組を導入することで，不自然なスペクトル，musical noise の発生を防げる.

(32) 第 2 章一般的な雑音抑圧技術. 18. はずである．Ephraim らは，過去の時間情報を利用する Decision Directed (DD) 法よって求めた a priori SNR を用いて single-channel 型の Wiener filter を設計することで，SS で発生する musical noise を大きく低減することを実現した [18]．最適な single-channel 型の Wiener filter は以下の式で表せる．. SNRpriori (ω, k) SNRpriori (ω, k) + 1 E[|S(ω, k)|2 ] SNRpriori (ω, k) = E[|N (ω, k)|2 ] Ws (ω, k) =. (2.18) (2.19). a priori SNR と定義される SNRpriori (ω, k) は目的信号と雑音成分のパワーの期待値の比であり，これがわかれば最小二乗誤差に基づいた上述した形の最適な Wiener. filter が求まる．しかし，目的信号の期待値は未知であるから，どのようにして a priori SNR を求めるかが焦点となる．Ephraim らは，観測信号と推定雑音成分のパワー比で定義される，a posteriori SNR ならば求めることが可能であることに着目し，過去フレームの推定目的音声成分も利用した DD 法によって，a priori SNR を推定した．. |X(ω, k)|2 E[|N (ω, k)|2 ] 2 ˆ post (ω, k) = |X(ω, k)| SNR ˆ (ω, k)|2 |N. SNRpost (ω, k) =. DD. ˆ SNR priori (ω, k) = β. ˆ k − 1)|2 |S(ω, ˆ post (ω, k) − 1] + (1 − β)P [SNR 2 ˆ |N (ω, k)|. (2.20) (2.21) (2.22). ここで，P [·] は 0 以下の値を 0 にするための関数，β は時間スムージングのための係数であり，通常は β = 0.98 である．このように過去の情報をふんだんに活用することで，短時間フレームの情報のみを利用する処理と比べ，大幅に musical noise の発生を防ぐことが可能となる．また，Plapous らは DD 法によって得た推定目的音声成分を使ってもう一度 a priori SNR を求めることで，時間平滑化による正確なスペクトルの追従の遅れを解消している [19, 20]．.

(33) 2.3 拡散性雑音抑圧. 2.3.2. 19. 複数マイクロホンを用いた手法. 指向性を有さない拡散性雑音ならば，複数のマイク間での相関は無いということに着目した，マイクロホンアレイを用いた multi-channel 型の Wiener filter が提案されている．multi-channel 型の Wiener filter は single-channel 型の Wiener filter と比べ，装置の規模が大きくなってしまうという欠点を有するが，雑音をあらかじめ推定しておくことが必要無く，変化する雑音にも追従しやすい．また，前述したビームフォーミング技術とも組み合わせることで指向性雑音抑圧も可能となり，多く研究されている．. 観測信号を用いた multi-channel 型 Wiener filter. Zelinski は複数の観測信号中に含まれる拡散性雑音は完全に無相関であると仮定し，以下のような multi-channel 型の Wiener filter を設計した． PN −1 PN 2 ∗ i=1 j=i+1 [Re{Xi (ω, k)Xj (ω, k)}] N (N −1) Wm (ω, k) = PN 1 ∗ i=1 [Xi (ω, k)Xi (ω, k)] N. (2.23). ここで，Re{·} はリアルオペレータを表す．また，分子分母の相互相関，自己相関はそれぞれ，時間平均をとることで，期待値に近い値を得る．これによって，分子の自己相関部分はマイク間の相関に応じた値となり，それを自己相関でわることで無相関な拡散性雑音を抑圧する最適なゲイン係数となる．一方，Zelinski と同様に Bouquin らによって複数マイクロホンを用いた拡散性雑音抑圧がなされている [22]．Bouquin らは，雑音抑圧に Wiener filter では無く，複数マイク間のコヒーレンス関数を雑音抑圧ゲインとして用いている．. M SC(ω, k) =. |XL (ω, k)XR∗ (ω, k)|2 |XL (ω, k)|2 |XR (ω, k)|2. (2.24). Zelinski の観測信号中に含まれる拡散性雑音は完全に無相関であるという仮定は，マイク間隔が十分に大きい場合は成り立つが，マイク間隔が小さくなるにつれ，低周波数帯域の部分から次第に拡散性雑音でも相関を持ってしまうことが知.

(34) 第 2 章一般的な雑音抑圧技術. 20. られている [24]．この問題に対して，拡散性雑音の相関を有する成分が残留した残留ノイズを除去する手法が提案されている．Bouquin らは，非発話区間における複数マイクロホンの相互相関成分は，拡散性雑音の有相関成分であるとみなし，非発話区間にて推定しておいた，相互相関成分を減算することで，拡散性雑音の有相関成分を除去することを試みた [23]．. 拡散性雑音の coherene 関数で補正した multi-channel 型 Wiener filter. McCowan らは，理論的な拡散性雑音のコヒーレンス関数は既知であることを利用して，拡散性雑音の残留成分をコヒーレンス関数から導くことで，残留ノイズを除去することを試みた [24]．multi-channel 型の Wiener filter の残留ノイズが除去された分子部分を φij ss (ω, k) とすると，これは理論的な拡散性雑音のコヒーレンス関数 Γij を用いて，以下のように導出される．. φij ss (ω, k). Re{Xi (ω, k)Xj∗ (ω, k)} − 21 Re{Γij }(|Xi (ω, k)|2 + |Xj (ω, k)|2 (2.25) = 1 − Re{Γij }. このようにして求めた φij ss (ω, k) を観測信号の自己相関で割ることで，multi-channel 型の Wiener filter を設計する．. Wmcco (ω, k) =. PN −1 PN 2 ij i=1 j=i+1 [φss (ω, k)] N (N −1) PN 1 ∗ i=1 [Xi (ω, k)Xi (ω, k)] N. (2.26). multi-channel 型と single-channel 型 Wiener filter の混合手法 Li らは拡散性雑音の相関が低い高周波数領域は multi-channel 型の Wiener filter を，相関の高い低周波数領域では single-channel 型の Wiener filter を適用した hybrid 型の拡散性雑音抑圧手法を提案している [25]．拡散性雑音の無相関性の仮定がある程度成り立つ周波数帯域では，Zelinski が提案したような multi-channel 型の Wiener. filter を改良したものを設計する．これは全てのマイクロホンペアを選択するのでは無く，信頼性の高いマイクロホンペアを選択し Wiener filter を設計することで，ロバスト性を高めている．また，拡散性雑音の無相関性の仮定が成り立たないよう.

(35) 2.3 拡散性雑音抑圧. 21. な周波数帯域では，DD 法によって求めた a priori SNR を用いた，single-channel 型の Wiener filter を適用する．. 以上，指向性雑音もしくは拡散性雑音を抑圧する一般的な雑音抑圧技術について述べた．これらの技術は，理想的なマイクロホンアレイ配置や，計算資源があれば，対象とする種類の雑音を抑圧できることが可能となる．しかし，これらの技術は本研究が目的とする携帯端末への搭載に適していない．なぜなら，携帯端末はマイクロホンアレイを使用する場合，設置面積が限られることから理想的な設置が不可能であるためである．これによって適応ビームフォーマーや multi-channel 型の Wiener filter 等，多数のマイクロホンを用いた手法には効果的な雑音抑圧は期待できない．また，単一マイクロホンを用いた手法はマイクロホンが一つで済むため，携帯端末に設置することは可能であるが，指向性雑音に対応しにくいという問題がある．さらに，雑音成分を学習するための VAD には膨大な計算量が必要となる場合もあり，携帯端末への適用は現実的ではない．加えて，実環境においてそれぞれの種類の雑音が個々に存在することは極めて稀であるため，雑音抑圧の枠組に指向性雑音抑圧と拡散性雑音抑圧の枠組が親和性の高い形で組み合わされていなければならない．次章からは，これらの問題を克服することを目的とした提案手法について詳しく述べる．.

(36)

(37) 23. 第 3 章正方形マイクロホンアレイを用いた指向性雑音抑圧本章では，小規模なマイクロホンアレイで実現可能な新しい指向性雑音抑圧手法について述べる．提案手法は，2 個の無指向性マイクロホンの入力信号に対し，減算型のアレイ処理を施し，その後，Spectral Subtraction (SS) を行う．アレイ処理部では，目的音声強調の空間フィルタと目的音声抑圧空間フィルタの 2 系統の空間フィルタを得る．目的音声以外の方向に死角を向けた空間フィルタを複数得た後，それらの最小化選択によって擬似的に目的音声方向を強調するような空間フィルタを得る．このようにして得られた 2 系統の空間フィルタを用いて SS を行うことで，目的音声方向に鋭い焦点を向けることが可能となる．さらに，より広範囲からの妨害音にも対応できるようにするため，その技術を 3 個のマイクロホンへと拡張する．以下，3.1 で 2 個のマイクロホンを用いた指向性雑音抑圧手法を，3.2 で 3 個のマイクロホンを用いた指向性雑音抑圧手法について，それぞれ述べる．3.3 では，提案手法の効果を確認するため，2 話者の同時発話状況における雑音抑圧実験について述べる．雑音抑圧性能の評価は，連続音声を対象とした音声認識性能と PESQ [26] によって行った．. 3.1. 2 個のマイクロホンを用いた指向性雑音抑圧. 図 3.1 に 2 個のマイクロホンと目的音声，指向性雑音の配置例を示す．s(t) は目的音声信号，d(t) は指向性雑音信号をそれぞれ示す．また，dmic はマイク間距離，.

(38) 第3章. 24. 正方形マイクロホンアレイを用いた指向性雑音抑圧. s(t). target source. d(t). disturbance source. dmic. ch1. x1 (t). ch2. x 2 (t). 図 3.1 各信号とマイクロホンアレイの配置．. xi (t) は ch-i のマイクロホンにおける観測信号を示す．目的音声は 2 個のマイクロホンの正面に位置し，指向性雑音は正面方向に対して θ 方向から到来するものとする．図 3.2 に提案する 2 個のマイクロホンを用いた指向性雑音抑圧手法のブロック図を示す．本章では以後この手法を”2ch 手法 (two-channel method)” と呼ぶ．2ch 手法はアレイ処理部と SS 部に別れる．. 3.1.1. アレイ処理. アレイ処理部では，減算処理によって複数の指向特性の異なる空間フィルタを得る．一つは目的音声方向から到来する信号を強める空間フィルタ，もう一つは目的音声方向から到来する信号を弱める空間フィルタである．目的音声抑圧フィルタは二つのマイクロホンの観測信号を用いて，以下のような減算処理によって得られる．. n12 (t) = x1 (t) − x2 (t). (3.1).

(39) 3.1 2 個のマイクロホンを用いた指向性雑音抑圧. x1 (t). +. ch1 x (t) 2. n12 (t). -. 25. |.| Spectral Subtraction. ch2 delay +. b12 (t). + delay. -. phase information. N12 ( , k ) . FFT. B12 ( , k ) . FFT. ′ ( , k) S12 . b 21 (t). min |.|. M12 ( , k ) . IFFT /OLA. sˆ(t). distortion correction S ˆ ( , k) 12 . FFT. B21 ( , k ) . calculate distortion. 図 3.2 提案手法ブロック図 (two-channel method)．. ここで， n12 (t) は目的音声抑圧フィルタの出力に対応する信号である．次に，二つのマイクロホンの観測信号の片側に，ある遅延量 τ を付加しもう片方の信号と減算処理を行うことで，付加した遅延量 τ に応じた方向に死角を向けるような空間フィルタを得る．ここでは，遅延を付加するマイクロホンを変えることで，2 通りの空間フィルタを得る．. b12 (t) = x1 (t − τ ) − x2 (t). (3.2). b21 (t) = x1 (t) − x2 (t − τ ). (3.3). ここで，b12 (t) と b21 (t) は付加した遅延量 τ に応じた方向に死角を向けるような空間フィルタの出力信号に対応する．以後，nij (t) と bij (t) の周波数領域表現である. Nij (ω, k) と Bij (ω, k) を用いて話を進める．これらの出力信号に対応する各空間フィルタ φN12 ，φBij の指向特性を図 3.3 に示す．ここで，青木らが論じているような音声のスパース性の仮定 [6] が成り立っているとき，B12 (ω, k) と B21 (ω, k) を時間-周波数 bin 毎に小さいほうの信号を選択することは，目的音声方向に擬似的なビームを向けることと等価である言える．. |M12 (ω, k)| = min[|B12 (ω, k)|, |B21 (ω, k)|]. (3.4).

(40) 第3章. 26. 正方形マイクロホンアレイを用いた指向性雑音抑圧. φ .

(41) . φ φ . Gain. φ. ′. . . . . . . . direction θ [deg] 0 図 3.3 各空間フィルタの指向特性 φB12 , φB21 , φN12 , φS12 (f = 2000 Hz, dmic = 4 cm, τ = 3/32k sec)．. 例えば，ある時間-周波数 bin において，その bin で優勢な音源が図 3.3 における 45 °方向から到来している場合，図における φB12 が選択され，その音源方向には死角が向けられる．一方，優勢な音源が-45 °方向から到来している場合は，図における φB21 が選択され，その音源方向に死角が向けられることになる．したがって，. B12 (ω, k) と B21 (ω, k) の最小化選択の出力である |M12 (ω, k)| は擬似的に目的音声方向に焦点を向けた空間フィルタの出力とみなすことができる．結果的に，アレイ処理部にて，目的音声抑圧信号 |N12 (ω, k)| と，目的音声強調信号 |M12 (ω, k)| の. 2 系統のスペクトルを得ることができる．.

(42) 3.1 2 個のマイクロホンを用いた指向性雑音抑圧. 3.1.2. 27. Spectral Subtraction. アレイ処理によって得られた特性の異なる 2 個の信号を用いて SS を行う．目的音声方向により鋭い焦点を向けるため，|M12 (ω, k)| から |N12 (ω, k)| を以下の式のように減算する．.  2 2   |M12 (ω, k)| − |N12 (ω, k)| , 0 (ω, k)|2 = |S12 if |M12 (ω, k)| > |N12 (ω, k)|   0, otherwise. (3.5). 0 0 を図 3.3 に示す．この図より，SS SS の出力信号 |S12 (ω, k)| が形成する指向特性 φS12. によって目的音声方向への指向特性がより鋭くなっていることがわかる．なお，図における片側のマイクロホンに付加する遅延量 τ は 3/32 k sec であるが，これは指向性雑音によらず決定できる値であり，例えば， τ を大きくすると，目的音声方向へのビーム幅が広くなり，逆に小さくすることで，目的音声方向へのビーム幅が狭くなる．また，前述したアレイ処理によって得られる |M12 (ω, k)| は，目的音声方向に対して，周波数軸上で均一な利得では無いため，目的音声成分の周波数上での歪を 0 生じさせてしまう．SS の出力である |S12 (ω, k)| にも歪は含まれているため，これ. を補正する必要がある．マイクロホンアレイの正面に目的音声のみが存在する場合を考える．このとき，各マイクロホンの観測信号は全て同一の信号であると考えられる．. x1 (t) = x2 (t) = s(t). (3.6). このことから，アレイ処理で得られる二つの信号は以下のように表せる．. |N12 (ω, k)| = 0 p |M12 (ω, k)| = 2 − 2 cos(ω · τ ) · |S(ω, k)|. (3.7) (3.8). ここで，|S(ω, k)| は目的音声信号 s(t) の周波数領域表現である．このことから，SS 0 (ω, k)| は以下のように表せる．の出力 |S12 p 0 |S12 (ω, k)| = |M12 (ω, k)|2 − |N12 (ω, k)|2.

(43) 第3章. 28. 正方形マイクロホンアレイを用いた指向性雑音抑圧.

(44) . Gain.

(45) . . . . . . Frequency [Hz] 0 図 3.4 SS 後の出力 |S12 (ω, k)| に生じる周波数軸上の歪の例 (τ = 3/32k sec)．. =. p 2(1 − cos(ω · τ )) · |S(ω, k)|. (3.9). 上式において，|S(ω, k)| にかかる項が，歪を生じる項であり，例えば周波数軸上で図 3.4 のような振るまいをとる．この歪を以下のようにして補正する．. |Sˆ12 (ω, k)| = p. 0 |S12 (ω, k)|. 2(1 − cos(ω · τ )). (3.10). こうして得られた真の推定目的音声のスペクトル |Sˆ12 (ω, k)| は，時間領域に復元する際には，入力信号の位相等を用いて推定目的音声信号 sˆ(t) を得る．. 3.2. 3 個のマイクロホンを用いた指向性雑音抑圧. 前節で述べた 2ch 手法は真横から到来する指向性雑音，例えばマイクロホンアレイの真横等から到来するようなものは効果的に除去することができる．しかし，目的音声方向以外からの方向であるのに関わらず，マイクロホンに対し，同時に到.

(46) 3.2 3 個のマイクロホンを用いた指向性雑音抑圧. 29. y ch3. . ch4. ch3. ch4. 4cm. ch2. ch1. ch2. 4cm. ch1. 図 3.5 正方形マイクロホンアレイのマイク配置. 達するような雑音は除去できない．例えば，目的音声とマイクロホンアレイをはさんでちょうど反対の方向から到来するような雑音である．これは原理的に，2ch 手法は 2 個のマイクロホンに対し，位相差を伴って入力された信号を除去する枠組であり，そのような信号には対応できないためである．実際の使用環境を考えると，上述した状況から指向性雑音が到来する場合も大いに考えられ，2ch 手法だけでは十分とは言えない．本節では，2ch 手法を 4 個のマイクロホンを正方形の各頂点に配置した正方形マイクロホンアレイのうちの 3 個を使う手法へと拡張する．なおここで提案する手法を”3ch 手法 (three-channel method)” と呼ぶものとする．図 3.5 に正方形マイクロホンアレイのマイクロホン配置を示す．正方形マイクロホンアレイのマイク配置は，前述した指向性雑音抑圧可能方向の制限を克服する目的のマイク配置がなされている．目的音声が到来する方向は図における z 軸方向から到来するものとする．このような配置をすることで，マイクロホンアレイ平面方向 360 °から到来する信号の区別をつけることが可能となる．なお，本節で提案する 3ch 手法では，実際に用いるマイクロホンは 4 個の中から 3 個を選択することになる．.

(47) 第3章. 30. 正方形マイクロホンアレイを用いた指向性雑音抑圧. x1 (t) two-channel method. ch1. Sˆ12 (ω , k). phase information Sˆ(ω , k). x 2 (t). minimization. ch2 two-channel method ch3. x 3 (t). IFFT sˆ(t) /OLA. Sˆ23 (ω , k). 図 3.6 提案手法ブロック図 (three-channel method)．. このようなマイクロホン配置において，2 通りのマイクペアで 2ch 手法を適用すれば，z 軸方向から到来する音声のみを抽出することができると考えられる．例えば，ch1 と ch2，ch2 と ch3 の組合せが挙げられる．図 3.6 に 3ch 手法のブロック図を示す．|Sˆ12 (ω, k)| は，ch1 と ch2 を使用して，推定された目的音声のスペクトルであり，図 3.5 における y-z 平面から到来する信号が抽出されたものであると考えることができる．一方，|Sˆ23 (ω, k)| は，ch2 と ch3 を使用して，推定された目的音声のスペクトルであり，図 3.5 における x-z 平面から到来する信号が抽出されたものであると考えることができる．2ch 手法での最小化選択の場合と同様に，音声のスパース性が仮定できるならば，|Sˆ12 (ω, k)| と |Sˆ23 (ω, k)| の最小化選択を行うことで，z 軸方向から到来する音声のみを抽出することが可能であると考えられる．. ˆ k)| = min[|Sˆ12 (ω, k)|, |Sˆ23 (ω, k)|] |S(ω,. (3.11). ˆ k)| は，図 3.5 における z 軸方向からの音声のみを抽このようにして得られた |S(ω, 出したものであり，携帯端末の使用者の音声のみを抽出できるものと考えられる．.

(48) 3.3 指向性雑音抑圧実験. 3.3. 31. 指向性雑音抑圧実験. 指向性雑音が存在する環境下で，雑音を抑圧し目的音声を強調する実験を行い，連続音声認識と強調された音声の音質の二つの観点から，提案手法の評価を行った．雑音抑圧性能は連続発話音声の単語正解精度と，PESQ によって算出される. mean opinion score (MOS) によって評価される．雑音が到来する方向を変化させ， 3 個のマイクロホンを用いた 3ch 手法が指向性雑音の到来方向にロバストであることを確認するとともに，同じ雑音環境下にて従来手法と提案手法の性能を比較を行った．. 3.3.1. 実験状況. 実験は携帯端末の使用者が端末に向かって発話を行っていて，その端末に指向性雑音として他者の発話が向けられている，という 2 話者の同時発話状況を想定して行った．図 3.7 にマイクロホンアレイと目的音声，指向性雑音の位置関係と収録環境を示す．目的音声は傾けられたマイクロホンアレイに対し，25 cm の距離から発話される．指向性雑音である妨害音声は，マイクロホンアレイから 1 m の距離で角度 θ 方向から発話される．それぞれのより詳細な位置関係を，図 3.8 に示す．マイクロホンアレイ平面と床がなす角 φ は 30 °とし，図 3.8 における b 軸と指向性雑音の到来方向とがなす角 θ は，0 °，30 °，60 °，90 °，120 °，150 °，180 °の 7 通りの場合を考える．なおマイクロホンの高さは床から 100 cm，各スピーカーの高さは 140 cm であり，収録を行った部屋の残響は 240 ms である．各スピーカーから Time streched pulse (TSP) を鳴らし，マイクロホンアレイで収録した TSP 波形からインパルス応答を計算した [28]．目的音声，妨害音声ともに ASJ-JNAS の男性 23 名の新聞読み上げ連続音声 100 発話 [29] にインパルス応答を畳み込むことで，発話をシミュレートした．なお，目的音声と指向性雑音の SNR は 0 dB とした．このようにして得られた，目的音声と指向性雑音が混入した混合音声に対して提案手法による雑音抑圧処理を施し，連続音声認識性能と PESQ による評価を.

(49) 第3章. 32. 正方形マイクロホンアレイを用いた指向性雑音抑圧. 5.5 m. 1m 2m. 4m 2m 25cm Target. Disturbance. MIC ARRAY. 図 3.7 目的音声と指向性雑音の収録環境．θ = 0◦ , 30◦ , 60◦ , 90◦ , 120◦ , 150◦ , 180◦ . target speech disturbance speech. ch3 ch4. θ. b. φ. ch2 ch1. a. 図 3.8 目的音声，指向性雑音，マイクロホンアレイの位置関係．θ = 0◦ , 30◦ , 60◦ , 90◦ , 120◦ , 150◦ , 180◦ , φ = 30◦ .. 行った．.

(50) 3.3 指向性雑音抑圧実験. 33. 音声認識に用いる音響モデルには，ASJ-JNAS の男性話者 133 人が接話型マイクロホンによって収録した連続発話音声 20414 文から学習した状態共有トライフォンを使用し, 認識器には当研究室開発のワンパストライグラムデコーダ SKOOD [30] を使用した．なお，目的音のみをマイクロホンが観測した場合の単語正解精度は. 88.6 %であった．PESQ による評価では，目的音声を参照信号とし，雑音抑圧処理後音声，または無処理音声を被試験信号とした. 雑音抑圧処理時には分析フレーム長 32 ms のハミング窓を使用し，フレームシフトは 8 ms，空間フィルタを形成する際の遅延量 τ の値は 3/32 k sec とした．なお，本稿にて考慮する音声の帯域は，全ての実験において 300-7500 Hz とした．. 3.3.2. 2ch 手法と 3ch 手法による指向性雑音抑圧実験結果. 提案手法の指向性雑音抑圧効果を調べるため，2ch 手法と 3ch 手法による処理後音声の単語正解精度と PESQ-MOS を算出した．評価項目は，1) 雑音抑圧処理を施していない音声 (mic input)，2) 図 3.8 における ch1 と ch2 を使用した 2ch 手法 (ch1 & ch2)，3) ch2 と ch3 を使用した 2ch 手法 (ch2 & ch3)，4) ch1，ch2，. ch3 を使用した 3ch 手法 (ch1 & ch2 & ch3) の 4 通りである．単語正解精度と PESQ-MOS を図 3.9，図 3.10 にそれぞれ示す．まず，図 3.9 に着目する．2ch 手法を適用した場合，理論通りの角度から到来する指向性雑音が抑圧できていることがわかる．例として，図 3.8 における ch1 と ch2 を使用した場合，θ = 90°方向から到来する信号が最も 2 個のマイク間に位相差がつくため，雑音抑圧効果が大きいと考えられるが，図 3.9 における θ = 90°の単語正解精度を見ると，mic input がほぼ 0 %であるのに対し，ch1&ch2 で 62.3 %と大幅に向上しているのがわかる．対称的に，図 3.8 における ch2 と ch3 を使用した場合，同様に θ = 180°方向から到来する信号に対する雑音抑圧効果が最も大きいと考えられ，実際に図 3.9 における θ = 180°の単語正解精度を見ると，mic input でほぼ. 0 %から，ch2&ch3 で 68.6 %と大幅に向上している．この結果から，2ch 手法が効.

(51) 第3章. 34.

(52) 3 4. 正方形マイクロホンアレイを用いた指向性雑音抑圧. 5 6 5 . 5 6 5 . 5 6 75 6 5 . . 2. 01. .,/ ,-. +,. . . . .

(53) . "! # !%$'& ()*. 図 3.9 2 話者同時発話における単語正解精度．. 果的に指向性雑音を抑圧できていることが確認できる．しかし，2ch 手法では結果からもわかる通り，指向性雑音がうまく抑圧できていない到来方向が存在することがわかる．2ch 手法を 3 個のマイクロホンへ拡張した 3ch 手法の結果を見ると，ほぼ全ての指向性雑音の到来方向に対応できていることがわかる．また図 3.10 の. PESQ-MOS の結果もほぼ同等の傾向が見られ，単語正解精度だけでなく，音質の面でも大きく向上が見られる．このことから，提案した 3ch 手法によって，ほぼ全ての方向から到来する指向性雑音を効果的に抑圧できることが可能であることがわかる．. 3.3.3. 従来の指向性雑音抑圧手法との比較結果. 2 章において解説した，他の指向性雑音抑圧手法と提案手法との比較実験を行った．実験状況は，目的音声と指向性雑音の SNR は 0 dB とし，妨害音声の到来方向.

(54) 3.3 指向性雑音抑圧実験. . 3 " 4. 35. 5 6 5 . 5 6 5 . 5 6 5 6 5 . . 2. . ./. 1 ,-. 0 . .

(55) . "!$# #&%(' ) * +. . . 図 3.10 2 話者同時発話における PESQ-MOS．. は図 3.8 において，θ = 90 °とした．比較を行った手法は，図 3.8 における 4 個のマイクロホンを用いた Delay & sum 法 (DS)，図 3.8 において ch1 と ch2 を用いて，. Griffiths-Jim 型のビームフォーマーを施したもの (2ch-GJBF) [4]，浅野らによる 2 チャンネルのマイクロホンに基づく SS を施したもの (2ch-SS) [5]，マイクロホン間の位相差に基づいて時間-周波数マスキングを施したもの (2ch-TFmasking) [7] である．なお，Griffiths-Jim 型のビームフォーマーでの適応フィルタのタップ数は 512. tap とし，2ch-SS での雑音の到来方向は真値を与えた．さらに，2ch-TFmasking では目的音声とする角度をマイクロホンアレイ正面に対して ±20 °の範囲とした．単語正解精度と PESQ-MOS による結果を表 3.1 に示す．この結果より，マイクロホンアレイによるビームフォーミングが基になっている，DS，2ch-GJBF，2ch-SS は若干の性能の向上は見られるものの効果的とは言えない．これはマイク間隔が非常に狭いため，急峻な死角またはビームが向けら.