第 5 章 指向性雑音抑圧と拡散性雑音抑圧の統合 51
5.3 指向性と拡散性の雑音が混在する環境下での雑音抑圧実験
5.3.2 提案手法の各段階での雑音抑圧性能
提案手法の各段階での効果を確認するために,指向性雑音と拡散性雑音が混入し た混合音声に対して,提案手法の各段階での出力音声を連続音声認識性能とPESQ によって評価した.なお目的音声と指向性雑音とのSNR (SNRdir)は10 dBとし,
目的音声と拡散性雑音とのSNR (SNRdif)は10,15,20 dBの3通りとした.こ れは拡散性雑音の大きさを変えることによって,指向性雑音の影響が強い場合と,
拡散性雑音の影響が強い場合での提案手法の効果を調べるためである.なお,最 終的な目的音声と雑音のSNRをSNRtotalと表すとする.
時間波形による提案手法の各段階の効果
まず,図5.3に雑音が重畳された音声に対して,提案手法を施した場合の,出力 音声を示す.(a)は目的音声,(b)は指向性雑音と拡散性雑音をそれぞれSNRdir = 5 dB, SNRdif = 15 dBで重畳した混合音声,(c)は提案手法における空間フィル タの最小化選択による出力音声,(d)は(c)での処理に加え,空間フィルタの出力 信号を用いて算出したmulti-channel型のWiener filteringを施した出力音声,(e)
60 第5章 指向性雑音抑圧と拡散性雑音抑圧の統合
(a)
(b)
(c)
(d)
(e)
図 5.3 提案手法の各段階毎の出力波形 : (a)目的音声,(b)雑音重畳音声(SNRdir
= 5 dB, SNRdif = 15 dB),(c)指向性雑音抑圧処理後音声,(d)拡散性雑音抑圧処 理後音声,(e)残留ノイズ除去後音声.
は(d)での処理に加えsingle-channel型のWiener filterによって残留ノイズを除去 をした音声である.まず,(c)を見ると提案手法による指向性雑音抑圧処理によっ て,指向性雑音が抑圧されている様子がわかる.さらに,(d)では拡散性雑音処理 によって雑音が抑圧され,(e)では残留ノイズが除去され,目的音声のみが高精度 に抽出されているのがわかる.
単語正解精度とPESQ-MOSによる提案手法の評価
音声認識の結果として,図5.4,5.5,5.6に異なるSNRに対する単語正解精度を,
処理後音声の音質の結果として,図5.7,5.8,5.9にPESQによるMOS (PESQ-MOS)の結果をそれぞれ示す.縦軸は単語正解精度もしくはPESQ-MOS,横軸は 指向性雑音の到来方向θである.non-processは雑音抑圧処理を施していないも の,directional noise reduction (NR)は指向性雑音抑圧処理のみを行ったもの,+
diffuse NRはさらに拡散性雑音抑圧処理を行ったもの,+ residual NRはさらに
残留ノイズ除去処理を施した場合の出力音声に対する結果を表す.まず単語正解 精度,PESQ-MOSどちらの結果においても,指向性雑音がどの方向から到来して も抑圧できていることがわかる.また図5.4において,指向性雑音の到来方向が 90°の場合,無処理の音声は単語正解精度が22.4 %であるのに対し,directional noise NR,directional & diffuse NR,residual NRの処理によってそれぞれ,39.1
%,51.1 %,66.5 %まで向上していることが確認できる.これに対して図5.6にお
いて,指向性雑音の到来方向が90°の場合,無処理の音声は単語正解精度が39.0
% であるのに対し,directional noise NR,directional & diffuse NR,residual NR の処理によってそれぞれ,72.1 %,79.0 %,80.4 %まで向上していることが確認で きる.この結果は,拡散性雑音が大きな影響を持つ場合においては,指向性雑音抑 圧の処理よりも,拡散性雑音抑圧処理と残留ノイズ抑圧処理が大きく単語正解精 度向上に貢献しており,逆に拡散性雑音が小さく指向性雑音の影響が大きい場合 は,指向性雑音抑圧の処理が大きく単語正解精度向上に貢献していることがよく わかる.また,PESQによる結果は単語正解精度の結果とほぼ同じ傾向が見られ るが,それに比べて残留ノイズ除去によるMOS値の向上が,拡散性雑音の大きさ に関わらず見られる.これは音声認識には残留ノイズが非常に小さい場合は認識 性能に大きく影響は与えないが,純粋に被試験信号の音質を算出するPESQ-MOS では,残留ノイズを除去した効果がより鮮明に現れるためであると考えられる.
62 第5章 指向性雑音抑圧と拡散性雑音抑圧の統合
!#"$%&('
)*+
,-../+-.0 12
3
465478 94!:4;< =>$?6>;< =#6!:4;<
図 5.4 提案手法による段階毎の単語正解精度(SNRdir= 10 dB, SNRdif = 10 dB, SNRtotal = 3.98 dB).
!#"$%&('
)*+
,-../+-.0 12
3
465478 94!:4;< =>$?6>;< =#6!:4;<
図 5.5 提案手法による段階毎の単語正解精度(SNRdir= 10 dB, SNRdif = 15 dB, SNRtotal = 6.12 dB).
!#"$%&('
)
*+
,-../
+-.0 12
3
465478 94!:4;< =>$?6>;< =#6!:4;<
図 5.6 提案手法による段階毎の単語正解精度(SNRdir = 10 dB, SNRdif = 20 dB, SNRtotal = 7.61 dB).
! "$#%&'
()
* +-,
.
/*
01023 !40"50687 9$3:!$687 9;3"50687
図 5.7 提案手法による段階毎のPESQ-MOS (SNRdir = 10 dB, SNRdif = 10 dB, SNRtotal = 3.98 dB).
64 第5章 指向性雑音抑圧と拡散性雑音抑圧の統合
! "$#%&'
()
* +-,
./*
01023 !40"50687 9$3:!$687 9;3"50687
図 5.8 提案手法による段階毎のPESQ-MOS (SNRdir = 10 dB, SNRdif = 15 dB, SNRtotal = 6.12 dB).
! "$#%&'
()
* +-,
./*
01023 !40"50687 9$3:!$687 9;3"50687
図 5.9 提案手法による段階毎のPESQ-MOS (SNRdir = 10 dB, SNRdif = 20 dB, SNRtotal = 7.61 dB).