• 検索結果がありません。

本研究における今後の課題と展望

第 7 章 結論

7.2 本研究における今後の課題と展望

応できる可能性がある.但し,パワーエンベロープに対して,MTFに基づいてカルマン フィルタ処理を行なう必要がある.

キャリア成分の回復

提案法は,パワーエンベロープの回復を行なっているが,キャリア成分の回復は行なっ ていない.より精度良く音声を回復するためには,キャリア成分の回復を行なう必要があ る.回復方法として,Unokiら[33]が提案している基本周波数を用いたキャリア再生成法 を雑音環境に適応させることで,キャリア成分の回復ができる可能性がある.

雑音・残響抑圧法の提案

Unokiらの手法[31]-[33]と提案法を組み合わせる事で,雑音・残響抑圧法の提案できる

可能性がある.ただ単に提案法の後にUnokiらの手法を施した場合は,縦列的な処理に なってしまい,雑音・残響の同時抑圧法の提案ができない.1つの見解として,式(3.10)の MTFを逆フィルタリングすることで同時抑圧法を提案できると考える.ただし,1/m( fm) を掛ける際には,提案法と同様に,振幅に影響を及ぼさず,変調度のみに対して行なわれ なければならないと考えられる.

音声認識システムや補聴システムへの応用

MTFに基づいているUnokiらの残響抑圧法[33]は,音声明瞭度を最大で約30 %ほど回 復できることが分かっている.また,Luら[28]によってUnokiらの手法が残響環境下で の音声認識の前処理に有効であることが分かっている.このことから,Unokiらの残響抑 圧法は,音声認識システムや補聴システムに応用すれば,システムの精度向上へ寄与でき ると考えられる.残響環境か雑音環境の違いはあるが,Unokiらと同様にMTFに基づい ている提案法も音声認識システムや補聴システムの精度向上に寄与できると考えられる

謝辞

本研究を進めるにあたり,多大な助言と懇切丁寧かつ,熱心な御指導をして頂きました 鵜木祐史准教授に心から感謝致します.本研究を進めるにあたり,多大な助言と熱心な指 導をして頂きました赤木正人教授に心から感謝致します.本研究に関して多大な助言をし て頂いた李軍峰助教,博士後期課程の羽二生篤氏,木谷俊介氏に心より感謝致します.有 意義な討論,助言を賜った赤木・鵜木研究室の皆様方に心から感謝いたします.

参考文献

[1] S. T. Neely, J. B. Allen, “Invertibility of a room impulse response,” J.Acoust. Soc. Am., Vol. 66, No. 1, pp. 166–169, July 1979.

[2] M. Miyoshi, Y. Kaneda, “Inverse filterting of room acoustics,” IEEETrans. ASSP., Vol. 36, No. 2, pp. 145–152, Feb. 1988

[3] H. Wang, F. Itakura, “Realisation of acoustic inverse filtering through multi-microphone sub-band processing,” IEICE Trans., Vol. E75-A No. 11, pp. 1474–1483.

[4] S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Trans. ASSP., Vol. 27, No. 2, pp. 113–120, 1979

[5] 片山 徹,応用カルマンフィルタ,朝倉書店,2000,pp. 66–82.

[6] P. Scalart, J. V. Filho, “Speech enhancement based on a priori signal to noise estimation,”

ICASSP’96, Vol. 2, pp. 629–632, 1996.

[7] 石田 隆晃,田口 亮,“データ依存型ウィナーフィルタの帯域分割処理による音声信 号の雑音抑圧,”電子情報通信学会技術研究報告,Vol. 105,No. 426, pp.19–24, 2005.

[8] 西山 清,中野 道雄,パソコンで解くカルマンフィルタ,丸善,1993.

[9] K. K. Paliwal, A. Basu, “A speech enhancement method based on Kalman filtering,”

ICASSP’87, Vol. 1, pp. 177–180, 1987.

[10] Y. Ephraim, and D. Malah, “Speech Enhancement using a minimum mean-square er-ror short-time spectral amplitude estimator,” IEEE Trans. ASSP., Vol. ASSP-32, No. 6, pp.1109-1121, Dec. 1984.

[11] R. J. McAulay, M. L. Malpass, “Speech enhancement using a soft-decision noise suppres-sion filter,” IEEE Trans. ASSP., Vol. 28, No. 2, pp. 137–145, Apr. 1980.

[12] 北岡 教英,赤堀 一郎,中川 聖一,“スペクトルサブトラクションと時間方向スムー ジングを用いた雑音環境下音声認識,”電子情報通信学会論文誌,Vol. J83-D-2, No. 2, pp. 500–508, Feb. 2000.

[13] 藤本 雅清,有木 康雄,“カルマンフィルタに基づく音声信号推定法を用いた雑音環 境下での音声認識,”電子情報通信学会論文誌,Vol. J85-D-2 No. 1, pp. 1–11, Jan 2002.

[14] 加藤 正徳,杉山 昭彦,芹沢 昌宏,“重み付き雑音推定とMMSE STSA法に基づく高 音質雑音抑圧,”電子情報通信学会論文誌,Vol. J87-A, No. 7, pp. 851–860, Jul 2004.

[15] 上村 益永,高橋 祐,猿渡 洋,鹿野 清宏,“高次統計量を利用したミュージカルノイ ズ計量尺度に基づくスペクトル減算法の自動最適化,”日本音響学会講演論文集,pp.

691–694, Sep. 2008.

[16] 荒井 隆行,木下 慶介,程島 奈緒,楠本 亜希子,喜田村 朋子,“音声の定常部抑圧の 残響に対する効果,”日本音響学会講演論文集,pp. 449–450, Oct. 2001.

[17] 吉田 航,程島 奈緒,荒井 隆行,“雑音・残響環境下における音声明瞭度改善のため の定常部抑圧処理の評価,”日本音響学会講演論文集,pp. 493–496, Sep. 2008.

[18] K. Kinoshita, M. Delcroix, T. Nakatani, and M. Miyoshi, “Multi-step linear prediction based speech enhancement in noisy reverberant environment,” Proc. Interspeech-2007., pp. 854–857, Aug. 2007.

[19] 吉岡 拓也,中谷 智広,三好 正人,“雑音と残響の同時抑圧による音声強調,”日本音 響学会講演論文集,pp. 731–732, Mar. 2008.

[20] 吉岡 拓也,中谷 智広,三好 正人,“雑音・残響抑圧を目的とした線形フィルタに非線 形フィルタを後置させた系の最適化法,”日本音響学会講演論文集,pp. 845–846, Sep.

2008.

[21] 戸井田 義徳, “空間内における音声情報伝達,”日本音響学会誌, 51巻4号, pp. 312–316, 1995.

[22] T. Houtgast and H. J. M. Steeneken, “The Modulation Transfer Function in Room Acous-tics as a Predictor of Speech Intelligibility,” Acoustica., Vol. 28, pp. 66–73, 1978.

[23] T. Houtgast, H. J. M. Steenken and R. Plomp, “Predicting Speech Intelligibility in Rooms from the Modulation Transfer Function. I. General Room Acoustics,” Acoustica., Vol. 46, pp. 60–72, 1980.

[24] T. Houtgast, H. J. M. Steenken, “A review of the MTFconcept in room acoustic and its use for extimating speech intelligibility in audioria,” J.Acoust. Soc. Am., Vol. 77, No. 3, March 1985.

[25] 小椋 靖夫,浜田 晴夫,三浦 種敏, “音場における音声伝送品質のためのMTFとSTIに ついて,”日本音響学会誌, 40巻3号, pp. 181–191, Mar. 1984.

[26] 中島立視, “音声の明瞭度指標(STI)の測定,”日本音響学会誌, 49巻2号, pp. 103–110, 1993.

[27] 平松 壮太,鵜木 祐史,“変調伝達関数に基づいた残響時間のブラインド推定法の検 討,”日本音響学会聴覚研究会資料,Vol. 37, No. 11, pp. 855–860, Jan. 2008.

[28] L. Xugang, M. Unoki, and M. Akagi, “Comparative evaluation of modulation-transfer-function-based blind restoration of sub-band power envelopes of speech as a front-end processor for automatic speech recognition systems,” Acoust. Sci.&Tech., Vol. 29, No. 6, pp. 351–361

[29] 広林 茂樹,野村 博昭,小池 恒彦,東山 三樹夫,“パワーエンベロープ伝達関数の逆 フィルタ処理による残響音声の回復,” 電子情報通信学会論文誌,Vol. J81-A, No. 10, pp. 1323-1330, Oct. 1998.

[30] M. Unoki, K. Sakata, and M. Akagi, “A speech dereverberation method based on the MTF concept,” Eurospeech2003 in Geneva, pp. 1417–1420, 2003.

[31] M. Unoki, M. Furukawa, K. Sakata, and M. Akagi, “An improved method based on the MTF concept for restoring the power envelope from a reverberant signal,” Acoust. Sci.&

Tech. Vol. 25, No. 4, pp. 232–242, 2004.

[32] M. Unoki, K. Sakata, M. Furkawa, and M. Akagi, “A speech dereverberation method based on the MTF concept in power envelope restoration,” Acoust. Sci.&Tech., Vol. 25, No. 4, pp. 243–254. 2004.

[33] M. Unoki, M. Toi, and M. Akagi, “Development of the MTF-based speech  derever-beration method using adaptive time-frequency division,” Proc. Forum Acusticum2005 in Budapest, pp. 51–56, 2005.

[34] M. R. Schroeder, “Modulation transfer function: definition and measurement,” Acoustica., Vol. 49, pp.179–182, 1981.

[35] T. Arai, M. Pavel, H. Hermansky, and C. Avendano, “Syllable intelligibility for temporally filtered LPC cepstral trajectories,” J.Acoust. Soc. Am., Vol. 105, No. 5, pp. 2783–2791, May 1999.

[36] N. Kanedera, T. Arai, H. Hermansky, and M. Pavel, “On the importance of various mod-ulation frequencies for speech recognition,” Eurospeech97 in Rhodes, pp. 1079–1082, 1997.

[37] 金寺 登,荒井 隆行,船田 哲男,“変調スペクトルの重要な成分のみを選択的に用い た雑音に強い音声認識,”電子情報通信学会論文誌,Vol. 84, No. 7, pp. 1261–1269, Jul.

2001.

[38] T. Takeda, Y. Sagisaka, K. Katagiri, M. Abe, and H. Kuwabara, Speech Database User’s Manual, ATR Tecnical Report, TR-I-0028, 1988.

[39] ANSI S3.5-1997, “American National Standard Methods for Calculation of the Speech Intelligibility Index,” 1997.

関連したドキュメント