今後の課題

第 5 章結論

5.2 今後の課題

今後、本研究の提案法で単語認識することにより、雑音が混雑する車内や、駅などの環境下でキーワード認識技術を用い、コンピュータの音声操作への応用などが考えられる。

また、MRTDで音素を表現し、本研究の提案法が音素認識まで拡張することが可能であるため、連続語彙の認識の可能性がある。さらに、単一話者の複数回の発話や不特定話者などに対応する可能性を持っている。以下に、これらの音素認識や連続語彙認識および多話者複数回発話に対応するために、必要な課題を示す。

音素認識の拡張

本研究はテンプレートを用いる単語を認識する方法である。音声認識では、テンプレートが単語であると、連続語彙などを認識することが困難である。今後の拡張として、MRTD で音素を表現しテンプレートを音素に拡張すれば、連続語彙などの認識が可能となる。この拡張を実現するため、MRTDの改良以外に入力音声を正しく音素に分割する方法が必要である。また、認識する際に、音素認識に対応するNMF法の改良も必要となる。

連続語彙の拡張

音素認識ができることは連続語彙を認識するための必要な条件の1つである。また、連続語彙を認識するため、文法などの言語知識、すなわち言語モデルの応用が必要である。

図2.1に示すように、言語モデルの知識が、目的音候補v_hの系列を生成する時、役に立つ。ここで言語モデルの知識を用いて、正しい目的音候補の系列が生成でき、認識率の向上また処理の高速化が期待できる。

多話者複数回発話の適応

本研究のコンセプトにより、多話者や複数回発話の変化を吸収する方法は、膨大なテンプレートを用意することではなく、分離の結果から合成器を用いて、テンプレートを微修

正する方法である。このため、本研究では、目的音と雑音を分離する結果のフィードバックから、アクティベーション行列を単位行列に近づける修正法が必要となる。

ここで示した課題を克服することにより、本研究の提案手法は音声認識が利用できる状況を現在より大きく拡張する可能性を持っている。

謝辞

本研究を進めるにあたり、多大なる御指導ならびに御鞭撻を賜りました赤木正人教授に深く感謝致します。本研究を進めるにあたり、日頃から熱心な御指導ならびに御鞭撻を賜りました鵜木祐史准教授に心より感謝致します。本論文を作成するにあたり、貴重な時間を頂、熱心な指導を賜りました寺朱美先生に心より感謝致します。

そして、日頃から数多くの議論と激励をいただいた赤木研究室の諸先輩方に厚く御礼を申し上げます、また、本研究の遂行にあたり多面にわたり御協力いただいた音情報処理学講座の皆様に感謝致します。

最後に、本学での研究生活を支え、温かく見守ってくれた両親に心から感謝致します。

参考文献

[1] Wikipedia, “音声認識”, http://ja.wikipedia.org/wiki/音声認識.

[2] 鈴木陽一,赤木正人,伊藤彰則,佐藤洋,苣木禎史,中村健太郎, “音響学入門”, pp.88-92, 2011.

[3] J. Benesty, M. M. Sondhi, Y. Huang(Eds), “Springer Handbook of Speech Process-ing”, pp.521-535, 2007.

[4] J. Benesty, M. M. Sondhi, Y. Huang(Eds), “Springer Handbook of Speech Process-ing”, pp.653-664, 2007.

[5] B. A. Dautrich, L. R. Rabiner, and T. B. Martin, “The eﬀects of selected signal processing techniques on the performance of a filter-bank based isolated word recog-nizer”, Bell Systems Technical Journal 62,1311, 1983.

[6] S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoustics, Speech Signal Process. ASSP-27, pp.113-120, 1979.

[7] R. Zelinski, “A microphone array with adaptive post-filtering for noise reduction in reverberant rooms”, IEEE, Acoustics, Speech, and Signal Processing, ICASSP-88., pp. 2578-2581, 1988.

[8] M. J. F. Gales and S. J. Young, “Robust speech recognition using parallel model combination”, IEEE trans. on Speech and Audio Processing, Vol.4, pp.352-359, 1996.

[9] F. Martin, et al., “Recognition of noisy speech by composition of hidden Markov models”, Proc. Eurospeech’ 93, pp.1031-1034.

[10] 赤木正人,羽二生篤, “音声の知覚と認識 : 人は脳で音声を聞く．機械は？”,日本音響学会論文集, 2011, pp.1725-1728.

[11] E. C. Cherry, “Some experiments on the recognition of speech, with one and with two ears”, J. Acoust. Soc. AM., pp. 975-979, 1953.

[12] A. S. Bregman, “Auditory scene analysis: The perceptual organization of sound”, MIT Press, 1990.

[13] A. Haniu, M. Unoki and M. Akagi, “A study on a speech recognition method based on the selective sound segregation in noisy environment”, NCSP2005, 403-406, 2005.

[14] 羽二生篤，鵜木祐史，赤木正人, “ヒトの聴覚情報処理過程を考慮した音声認識モデル”，電子情報通信学会技術報告，SP2009-33, 2009.

[15] M. Unoki, M. Akagi, “A method of signal ex- traction from noisy signal based on auditory scene analysis”, Speech Communication 27, pp.261-279, 1999.

[16] P. C. Nguyen, T. Ochi and M. Akagi, “Modified Re- stricted Temporal Decomposi-tion and Its ApplicaDecomposi-tion to Low Rate Speech Coding”, IEICE TRANSACTIONS on Information and Systems, E86-D(3):397-405, 2003.

[17] D. D. Lee and H. S. Seung, “Algorithms for Non-negative Matrix Factorization”, Adv. Neural Inf. Process. Syst., pp.556-562, 2000.

[18] S. J. Rennie, J. R. Hershey and P. A. Olsen, “Single- Channel Multitalker Speech Recognition”, IEEE Signal Processing Magazine, pp. 66-80, 2010.

[19] B. S. Atal, “Eﬃcient coding of LPC parameters by temporal decomposition”, Proc.

ICASSP’83, pp.81-84, 1983.

[20] S. J. Kim and Y. H. Oh, “Eﬃcient quantization method for LSF parameters based on restricted temporal decomposition”, Electron. Lett., vol.35, no.12, pp.962-964,1999.

[21] A. C. R. Nandasena and M. Akagi, “Spectral stability based event localizing temporal decomposition”, Proc. ICASSP’98, pp.957-960, 1998.

[22] S. Young, G. Evermann, M. Gales, T. Hain, D. Kershaw, A. Liu, G. Moore, J. Odell, D. Ollason, D. Povey, V. Valtchev and P. Woodland, “The HTK Book”, Version 3.4, pp.73-90, 2009.

[23] 亀岡弘和, “非負値行列因子分解の音響信号処理への応用”, 日本音響学会誌, vol.68, no.11, pp.559-565, 2012.

[24] Tuomas Virtanen, “Monaural Sound Source Separation by Nonnegative Matrix Fac-torization With Temporal Continuity and Sparseness Criteria”, IEEE Transactions on Audio, Speech, and Language Processing, vol.15, no.3, 2007.

[25] S. Nakano, K. Yamanoto, and S. Nakagawa, “Fast NMF based approach and im-proved VQ based approach for speech recognition from mixed sound”, Signal & In-formation Processing Association Annual Summit and Conference (APSIPA ASC), pp.1-4, 2012.

[26] 澤田宏, “非負値行列因子分解 NMFの基礎とデータ／信号解析への応用”,電子情報通信学会誌 vol.95, no.9, pp.829-833, 2012.

[27] L. Muda, M. Begam and I. Elamvazuthi, “Voice Recognition Algorithms using Mel-Frequency Cepstral Coeﬃcient (MFCC) and Dynamic Time Warping (DTW) Tech-niques”, Journal of computing, vol.2, issue 3, pp.136-143, 2010.

[28] D. Ellis, “Dynamic Time Warp (DTW) in Matlab”,

http://www.ee.columbia.edu/ln/labrosa/matlab/dtw/, 2003.

[29] H. Sakoe, Nippon Electric Company, Limited, Kawasaki, Japan, S. Chiba, “Dy-namic programming algorithm optimization for spoken word recognition”, Acoustics, Speech and Signal Processing, IEEE Transactions. vol.26, Issue.1, 1978.

[30] 武田一哉,匂坂芳典, 片桐滋, 阿部匡, “研究用日本語音声データベース”,エイ・ティ・

アール自動翻訳電話研究所.

[31] A. Shigeaki, K. Kondo, S. Sakamoto, Y. Suzuki, “Speech Data Set for Word Intelligi-bility Test based on Word Familiarity (FW03)”, NII Speech Resources Consortium, 2006.

ドキュメント内修士論文 (ページ 46-52)

第 5 章 結論