第 5 章 結論
5.2. 今後の課題
本論文で提案した方法により,単一・複数のマイクロホンを用いたいずれの場合 でも高精度かつ実時間で音源位置を推定できることを確認した.しかし,実環境に おいてさらに高精度に音源位置を推定するためには,以下の検討すべき課題がある.
1. フレーム毎に音源位置を推定可能な方法の検討 2. 複数音源も推定可能な方法の検討
3. 高雑音環境下における音源位置推定精度の低下
1.の課題は,テレビ会議システムなどの特に実時間性が必要な応用において検討 する必要がある.この課題を解決するためには,音源の周波数特性を考慮した重み
付け[89, 90]を行うなど,短い信号区間でも高精度に推定可能な方法を検討する必
要がある.
2.の課題に対しては,音声のスパース性[91, 92, 93]を利用するなど時間-周波数 ビン毎に音源位置を推定する方法や,Frequency band selection法[94]のように音源 位置を推定し,推定結果から支配的な音源を取り除く処理を繰り返すことで複数の 音源位置を推定する方法への拡張を検討する必要がある.
3.の課題に対しては,文献[37]のように雑音抑圧法を前処理として用いる方法や,
文献[95]のように雑音の影響も考慮したモデル化を行う方法など,様々な方法が考 えられる.そのため,前述のいずれが最適かを検討する必要がある.
上記の課題を解決するために今後も引き続き研究を行い,どのような環境でも頑 健に音源位置を推定可能な方法を確立することで,より安全・安心・快適な社会の 実現に僅かでも貢献できれば幸いである.
謝辞
本博士論文は,著者が立命館大学大学院情報理工学研究科博士課程後期課程にお いて行った研究の成果をまとめたものです.本研究を遂行するにあたり,学内,学 外を問わず多くの方にお世話になりました.ここに感謝の意を表します.
立命館大学情報理工学部西浦敬信教授には,著者が本大学情報理工学部から博士 課程後期課程に至るまで,指導教員として終始懇切なる御指導,御助言を頂きまし た.西浦先生には研究の方向性,研究遂行に対する姿勢やアイディアの提案方法な ど非常に多くのご助言を頂いただけでなく,恵まれた研究環境を提供して頂きまし た.ここに深甚なる感謝の意を表します.
同学部山下洋一教授には,著者が本大学院在籍中,多大な御指導を頂きました.山 下先生の的確な御助言のお陰で,本大学院における研究活動を成し遂げ,博士論文 執筆にいたる道を見出すことができました.心より深く御礼申し上げます.
同学部徐剛教授には,本論文審査委員として本論文の執筆における御指導を頂き ました.徐先生から頂いた的確かつ有益な御助言によって本論文をより良い方向へ 進歩させることができました.ここに心から感謝の意を表します.
同学部中山雅人助教には,著者が本大学院在籍中,様々な御指導,御討論を頂き ました.ここに深く感謝いたします.
同学部Jeremy Stewart White准教授には,本論文の英文執筆にあたり御助言をい
ただきました.ここに心から感謝申し上げます.
KDDI研究所加藤恒夫博士,堀内俊治博士には,インターンシップの機会を与え ていただき,研究遂行に対する御助言を頂きました.ここに厚く御礼申し上げます.
個々には御名前を申し上げられませんが,筆者の研究活動にご助力いただいた立 命館大学情報理工学部音情報処理研究室の多くの先輩,同期,後輩,秘書の皆様,そ して多くの励ましを頂いた学内外の友人に深く感謝いたします.
最後になりましたが,深い愛情と広い心で今日まで筆者を支えて頂いた家族に心 から感謝いたします.
参考文献
[1] 成松英一,小枝正直,上田悦子,松本吉央,小笠原司,“全方位サーモグラフを 用い た不審者発見システムの開発,”電子情報通信学会技術研究報告,vol.104, no.447, pp.19–24, 2004.
[2] 南里卓也,大津展之,“複数人動画像からの異常動作検出,” 情報処理学会論 文誌,vol.46, no.SIG 15, pp.43–50, 2005.
[3] 兵頭靖英,藤村嘉一,湯淺慎也,内藤丈嗣,上條俊介,“カメラネットワーク によるオクルージョンに頑健な複数人物追跡,”電子情報通信学会技術研究報 告,vol.108, no.198, pp.169–174, 2008.
[4] 村井泰裕,藤吉弘亘,数井誠人,“時空間特徴に基づくエスカレータシーンに おける人の異常行動検知,”情報処理学会研究報告,vol.82, pp.251–258, 2008.
[5] M. Omologo, M. Matassoni, P. Svaizer, and D. Giuliani, “Microphone Array Based Speech Recognition with Different Talker-Array Positions,” Proceed-ings of 1997 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP 1997), vol.1, pp.227–230, 1997.
[6] E. Lleida, J. Fernandez, and E. Masgrau, “Robust Continuous Speech Recog-nition System Based on a Microphone Array,” Proceedings of 1998 IEEE In-ternational Conference on Acoustics, Speech and Signal Processing (ICASSP 1998), vol.1, pp.241–244, 1998.
[7] T. Yamada, S. Nakamura, and K. Shikano, “Hands-Free Speech Recognition Based on 3-D Viterbi Search Using a Microphone Array,” Proceedings of 1998
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP1998), vol.1, pp.245–248, 1998.
[8] 高橋祐,猿渡洋,鹿野清宏,“独立成分分析を導入した空間的サブトラクショ ンアレーによるハンズフリー音声認識システムの開発,”電子情報通信学会論 文誌, vol.J93-D, no.3, pp.312–325, 2010.
[9] W. Herbordt, T. Horiuchi, M. Fujimoto, T. Jitsuhiro, and S. Nakamura,
“Hands-Free Speech Recognition and Communication on PDAs Using Micro-phone Array Technology,” Proceedings of 2005 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU 2005), pp.302–307, 2005.
[10] 松井俊浩,麻生英樹,John Fry, 浅野太,本村陽一,原功,栗多喜夫,速水悟,
山崎信行,“オフィスロボットJijo-2の音声対話システム,” 日本ロボット学 会誌,vol.18, no.2, pp.142–149, 2000.
[11] Y. Tamai, S. Kagami, Y. Amemiya, Y. Sasaki, H. Mizoguchi, and T. Takano,
“Circular Microphone Array for Robot’s Audition,” Proceedings of IEEE 2004 Sensors, vol.2, pp.565–570, 2004.
[12] S. Yamamoto, J.M. Valin, K. Nakadai, H. Tsujino, J. Rouat, F. Michaud, T.
Ogata, K. , and H.G. Okuno, “Enhanced Robot Speech Recognition Based on Microphone Array Source Separation and Missing Feature Theory,” Pro-ceedings of 2005 IEEE-RAS International Conference on Robots and Automa-tion(ICRA 2005), pp.1489–1494, 2005.
[13] H.K. Maganti, D.G. Perez, and I. McCowan, “Speech Enhancement and Recognition in Meetings with an Audio-Visual Sensor Array,” IEEE Transac-tions on Audio, Speech, and Language Processing, vol.15, no.8, pp.2257–2269, 2007.
[14] T. Hain, J. Dines, G. Garau, M. Karafiat, D. Moore, V. Wan, R. Ordelman, and S. Renals, “Transcription of Conference Room Meetings: an
Investiga-tion,” Proceedings of 9th European Conference on Speech Communication and Technology (Eurospeech 2005), pp.1661–1664, 2005.
[15] F. Asano, K. Yamamoto, J. Ogata, M. Yamada, and M. Nakamura, “Detection and Separation of Speech Events in Meeting Recordings Using a Microphone array,” EURASIP Journal on Audio, Speech, and Music Processing, vol.2007, Article ID:27616, 2007.
[16] A.R. A.-E.-Quran, R.A. Goubran, and A.D.C. Chan, “Security Monitoring Using Microphone Arrays and Audio Classification,” IEEE Transactions on Instrumentation and Measurement, vol.55, no.4, pp.1025–1031, 2006.
[17] G.W. Elko, “Microphone Array System for Hands-Free Speech Telecommuni-cation,” Speech Communication, vol.20, pp.229–240, 1996.
[18] 小林和則,古家賢一,羽田陽一,片岡章俊,“方向別自動音量調整マイクロホ ンアレー,” 電子情報通信学会論文誌,vol.J87-A, no.12, pp.1491–1501, 2004.
[19] O.L. Frost, “An Algorithm for Linearly Constrained Adaptive Array Process-ing,” Proceedings of the IEEE, vol.60, no.8, pp.926–935, 1972.
[20] L.J. Griffiths, and C.W. Jim, “An Alternative Approach to Linearly Con-strained Adaptive Beamforming,” IEEE Transactions on Antennas and Prop-agation, vol.30, no.1, pp.27–34, 1982.
[21] J.L. Flanagan, J.D. Johnston, R. Zahn, and G.W. Elko, “Computer-Steered Microphone Arrays for Sound Transduction in Large Rooms,” The Journal of the Acoustical Society of America, vol.78, no.5, pp.1508–1518, 1985.
[22] Y. Kaneda, and J. Ohoga, “Adaptive Microphone-Array System for Noise Reduction,” IEEE Transactions on Acoustics, Speech and Signal Processing, vol.34, no.6, pp.1391–1400, 1986.
[23] 金田豊,“適応形雑音抑圧マイクロホンアレー(AMNOR)の指向特性,”日本 音響学会誌,vol.44, no.1, pp.23–30, 1988.
[24] D. Johnson, and D. Dudgeon, “Array Signal Processing: Concepts and Tech-niques,” Englewood Cliffs, NJ: Prentice-Hall, 1993.
[25] G.W. Elko, “A Steerable and Variable First-Order Differential Microphone Ar-ray,” Proceedings of 1997 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 1997), vol.1, pp.223–226, 1997.
[26] T. Nishiura, S. Nakamura, Y. Okada, T. Yamada, and K. Shikano, “Suitable Design of Adaptive Beamformer Based on Average Speech Spectrum for Noisy Speech Recognition,” Proceedings of 7th International Conference on Spoken Language Processing (ICSLP 2002), pp.1789–1792, 2002.
[27] Y. Okada, T. Nishiura, S. Nakamura, T. Yamada, and K. Shikano, “A Design of Adaptive Beamformer Based on Average Speech Spectrum for Noisy Speech Recognition,” Acoustical Science and Technology, vol.23, no.6, pp.323–327, 2002.
[28] M. Omologo, and P. Svaizer, “Acoustic Source Location in Noisy and Rever-berant Environment using CSP Analysis,” Proceedings of 1996 IEEE Interna-tional Conference on Acoustics, Speech and Signal Processing (ICASSP 1996), pp.921–924, 1996.
[29] 西浦敬信,山田武志,中村哲,鹿野清宏,“マイクロホンアレーを用いたCSP 法に基づく複数音源位置推定,”電子情報通信学会論文誌,vol.J83-D-II, no.8, pp.1713–1721, 2000.
[30] 戸上真人,大淵康成,“サブマイクロホンアレイ対による複数音源の距離・方向の 同時推定方式,”日本音響学会2008年春季研究発表会講演論文集,pp.777–778, 2008.
[31] 山本真理,立蔵洋介,“2組のマイクロホンアレーを用いた複数の環境音の位 置推定” 電子情報通信学会技術研究報告,vol.114, no.112, pp.31–36, 2014.
[32] D.V. Rabinkin, R.J. Renomeron, A. Dahl, J.C. French, J.L. Flanagan, and M.H. Bianchi, “A DSP Implementation of Source Location Using Microphone Arrays,” Proceedings of the SPIE, vol.2846, pp.88–99, 1996.
[33] F. Asano, H. Asoh, and T. Matsui, “Sound Source Localization and Separa-tion in Near Field,” IEICE TransacSepara-tion on Fundamentals, vol.E83-A, no.11, pp.2286–2294, 2000.
[34] J.M. Valin, F. Michaud, and J. Rouat, “Robust Localization and Tracking of Simultaneous Moving Sound Sources Using Beamforming and Particle Filter-ing,” Robotics and Autonomous Systems, vol.55, pp.216–228, 2007.
[35] K. Hayashida, M. Morise, and T. Nishiura, “Near Field Sound Source Localiza-tion Based on Cross-Power Spectrum Phase Analysis with Multiple Channel Microphones,” Proceedings of INTERSPEECH 2010, pp.2758–2761, 2010.
[36] 鎌土記良,小橋川哲,木下慶介,政瀧浩和,高橋敏,“モバイル音声認識にお ける主話者音声区間検出への残響除去法の応用,”日本音響学会2013年春季 研究発表会講演論文集,pp.145–146, 2013.
[37] 鎌土記良,浅見太一,藤本政清,木下慶介,青野祐司,政瀧浩和,阪内澄宇,“
主話者音声区間検出への雑音抑圧法と残響除去法の応用,”日本音響学会2014 年春季研究発表会講演論文集,pp.25–28, 2014.
[38] 安居院 猛,長尾 智晴,“ジェネティックアルゴリズム,” 昭晃堂,1993.
[39] 伊庭斉志,“遺伝的アルゴリズム,” 医学出版,2002.
[40] R.O. Schmidt, “Multiple Emitter Location and Signal Parameter Estimation,”
IEEE Transactions on Antennas and Propagation, vol.34, no.3, pp.276–280, 1986.
[41] S.U. Pillai, “Array Signal Processing,” Springer-Verlag, New York, 1989.
[42] C.H. Kanapp, and G.C. Carter, “The Generalized Correlation Method for Es-timation of Time Delay,” IEEE Transactions on Acoustics, Speech and Signal Processing, vol.24, no.4, pp.320–327, 1976.
[43] M. Omologo, and P. Svaizer, “Acoustic Event Localization Using a Crosspower-Spectrum Phase Based Technique,” Proceedings of 1994 IEEE International Conference on Acoustics, Speech and Signal Process-ing(ICASSP1994), pp.273–276, 1994.
[44] J. Capon, “High Resolution Frequency-Wavenumber Spectrum Analysis,” Pro-ceeding of the IEEE, vol.57, no.8, pp.1408–1418, 1969.
[45] 安部正人,“多数センサによる音源推定,”日本音響学会誌, vol.51, no.5, pp.384–
389, 1995.
[46] 大賀寿郎,山崎芳男,金田豊,“音響システムとディジタル処理,”コロナ社,
pp.173–218,1995.
[47] 浅野太,“音のアレイ信号処理,”コロナ社,2008.
[48] M. Otani and S. Ise, “Fast Calculation System Specialized for Head-Related Transfer Function Based on Boundary Element Method,” The Journal of the Acoustical Society of America, vol.119, no.5, pp.2589–2598, 2006.
[49] 山本潔,浅野太,松坂要佐,原功,麻生英樹,大谷真,岩谷幸雄,“ヒューマ ノイドロボットにおける音響シミュレーションの検討,”電子情報通信学会技 術研究報告,vol.109, no.100, pp.103–108, 2009.
[50] 青島伸治,五十嵐寿一,“M-系列の相関を用いた音響測定,”日本音響学会誌,
vol.24, no.4, pp.197–206, 1964.
[51] N. Aoshima, “Computer-Generated Pulse Signal Applied for Sound Mea-surement,” The Journal of the Acoustical Society of America, vol.69, no.5, pp.1484–1488, 1981.
[52] Y. Suzuki, F. Asano, H.Y. Kim, and T. Sone, “An Optimum Computer-Generated Pulse Signal Suitable for the Measurement of Very Long Impulse Response,” The Journal of the Acoustical Society of America, no.2, pp.1119–
1123, 1993.
[53] J. Vanderkooy, “Aspects of MLS Measuring Systems,” Journal of the Audio Engineering Society, vol.42, pp.219–231, 1994.
[54] 守谷直也,金田豊,“雑音に起因する誤差を最小化するインパルス応答測定信 号,” 日本音響学会誌,vol.64, no.12, pp.695–701, 2008.
[55] F. Asano, S. Ikeda, M. Ogawa, H. Asoh, and N. Kitawaki, “Combined Ap-proach of Array Processing and Independent Component Analysis for Blind Separation of Acoustic Signals,” IEEE Transactions on Speech and Audio Processing, vol.11, no.3, pp.204–215, 2003.
[56] 藤岡豊太,工藤正平,永田仁史,安倍正人,“遺伝的アルゴリズムを用いたス ピーカの高調波ひずみ率測定法,”電子情報通信学会論文誌,vol.J93-A, no.9, pp.642–645, 2010.
[57] 伊藤俊夫,杉本雅則,橋爪宏達,“最適化したマルチキャリヤ信号と合成送信 開口による高画質音響イメージング,” 電子情報通信学会論文誌,vol.J93-A, no.5, pp.341–352, 2010.
[58] 花田良子,棟安実治,浅野晃,“テクスチャ画像における劣化画像のみを用い た荷重メジアンフィルタの遺伝的アルゴリズムによる設計,”電子情報通信学 会論文誌,vol.J94-A, no.1, pp.18–29, 2011.
[59] 高野茂倫,安住壮紀,橋本修,森内幸司,坂田聡史,尾崎毅志“カーボンブラッ ク含有発泡ポリイミドを用いたミリ波帯用二層型電波吸収帯,”電子情報通信 学会論文誌,vol.J94-C, no.12, pp.517–519, 2011.
[60] 白川昌和,荒川雅生,中山弘隆,“プラント配置設計の多目的最適化(第1報,
遺伝的アルゴリズムによる構内配置問題の最適設計),” 日本機械学会論文集,