第 6 章 結論
6.2 残された課題
• 変調スペクトル分析方法の改善
本研究では,音声信号の全サンプル点にフーリエ変換を行ったため,短時間フーリ エ変換のように変調スペクトルの時間的な変動を調査することができない.さらに,
フーリエ変換の点数が音声の長さにより変わっている.その一方,窓処理をすると 得られた変調スペクトルは4次元(時間,周波数,変調周波数,変調スペクトル)
のデータになるため,分析方法の改良が必要である.
• 変調スペクトルにおける個人性情報が含まれる周波数帯域の検討
本研究では,雑音駆動音声の刺激音を作成するときに全部の周波数帯域に同じ低域 通過フィルタをかけたため,変調周波数軸上の影響だけを調査した.変調スペクト
ルに含まれる個人差の分析では,20 ERBN-number以上の周波数帯域の変調スペク トルの話者間分散が大きいことが分った.その結果と個人性知覚の関係調査するた めに,新たな実験方法また刺激音の作成方法が必要である.
• 個人性知覚のメカニズムへの発展
本研究で得られた結果は,個人性知覚の物理的な要因の一端にしか過ぎない.ヒト の聴知覚メカニズムにおける個人性知覚メカニズムの解明に繋がるものである.近 年,時間的に変動の特徴すなわちTemporal Cueは聴覚メカニズムや音声知覚の領 域によく注目されている課題となっている.さらなる研究で,個人性の知覚メカニ ズムを解明する必要があると考えられる.
参考文献
[1] 粕谷 英樹,楊 長盛, “音源から見た声質,”日本音響学会誌,Vol. 51, No. 11,pp. 869–
875,1995.
[2] 粕谷 英樹, “声質の伝える情報とその関連量,” 日本音響学会誌,Vol. 68, No. 10,
pp. 520–526,2012.
[3] 森 大毅,前川 喜久雄,粕谷 英樹, “音声は何を伝えているか,”コロナ社, pp. 131–191, 2014.
[4] 古井 貞熙, “声の個人性の話,”日本音響学会誌,Vol. 51, No. 11,pp. 876–881,1995.
[5] L. Garrido, F. Eisner, C. McGettigan, L. Stewart, D. Sauter, J.R. Hanley, S.R.
Schweinberger, J.D. Warren and B.Duchaine, “Developmental phonagnosia: A selec-tive deficit of vocal identity recognition,” Neuropsychologia, Vol. 47, No. 123–131, 2009.
[6] 伊藤 憲三,斉藤 収三, “音声の音響的特徴パラメータが個人性の知覚に及ぼす影響,”
電子通信学会論文誌,Vol. J65–A,pp. 101–108,1982.
[7] 橋本 誠,北川 敏, 樋口 宜男, “音声の個人性知覚に影響を及ぼす音響的特徴の定量的 分析,”日本音響学会誌, Vol. 54, No. 3, pp. 169–178, 1998.
[8] H.Kasuya,W.Zhu,M.Matsuda,and C.Yang, “Voice quality conversion based on an ARX speech analysis-synthesis method and its application to the study of speaker individuality,” J. Acoust. Sco. Am., Vol. 100, No. 4, pp. 2600, 1996.
[9] 北村 達也, 赤木 正人, 北澤 茂良, “スペクトル遷移パターンが個人性知覚に与える影 響 について,” 日本音響学会聴覚研究会資料, H-98-97, pp. 1–8, 1998.
[10] 桑原 尚夫,大串 健吾,“ホルマント周波数・バンド幅の独立制御と個人性判断,”電 子通信学会論文誌A,Vol. 69, No. 4,pp. 509–517, 1986.
[11] 北村 達也,赤木 正人,“単母音の話者識別に寄与するスペクトル包絡成分,” 日本音 響学会誌,Vol. 53, No. 3,pp. 185–191,1997.
[12] T. Kitamura, M. Akagi, “Speaker individualities in speech spectral envelopes,” J.
Acoust. Soc. Jpn.(E), Vol. 16, No. 5, pp. 283–289, 1995.
[13] T. Kitamura and T. Saitou, “Effects of acoustic modification on perception of speaker characteristics for sustained vowels,” Acoustical Science and Technology, Vol. 28, No. 6, pp. 434–437, 2007.
[14] T. Kitamura, K. Honda and H. Takemoto, “Individual variation of the hypopharyn-geal cavities and its acoustic effects,” Acoustical Science and Technology, Vol. 26, No. 1, pp. 16–26, 2005.
[15] K. Amino, T. Sugawara, T. Arai, “Idiosyncrasy of nasal sounds in human speaker identification and their acoustic properties,” Acoustical Science and Technology, Vol. 27, No. 4, pp. 233–235, 2006.
[16] M. Akagi and T. Ienaga, “Speaker individuality in fundamental frequency contours and its control,” J. Acoust. Soc. Jpn. (E), Vol. 18, No. 2, pp. 73–80, 1997.
[17] 風間 道子,東山 三樹夫,山崎 芳男,“狭帯域音声波形包絡線の帯域間相関行列に現 れる話者情報,”電子通信学会論文誌,Vol. J92–A, No. 4,pp. 205–215,2009.
[18] T. Dau and D. Puschel, “A quantitative model of the “effective” signal processing in the auditory system. I. Model structure,” J. Acoust. Sco. Am., Vol. 99, No. 6, pp. 3615–3622, 1996.
[19] R. Drullman, J. M. Festen, and R. Plomp, “Effect of temporal envelope smearing on speech reception,” J. Acoust. Sco. Am., Vol. 95, No. 2, pp. 1053–1064, 1994.
[20] R. Drullman, J. M. Festen, and R. Plomp, “Effect of reducing slow temporal mod-ulations on speech reception,” J. Acoust. Sco. Am., Vol. 95, No. 5, pp. 2670–2680, 1994.
[21] R. V. Shannon, F. G. Zeng, V. Kamath, J. Wygonski, and M. Ekelid, “Speech recognition with primarily temporal cues,” Science, Vol. 270, pp. 303–304, 1995.
[22] M. Vongphoe, and F. G. Zeng, “Speaker recognition with temporal cues in acoustic and electric hearing,” J. Acoust. Sco. Am., Vol. 118, No. 2, pp. 1155–1061, 2005.
[23] J. Gonzalez, and J. C. Oliver, “Gender and speaker identification as a function of the number of channels in spectrally reduced speech,” J. Acoust. Sco. Am., Vol. 118, No. 1, pp. 461–470, 2005.
[24] V. Krull, and Xin Luo, “Talker–identification training using simulations of binau-rally combined electric and acoustic hearing: Generalization to speech and emotion recognition,” J. Acoust. Sco. Am., Vol. 131, No. 4, pp. 3069–3078, 2012.
[25] T. Dau, and B. Kollmeier, “Modeling auditory processing of amplitude modulation.
II. Spectral and temporal integration,” J. Acoust. Sco. Am., Vol. 102, No. 5, pp. 2906–
2919, 1997.
[26] H. W. Dudley, “The vocoder,” Bell Labs Rec., Vol. 18, pp. 122-126, 1939.
[27] R. V. Shannon, F. G. Zeng, and J. Wygonski, “Speech recognition with altered spectral distribution of envelope cues,” J. Acoust. Sco. Am., Vol. 104, No. 4, pp. 2467–
2476, 1998.
[28] P. C. Loizou, M. Dorman, and Z. Tu, “On the number of channels needed to under-stand speech,” J. Acoust. Sco. Am., Vol. 106, No. 4, pp. 2097–2103, 1999.
[29] 西野 恭生, 宮内 良太,鵜木 祐史,“音声の各周波数帯域の振幅包絡に含まれる言語情 報,” 日本音響学会聴覚研究会資料,Vol. 43, No. 7, pp. 547–552,2013.
[30] 力丸 裕, 片山 貴史, “劣化雑音音声の知覚はどこまで可能か?話者弁別,”日本音響学 会聴覚研究会資料,Vol. 33, No. 1, pp. 25–27,2003.
[31] B. C. J. Moore, “An introduction to the psychology of hearing, sixth edition,” BRILL, Sixth Edition, pp. 74–80, 2013.
[32] 匂坂 芳典,浦谷 則好, “ATR音声・言語データベース,”日本音響学会誌, Vol 48, No. 12, pp. 878–882, 1992.
[33] T. H. Falk and W. Chan, “Modulation Spectral Features for Robust Far-Field Speaker Identification,” IEEE Trans. Audio, Speech Lang. Process., Vol. 18, No. 1, pp. 90–
100, 2010.
[34] 川本 広樹, 北村 達也, “ATR音声データベースセットCの文音声の個人性類似度,”
電子情報通信学会技術研究報告,音声, Vol. 112, No. 450, pp. 33–34, 2013.
[35] 北村 達也, 高木 直子, 赤木, 正人, “個人性情報を含む周波数帯域について,” 電子情 報通信学会技術研究報告, 音声, Vol. 95, No. 140, pp. 1-6, 1995.
[36] 大野 宏, 赤木, 正人, “文音声中の基本周波数パターンに含まれる個人性の検討,” 電 子情報通信学会技術研究報告, 音声, Vol. 97, No. 586, pp. 89–96, 1998.
[37] 出水田 剛志, 赤木 正人, “聴取印象に着目した音声の個人性知覚に関する基礎研究,”
日本音響学会聴覚研究会資料, Vol. 41, No. 7, pp. 551–554, 2011.
謝辞
本研究を行うに際して,終始御指導ならびに御助言頂いた鵜木祐史准教授,赤木正人教 授に心から御礼申し上げます.
本論文を執筆するにあたり,有益なる御助言,適切なる御指摘を頂きました北陸先端科 学技術大学院大学情報科学研究科 党建武教授,田中宏和准教授に心より感謝致します.
北陸先端科学技術大学院大学情報科学研究科宮内良太助教には,本研究を進めるにあた り数多くの助言を賜り,原稿執筆に関して添削をして頂き,心から感謝致します.
研究室会議において数多くの御意見と多面に渡るご協力を頂いた赤木鵜木研究室の皆 さんに感謝致します.
貴重な個人性類似度データをいただいた甲南大学知能情報学部北村達也教授に深く感 謝致します.
実験のために貴重な時間を割いて頂いた多くの実験参加者の方々に,深く感謝申し上げ ます.
最後に,これまでの学生生活を経済的にも精神的にも支え頂き,温かく見守ってくれた 両親に心から最大の感謝を申し上げます.
研究業績
本研究に関する研究業績
国際会議
• Zhi Zhu, Ryota Miyauchi, and Masashi Unoki, “Analysis of Speaker Individual Differences on Modulation Spectrum,” Proc. 2015 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing, Kuala Lumpur, Malaysia, February 2015. (Accepted)
研究会
• 朱 治, 宮内 良太, 鵜木 祐史, “音声の変調スペクトルに現れる個人差の分析,” 日本 音響学会聴覚研究会資料, Vol. 44, No. 7, pp. 457–460,和歌山, Octorber 2014.
口頭発表
• 朱 治,宮内 良太,鵜木 祐史, “変調スペクトルの帯域を制限した雑音駆動音声の個人 性知覚に関する研究 ,” 日本音響学会2015年春季研究発表会, 2–Q–6, 東京, March 2015.
そのほかの研究業績
論文
• Zhi ZHU, Katsuhiko YAMAMOTO, Masashi UNOKI, and Naofumi AOKI, “Study on scramble method for speech signal by using random bit shift of quantization,”
Journal of Signal Processing, Vol. 18, No. 6, pp. 303–307, 2014.
• Katsuhiko YAMAMOTO, Zhi ZHU, Masashi UNOKI, and Naofumi AOKI, “Semi-Scramble Method for Speech Signals Based on Phonemic Restoration,” Journal of Signal Processing, Vol. 18, No. 4, pp. 205–208, 2014.
国際会議
• Zhi ZHU, Katsuhiko YAMAMOTO, Masashi UNOKI, and Naofumi AOKI, “Study on scramble method for speech signal by using random bit shift of quantization,”
Proc. 2014 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing, 1PM1-2-2, pp. 109–102, Hawaii, USA, March 2014.
• Katsuhiko YAMAMOTO, Zhi ZHU, Masashi UNOKI, and Naofumi AOKI, “Semi-Scramble Method for Speech Signals Based on Phonemic Restoration,” Proc. 2014 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing, 1PM2-2-1, pp. 201–204, Hawaii, USA, March 2014.
研究会
• 朱治, 山本克彦, 鵜木祐史, 青木直史, “量子化ビットのランダムシフトを利用した音 声スクランブル法,” 電子情報通信学会技術研究報告, マルチメディア情報ハイディ ング・エンリッチメント研究会, Vol. 113, No. 480, pp. 57–62, 石川, March 2014.
• 山本克彦,朱治,鵜木祐史, 青木直史, “音韻修復現象に着目した音声半開示スクラン ブル法,” 電子情報通信学会技術研究報告, マルチメディア情報ハイディング・エン リッチメント研究会, Vol. 113, No. 290, pp. 59–64, 広島, November 2013.
口頭発表
• 朱治, 山本克彦, 鵜木祐史, 青木直史, “量子化ビットのランダムシフトによる音声ス クランブル法の検討,” 平成 25 年度電気関係学会北陸支部連合大会, G–17, pp. 21, 石川, September 2013.
• 山本克彦,朱治,鵜木祐史,青木直史, “音韻修復現象に着目した音声半開示スクランブ ル法,” 平成 25年度電気関係学会北陸支部連合大会, G–18, pp. 22, 石川, September 2013.
付録
ここでは,本論文の第3章第4節に掲載しない変調スペクトルの図の一部を下記に示す.
ATR音声データベース[32]Cセットにある女性話者F101からF105まで5人分,各人の 文章A01からA06まで6つ文章の変調スペクトルの図を示している.まったく違う文章 の変調スペクトルでも話者が同じであればその形状も類似していることが確認できる.ま た,話者により形状が異なっていることも確認できる.A01からA06までの文章の内容 は以下に示す.
A01 あらゆる現実をすべて自分の方へねじ曲げたのだ.
A02 一週間ばかりニューヨークを取材した
A03 テレビゲームやパソコンでゲームをして遊ぶ
A04 物価の変動を考慮して給付水準を決める必要がある A05 救急車が十分に動けず救助作業が遅れている
A06 言論の自由は一歩譲れば百歩も千歩も攻め込まれる
Modulation frequency [Hz]
5 10 15 20 25 30 35 40 45 50
ERBN number
5 10 15 20 25 30
F101 A01
-70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]
Modulation frequency [Hz]
5 10 15 20 25 30 35 40 45 50
ERBN number
5 10 15 20 25 30
F101 A02
-60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]
Modulation frequency [Hz]
5 10 15 20 25 30 35 40 45 50
ERBN number
5 10 15 20 25 30
F101 A03
-70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]
Modulation frequency [Hz]
5 10 15 20 25 30 35 40 45 50
ERBN number
5 10 15 20 25 30
F101 A04
-70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]
Modulation frequency [Hz]
5 10 15 20 25 30 35 40 45 50
ERBN number
5 10 15 20 25 30
F101 A05
-60 -50 -40 -30 -20 -10 0 10 20 30 Modulation spectrum [dB]
Modulation frequency [Hz]
5 10 15 20 25 30 35 40 45 50
ERBN number
5 10 15 20 25 30
F101 A06
-70 -60 -50 -40 -30 -20 -10 0 10 20 30 Modulation spectrum [dB]
図 6.1: 話者F101の文章A01からA06までの変調スペクトル
Modulation frequency [Hz]
5 10 15 20 25 30 35 40 45 50
ERBN number
5 10 15 20 25 30
F102 A01
-70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]
Modulation frequency [Hz]
5 10 15 20 25 30 35 40 45 50
ERBN number
5 10 15 20 25 30
F102 A02
-70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]
Modulation frequency [Hz]
5 10 15 20 25 30 35 40 45 50
ERBN number
5 10 15 20 25 30
F102 A03
-80 -70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]
Modulation frequency [Hz]
5 10 15 20 25 30 35 40 45 50
ERBN number
5 10 15 20 25 30
F102 A04
-70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]
Modulation frequency [Hz]
5 10 15 20 25 30 35 40 45 50
ERBN number
5 10 15 20 25 30
F102 A05
-80 -70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]
Modulation frequency [Hz]
5 10 15 20 25 30 35 40 45 50
ERBN number
5 10 15 20 25 30
F102 A06
-80 -70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]
図 6.2: 話者F102の文章A01からA06までの変調スペクトル