残された課題

第 6 章結論

6.2 残された課題

• 変調スペクトル分析方法の改善

本研究では，音声信号の全サンプル点にフーリエ変換を行ったため，短時間フーリエ変換のように変調スペクトルの時間的な変動を調査することができない．さらに，

フーリエ変換の点数が音声の長さにより変わっている．その一方，窓処理をすると得られた変調スペクトルは4次元（時間，周波数，変調周波数，変調スペクトル）

のデータになるため，分析方法の改良が必要である．

• 変調スペクトルにおける個人性情報が含まれる周波数帯域の検討

本研究では，雑音駆動音声の刺激音を作成するときに全部の周波数帯域に同じ低域通過フィルタをかけたため，変調周波数軸上の影響だけを調査した．変調スペクト

ルに含まれる個人差の分析では，20 ERBN-number以上の周波数帯域の変調スペクトルの話者間分散が大きいことが分った．その結果と個人性知覚の関係調査するために，新たな実験方法また刺激音の作成方法が必要である．

• 個人性知覚のメカニズムへの発展

本研究で得られた結果は，個人性知覚の物理的な要因の一端にしか過ぎない．ヒトの聴知覚メカニズムにおける個人性知覚メカニズムの解明に繋がるものである．近年，時間的に変動の特徴すなわちTemporal Cueは聴覚メカニズムや音声知覚の領域によく注目されている課題となっている．さらなる研究で，個人性の知覚メカニズムを解明する必要があると考えられる．

参考文献

[1] 粕谷英樹，楊長盛, “音源から見た声質,”日本音響学会誌，Vol. 51, No. 11，pp. 869–

875，1995．

[2] 粕谷英樹, “声質の伝える情報とその関連量,” 日本音響学会誌，Vol. 68, No. 10，

pp. 520–526，2012．

[3] 森大毅,前川喜久雄,粕谷英樹, “音声は何を伝えているか,”コロナ社, pp. 131–191, 2014.

[4] 古井貞熙, “声の個人性の話,”日本音響学会誌，Vol. 51, No. 11，pp. 876–881，1995．

[5] L. Garrido, F. Eisner, C. McGettigan, L. Stewart, D. Sauter, J.R. Hanley, S.R.

Schweinberger, J.D. Warren and B.Duchaine, “Developmental phonagnosia: A selec-tive deficit of vocal identity recognition,” Neuropsychologia, Vol. 47, No. 123–131, 2009.

[6] 伊藤憲三，斉藤収三, “音声の音響的特徴パラメータが個人性の知覚に及ぼす影響,”

電子通信学会論文誌，Vol. J65–A，pp. 101–108，1982．

[7] 橋本誠,北川敏, 樋口宜男, “音声の個人性知覚に影響を及ぼす音響的特徴の定量的分析,”日本音響学会誌, Vol. 54, No. 3, pp. 169–178, 1998.

[8] H．Kasuya，W．Zhu，M．Matsuda，and C．Yang, “Voice quality conversion based on an ARX speech analysis-synthesis method and its application to the study of speaker individuality,” J. Acoust. Sco. Am., Vol. 100, No. 4, pp. 2600, 1996．

[9] 北村達也, 赤木正人, 北澤茂良, “スペクトル遷移パターンが個人性知覚に与える影響について,” 日本音響学会聴覚研究会資料, H-98-97, pp. 1–8, 1998.

[10] 桑原尚夫，大串健吾，“ホルマント周波数・バンド幅の独立制御と個人性判断,”電子通信学会論文誌A，Vol. 69, No. 4，pp. 509–517, 1986.

[11] 北村達也，赤木正人，“単母音の話者識別に寄与するスペクトル包絡成分,” 日本音響学会誌，Vol. 53, No. 3，pp. 185–191，1997．

[12] T. Kitamura, M. Akagi, “Speaker individualities in speech spectral envelopes,” J.

Acoust. Soc. Jpn.(E), Vol. 16, No. 5, pp. 283–289, 1995.

[13] T. Kitamura and T. Saitou, “Eﬀects of acoustic modification on perception of speaker characteristics for sustained vowels,” Acoustical Science and Technology, Vol. 28, No. 6, pp. 434–437, 2007.

[14] T. Kitamura, K. Honda and H. Takemoto, “Individual variation of the hypopharyn-geal cavities and its acoustic eﬀects,” Acoustical Science and Technology, Vol. 26, No. 1, pp. 16–26, 2005.

[15] K. Amino, T. Sugawara, T. Arai, “Idiosyncrasy of nasal sounds in human speaker identification and their acoustic properties,” Acoustical Science and Technology, Vol. 27, No. 4, pp. 233–235, 2006.

[16] M. Akagi and T. Ienaga, “Speaker individuality in fundamental frequency contours and its control,” J. Acoust. Soc. Jpn. (E), Vol. 18, No. 2, pp. 73–80, 1997．

[17] 風間道子，東山三樹夫，山崎芳男，“狭帯域音声波形包絡線の帯域間相関行列に現れる話者情報,”電子通信学会論文誌，Vol. J92–A, No. 4，pp. 205–215，2009．

[18] T. Dau and D. Puschel, “A quantitative model of the “eﬀective” signal processing in the auditory system. I. Model structure,” J. Acoust. Sco. Am., Vol. 99, No. 6, pp. 3615–3622, 1996．

[19] R. Drullman, J. M. Festen, and R. Plomp, “Eﬀect of temporal envelope smearing on speech reception,” J. Acoust. Sco. Am., Vol. 95, No. 2, pp. 1053–1064, 1994．

[20] R. Drullman, J. M. Festen, and R. Plomp, “Eﬀect of reducing slow temporal mod-ulations on speech reception,” J. Acoust. Sco. Am., Vol. 95, No. 5, pp. 2670–2680, 1994．

[21] R. V. Shannon, F. G. Zeng, V. Kamath, J. Wygonski, and M. Ekelid, “Speech recognition with primarily temporal cues,” Science, Vol. 270, pp. 303–304, 1995.

[22] M. Vongphoe, and F. G. Zeng, “Speaker recognition with temporal cues in acoustic and electric hearing,” J. Acoust. Sco. Am., Vol. 118, No. 2, pp. 1155–1061, 2005.

[23] J. Gonzalez, and J. C. Oliver, “Gender and speaker identification as a function of the number of channels in spectrally reduced speech,” J. Acoust. Sco. Am., Vol. 118, No. 1, pp. 461–470, 2005．

[24] V. Krull, and Xin Luo, “Talker–identification training using simulations of binau-rally combined electric and acoustic hearing: Generalization to speech and emotion recognition,” J. Acoust. Sco. Am., Vol. 131, No. 4, pp. 3069–3078, 2012．

[25] T. Dau, and B. Kollmeier, “Modeling auditory processing of amplitude modulation.

II. Spectral and temporal integration,” J. Acoust. Sco. Am., Vol. 102, No. 5, pp. 2906–

2919, 1997．

[26] H. W. Dudley, “The vocoder,” Bell Labs Rec., Vol. 18, pp. 122-126, 1939.

[27] R. V. Shannon, F. G. Zeng, and J. Wygonski, “Speech recognition with altered spectral distribution of envelope cues,” J. Acoust. Sco. Am., Vol. 104, No. 4, pp. 2467–

2476, 1998．

[28] P. C. Loizou, M. Dorman, and Z. Tu, “On the number of channels needed to under-stand speech,” J. Acoust. Sco. Am., Vol. 106, No. 4, pp. 2097–2103, 1999．

[29] 西野恭生, 宮内良太,鵜木祐史，“音声の各周波数帯域の振幅包絡に含まれる言語情報,” 日本音響学会聴覚研究会資料，Vol. 43, No. 7, pp. 547–552，2013.

[30] 力丸裕, 片山貴史, “劣化雑音音声の知覚はどこまで可能か？話者弁別,”日本音響学会聴覚研究会資料，Vol. 33, No. 1, pp. 25–27，2003.

[31] B. C. J. Moore, “An introduction to the psychology of hearing, sixth edition,” BRILL, Sixth Edition, pp. 74–80, 2013.

[32] 匂坂芳典,浦谷則好, “ATR音声・言語データベース,”日本音響学会誌, Vol 48, No. 12, pp. 878–882, 1992.

[33] T. H. Falk and W. Chan, “Modulation Spectral Features for Robust Far-Field Speaker Identification,” IEEE Trans. Audio, Speech Lang. Process., Vol. 18, No. 1, pp. 90–

100, 2010.

[34] 川本広樹, 北村達也, “ATR音声データベースセットCの文音声の個人性類似度,”

電子情報通信学会技術研究報告，音声, Vol. 112, No. 450, pp. 33–34, 2013.

[35] 北村達也, 高木直子, 赤木, 正人, “個人性情報を含む周波数帯域について,” 電子情報通信学会技術研究報告, 音声, Vol. 95, No. 140, pp. 1-6, 1995.

[36] 大野宏, 赤木, 正人, “文音声中の基本周波数パターンに含まれる個人性の検討,” 電子情報通信学会技術研究報告, 音声, Vol. 97, No. 586, pp. 89–96, 1998.

[37] 出水田剛志, 赤木正人, “聴取印象に着目した音声の個人性知覚に関する基礎研究,”

日本音響学会聴覚研究会資料, Vol. 41, No. 7, pp. 551–554, 2011.

謝辞

本研究を行うに際して,終始御指導ならびに御助言頂いた鵜木祐史准教授,赤木正人教授に心から御礼申し上げます.

本論文を執筆するにあたり,有益なる御助言,適切なる御指摘を頂きました北陸先端科学技術大学院大学情報科学研究科党建武教授,田中宏和准教授に心より感謝致します.

北陸先端科学技術大学院大学情報科学研究科宮内良太助教には,本研究を進めるにあたり数多くの助言を賜り,原稿執筆に関して添削をして頂き，心から感謝致します.

研究室会議において数多くの御意見と多面に渡るご協力を頂いた赤木鵜木研究室の皆さんに感謝致します.

貴重な個人性類似度データをいただいた甲南大学知能情報学部北村達也教授に深く感謝致します.

実験のために貴重な時間を割いて頂いた多くの実験参加者の方々に，深く感謝申し上げます.

最後に，これまでの学生生活を経済的にも精神的にも支え頂き，温かく見守ってくれた両親に心から最大の感謝を申し上げます.

研究業績

本研究に関する研究業績

国際会議

• Zhi Zhu, Ryota Miyauchi, and Masashi Unoki, “Analysis of Speaker Individual Diﬀerences on Modulation Spectrum,” Proc. 2015 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing, Kuala Lumpur, Malaysia, February 2015. (Accepted)

研究会

• 朱治, 宮内良太, 鵜木祐史, “音声の変調スペクトルに現れる個人差の分析,” 日本音響学会聴覚研究会資料, Vol. 44, No. 7, pp. 457–460,和歌山, Octorber 2014.

口頭発表

• 朱治,宮内良太,鵜木祐史, “変調スペクトルの帯域を制限した雑音駆動音声の個人性知覚に関する研究 ,” 日本音響学会2015年春季研究発表会, 2–Q–6, 東京, March 2015.

そのほかの研究業績

論文

• Zhi ZHU, Katsuhiko YAMAMOTO, Masashi UNOKI, and Naofumi AOKI, “Study on scramble method for speech signal by using random bit shift of quantization,”

Journal of Signal Processing, Vol. 18, No. 6, pp. 303–307, 2014.

• Katsuhiko YAMAMOTO, Zhi ZHU, Masashi UNOKI, and Naofumi AOKI, “Semi-Scramble Method for Speech Signals Based on Phonemic Restoration,” Journal of Signal Processing, Vol. 18, No. 4, pp. 205–208, 2014.

国際会議

• Zhi ZHU, Katsuhiko YAMAMOTO, Masashi UNOKI, and Naofumi AOKI, “Study on scramble method for speech signal by using random bit shift of quantization,”

Proc. 2014 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing, 1PM1-2-2, pp. 109–102, Hawaii, USA, March 2014.

• Katsuhiko YAMAMOTO, Zhi ZHU, Masashi UNOKI, and Naofumi AOKI, “Semi-Scramble Method for Speech Signals Based on Phonemic Restoration,” Proc. 2014 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing, 1PM2-2-1, pp. 201–204, Hawaii, USA, March 2014.

研究会

• 朱治, 山本克彦, 鵜木祐史, 青木直史, “量子化ビットのランダムシフトを利用した音声スクランブル法,” 電子情報通信学会技術研究報告, マルチメディア情報ハイディング・エンリッチメント研究会, Vol. 113, No. 480, pp. 57–62, 石川, March 2014.

• 山本克彦,朱治,鵜木祐史, 青木直史, “音韻修復現象に着目した音声半開示スクランブル法,” 電子情報通信学会技術研究報告, マルチメディア情報ハイディング・エンリッチメント研究会, Vol. 113, No. 290, pp. 59–64, 広島, November 2013.

口頭発表

• 朱治, 山本克彦, 鵜木祐史, 青木直史, “量子化ビットのランダムシフトによる音声スクランブル法の検討,” 平成 25 年度電気関係学会北陸支部連合大会, G–17, pp. 21, 石川, September 2013.

• 山本克彦,朱治,鵜木祐史,青木直史, “音韻修復現象に着目した音声半開示スクランブル法,” 平成 25年度電気関係学会北陸支部連合大会, G–18, pp. 22, 石川, September 2013.

付録

ここでは，本論文の第3章第4節に掲載しない変調スペクトルの図の一部を下記に示す．

ATR音声データベース[32]Cセットにある女性話者F101からF105まで5人分，各人の文章A01からA06まで6つ文章の変調スペクトルの図を示している．まったく違う文章の変調スペクトルでも話者が同じであればその形状も類似していることが確認できる．また，話者により形状が異なっていることも確認できる．A01からA06までの文章の内容は以下に示す．

A01 あらゆる現実をすべて自分の方へねじ曲げたのだ.

A02 一週間ばかりニューヨークを取材した

A03 テレビゲームやパソコンでゲームをして遊ぶ

A04 物価の変動を考慮して給付水準を決める必要がある A05 救急車が十分に動けず救助作業が遅れている

A06 言論の自由は一歩譲れば百歩も千歩も攻め込まれる

Modulation frequency [Hz]

5 10 15 20 25 30 35 40 45 50

ERBN number

5 10 15 20 25 30

F101 A01

-70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]

Modulation frequency [Hz]

5 10 15 20 25 30 35 40 45 50

ERBN number

5 10 15 20 25 30

F101 A02

-60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]

Modulation frequency [Hz]

5 10 15 20 25 30 35 40 45 50

ERBN number

5 10 15 20 25 30

F101 A03

-70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]

Modulation frequency [Hz]

5 10 15 20 25 30 35 40 45 50

ERBN number

5 10 15 20 25 30

F101 A04

-70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]

Modulation frequency [Hz]

5 10 15 20 25 30 35 40 45 50

ERBN number

5 10 15 20 25 30

F101 A05

-60 -50 -40 -30 -20 -10 0 10 20 30 Modulation spectrum [dB]

Modulation frequency [Hz]

5 10 15 20 25 30 35 40 45 50

ERBN number

5 10 15 20 25 30

F101 A06

-70 -60 -50 -40 -30 -20 -10 0 10 20 30 Modulation spectrum [dB]

図 6.1: 話者F101の文章A01からA06までの変調スペクトル

Modulation frequency [Hz]

5 10 15 20 25 30 35 40 45 50

ERBN number

5 10 15 20 25 30

F102 A01

-70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]

Modulation frequency [Hz]

5 10 15 20 25 30 35 40 45 50

ERBN number

5 10 15 20 25 30

F102 A02

-70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]

Modulation frequency [Hz]

5 10 15 20 25 30 35 40 45 50

ERBN number

5 10 15 20 25 30

F102 A03

-80 -70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]

Modulation frequency [Hz]

5 10 15 20 25 30 35 40 45 50

ERBN number

5 10 15 20 25 30

F102 A04

-70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]

Modulation frequency [Hz]

5 10 15 20 25 30 35 40 45 50

ERBN number

5 10 15 20 25 30

F102 A05

-80 -70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]

Modulation frequency [Hz]

5 10 15 20 25 30 35 40 45 50

ERBN number

5 10 15 20 25 30

F102 A06

-80 -70 -60 -50 -40 -30 -20 -10 0 10 20 Modulation spectrum [dB]

図 6.2: 話者F102の文章A01からA06までの変調スペクトル

ドキュメント内 JAIST Repository: 音声波形の振幅包絡線に含まれる個人性の検討 (ページ 43-57)

第 6 章 結論

6.2 残された課題

参考文献

謝辞

研究業績

本研究に関する研究業績

国際会議

研究会

口頭発表

そのほかの研究業績

論文

国際会議

研究会

口頭発表

付録

第 6 章結論