音質評価指標を用いた年齢知覚に関する検討
全文
(2) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2018-MUS-121 No.12 2018/11/21. た [1] [2]. そ の 結 果 , 加 齢 に 伴 い , 基 本 周 波 数 F 0 や フ. 2. 年 齢 知 覚 実 験. ォルマント周波数,スペクトル傾斜といった音響特徴. 2.1. 実 験 刺 激. の変化が重要であることが分かった.また,声の知覚 年齢が話者の実年齢と異なることも分かった.. 実 験 に は , 日 本 語 小 学 生 音 声 デ ー タ ベ ー ス ( DB ) ( ALAGIN)お よ び 東 北 大 ‐ 松 下 単 語 音 声 DB( TMW). 「ことばの鎖」を拠りどころに,加齢による聴力低. に 収 録 さ れ た 音 声 デ ー タ を 利 用 し た [6][7].ALAGIN に. 下と音声変形の相互作用として高齢者の実年齢と知覚. は 7 歳 か ら 10 歳 の 男 女 の 音 声 が 収 録 さ れ て お り ,本 実. 年 齢 の 関 係 が 水 町 に よ っ て 調 べ ら れ て き た .そ の 結 果 ,. 験 で は 男 性 話 者 7 名 , 女 性 話 者 10 名 の 計 17 名 の 音 声. 高齢者においては,加齢による純音聴力閾値の上昇が. を 実 験 刺 激 と し て 利 用 し た .ま た ,TMW に は 20 代 か. 2 kHz ま で は 緩 や か で あ る が 4 kHz お よ び 8 kHz に お. ら 40 代 の 男 女 の 音 声 が 収 録 さ れ て お り ,本 実 験 で は 男. いて加速度的に上昇する特徴が得られ,相補的に高齢. 性 話 者 30 名 ,女 性 話 者 30 名 の 計 60 名 の 音 声 を 実 験 刺. 者 の 発 話 音 声 に は 2 kHz か ら 4.5 kHz で は パ ワ ー が 低 下 し ,4.5 kHz 以 上 の 高 周 波 帯 域 で の パ ワ ー が 上 昇 す る 特徴が現れることが示された.正常聴力を有する高齢. 激として利用した.. 2.2. 実 験 方 法. 者は知覚年齢が低く評価される傾向があり,難聴者の. 話者の実年齢とその話者が発する音から知覚され. 音声の知覚年齢は,実年齢よりも高く知覚され,実年. る年齢(知覚年齢)の関係を調べるために,年齢知覚. 齢よりも知覚年齢が高い場合は嗄声がより支配的であ. 実 験 を 行 っ た . 本 稿 で は ,二 つ の 音 声 刺 激 セ ッ ト を 合. る こ と も 明 ら か に さ れ た [3].こ れ ら の よ う に ,声 の 実. わせて実験を行わず,それぞれの刺激セットで別々に. 年齢と知覚年齢の差の関係が説明されているが,年齢. 年 齢 知 覚 実 験 を 行 っ た . ALAGIN を 利 用 し た 実 験 で は. 知覚に係る聴覚的要因の解明には至っていない. 一方,咽喉を専門とする医師は,話者の声から病理. 正 常 聴 力 を 有 す る 日 本 語 母 語 話 者 7 名( 20 代 男 性 5 名 , 20 代 女 性 2 名 ) が 参 加 し た . TMW を 利 用 し た 実 験 で. 音声を容易に判断することができる.特に,病理音声. は 正 常 聴 力 を 有 す る 日 本 語 母 語 話 者 5 名 ( 20 代 男 性 3. の 判 別 に は ,嗄 声 度 を 点 数 化 す る 指 標 と し て ,GRBAS. 名 ,20 代 女 性 1 名 ,30 代 女 性 1 名 )が 参 加 し た .実 験. 尺度が用いられている.特定の用語を使わずに声質の. は防音室内で行われた.実験参加者には,ヘッドホン. 非類似性を評定した場合,聴取者は程度の差はあるも. にて音声刺激をランダム呈示し,知覚した年齢を 1 歳. の の GRBAS 尺 度 で 用 い ら れ て い る 嗄 声 の 重 症 度 を 表. 刻みで回答させた.. す Grade や 粗 造 性 ・ ガ ラ ガ ラ 感 を 表 す Roughness, 気 息 性・カ サ カ サ 感・ハ ス キ ー ボ イ ス を 表 す Breathy,無 気 力 性 ・ 弱 々 し さ を 表 す Asthenic, 努 力 性 ・ 力 み を 表 す Strained と い っ た 概 念 を 利 用 し て い る こ と が 今 泉 に よ っ て 報 告 さ れ て い る [4].ま た ,健 常 者 ,喉 頭 癌 患 者 , 反回神経麻痺患者,声帯ポリープ患者の音声を利用し て , 変 動 周 期 指 数 ( PPQ ) や 規 格 化 雑 音 エ ネ ル ギ ー ( NNE)と GRABAS 尺 度 と の 関 係 を 調 査 し た 報 告 が あ る [5]. そ の 結 果 , PPQ や NNE を 対 数 表 現 し た も の と. 2.3. 実 験 結 果 図 1 に 実 験 結 果 を 示 す .横 軸 は 話 者 の 実 年 齢 で あ り , 縦 軸 は 知 覚 年 齢 を 示 す .図 中 の 赤 の + は ALAGIN の 結 果 を , 青 い 〇 は TMW の 結 果 を 示 す . 赤 の 実 線 は 二 つ の結果を合わせたものに対して得られた 2 次の回帰曲 線 を 示 し ,青 の 破 線 は ALAGIN の 結 果 に 対 す る 回 帰 直 線 , 青 の 一 点 鎖 線 は TMW の 結 果 に 対 す る 回 帰 直 線 を 示す.図 1 の結果から,子供の音声の場合は,実年齢. GRBAS 尺 度 の 内 の ガ ラ ガ ラ 感 に 対 応 す る Roughness との相関が高いことも報告されている. 年齢知覚の本質を知るためには,音声生成だけでは なく聴知覚からの検討も必要である.ガラガラ感や変 動感が病理音声の判断に深く関係することを考えると, これらの指標を加齢による声質の変化,特に年齢を測 ることに使うことができるかもしれない.さらには, ラフネスや変動強度,シャープネスといった音質評価 指標を利用して知覚年齢を推定できるかもしれない. 本稿では,音声の年齢知覚が聴覚の変調知覚に関係し ているものと仮定して,音声の知覚年齢と聴覚的要因 (ラフネスや変動強度,シャープネスといった音質評 価指標)の関係を調査する.. ⓒ 2018 Information Processing Society of Japan. 図 1. 話者の実年齢と知覚年齢の関係.. 2.
(3) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2018-MUS-121 No.12 2018/11/21. と知覚年齢がほとんど近い値であることがわかる.一. の 結 果 に 対 す る 回 帰 直 線 を , 青 の 一 点 鎖 線 は TMW の. 方,成人の音声の場合は,実年齢が上がるにつれて,. 結果に対する回帰直線を示す.. 知覚年齢の変動幅が広がり,飽和する傾向にあること. 図 3 の結果より,男性音声の場合は,知覚年齢の変. が 分 か る .木 戸 ら 報 告 に よ る と ,知 覚 年 齢 は 35 歳 を 境. 化とスペクトル傾斜の変化はないことが分かった.図. と し , 実 年 齢 が 35 歳 よ り 下 の 場 合 は 老 け て , 35 歳 よ. 4 の結果より,男性音声の場合は,年齢が増加すると. り 上 の 場 合 は 若 く 聞 こ え る 傾 向 に あ る [8]. 図 1 で は ,. F 0 が 急 激 に 減 少 し ,40 代 を 過 ぎ る と 増 加 す る 傾 向 が 見. これらの結果に類似した傾向がみられる.. られた.図 5 の結果より,女性音声の場合も男性音声. 3. 知 覚 年 齢 と 音 響 特 徴 / 音 質 評 価 指 標 の 関 係 3.1. 音 響 特 徴 を利 用 した分 析 先行研究によって男性の場合はスペクトル傾斜が,. と同様に知覚年齢の変化に伴うスペクトル傾斜の変化 はないことが分かった.図 6 の結果より,女性音声の 場 合 は ,年 齢 が 増 加 す る と と も に F 0 の 値 も 緩 や か に 下 降していくという結果が得られた.これは,先行研究. 女 性 の 場 合 は 基 本 周 波 数 F0 が 特 に 年 齢 と の 関 係 が あ. で 明 ら か に さ れ た 話 者 の 加 齢 に 伴 い F0 が 緩 や か に 降. ることが明らかされた.そこで,聴取実験で得られた. 下するという結果に一致する結果となった.. 各音声の知覚年齢と音響特徴の関係を調査した.ここ. 3.2. 音 質 評 価 指 標. で は ,発 話 内 容 の バ ラ つ き を 考 慮 し て ,話 者 当 た り 10 種類の音声刺激に対する音響特徴の平均値を用いた. F 0 は , 有 声 区 間 に 対 し て STRAIGHT TENPO を 利 用 し て 求 め ,そ の 結 果 を 時 間 平 均 し ,音 声 の F 0 平 均 を 求 め た [9][10].ま た ,ス ペ ク ト ル 傾 斜 は ,フ レ ー ム 長 10 ms, フ レ ー ム シ フ ト 5 ms,ハ ニ ン グ 窓 を 窓 関 数 と し て 短 時 間パワースペクトルを求め,オクターブ周波数上のス ペクトル傾斜を最小二乗法により求めた.図 2 に今回. ま ず ,OROS 社 の Sound Quality Lite を 用 い て ,実 験 刺激に対する音質評価指標(ラフネス,変動強度,シ ャープネス)を算出した. ラフネスは音のざらつき感を表す指標である.ラフ ネ ス は , 音 圧 レ ベ ル が 60 dB, 搬 送 波 周 波 数 が 1 kHz, 変 調 周 波 数 が 70 Hz, 変 調 度 が 1 の と き , 1 asper と 定 義 さ れ て お り , 次 式 の よ う に 表 さ れ る [11].. [asper]. 求めたスペクトル傾斜の一例を示す.図中の,青い点 線は音声のパワースペクトルを示し,赤い実線は最小 二乗法により求めた,スペクトル傾斜を示している. 図 3 に男性音声の知覚年齢とスペクトル傾斜の関係 を , 図 4 に は 男 性 音 声 の 知 覚 年 齢 と F0 の 関 係 を 示 し , 図 5 には女性音声の知覚年齢とスペクトル傾斜の関係. (1). た だ し , f mo d は 変 調 周 波 数 , △ L は 臨 界 帯 域 ご と の 興 奮レベルの山と谷の差,z は臨界帯域番号である. 変動強度は音の変動感を表す指標である.変動強度 は 音 圧 レ ベ ル が 60 dB,搬 送 波 周 波 数 が 1 kHz,変 調 周 波 数 が 4 Hz,変 調 度 が 1 の と き ,1 vacil と 定 義 さ れ て お り , 次 式 の よ う に 表 さ れ る [11][12].. [vacil]. (2). た だ し , f mo d は 変 調 周 波 数 , △ L は 臨 界 帯 域 ご と の 興 奮レベルの山と谷の差,z は臨界帯域番号である. シャープネスは音の甲高さを表す指標である.シャ ー プ ネ ス は , 音 圧 レ ベ ル が 60 dB で , 1 kHz を 中 心 周 波 数 と す る 臨 界 帯 域 幅 の 狭 帯 域 雑 音 の と き に 1 acum と 定 義 さ れ て お り 次 式 の よ う に 表 さ れ る [11].. [acum] 図 2. スペクトル傾斜の一例.. を ,図 6 に は 女 性 音 声 に 対 す る 知 覚 年 齢 と F 0 の 関 係 を 示 す . 図 中 の 赤 い + は ALAGIN の 結 果 を , 青 い 〇 は TMW の 結 果 を 示 す . 図 中 の 赤 い 実 線 は 全 体 の 結 果 に 対 し て 得 ら れ た 2 次 回 帰 曲 線 を , 青 の 破 線 は ALAGIN. ⓒ 2018 Information Processing Society of Japan. (3). た だ し ,N' (z)は 臨 界 帯 域 ご と の ラ ウ ド ネ ス( ラ ウ ド ネ ス 密 度 ),g' (z)は シ ャ ー プ ネ ス の 重 み ,z は 臨 界 帯 域 番 号である. 次 に ,聴 取 実 験 で 得 ら れ た 各 音 声 の 知 覚 年 齢 と 音 質 評 価指標との関係を求めた.ここでは,発話内容のバラ つ き を 考 慮 し て ,話 者 当 た り 10 種 類 の 音 声 刺 激 に 対 す る音質評価指標の平均値を用いた.. 3.
(4) 情報処理学会研究報告 IPSJ SIG Technical Report. 図 3. 知 覚 年 齢 と ス ペ ク ト ル 傾 斜 の 関 係 ( 男 声 ).. 図 5. 知 覚 年 齢 と ス ペ ク ト ル 傾 斜 の 関 係 ( 女 声 ).. 3.3. 分 析 結 果. Vol.2018-MUS-121 No.12 2018/11/21. 図 4. 図 6. 知 覚 年 齢 と F 0 の 関 係 ( 男 声 ).. 知 覚 年 齢 と F 0 の 関 係 ( 女 声 ).. 向が得られ,女性音声の場合は年齢が上がるにつれて. まず,知覚年齢とラフネスの関係を調査した.図 7. 変動強度が上昇する傾向が見られる.変動強度もラフ. に男性音声の知覚年齢とラフネスの関係を,図 8 に女. ネスと同様に子供と成人で別々に結果を見ると,男性. 性音声の知覚年齢とラフネスの関係を示す.図中の赤. 音声は子供の頃は加齢とともに増加傾向を示し,成人. の + は ALAGIN, 青 い 〇 は TMW の 結 果 を 示 し , 赤 の. ではわずかに下降傾向を示していることが見られる.. 実 線 は 2 次 の 回 帰 曲 線 ,青 の 破 線 は ALAGIN の 結 果 に. 女性音声の場合は対照的に,子供の頃は下降傾向を示. 対 す る 回 帰 直 線 , 青 の 一 点 鎖 線 は TMW の 結 果 に 対 す. し,成人ではわずかに増加傾向を示している.. る回帰直線を示す.これらの結果より,男性音声の場. 最後に知覚年齢とシャープネスの関係を調べた.図. 合も女性音声の場合も年齢が上がるにつれてラフネス. 11 に 男 性 音 声 の 知 覚 年 齢 と シ ャ ー プ ネ ス の 関 係 を ,図. の 値 が 上 昇 し て い き 30 代 を 過 ぎ る と 降 下 傾 向 に あ る. 12 に 女 性 音 声 と 知 覚 年 齢 と シ ャ ー プ ネ ス の 関 係 を 示. ことがわかる.子供と成人での結果を別々に見ると,. す.図中の記号等は先の図と同様である.これらの結. 男性音声の場合も女性音声の場合も子供の頃は加齢と. 果より,男性音声の場合は,年齢が上がるにつれてシ. ともにラフネスは増加傾向があるが,成人では下降傾. ャープネスが緩やかに下降する傾向が見えるのに対し. 向にあることがわかる.. て,女性音声の場合は,男性音声の場合とは対照的に. 次に,知覚年齢と変動強度の関係を調べた.図 9 に. 年齢が上がるにつれてシャープネスが緩やかに上昇す. 男 性 音 声 の 知 覚 年 齢 と 変 動 強 度 の 関 係 を ,図 10 に 女 性. る傾向が見られた.シャープネスも同様に別々に結果. 音声の知覚年齢と変動強度の関係を示す.図中の記号. を見ると,男性音声の場合は,子供の頃は減少傾向が. 等は先の図と同様である.これらの結果より,男性音. 見られ,成人では増加傾向が見られる.女性音声の場. 声の場合は年齢にかかわらず変動強度は変化しない傾. 合では,子供成人ともに減少傾向が見られる.. ⓒ 2018 Information Processing Society of Japan. 4.
(5) 情報処理学会研究報告 IPSJ SIG Technical Report. 図 7. 図 9. 図 11. 知 覚 年 齢 と ラ フ ネ ス の 関 係 ( 男 声 ).. 知 覚 年 齢 と 変 動 強 度 の 関 係 ( 男 声 の 場 合 ).. 知 覚 年 齢 と シ ャ ー プ ネ ス の 関 係 ( 男 声 ).. 4. 考 察 知 覚 年 齢 と ス ペ ク ト ル 傾 斜 ,な ら び に 知 覚 年 齢 と F 0 の関係を見た結果より,男性音声の知覚年齢とスペク トル傾斜に傾向が見られなかったことから知覚年齢に 関しては従来知られている音響特徴では,今回のデー. ⓒ 2018 Information Processing Society of Japan. Vol.2018-MUS-121 No.12 2018/11/21. 図 8. 図 10. 図 12. 知 覚 年 齢 と ラ フ ネ ス の 関 係 ( 女 声 ).. 知 覚 年 齢 と 変 動 強 度 の 関 係 ( 女 声 の 場 合 ).. 知 覚 年 齢 と シ ャ ー プ ネ ス の 関 係 ( 女 声 ).. タを十分に説明できないといえる.そこで,知覚年齢 に関しては聴覚の印象に係るところで求める必要があ ると考えられる.知覚年齢と音質評価指標との関係の 結果を見ると,男性音声の知覚年齢とラフネス,シャ ープネスに傾向が見られたことから,男性音声の知覚. 5.
(6) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2018-MUS-121 No.12 2018/11/21. 年齢を考える場合,ラフネスやシャープネスを用いる ことで説明が可能ではないかと考えられる.また,女 性の知覚年齢とラフネスと変動強度,ラフネスに傾向 が見られたことから,女性音声の場合は,ラフネスや 変動強度,変動強度を用いることで説明が可能ではな いかと考えられる. 今 回 の 検 討 で は , 子 供 と 成 人 の DB に 対 し て 別 々 に 知覚年齢を求め,従来研究で年齢との関係が示唆され た音響特徴や音質評価指標を見てきた.しかし,聴知 覚のメカニズムの解明をするためには,子供と成人と を別々に知覚年齢を見るのではなく子供から高齢者ま でのデータを統合したうえで知覚年齢を求め,今回と 同様に音質評価指標を用いて分析することで,さらに 深 い 知 見 が 得 ら れ る の で は な い か と 考 え ら れ る .ま た , 分析をする前の予想では,ラフネスは年齢とともに 徐々に上昇するような傾向が得られると考えていたが, 今回の検討ではラフネスが男性,女性ともに最終的に 降下したような傾向が得られた.今後,前述したよう に 高 齢 者 の DB を 含 め た う え で 今 回 の よ う な 分 析 を す ることで,ラフネスが上昇し続けるような,傾向が得 られるように考えられる.. 5. ま と め 本稿では,年齢知覚に関して聴知覚メカニズムから 検討するために,音声聴取による知覚年齢実験を行っ た.得られた実験結果をもとに,知覚年齢と音響特徴. [2] 粕 谷 英 樹 , “性 質 の 伝 え る 情 報 と そ の 関 連 量 ,” 日 本 音 響 学 会 誌 , vol. 68, no. 10, pp. 520-526, 2012. [3] 水 町 光 徳 , “加 齢 に よ る 聴 力 低 下 と 発 話 変 化 の 相 互 作 用 ,” 日 本 音 響 学 会 誌 vol. 73, no. 5, pp. 279-302, 2017. [4] 今 泉 , “ 声 質 の 計 量 心 理 学 的 評 価 ,” 日 本 音 響 学 会 誌 , vol. 42, no. 10, pp. 828-833, 1986. [5] 日 本 音 声 言 語 医 学 会 , 新 編 声 の 検 査 法 , 医 歯 薬 出 版 会 社 , 2009. [6] 東 北 大 ‐ 松 下 単 語 音 声 デ ー タ ベ ー ス (TMW) http://research.nii.ac.jp/src/TMW.html [7] CIAIR 子 供 の 声 デ ー タ ベ ー ス (CIAIR-VCV) http://research.nii.ac.jp/src/CIAIR-VCV.html [8] 木 戸 博 , “ 音 声 聴 取 に お け る 声 年 齢 に つ い て の 一 考 察 ,” 音 講 論 , pp. 491-492, 2004. [9] Kawahara, H., Katayose, H., and de Cheveigne, A., Patterson, R., Fixed point analysis of frequency to in stantaneous frequency mapping for accurate estimation of F0 and periodicity,Proc. Eurospeech99, pp.2781-2784, Sept. 1999. [10] Kawahara, H., Masuda-Katsuse, I., and de Cheveigne, A., Restructuring speech representations using a pitch adaptive time-frequency smoothing and an instantaneous-frequency based on F0 extraction: Possible role of a repetitive structure in sounds,Speech Communication, Vol. 27, pp. 187-207, 1999. [11] Fastl, H., Zwicker E., “Psychoacoustics : Facts and models, third edition” Springer, pp. 257-264, 2006. [12] Fastl H., “Fluctuation strenght and temporal masking patterns of amplitudemodulated broadband noise,” Hearing Research, 8, pp. 59-69, 1982.. (スペクトル傾斜と基本周波数)との対応関係を調べ た.さらに,知覚年齢と音質評価指標(ラフネス,変 動強度,シャープネス)との対応関係を調べた.その 結果,実年齢と知覚年齢の対応関係から,話者の年齢 が上がるにつれて年齢知覚のバラつきが見られること がわかった.このバラつきに関しては,特に成人音声 の 場 合 ,35 歳 を 起 点 に 老 若 の 推 定 結 果 の 逆 転 が み ら れ ることがわかった.音声聴取による年齢知覚では,男 性音声の場合,音声のラフネスや変動強度,女性音声 の場合はラフネスや変動強度,シャープネスが知覚年 齢に関係していることがわかった.今後は,子供から 高齢者までの音声データを集めたうえで,本検討と同 様に分析していくことで,声の年齢知覚のメカニズム を解明する予定である.. 謝辞 本 研 究 は 科 研 費 ・ 新 学 術 領 域 ( No.18H05004 ) の 支 援を受けて行われた.. 文. 献. [1] 森 大 毅 , 前 川 喜 久 雄 , 粕 谷 英 樹 , 音 響 サ イ エ ン ス シ リ ー ズ 12 音 声 は 何 を 伝 え て い る か ― 感 情 ・ パ ラ 言 語 情 報 ・ 個 人 性 の 科 学 ― , コ ロ ナ 社 , 2014.. ⓒ 2018 Information Processing Society of Japan. 6.
(7)
関連したドキュメント
Thus, in Section 5, we show in Theorem 5.1 that, in case of even dimension d > 2 of a quadric the bundle of endomorphisms of each indecomposable component of the Swan bundle
In section 3 all mathematical notations are stated and global in time existence results are established in the two following cases: the confined case with sharp-diffuse
It was known that the adjoint of the linearized equation could be used as the temporal component to construct an inverse scattering problem for integrable equations in the case of
[Mag3] , Painlev´ e-type differential equations for the recurrence coefficients of semi- classical orthogonal polynomials, J. Zaslavsky , Asymptotic expansions of ratios of
This problem becomes more interesting in the case of a fractional differential equation where it closely resembles a boundary value problem, in the sense that the initial value
(Furthermore, a bound on the number of elementary matrices can be found that depends only on n, and is universal for all fields.) In the case of fields, this can easily be
But in fact we can very quickly bound the axial elbows by the simple center-line method and so, in the vanilla algorithm, we will work only with upper bounds on the axial elbows..
The vertex weights that are used in the reduction allow us to easily establish a relationship between the leaf weight of a spanning tree, and the number of heavy leaves that