AA AAAA
6.2 主観評価実験による提案法の有効性検証
目的:
本節では、非定常雑音により生じた聴感上の歪み感低減能力に関して、主観評価実験に より提案法の有効性を検証する。
実験条件:
LPC-SED に対するサブトラクション係数 の最適化実験と同様に、サブトラクション
係数 を0 から0.1 刻みで2.0 まで変化させて雑音除去を行ない、雑音除去音声に対する 主観評価値 MOS を求める。
実験には、音声区間中に突発的に発生し、目的信号との相関が高い非定常雑音を用いる。
目的信号と雑音は、ともに ATR音声データベース[54] に収録されている男性話者 mht氏 発話の文章データの一部とする。目的信号は「通訳電話国際会議事務局です」、雑音は「題 目の締切を教えて下さい」の各文章とし、これらを SNR が 0 dB になるように加算した データに対して雑音除去を行なう。これは、雑音除去問題の中では最も困難な課題の一つ
であるカクテルパーティ効果[47] に相当する。
主観評価実験は、正常聴力を有する大学院生8 名を被験者とし、防音室内で各雑音除去 音声を4 回ずつランダムにヘッド ホン呈示する。被験者には、雑音による音声の歪み感を
5 段階の MOS により回答させた。目的信号に生じる歪みには、妨害音声の存在による目 的信号の聞き取り難さ(サブトラクション係数 が 0に近い場合)、目的信号本来のスペク トル構造が崩壊することによる不快感 ( が 2.0 に近い場合) の 2 種類がある。被験者へ は、実験を行なう前にこれらの歪みに関する説明を行ない、実験に使用する刺激音を用い て十分に練習を行なわせた。
実験結果:
実験結果として、主観評価実験により得られたサブトラクション係数 の各値に対する 被験者個別の平均MOSを図 6.1 に示す。図6.1 を見ると、被験者 S01、S02、S05、S06 の
4 名は、1:1 1:3 で MOS が最大となっている。被験者S03、S04、S07、S08 は、
が 1.7 あるいは 2.0 で MOSが最大となっているが、いずれも 1:1 1:5 に MOS の 極大値が存在する。また、被験者全員の平均値を図 6.2 に示す。全被験者の平均 MOS に 対するサブトラクション係数 の最適値は 1.2 である。
考察:
提案法は、目的信号と雑音がともに音声である場合であっても良好に雑音を除去できる ことがわかった。また、聴感上の印象を最大限向上させるためには、サブトラクション係 数 は 1.2 程度に設定すべきであり、ASR のフロントエンド として(LPC-SED を評価基 準とした場合) の最適値 1.0 とは異なることもわかった。
主観評価実験の結果に関して、サブトラクション係数 が 0.1、0.3 と0に近い場合、被 験者ごとの主観評価値MOS のバラツキが大きくなっている。これは、サブトラクション 係数 が0 に近い場合は、雑音として用いた妨害音声がはっきりと聴こえしまい、被験者 がこれを完全に分離して聴いたためであろうと推測できる。
更に、この結果が実験データと被験者に依存した傾向ではないことを確認するため、ATR
0 2 4
S01
0 2 4
S03
0 2 4
S02
0 2 4
S04
0 2 4
S05
0 2 4
S06
0 1 2
0 2 4
S07
α 0 0 1 2
2 4
S08
1.5 α
0.5 0.5 1.5
MOS MOS MOS MOS MOS MOS MOS MOS
図 6.1: 被験者個別のサブトラクション係数 と MOSとの関係
0 0.5 1 1.5 2 0
1 2 3 4
(distorted) −−−−− MOS −−−−− (clean)
Subtraction Coefficient : α
図 6.2: サブトラクション係数 と 全被験者の平均 MOSとの関係
英語音声データベース [67]に収録されている 2つの英語会話音声を用いて、これまで聴取 実験の被験者の経験がない大学院生 5名に対して同様の実験を行なった。この結果、これ までに聴取実験の経験のない被験者であったこと、また彼らの英語に対する習熟度に起因 し、主観評価実験により得られた MOSに若干のバラツキは見られたが、サブトラクショ ン係数 の最適値は1.1 であった。この結果は、本節の実験結果と矛盾するものではない。