高臨場感歌唱体験システムの評価実験に関する考察 - 歌唱体験システムと音場再現システムに基づく

4. 歌唱体験システムと音場再現システムに基づく

4.4 高臨場感歌唱体験システムの評価実験に関する考察

被験者は本システムを用いて歌唱を行った．その際に被験者が聴取できる被験者自身の音声が自分の声と感じれるか評価した回答率を図54(a)に示す．また，MOS

表16 回答項目2,カラオケシステムとしての自然さ(違和感のなさ) スコア基準

5 違和感がない

4 どちらかというと違和感がない 3 どちらでもない

2 どちらかというと違和感がある 1 違和感がある

表17 回答項目3,カラオケシステムとしての楽しさスコア基準

5 楽しさが高い

4 どちらかというと楽しさが高い 3 どちらでもない

2 どちらかというと楽しさが低い 1 楽しさが低い

評価の結果を図54(b)に示す．本評価項目では，システムを利用しない歌声が最も自身の声だと回答した割合が高く，歌唱様式の転写のみを行った場合が最も自分の声ではないと評価された．原因として，過度な基本周波数の変調と音質のBuzzyさが考えられる．励起信号が周期をもつとき，基本周波数の整数倍以外の帯域は零点になるため仮に調音フィルタ(=音素など特有)の極が他の帯域にあったとしても，その推定が困難となる．結果として，調音フィルタの極に高いスペクトル密度が補償されず品質が低下する．加えて音声分析合成技術ではパルス列の駆動音に基づいて，

合成音声がBuzzy音らしく聞こえる問題がある．そのため，一部の被験者には自身の声質と異なる音と認識されたと考えられる．この問題は，場合2と場合4で生じると予測される．しかしながら，顕著にスコアの低いものは場合2だけであった．これは音場再現システムによって残響など室内の特性が付与された場合には合成音の

Buzzyさが緩和されたためと考えられる．いずれにしても，声質の個人性において

表18 回答項目4,歌唱が不得意な使用者に対する効果の期待度スコア基準

5 歌唱が不得意でも楽しめると思う 4 どちらかというと楽しめると思う 3 どちらでもない

2 どちらかというと楽しめないと思う 1 歌唱が不得意では楽しめないと思う

表19 高臨場感歌唱体験システムの評価実験条件 Spatial size 512³samples

Spatial resolution 7.0×10⁻³ m/sample Time resolution 1/16×10⁻³s/sample Sonic velocity 340m/s

Boundary condition Perfect matched layer

は場合2のみが低いスコアを示したものの，Tukeyの方法による多重検定ではp値が10⁻¹水準と高く，有意な差はないと言える．

図55は，被験者が各システムをカラオケという枠組みでカラオケシステムとしての自然さを評価した結果である．図55(a)はその回答率を示し，図55(b)はMOS評価結果を示す．ここでいうカラオケとは，使用者の伴奏を提示し，使用者が歌唱行為を楽しむエンタテインメントを指している．自然さの評価でも場合2において最も低い点数となり場合4において最も高い点数と，声質の個人性の評価と同じ傾向を示している．すなわち，自らが歌唱行為をするシステムでは，その自然さの必要条件として声質の歪みがないことが求められているといえる．

図56は各場合の利用によって被験者に感じられた楽しさの評価結果である．図56(a) はその回答率を示し，図56(b)はMOS評価結果を示す．本結果は前述の2つと異なり，場合1の評価が最も低く，場合4の評価が最も高い．これは，歌唱様式の転写もカラオケにおける音場再現も楽しさを高める有効な手段であると言える．また多

表20 Tukeyの方法に基づき算出された累積確率分布関数値比較対 Index₁ Index₂ Index₃ Index₄ 場合1と場合2 2.5×10⁻¹ 8.6×10⁻² 9.8×10⁻¹ 2.2×10⁻³ 場合1と場合3 9.6×10⁻¹ 4.6×10⁻¹ 3.1×10⁻¹ 3.6×10⁻¹ 場合1と場合4 9.6×10⁻¹ 8.6×10⁻² 8.4×10⁻² 5.3×10⁻³ 場合2と場合3 4.9×10⁻¹ 2.5×10⁻³ 5.0×10⁻¹ 1.1×10⁻¹ 場合2と場合4 4.9×10⁻¹ 1.7×10⁻⁴ 1.7×10⁻¹ 9.9×10⁻¹ 場合3と場合4 1.0×10⁰ 7.5×10⁻¹ 8.9×10⁻¹ 2.1×10⁻¹

重検定の結果では有意水準5 %を満たす差はいずれの手法間にも確認されなかったものの，場合1と場合4の比較においてp値は0.08と最小の値であった．すなわちカラオケにおける楽しさはいずれの手法でも差は小さいが，その中でも歌唱様式の転写と音場の再現を併用する場合においては最も楽しさが向上した．

最後に，歌唱の不得手な人にとって有効と考えられるかどうかを被験者の主観で回答させた結果を図57に示す．図57(a)はその回答率を示し，図 57(b)はMOS評価結果を示す．なお，本評価項目は被験者の印象を重視し，被験者がTone-deafかどうかは区別していない．本評価項目の結果はこれまでの3つの項目と異なり，場合 2と場合4の評価が最も高く，場合3，場合1と続く．図57からは歌唱様式の転写だけあれば歌唱の不得手な使用者に対して有効だという傾向が示された．多重検定では歌唱様式の転写および音場の再現を共に利用しない場合を基準とした場合，歌唱様式の転写を併用する場合において有効性が示された．

総合すると，歌唱の不得手な人への補助ツールとする場合には歌唱様式の転写があれば十分有効であるといえる．一方で，歌唱様式の転写に加えて音場再現を併用する場合には有意差が無く，また歌唱様式の転写においては音場再現の併用によって残響効果に基づく品質向上が見込まれることから，歌唱様式の転写と音場再現の併用は相補的に高い効果をもたらすと言える．

ドキュメント内実時間音声分析合成技術と音場再現に基づく高臨場感歌唱体験システムの研究 (ページ 124-128)