様々な熟練歌唱者の歌唱様式の体験を - 実時間音声分析合成技術と音場再現に基づく高臨場感歌唱体験システムの研究

表6 歌唱制御システムの評価項目ラベル評価項目

Excellent 歌唱制御を行うほうが好まれる

Good 歌唱制御を行うほうがやや好まれる Fair どちらともいえない

Poor 歌唱制御を行わないほうがやや好まれる Bad 歌唱制御を行わないほうが好まれる

そのほか口頭で被験者から得られた意見には，“合成音がBuzzyだった”，“カラオケのように残響や臨場感がなく不満”，といったものがあった．

2.9 様々な熟練歌唱者の歌唱様式の体験を

9%

14%

32%

45%

Excellent Good

Fair Poor Bad

←77 %→

図20 歌唱制御システムの評価結果

2.9.2 歌唱様式の転写に関する考察

歌唱制御における歌唱様式の再現度では, 基本周波数の高い女性歌手を教師信号として用いた場合歌唱様式の再現度が高く, 標準偏差も小さいことから個人性や楽曲に依存せず歌唱様式が転写されていたと考えられる. 転写前後ともに基本周波数の低い男性歌手において再現度が低い傾向が確認され, 標準偏差も他よりも大きいことから個人性や楽曲により変動があったと考えられる. また全スコアの平均値は 4.15となっており，このスコアは表5より概ね再現されていることを示すことから，

歌唱制御において教師信号に用いられた専業歌手の歌唱様式が再現できていたと考えられる.

2.9.3 歌唱制御システムの評価結果に関する考察

被験者が歌唱制御システムを用いて歌唱を行った場合に75 %の被験者が好ましい結果を示したことからも，熟練歌唱者のような歌唱様式を体験でき, 従来のカラオケに新たな可能性を示せたと考えられる. 一方で，10 %の被験者にとっては好まれないという結果が示された．これらの被験者は，内観報告として遅延時間の問題を挙げていた．遅延時間の問題は，提示される歌唱が自身の発声から遅れており，歌唱が困難となる報告であった．これは，歌唱制御システムのパイプラインにおけるレイテンシが原因であったと考えられ，レイテンシを抑圧することで，品質の改善が期待される．実験結果によらず，被験者全体から確認された品質に関する報告では，被験者が不適切な時刻に発声した場合に品質が著しく低下することが報告された．これは，歌唱制御システムが教師信号と使用者の歌唱の基本周波数が同期すること前提としている一方で，その前提が破綻することにより品質が低下することを示している．そのため，使用者の発声を適切に誘導するなど使用者の歌唱信号と教師信号の同期を促す機能を用いることで，歌唱制御システムの効果を向上できると考えられる．また，品質が低下するという内観報告も確認され，特に教師信号と使用者の歌唱信号における基本周波数が大きく異なる場合において顕著であった．音声分析合成技術では特定のスペクトル包絡において高品質に合成可能な基本周波数の範囲があり，大きく異なる基本周波数を転写する場合において，スペクトル包絡と基本周波数の整合性が崩れ，品質が低下したと考えられる．すなわち，2.8.9項,

2.9.2項をふまえ，基本周波数の転写に応じてスペクトル包絡を適切に補償すること

が，今後の品質向上に向けて重要な課題であると考えられる．

また被験者からは合成音のBuzzyさや残響感の不足が指摘されたが，これは本実験において残響のない制御音を聴取させたためであると考えられる．本実験では使用者の歌声を実時間で制御するが，歌唱様式の転写を知覚させるため意図的に他のディジタル信号処理を付与していない．そのため残響感も乏しく，カラオケや舞台のような臨場感が得られなかったと考えられる．また合成音のBuzzyさについては

STRAIGHTでも指摘されており，ヘッドフォンでの聴取ではより顕著になることが

示されている．このことから，今後は制御した歌声を直接提示するのではなく，特定のステージやカラオケなどの残響感を付与する，あるいは更に臨場感のある音環

境を再現することで合成音のBuzzyさの緩和や高い臨場感を使用者に提示できる可能性が示された．

2.10 様々な熟練歌唱者の歌唱様式体験を使用者へ提供する

ドキュメント内実時間音声分析合成技術と音場再現に基づく高臨場感歌唱体験システムの研究 (ページ 51-54)