表6 歌唱制御システムの評価項目 ラベル 評価項目
Excellent 歌唱制御を行うほうが好まれる
Good 歌唱制御を行うほうがやや好まれる Fair どちらともいえない
Poor 歌唱制御を行わないほうがやや好まれる Bad 歌唱制御を行わないほうが好まれる
そのほか口頭で被験者から得られた意見には,“合成音がBuzzyだった”,“カラオ ケのように残響や臨場感がなく不満”,といったものがあった.
2.9 様々な熟練歌唱者の歌唱様式の体験を
9%
14%
32%
45%
Excellent Good
Fair Poor Bad
←77 %→
図20 歌唱制御システムの評価結果
2.9.2 歌唱様式の転写に関する考察
歌唱制御における歌唱様式の再現度では, 基本周波数の高い女性歌手を教師信号 として用いた場合歌唱様式の再現度が高く, 標準偏差も小さいことから個人性や楽 曲に依存せず歌唱様式が転写されていたと考えられる. 転写前後ともに基本周波数 の低い男性歌手において再現度が低い傾向が確認され, 標準偏差も他よりも大きい ことから個人性や楽曲により変動があったと考えられる. また全スコアの平均値は 4.15となっており,このスコアは表5より概ね再現されていることを示すことから,
歌唱制御において教師信号に用いられた専業歌手の歌唱様式が再現できていたと考 えられる.
2.9.3 歌唱制御システムの評価結果に関する考察
被験者が歌唱制御システムを用いて歌唱を行った場合に75 %の被験者が好ましい 結果を示したことからも,熟練歌唱者のような歌唱様式を体験でき, 従来のカラオ ケに新たな可能性を示せたと考えられる. 一方で,10 %の被験者にとっては好まれ ないという結果が示された.これらの被験者は,内観報告として遅延時間の問題を 挙げていた.遅延時間の問題は,提示される歌唱が自身の発声から遅れており,歌 唱が困難となる報告であった.これは,歌唱制御システムのパイプラインにおける レイテンシが原因であったと考えられ,レイテンシを抑圧することで,品質の改善 が期待される.実験結果によらず,被験者全体から確認された品質に関する報告で は,被験者が不適切な時刻に発声した場合に品質が著しく低下することが報告され た.これは,歌唱制御システムが教師信号と使用者の歌唱の基本周波数が同期する こと前提としている一方で,その前提が破綻することにより品質が低下することを 示している.そのため,使用者の発声を適切に誘導するなど使用者の歌唱信号と教 師信号の同期を促す機能を用いることで,歌唱制御システムの効果を向上できると 考えられる.また,品質が低下するという内観報告も確認され,特に教師信号と使 用者の歌唱信号における基本周波数が大きく異なる場合において顕著であった.音 声分析合成技術では特定のスペクトル包絡において高品質に合成可能な基本周波数 の範囲があり,大きく異なる基本周波数を転写する場合において,スペクトル包絡 と基本周波数の整合性が崩れ,品質が低下したと考えられる.すなわち,2.8.9項,
2.9.2項をふまえ,基本周波数の転写に応じてスペクトル包絡を適切に補償すること
が,今後の品質向上に向けて重要な課題であると考えられる.
また被験者からは合成音のBuzzyさや残響感の不足が指摘されたが,これは本実 験において残響のない制御音を聴取させたためであると考えられる.本実験では使 用者の歌声を実時間で制御するが,歌唱様式の転写を知覚させるため意図的に他の ディジタル信号処理を付与していない.そのため残響感も乏しく,カラオケや舞台 のような臨場感が得られなかったと考えられる.また合成音のBuzzyさについては
STRAIGHTでも指摘されており,ヘッドフォンでの聴取ではより顕著になることが
示されている.このことから,今後は制御した歌声を直接提示するのではなく,特 定のステージやカラオケなどの残響感を付与する,あるいは更に臨場感のある音環
境を再現することで合成音のBuzzyさの緩和や高い臨場感を使用者に提示できる可 能性が示された.