2.8.1 評価実験の概要
歌唱制御システムの有効性を確認するために評価実験を実施した. 評価実験では,
まず提案ボコーダの有効性について評価を行った. 提案ボコーダの有効性を示すた
0 10 20 30 Time [ms]
Am pli tude
図16 入力と異なる基本周期で復号された日本語発話/a/の時間波形
め, 歌唱信号を分析合成した場合における処理時間と合成された信号の主観的な品 質を評価した.
また,提案ボコーダを用いた基本周波数の転写に基づく歌唱様式の変換において, どの程度熟練歌唱者の歌唱様式が再現されるか主観評価実験を実施した. 加えて,使 用者が歌唱制御システムを利用した場合の効果として, 歌唱制御システムを用いず に歌唱した場合と歌唱制御システムを用いて歌唱した場合に, 歌唱制御システムを 用いた歌唱が使用者にどの程度好まれるか評価した.
2.8.2 提案ボコーダの分析合成時間の評価
分析合成の処理時間において提案ボコーダの有効性を確認するために客観評価実 験を行った. 実験では歌唱信号を従来の音声分析合成技術であるチャネルボコーダ [39],LPCボコーダ [57],ケプストラムボコーダ[45],STRAIGHT[50], および提案ボ コーダを用いて分析合成し, 試料信号の時間長に対する分析合成の処理時間の割合 平均を評価した. 用いられた試料は,専業歌手による歌唱10曲の各1コーラスで構 成された.
2.8.3 提案ボコーダの分析合成時間の評価結果
実験結果を表3に示す. STRAIGHTのみが突出して長い処理時間であった. 他ボ コーダはいずれも試料の100 %以下の時間で分析合成の処理を完了しており, チャ
表3 各ボコーダの分析合成における処理時間の平均割合 分析合成法 入力信号長に対する処理時間の平均割合
Channel vocoder 70 %
LPC vocoder 21 %
Cepstrum vocoder 19 %
STRAIGHT 662 %
Proposed vocoder 31 %
表4 主観評価におけるスコアと品質 スコア 品質
5 高い
4 やや高い
3 どちらでもない
2 やや低い
1 低い
ネルボコーダが70 %であることを除いて他のボコーダではあまり差異が確認されな かった.
2.8.4 提案ボコーダの品質評価
合成された歌唱信号の品質評価では,歌唱信号を歌唱制御を伴わず分析合成された 信号,および歌唱制御を伴い分析合成された信号を被験者に提示し,被験者は合成さ れた歌唱信号の品質を表4に基づきMOS評価[82]した. 用いられた試料は専業歌手 による歌唱10曲(各1コーラスのみ)であり,各専業歌手による歌唱様式のものまね
歌唱(対象楽曲の歌手の歌い方を再現した歌唱)と専業歌手本人の歌唱様式による歌
唱間で歌唱制御を行った. 被験者は女性8名男性12名で構成され,試料は25 dB(LA) の防音室にてAKG社のヘッドフォンK272HDを用いて提示された.
Channel
vocoder LPC
vocoder Cepstral
vocoder STRIGHT Proposed vocoder 1
2 3 4 5
Sc ore
図17 提案ボコーダを用いて歌唱制御を伴わず分析合成された信号の主観的品質
2.8.5 提案ボコーダの品質評価結果
歌唱制御を伴わずに分析合成された歌唱信号の品質評価結果を図17,歌唱制御を 伴い分析合成された歌唱信号の品質評価結果を図18に示す. 歌唱制御の併用に関わ らず各手法によって合成された品質の順位は同一で,STRAIGHTが最も高く,提案 ボコーダはSTRAIGHTよりやや劣るものの,STRAIGHTに近い品質で,音声信号 を合成できている.
Channel
vocoder LPC
vocoder Cepstral
vocoder STRIGHT Proposed vocoder 1
2 3 4 5
Sc ore
図18 提案ボコーダを用いて歌唱制御を伴い分析合成された信号の主観的品質
2.8.6 歌唱制御システムによる歌唱様式の転写精度の評価
提案ボコーダを用いた基本周波数の転写により, どの程度歌唱様式が主観的に再 現されるか評価した. 評価実験では専業歌手による歌唱信号を素人歌手の歌唱信号 に転写し合成された歌唱信号を被験者に提示し,専業歌手の歌唱様式がどの程度被 験者に知覚されるか,その再現度を表5に基づき評価した.専業歌手では専業の歌 手女性2名男性2名とし,素人歌手は女性8名男性12名から構成された.被験者は 女性8名男性12名で構成され,信号は25 dB(LA)の防音室にてAKG社のヘッドフォ
ンK272HDを用いて提示された. また,楽曲は表1のものが用いられた.
表5 制御された歌唱信号の聴取時に知覚される歌唱様式の再現度の評価尺度 スコア 知覚される歌唱様式の再現度
5 完全に再現されている 4 概ね再現されている 3 やや再現されている 2 あまり再現されていない 1 ほとんど再現されていない
2.8.7 歌唱制御システムによる歌唱様式の転写精度の評価結果
評価結果を図19に示す. 女性素人歌手の歌唱信号に女性専業歌手の教師信号を転 写したもの,女性素人歌手の歌唱信号に男性専業歌手の教師信号を転写したもの,男 性素人歌手の歌唱信号に女性専業歌手の教師信号を転写したもの,および男性素人 歌手の歌唱信号に女性専業歌手の教師信号を転写したものそれぞれから知覚される 転写された歌唱様式の再現度をグラフの高さとして示している.評価結果では,男 性素人歌手の歌唱信号を女性専業歌手の歌唱信号を用いて制御した場合に最も高い 歌唱様式の再現度を確認した. 男性素人歌手の歌唱信号を男性専業歌手の歌唱信号 で制御した場合では,最も低い再現度であった. 女性専業歌手を用いて制御した場 合では,素人歌手の性別に依存せず共に4以上のスコアであった.
2.8.8 歌唱制御システムの評価
歌唱制御システムの使用感に関する評価として, 歌唱制御システムを用いずに歌 唱を行った場合と比較し,使用者が歌唱制御システムを用いて歌唱がどの程度好ま れるか評価した. 評価実験において,被験者は,提案システムを用いずにある楽曲 の歌唱を行った後に歌唱制御システムを用いて歌唱を行い,それぞれの歌唱後に歌唱 制御システムを用いた歌唱がどの程度好まれるか表6から選択した. 被験者は女性8 名男性12名から構成され,楽曲はカラオケで歌唱されることを前提として,表1と 同一の6曲を用いた.評価では実験終了後,被験者に回答に対する根拠を自由に回
Supervisor: female
User: female Supervisor: male
User: female Supervisor: female
User: male Supervisor: male User: male 1
2 3 4 5
Score
図19 提案法による歌唱様式の評価結果
答させた.また,被験者の回答に対する根拠も回答させた.
2.8.9 歌唱制御システムの評価結果
評価結果を図20に示す. 図 20では,各回答に対する回答者の割合を回答項目に 対応した各グラフの高さで示している.歌唱制御システムの使用感に対し,被験者の
50 %が好まれると回答し,被験者の25 %がやや好まれる,被験者の15 %がどちらで
もないと回答した.また被験者の10 %はやや好まれないと回答し,被験者の0 %は 好まれないと回答した. 被験者の75%が好む傾向にあり,被験者の10%が好まない 傾向を確認した.
表6 歌唱制御システムの評価項目 ラベル 評価項目
Excellent 歌唱制御を行うほうが好まれる
Good 歌唱制御を行うほうがやや好まれる Fair どちらともいえない
Poor 歌唱制御を行わないほうがやや好まれる Bad 歌唱制御を行わないほうが好まれる
そのほか口頭で被験者から得られた意見には,“合成音がBuzzyだった”,“カラオ ケのように残響や臨場感がなく不満”,といったものがあった.