森勢将雅

(1)

メルケプストラムを加工した音声の音質を計測する知覚モデルの開発と評価 *

小川樹

^†^a)

森勢将雅

^††^b)

Development and Evaluation of Perceptual Model for Measuring Sound Quality of Mel-Cepstrum-Modified Speech

^∗

Itsuki OGAWA

^†^a)

and Masanori MORISE

^††^b)

あらまし音声合成や声質変換に関する技術は幅広く提案され，既にいくつもの製品が多岐にわたって利用されるようになった．声質変換技術の普及により，音声の加工も誰でも手軽に行えるようになった．音声の加工には，音の3要素と呼ばれる「大きさ」，「高さ」，「音色」をそれぞれ加工する方法が広く用いられている．大きさや高さは，音圧レベルや基本周波数を加工するため，加工の結果の予測が容易である．しかし，音色の加工は，加工に伴う劣化の予測が困難という問題点がある．本研究では，音声の音色加工に伴う劣化を計測する知覚モデルによりこの問題の解決を図る．様々なスペクトル尺度と距離関数の組み合わせと音質の関係を調査し，その結果を用いて知覚モデルを開発した．主観評価実験を実施し，従来法と開発した知覚モデルの間に，主観評価結果との相関係数の有意差があるかの検定を行った．検定の結果，p <0.001で有意な差があり，従来法より開発した知覚モデルが優れていることを示した．

キーワード音声分析，音声知覚，音質評価，知覚モデル，メルケプストラム

1.

まえがき

音声は，人間が意思や感情などの情報を伝達するための基礎的な手段の一つであり，計算機による音声生成は，テキストの読み上げやスマートスピーカなどで利用される大変身近な技術になっている．この際，生成される音声は多様であり，利用者の好みに応じた音声を創る技術に注目が高まっている．音声を加工する機械やソフトウェアはボイスチェンジャーと呼ばれ，

ロボットを想像させる声や特定の芸能人に似た声など，

さまざまな声に加工をすることができる．とりわけ，

†山梨大学大学院医工農学総合教育部，甲府市

Integrated Graduate School of Medicine, Engineering, and Agricultural Sciences, University of Yamanashi, 4–3–11 Takeda, Kofu-shi, 400–8511 Japan

††明治大学総合数理学部，東京都

School of Interdisciplinary Mathematical Sciences, Meiji University, 4–21–1 Nakano, Nakano-ku, Tokyo, 164–8525 Japan

a) E-mail: [email protected] b) E-mail: [email protected]

*本論文は学生論文特集秀逸論文である．

DOI:10.14923/transinfj.2019PDP0005

高品質な音声加工を実施する基盤として，音の

3

要素と呼ばれる「大きさ」，「高さ」，「音色」をそれぞれ加工する音声分析合成方式が広く用いられている．しかし，

音色の加工は，大きさや高さの加工に対して直感的な加工が困難という問題点がある．

この問題の原因は，大きさや高さが，

1

時刻あたり

1

次元の時系列である一方，音色は，加工するパラメータが

1

時刻あたり多次元なスペクトル包絡というスペクトル情報で表現されるためである．また，わずかな加工で音質が悪化するなど，加工の程度と音質との関係性が直感的ではなく，情報量の多さから音質に与える影響の原因を特定することは困難である．そのため，目的の加工音声を作成するためには，人間が直接音声を聴取して音質を確認し，得られた結果を用いて満足のいく品質となるまで加工する作業を繰り返し行う必要がある．この評価には，主観評価を行うことが最も正確であるが，大量の加工音声に対して行う場合，多くの時間を費やす必要があり，効率が悪い．そこで，主観評価の結果を推定する客観評価法が提案され，利用されている．

PESQ

（

perceptual evaluation

(2)

of speech quality

）

[1]

と

POLQA

（

perceptual objec- tive listening quality assessment

）

[2]

は，広く用いられている客観評価法である．しかし，

PESQ

は，電話帯域の音声を対象としており，

POLQA

は，音声の長さなどに制約があるため，任意の音声での評価は困難である．このことから，任意の音声に対しても，音色の加工を行った音声を評価することができる知覚モデルの構築は，膨大な音声を自動で評価する領域で役に立つことが期待される．

本研究では，音声の音色の加工に伴う劣化の予測が困難という問題点を解決するため，音色の加工後に起こる音質劣化に特化した知覚モデルを開発する．既存の音声の客観評価法と音色を表す音響特徴量の関係を調査する．調査した結果より，複数の知覚モデルを開発する．これらの知覚モデルから最適な知覚モデルを選択するため，主観評価実験を実施し，提案した知覚モデルが既存の評価法よりも優れているかを明らかにする．

本章では，序論として本研究の背景及び目的について述べた．

2.

では，音声の評価法について関連研究を説明し，

3.

では，提案法の概要について述べる．

4.

では，知覚モデルの選定のために実施した予備実験を示す．

5.

^では，

4.

の結果を基にした知覚モデルの開発を述べる．

6.

では，主観評価実験について述べ，

7.

^では，

6.

までに得られた結果から構築した知覚モデルの有効性について論じる．

8.

では，本論文の結論及び今後の課題を述べる．

2.

音声評価に関する関連研究

音声の加工は，入力された音声パラメータを，設定された目的のパラメータへと変換することにより実施される．その際，定常的に起きるノイズや，局所的に生じる振幅のピークなどの劣化が生じることがある．

したがって，目的とする音色であるかを評価するための方法があり，特に主観評価法が広く利用されている．

MOS

（

mean opinion score

）評価は代表的な主観評価法であり，音質について「非常に良い」から「非常に悪い」までの

5

段階で評価する方法である．しかし，

評価者や評価音声の準備にコストがかかるという問題点がある．具体的には，まず正常な聴力をもつ被験者を多数集める必要がある．評価環境は，専用の無響室や防音室などの評価施設で行い，騒音や音圧レベルなどの条件を揃えたり，評価音声の順序を毎回変化させたりするなど，評価に対するばらつきを抑えなければ

ならない．この問題点を解決し，

MOS

評価と同等の評価値を推定する方法として，

PESQ

と

POLQA

や，

AutoMOS [3]

などの客観評価法が提案されている．

PESQ

と

POLQA

は，参照音声と評価音声を比較し，知覚・認知モデルのそれぞれの処理から，評価値を推定する方法である．

PESQ

は電話帯域の音声を対象としており，

POLQA

は

PESQ

を拡張し，性能の向上に加え，より広帯域な音声も対象としている．

PESQ

と

POLQA

は，共に国際規格となっている．しかし，

PESQ

はサンプリング周波数が

16 kHz

を上回る音声に対応しておらず，

POLQA

は使用する音声への制約，特に時間に関する制約が多い．サンプリング周波数

48 kHz

に対応させた

PESQ

の拡張版である

EW-PESQ [4]

も提案されているが，音色の加工を行った音声の評価法としての検討が十分であるとは言い難い．近年では，

AutoMOS

と呼ばれる，

ニューラルネットワークを用いた客観評価法も提案されている．

AutoMOS

は，スペクトルとその動的特徴量を入力として，評価値を出力するように学習を行う．

text-to-speech

システムなどで合成された音声や，評価音声しか用意できない環境に対しても利用することができ，その利用範囲は広い．しかし，学習を行うためのデータセットが，文献中では約

17

万音声と非常に多く，どのような音声で構成されているかが不明であるため，同じ性能を達成するデータセットの構築が課題となる．

3.

^{提案法}

3. 1

本研究の位置づけ

本研究の目的は，音色変化による劣化の計測であるため，スペクトル包絡のみを評価する指標として，スペクトル距離に着目する．スペクトル距離は，参照音声と評価音声のそれぞれのスペクトル包絡を，適当な距離関数を用いて得られた誤差の尺度である．

本研究では，

2.

で述べた

PESQ

と

EW-PESQ

を従来法とする．

4.

以降で利用する親密度別単語了解度試験用音声データセット

2007

（

familiarity-controlled wordlists 2007: FW07

）

[5]

の発話内容が

4

モーラの単語と短いため，発話時間に制約のある

POLQA

は今回比較する従来法から除外した．また，

AutoMOS

も，学習するためのデータセットに結果が依存し，再現性を担保することができないため除外した．音色のみを加工した音声の音質劣化の推定を目的とするため，

音色のみの加工を行った音声を評価音声とし，加工を

(3)

図1 メルケプストラムを用いた音声変換のフロー図

行う前の音声を参照音声として，二つの音声を比較する評価法とする．サンプリング周波数が

40 kHz

以上のフルバンド音声を対象とし，信号処理のみを用いて評価値を推定する．評価値は，

MOS

値と同じ

1

から

5

の範囲で推定する．

3. 2

メルケプストラムを用いた音声変換

音声変換のフロー図を図

1

に示す．音色のみの加工を行うため，音声から音色を表す音響特徴量を抽出する．音響特徴量の抽出には，音声分析合成システムである

WORLD [6]

（

D4C edition [7]

）を利用した．ま

た，

WORLD

の構成モジュールは複数あるため，基本

周波数推定には

Harvest [8]

，スペクトル包絡推定には

CheapTrick [9], [10]

を用いた．

WORLD

は，高品質な音声の分析合成システムであり，声の高さを表す基本周波数，声の音色を表すスペクトル包絡，声のかすれ具合を表す非周期性指標の三つのパラメータを用いた

Vocoder

の機構を採用している．同じ音声データセットを用いて，声質変換

[11]

の精度を競う

Voice Conversion Challenge 2016 [12]

では，参加した

17

チームのうち，

13

チームでメルケプストラム

[13]

を用いたシステムを開発している．性能の面でもメルケプストラムを用いたシステムが上位に多いこと

[14]

から，本研究ではメルケプストラムを用いた音声変換を行う．音色の加工方法は，メルケプストラム次数の

1

から

N

^次までの

1

刻みのうち，一つの次元のみを

− 8

から

10

まで

1

刻みで定数倍する．加工したメルケプストラムをスペクトル包絡に復元し，元音声から推定

図2 メルケプストラム次数の変化によるPESQとEW- PESQの評価値

した基本周波数と非周期性指標を用いて

WORLD

で合成することにより音声変換を行う．

メルケプストラム次数

N

を決めるために，メルケプストラム次数を

1

から

100

次にした際の，

PESQ

または

EW-PESQ

の評価値の変化について予備調査を行った．使用音声は，

JSUT

（

Japanese speech corpus of Saruwatari laboratory, the Uni- versity of Tokyo

）

[15]

から女性話者の

10

音声，

HTS- demo NIT-ATR503-M001 [16]

から男性話者の

10

音声，計

20

音声を用いた．調査結果を，図

2

に示す．縦軸は

PESQ

または

EW-PESQ

の評価値である

MOS- LQO

（

MOS-listening quality objective

），横軸はメルケプストラム次数を表す．図

2

より，

28

次以上でどちらの評価値も変動がおおむね飽和したため，

28

次を音声変換に用いるメルケプストラム次数と決定した．

3. 3

スペクトルの種類

調査するスペクトルとして，

WORLD

で推定したスペクトル包絡に加え，以下の項で述べる

5

種類のスペクトルを用いる．

3. 3. 1

メル尺度

メル尺度（

mel

）

[17]

は，音の高さの知覚的尺度である．低域の周波数差には敏感だが，高域の周波数差には鈍感という聴覚特性を基に作成された．周波数からメル尺度への変換は，文献

[18]

から，式

(1)

を用いる．

mel( f ) = 1127 . 01048 log f

700 + 1

, (1)

f

^は

Hz

を単位とする周波数を表す．式

(1)

以外にも幾つかの変換式が提案されているが，どの変換式も低域では線形，高域では対数関数で近似されている．本研究では，

WORLD

で得られたスペクトル包絡に，

100

次のメルフィルタバンクをかけたものをメルスペクト

(4)

ルとして用いる．本実験では，フィルタバンクの上限・

下限周波数をそれぞれ

24000 Hz

，

20 Hz

にした．この上下限は以下に示す他の尺度でも同一である．

3. 3. 2

^{バーク尺度}

バーク尺度（

Bark

）

[19]

は，臨界帯域幅測定法を用いた心理学実験を基に作成された音響心理学的尺度である．周波数

f

からバーク尺度への変換は，文献

[20]

から，式

(2)

を用いる．

Bark( f ) = 26 . 81 f

1960 + f − 0 . 53 . (2)

本研究では，

WORLD

で得られたスペクトル包絡に，

100

次のバークフィルタバンクをかけたものをバークスペクトルとして用いる．

3. 3. 3 ERB

尺度

ERB

（

equivalent rectangular bandwidth

）尺度

[21]

は，バーク尺度で利用されていた臨界帯域幅測定法を改良した，ノッチ雑音マスキング法を用いた心理学実験を基に作成された音響心理学的尺度である．

周波数

f

^から

ERB

尺度への変換は，文献

[22]

から，

式

(3)

を用いる．

ERB( f ) = 21 . 4 log

₁₀

4 . 37 f

1000 + 1

. (3)

本研究では，音声波形から得られた

100

スペクトルを用いる．

3. 3. 4

^{ガンマチャープ}

ガンマチャープ

[23]

は，音圧のレベル依存性や圧縮特性といった聴覚末梢系の非線形性や，時間変化による動的な特性をモデル化した聴覚フィルタである．

ガンマチャープには，線形で時不変なガンマチャープ

（

gammachirp: GC

），非線形で時不変な圧縮型ガンマチャープ（

compressive gammachirp: cGC

），非線形で時変な動的圧縮型ガンマチャープの

3

種類がある．

聴覚特性を最もよく表現しているフィルタは，動的圧縮型ガンマチャープであるが，非線形性があるため波形に対する音圧レベルという他の尺度には存在しないパラメータが必要であること，及び時変性を取り入れるため計算に時間がかかることから，本研究では

GC

と

cGC

のみを用いる．

3. 4

距離関数の種類

調査する距離関数として，式

(4)–(7), (9)

で述べる

5

種類の距離関数と，それらの対数で表現する距離関数を加えた計

10

種類を用いる．

代表的な距離関数であるユークリッド距離は，式

(4)

で表される．

D

EU

= 1 T

_T

0

1 f

N

_f_N

0

D

EU

( t, f ) df dt, (4) D

EU

( t, f ) =

P ( t, f ) − P ˆ ( t, f )

2

,

P ( t, f )

は，真値のスペクトル包絡の時間周波数表現であり，

P ˆ ( t, f )

は，加工したスペクトル包絡の時間周波数表現である．

T

^{は信号長に相当し，}

t

^{は分析時刻，}

f

Nはナイキスト周波数であり，

f

は周波数を示す．この距離関数は，誤差の正負にかかわらず対称である．

式

(5)

は，対数スペクトル距離である．

D

LS

= 1 T

_T

0

1 f

N

_f_N

0

D

LS

( t, f ) df dt, (5)

D

^LS

( t, f ) =

10 log

₁₀

P ( t, f ) P ˆ ( t, f )

2

.

対数スペクトル距離は，ユークリッド距離を対数軸上で評価した距離関数となる．

音声評価で利用される板倉斉藤距離

[24]

を式

(6)

に示す．

D

IS

= 1 T

_T

0

1 f

N

_f

N 0

D

IS

( t, f ) df dt, (6)

D

IS

( t, f ) = P ( t, f ) P ˆ ( t, f ) − log

P ( t, f ) P ˆ ( t, f ) − 1 .

ユークリッド距離では対称であった正負に対して，負方向には大きく，正方向には小さく距離を取る，非対称性をもつ．スペクトル包絡のピークが弱まるより強まる加工が音声として自然なため，この距離関数は音声に適していると言える．

式

(7)

に示す距離関数は，文献

[25]

で提案された，

重み付き板倉斎藤距離である．

D

WIS

= 1 T

_T

0

1 0 . 45 f

s

− 2 f

0

D

WIS

( t ) dt, (7) D

WIS

( t ) =

_0.45f_s

2f0

D

WIS

( t, f ) u ( f ) df,

D

WIS

( t, f ) = P ( t, f ) P ˆ ( t, f ) − log

P ( t, f ) P ˆ ( t, f ) − 1 , u ( f ) = 9 . 294

0 . 00437 f + 1 , (8)

(5)

f

sはサンプリング周波数を，

f

⁰^{は基本周波数を示す．}

板倉斎藤距離に，低域ほど大きく，高域ほど小さい周波数重みをかけ合わせたもので，周波数重みは，式

(3)

の導関数として，式

(8)

で表される．積分範囲は，低域は重みが大きくなりすぎるため，高域は折り返しの影響を除くために狭くしている．

最後に，式

(9)

は，文献

[26]

で提案された距離関数である．

D

dB

=

1 T

_T

0

1 f

N

_f_N

0

D

dB

( t, f ) df dt, (9) D

dB

( t, f )

=

10 log

₁₀

P ( t, f ) P ¯ ( t )

− 10 log

₁₀

P ˆ ( t, f )

¯ ˆ P ( t )

2

, P ¯ ( t )

は，真値のスペクトル包絡の周波数の平均値であり，

P ¯ ˆ ( t )

は，加工したスペクトル包絡の周波数の平均値である．文献中では，ガンマチャープを用いた声道長の推定のために用いられている．

4.

^{従来法と提案法の比較}

4. 1

実験条件

知覚モデルを開発するための予備実験として，知覚モデルの選定に利用することを目的とした従来法と提案法の比較実験を行い，従来法と提案法の相関について調査する．実験条件を表

1

に，提案法で使用するスペクトル及び距離関数を表

2

に示す．使用音声は

FW07

を用いた．

FW07

は，

4

モーラの単語で構成された発話時間の短い音声で構成されているデータセットである．本章以降での実験には主観評価を含むため，

3. 2

のメルケプストラム次数の決定の実験で使用した

JSUT

や

HTS-demo NIT-ATR503-M001

のような発話時間の長い音声では，発話の局所的な劣化を評価することが困難となる．そのため，本論文では，発話時間が短く固定された

FW07

を使用した．

FW07

は，サンプリング周波数が

48 kHz

であるため，

16 kHz

までの音声にしか対応していない

PESQ

では評価できない．そのため，

PESQ

で評価を行う際は，音声を

16 kHz

にダウンサンプリングする．

4. 2

実験結果

まず，

PESQ

または

EW-PESQ

と提案法の距離との相関係数のうち，それぞれ上位五つについて表

3

に示す．表中において，例えば，

ERB-log ( D

dB

)

は，

ERB

尺度のスペクトルを用いた式

(9)

の対数距離で

表1 従来法と提案法の比較実験の実験条件メルケプストラム次数 28次

変化量 1刻みで−8から10倍の19通り

使用音声 FW07

音源全40音声（男女各2名×10文章）

加工種類全532種類（28次×19通り）

従来法 PESQ，EW-PESQ

提案法

全60種類

（スペクトル6種類

×距離関数10種類）

表2 実験に用いるスペクトルと距離関数．6種類のスペクトルと10種類の距離関数を組み合わせた60種類の指標が存在する．

スペクトル距離関数 WORLD DEU

mel DLS

Bark DIS

ERB DWIS

GC DdB

cGC log (DEU) log (DLS) log (DIS) log (DWIS) log (DdB)

表3 従来法と提案法の距離との相関係数従来法提案法相関係数

PESQ

ERB-log (DdB) −0.814 GC-log (DLS) −0.801 Bark-log (DdB) −0.792 ERB-log (DLS) −0.785 mel-log (DdB) −0.781

EW-PESQ

ERB-log (DdB) −0.753 GC-log (DLS) −0.746 GC-log (DdB) −0.724 ERB-log (DLS) −0.721 Bark-log (DdB) −0.708

あることを示す．次に，従来法のそれぞれで最も相関係数が高かった組み合わせについて，散布図と回帰直線を図

3, 4

PESQ

または

EW-PESQ

の評価値，横軸は提案法の距離を表し，右上に相関係数を示す．

距離関数では，対数軸上で比較する

log ( D

LS

)

や

log ( D

^dB

)

を用いた提案法が，従来法との相関が強いという結果が得られた．すなわち，従来法の距離関数も対数関数に近い特性を有する可能性が示唆される．

また，従来法と提案法の間に非線形性があることも確認できる．

(6)

図3 PESQとERB-log (DdB)の距離との散布図と回帰直線

図4 EW-PESQとERB-log (DdB)の距離との散布図と回帰直線

5.

^{知覚モデルの開発}

5. 1

非線形モデルの推定

スペクトル距離から評価値を推定する知覚モデルを開発する．知覚モデルには，

4. 2

より従来法の評価値と提案法の距離との間に非線形性があったため，非線形モデルを使用する．非線形モデルとして，式

(10)–

(12) [27]

を用いる．

Exp y = a e

^bx

+ c, (10)

Shah y = a + bx + cd

^x

, (11) Stirling y = a + b e

^cx

− 1

c , (12)

x

はスペクトル距離，

y

は評価値，

a, b, c, d

は各非線形モデルのパラメータである．パラメータは，

4. 2

のデータを基に，レーベンバーグ・マーカート法

[28]

によって求める．

5. 2

開発した知覚モデルと従来法の比較

開発した

360

種類の知覚モデルと従来法の比較を行

表4 知覚モデルに用いる従来法，スペクトル，距離関数及び非線形モデル．2種類の従来法，6種類のスペクトル，10種類の距離関数と3種類の非線形モデルを組み合わせた360種類の知覚モデルが存在する．

従来法スペクトル距離関数モデル

PESQ WORLD DEU Exp

EW-PESQ mel DLS Shah

Bark DIS Stirling

ERB DWIS

GC DdB

cGC log (DEU) log (DLS) log (DIS) log (DWIS) log (DdB)

表5 従来法と知覚モデルの評価値との相関係数

従来法提案法相関係数

PESQ

WORLD-log (DIS)-Shah 0.851

ERB-DdB-Shah 0.848

ERB-DdB-Exp 0.848

ERB-DdB-Stirling 0.848 WORLD-log (DIS)-Exp 0.846

EW-PESQ

ERB-DdB-Shah 0.814

ERB-DdB-Exp 0.814

ERB-DdB-Stirling 0.814 ERB-log (DdB)-Shah 0.811 ERB-log (DdB)-Exp 0.806

図5 PESQとPESQ-WORLD-log (DIS)-Shahの評価値との散布図と回帰直線

う．

360

種類の知覚モデルで使用したスペクトル，距離関数，非線形モデルを表

4

に示す．

PESQ

または

EW-PESQ

と開発した知覚モデルとの相関係数のう

ち，それぞれ上位五つについて表

5

に示す．表中において，例えば，

WORLD-log ( D

IS

)-Shah

は，

WORLD

で推定したスペクトルを用いた式

(6)

の対数距離を基に，

Shah

のモデルで推定した知覚モデルであることを示す．次に，従来法のそれぞれで最も相関係数が高

(7)

図6 EW-PESQとEW-PESQ-ERB-DdB-Shahの評価値との散布図と回帰直線

かった組み合わせについて，散布図と回帰直線を図

5, 6

PESQ

または

EW-PESQ

の評価値，

横軸は提案法の評価値を表し，左上に相関係数を示す．

PESQ

では，

ERB- D

dB や

WORLD-log ( D

IS

)

の組み合わせが，

EW-PESQ

では，

ERB- D

dBや

ERB- log ( D

dB

)

の組み合わせが，従来法と相関の強い知覚モデルとなった．また，非線形モデルの種類については，大きな差は見られなかったが，

Stirling

のモデルは，幾つかの知覚モデルに対して，パラメータは収束しているが曲線の当てはめに失敗していることがあった．

6.

^{主観評価実験}

6. 1

実験条件

実験条件を，表

6

に示す．音声の加工種類については，

PESQ

の評価値が，

1.0

から

1.5

になる音声を

5

種類，

1.5

から

2.0

になる音声を

7

種類，

2.0

から

2.5

になる音声を

8

種類，

2.5

から

3.0

になる音声を

8

種類，

3.0

から

3.5

になる音声を

7

種類，

3.5

から

4.0

になる音声を

5

種類の計

40

種類を使用した．

6. 2

実験結果

MOS

と

5.

で開発した知覚モデルの評価値との相関係数のうち，それぞれ上位五つについて表

7

に示す．

表中において，例えば，

PESQ-WORLD-log ( D

WIS

)- Shah

は，

PESQ

の結果と

WORLD

で推定したスペクトルを用いた式

(6)

の対数距離を基に，

Shah

のモデルで推定した知覚モデルであることを示す．次に，従来法のそれぞれで最も相関係数が高かった知覚モデルと従来法について，散布図と回帰直線を図

7–10

MOS

，横軸は提案法の評価値を表し，左上に相関係数を示す．最も相関が強くなった知覚モデ

表6 主観評価実験の実験条件使用音声 FW07

音声数全160音声

（男女各1名×2文章×加工40種）

サンプリング 48 kHz / 16 bit

実験環境防音室（A-weighted SPL 17 dB）

再生機材 Roland QUAD-CAPTURE

SENNHEISER HD 650 被験者 20代15名

評価法 MOS評価

表7 MOSと知覚モデルの評価値との相関係数

提案法相関係数

PESQ-WORLD-log (DWIS)-Shah 0.949 PESQ-WORLD-log (DWIS)-Exp 0.948 PESQ-WORLD-log (DWIS)-Stirling 0.948 PESQ-Mel-log (DWIS)-Shah 0.946 PESQ-Mel-log (DWIS)-Stirling 0.945 EW-PESQ-WORLD-log (DWIS)-Stirling 0.948 EW-PESQ-WORLD-log (DWIS)-Exp 0.948 EW-PESQ-WORLD-log (DWIS)-Shah 0.948 EW-PESQ-Mel-log (DWIS)-Stirling 0.945 EW-PESQ-Mel-log (DWIS)-Exp 0.945

図7 MOSとPESQ-WORLD-log (DWIS)-Shahの評価値との散布図と回帰直線

図8 MOSとEW-PESQ-WORLD-log(DWIS)-Stirling の評価値との散布図と回帰直線

(8)

図9 MOSとPESQの評価値との散布図と回帰直線

図10 MOSとEW-PESQの評価値との散布図と回帰

直線

図11 MOSとPESQ，EW-PESQ及びPESQ- WORLD-log (DWIS)-Shahとの相関係数

ルは，

PESQ-WORLD-log ( D

WIS

)-Shah

となった．

最適な知覚モデルを

PESQ-WORLD-log ( D

WIS

)- Shah

と定義し，この知覚モデルについて，

PESQ

と

EW-PESQ

よりも有意であるかを調べるため，文献

[29]

を参考に検定を行った．図

11

は，

MOS

と

PESQ

，

EW-PESQ

及び

PESQ-WORLD-log ( D

WIS

)-Shah

との相関係数を表す．検定の結果，

PESQ

と

EW-

PESQ

それぞれについて開発した知覚モデルが，

p < 0 . 001

となり有意差が認められた．

PESQ- WORLD-log ( D

WIS

)-Shah

のモデルを，式

(13)

に示す．

y = 1 . 507896 − 0 . 012978 x

+ 1 . 013483 × 0 . 643603

^x

. (13)

7.

考察

まず，本研究では，相関係数に基づいて知覚モデルを開発した．提案法同士や提案法と従来法を，相関係数の値で直接比較することはできないが，二つの相関係数の有意差を判定する検定を用いて比較を行った．最適な知覚モデルとして，

360

種類の中から

PESQ-WORLD-log ( D

^WIS

)-Shah

を選択した．この最適な知覚モデルの相関係数と

p > 0 . 001

で有意な差がない知覚モデルは，

360

種類中

18

種類あった．この

18

種類の知覚モデルは，従来法のどちらの相関係数とも

p < 0 . 001

で有意な差があった．このことから，提案法に基づく知覚モデルは，従来法の

PESQ

や

EW-PESQ

と比較して優れているといえる．

次に，本研究では，非線形モデルとして

3

種類のみを用いた．この

3

種類以外の非線形モデルや線形モデルも使用して知覚モデルの推定を行ったが，その中で首尾よく当てはめが行えた

3

種類のみを選定した．また，線形モデルより非線形モデルが適している点については，図

3, 4

から分かるとおり，従来法と提案法の距離の間に，非線形な関係性があることが確認できる．そのため，複数の非線形モデルを対象とした知覚モデルを作成し，より相関が高くなるように構築した効果が認められたといえる．

本来，知覚モデルは主観評価実験に基づいて開発すべきである．一方，今回のように多数のパラメータから構成される膨大な音声の評価を行うことは現実的ではないといえる．例えば，今回，知覚モデルを開発するためのデータとなった

4.

^{の実験を主観的に行う} 場合，

21280

音声を評価する必要がある．そのため，

PESQ

のような，国際電気通信連合で既に規格化されており，信頼できる評価法を使用し，

4. 2

でも述べた非線形性を提案法により解消するというアプローチを採用した．結果，図

9, 10

の従来法より図

7, 8

の提案法はばらつきが抑えられ，図

11

に示すように従来法より性能が向上した．このばらつきは，

4. 2

^でも述べた非線形性が影響していると考えられ，この影響が

(9)

線形になるように変換する提案法により，従来法よりばらつきを抑えることができたと考えられる．

最後に，表

7

で上位の知覚モデルに使用しているスペクトル包絡や距離関数は，表

3

や表

5

で上位であったとは限らない．

4.

の実験では，最適な知覚モデルに使用されている

WORLD

と

log ( D

^WIS

)

の組み合わせは，

PESQ

とは

−0 . 553

，

EW-PESQ

とは

−0 . 463

の相関係数であった．一方，

5.

の実験では，最適な知覚モデルに使用されている

WORLD

と

log ( D

WIS

)

と

Shah

の組み合わせは，

PESQ

とは

0 . 835

，

EW-PESQ

とは

0 . 764

の相関係数であり，どちらも相関が相対的に高い数値を示した．つまり，非線形性の影響が線形になるように変換するために使用した非線形モデルにより，主観評価実験の結果と相関が強くなったと考えられる．

8.

^{むすび}

本研究では，音声の音色加工に伴う劣化を計測する知覚モデルを開発した．提案法として，音声の音色を表すスペクトルと，スペクトルを評価する距離関数に着目し，スペクトルを

6

種類，距離関数を

10

種類の全

60

種類について検討した．まず，従来法と提案法の距離との比較を行い，対数軸上で比較する距離関数の相関が強くなることを確認した．次に，従来法と提案法の比較実験の結果を基に，知覚モデルを開発した．従来法と提案法の距離との間には非線形な関係性があることが確認できたため，非線形モデルをベースとした．従来法と開発した知覚モデルの性能の評価を行い，

WORLD

のスペクトルや

ERB

尺度と対数軸上で比較する距離関数を組み合わせた知覚モデルが，

従来法との相関が強い結果となった．最後に，知覚モデルの性能の評価を行うために，主観評価実験を実施した．主観評価実験の結果を基に，最適な知覚モデルとして，

PESQ-WORLD-log ( D

WIS

)-Shah

が，

MOS

との相関が最も強いことを示した．

今後の課題として，より複雑な音色の加工を行った音声への性能評価が挙げられる．今回の評価音声の加工方法は，一つに限定しているため，他の音色加工による音声に対しての評価値が，正しく推定できるとは限らない．そのため，より多様な加工を行った音声に対しても頑強であるかの評価は必要である．

謝辞ガンマチャープについて御教授を賜った和歌山大学システム工学部システム工学科入野俊夫教授に深謝する．本研究は，科研費

JP16H05899, JP16H01734

，

JST

さきがけ

JPMJPR18J8

の支援を受けた．

文献

[1] ITU-T, “Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone net- works and speech codecs,” Recommendation P.862, International Telecommunication Union, 2001.

[2] ITU-T, “Perceptual objective listening quality pre- diction,” Recommendation P.863, International Telecommunication Union, 2011.

[3] B. Patton, Y. Agiomyrgiannakis, M. Terry, K.

Wilson, R.A. Saurous, and D. Sculley, “AutoMOS:

Learning a non-intrusive assessor of naturalness-of- speech,” NIPS 2016 End-to-end Learning for Speech and Audio Processing Workshop, pp.1–5, 2016.

[4] B.C. Bispo, P.A.A. Esquef, L.W.P. Biscainho, A.A.

de Lima, F.P. Freeland, R.A. de Jesus, A. Said, B.

Lee, R.W. Schafer, and T. Kalker, “EW-PESQ: A quality assessment method for speech signals sam- pled at 48 kHz,” J. Audio Eng. Soc., vol.58, no.4, pp.251–268, 2010.

[5] 近藤公久，天野成昭，坂本修一，鈴木陽一，“親密度別単語了解度試験用音声データセット2007 (FW07)，” NII音声資源コンソーシアム，2007.

[6] M. Morise, F. Yokomori, and K. Ozawa, “WORLD:

a vocoder-based high-quality speech synthesis sys- tem for real-time applications,” IEICE Trans. Inf.

& Syst., vol.E99-D, no.7, pp.1877–1884, July 2016.

DOI:10.1587/transinf.2015EDP7457

[7] M. Morise, “D4C, a band-aperiodicity estimator for high-quality speech synthesis,” Speech Commun., vol.84, pp.57–65, 2016. DOI:10.1016/j.specom.2016.

09.001

[8] M. Morise, “Harvest: a high-performance fundamen- tal frequency estimator from speech signals,” In- terspeech 2017, pp.2321–2325, 2017. DOI:10.21437/

Interspeech.2017-68

[9] M. Morise, “Cheaptrick, a spectral envelope estimator for high-quality speech synthesis,” Speech Com- mun., vol.67, pp.1–7, 2015. DOI:10.1016/j.specom.

2014.09.003

[10] M. Morise, “Error evaluation of an F0-adaptive spectral envelope estimator in robustness against the additive noise and F0 error,” IEICE Trans. Inf.

& Syst., vol.E98-D, no.7, pp.1405–1408, July 2015.

DOI:10.1587/transinf.2015EDL8015

[11] Y. Stylianou, O. Cappe, and E. Moulines, “Contin- uous probabilistic transform for voice conversion,”

IEEE Trans. Speech Audio Process., vol.6, no.2, pp.131–142, 1998. DOI:10.1109/89.661472

[12] T. Toda, L.-H. Chen, D. Saito, F. Villavicencio, M.

Wester, Z. Wu, and J. Yamagishi, “The voice conversion challenge 2016,” Interspeech 2016, pp.1632–

1636, 2016. DOI:10.21437/Interspeech.2016-1066 [13] T. Fukada, K. Tokuda, T. Kobayashi, and S. Imai,

(10)

“An adaptive algorithm for mel-cepstral analysis of speech,” ICASSP-92: 1992 IEEE International Con- ference on Acoustics, Speech and Signal Processing, vol.1, pp.137–140, 1992. DOI:10.1109/ICASSP.1992.

225953

[14] M. Wester, Z. Wu, and J. Yamagishi, “Multidimen- sional scaling of systems in the voice conversion challenge 2016,” 9th ISCA Speech Synthesis Workshop, pp.38–43, 2016. DOI:10.21437/SSW.2016-7 [15] R. Sonobe, S. Takamichi, and H. Saruwatari, “JSUT

corpus: free large-scale Japanese speech corpus for end-to-end speech synthesis,” arXiv preprint, 1711.

00354, 2017.

[16] HTS Working Group, “The NITech Japanese speech database NIT ATR503 M001,” May 29 2019. http://

hts.sp.nitech.ac.jp/archives/2.3/HTS-demo NIT- ATR503-M001.tar.bz2

[17] S.S. Stevens, J. Volkmann, and E.B. Newman, “A scale for the measurement of the psychological magni- tude pitch,” J. Acoust. Soc. Am., vol.8, no.3, pp.185–

190, 1937. DOI:10.1121/1.1915893

[18] S.S. Stevens and J. Volkmann, “The relation of pitch to frequency: a revised scale,” The American Jour- nal of Psychology, vol.53, no.3, pp.329–353, 1940.

DOI:10.2307/1417526

[19] E. Zwicker, “Subdivision of the audible frequency range into critical bands (frequenzgruppen),” J.

Acoust. Soc. Am., vol.33, no.2, p.248, 1961. DOI:10.

1121/1.1908630

[20] H. Traunm¨uller, “Analytical expressions for the tono- topic sensory scale,” J. Acoust. Soc. Am., vol.88, no.1, pp.97–100, 1990. DOI:10.1121/1.399849 [21] B.C.J. Moore and B.R. Glasberg, “Suggested formu-

lae for calculating auditory-filter bandwidths and ex- citation patterns,” J. Acoust. Soc. Am., vol.74, no.3, pp.750–753, 1983. DOI:10.1121/1.389861

[22] B.R. Glasberg and B.C.J. Moore, “Derivation of auditory filter shapes from notched-noise data,” Hear- ing Research, vol.47, no.1, pp.103–138, 1990. DOI:10.

1016/0378-5955(90)90170-T

[23] T. Irino and R.D. Patterson, “A dynamic compressive gammachirp auditory filterbank,” IEEE Trans.

Audio, Speech, Language Process., vol.14, no.6, pp.2222–2232, 2006. DOI:10.1109/TASL.2006.874669 [24] A.H.-S. Chan and S.-I. Ao, Advances in industrial engineering and operations research, Springer, 2008.

DOI:10.1007/978-0-387-74905-1

[25] 赤桐隼人，森勢将雅，入野俊夫，河原英紀，“スペクトルピークを強調したF0適応型スペクトル包絡抽出法の最適化と評価，”信学論（A），vol.J94-A, no.8, pp.557–567, Aug. 2011.

[26] 入野俊夫，河原英紀，R.D. Patterson，“聴覚におけるスケール分析のための末梢系フィルタバンクのウェーブレット性と非線形性，”数理解析研究所講究録，vol.1928, pp.27–57, 2014.

[27] Lightstone^R, “非線形フィット関数の一覧|データ分析・

グラフ作成 Origin|ライトストーン，” May 29 2019.

https://www.lightstone.co.jp/origin/flist2.html [28] K. Levenberg, “A method for the solution of certain

non-linear problems in least squares,” Quarterly of Applied Mathematics, vol.2, no.2, pp.164–168, 1944.

[29] 池田央，統計ガイドブック，新曜社，1989.

（2019年5月30日受付，9月30日再受付，

12月16日早期公開）

小川樹

2019年山梨大学工学部コンピュータ理工学科を卒業．現在，山梨大学大学院医工農学総合教育部工学専攻コンピュータ理工学コースに在籍中．音声の音色加工に伴う劣化に関する研究に従事．

森勢将雅（正員）

2008年和歌山大学大学院システム工学研究科博士後期課程修了．関西学院大学博士研究員，立命館大学助教，山梨大学大学院総合研究部特任助教・准教授を経て，

2019年4月より明治大学総合数理学部先端メディアサイエンス学科専任准教授．博士（工学）．主に，音声・聴覚情報処理に関する研究に従事．日本音響学会，情報処理学会各会員．

森勢 将雅

メルケプストラムを加工した音声の音質を計測する知覚モデルの開 発と評価 *

小川 樹

森勢 将雅

Development and Evaluation of Perceptual Model for Measuring Sound Quality of Mel-Cepstrum-Modified Speech

Itsuki OGAWA

and Masanori MORISE

1.

3

1

1

1

PESQ

perceptual evaluation

of speech quality

[1]

POLQA

perceptual objec- tive listening quality assessment

[2]

PESQ

POLQA

2.

3.

4.

5.

4.

6.

7.

6.

8.

2.

MOS

mean opinion score

5

MOS

PESQ

POLQA

AutoMOS [3]

PESQ

POLQA

PESQ

POLQA

PESQ

PESQ

POLQA

PESQ

16 kHz

POLQA

48 kHz

PESQ

EW-PESQ [4]

AutoMOS

AutoMOS

text-to-speech

17

3.

3. 1

2.

PESQ

EW-PESQ

4.

2007

familiarity-controlled wordlists 2007: FW07

[5]

4

POLQA

AutoMOS

40 kHz

MOS

1

5

3. 2

1

WORLD [6]

D4C edition [7]

WORLD

Harvest [8]

CheapTrick [9], [10]

WORLD

Vocoder

森勢将雅

メルケプストラムを加工した音声の音質を計測する知覚モデルの開発と評価 *

小川樹

森勢将雅