• 検索結果がありません。

森勢 将雅

N/A
N/A
Protected

Academic year: 2021

シェア "森勢 将雅"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

メルケプストラムを加工した音声の音質を計測する知覚モデルの開 発と評価 *

小川 樹

a)

森勢 将雅

††b)

Development and Evaluation of Perceptual Model for Measuring Sound Quality of Mel-Cepstrum-Modified Speech

Itsuki OGAWA

a)

and Masanori MORISE

††b)

あらまし 音声合成や声質変換に関する技術は幅広く提案され,既にいくつもの製品が多岐にわたって利用さ れるようになった.声質変換技術の普及により,音声の加工も誰でも手軽に行えるようになった.音声の加工に は,音の3要素と呼ばれる「大きさ」,「高さ」,「音色」をそれぞれ加工する方法が広く用いられている.大きさや 高さは,音圧レベルや基本周波数を加工するため,加工の結果の予測が容易である.しかし,音色の加工は,加 工に伴う劣化の予測が困難という問題点がある.本研究では,音声の音色加工に伴う劣化を計測する知覚モデル によりこの問題の解決を図る.様々なスペクトル尺度と距離関数の組み合わせと音質の関係を調査し,その結果 を用いて知覚モデルを開発した.主観評価実験を実施し,従来法と開発した知覚モデルの間に,主観評価結果と の相関係数の有意差があるかの検定を行った.検定の結果,p <0.001で有意な差があり,従来法より開発した 知覚モデルが優れていることを示した.

キーワード 音声分析,音声知覚,音質評価,知覚モデル,メルケプストラム

1.

ま え が き

音声は,人間が意思や感情などの情報を伝達するた めの基礎的な手段の一つであり,計算機による音声生 成は,テキストの読み上げやスマートスピーカなどで 利用される大変身近な技術になっている.この際,生 成される音声は多様であり,利用者の好みに応じた音 声を創る技術に注目が高まっている.音声を加工する 機械やソフトウェアはボイスチェンジャーと呼ばれ,

ロボットを想像させる声や特定の芸能人に似た声など,

さまざまな声に加工をすることができる.とりわけ,

山梨大学大学院医工農学総合教育部,甲府市

Integrated Graduate School of Medicine, Engineering, and Agricultural Sciences, University of Yamanashi, 4–3–11 Takeda, Kofu-shi, 400–8511 Japan

††明治大学総合数理学部,東京都

School of Interdisciplinary Mathematical Sciences, Meiji University, 4–21–1 Nakano, Nakano-ku, Tokyo, 164–8525 Japan

a) E-mail: [email protected] b) E-mail: [email protected]

*本論文は学生論文特集秀逸論文である.

DOI:10.14923/transinfj.2019PDP0005

高品質な音声加工を実施する基盤として,音の

3

要素 と呼ばれる「大きさ」,「高さ」,「音色」をそれぞれ加工 する音声分析合成方式が広く用いられている.しかし,

音色の加工は,大きさや高さの加工に対して直感的な 加工が困難という問題点がある.

この問題の原因は,大きさや高さが,

1

時刻あたり

1

次元の時系列である一方,音色は,加工するパラメー タが

1

時刻あたり多次元なスペクトル包絡というス ペクトル情報で表現されるためである.また,わずか な加工で音質が悪化するなど,加工の程度と音質との 関係性が直感的ではなく,情報量の多さから音質に与 える影響の原因を特定することは困難である.そのた め,目的の加工音声を作成するためには,人間が直接 音声を聴取して音質を確認し,得られた結果を用いて 満足のいく品質となるまで加工する作業を繰り返し 行う必要がある.この評価には,主観評価を行うこと が最も正確であるが,大量の加工音声に対して行う場 合,多くの時間を費やす必要があり,効率が悪い.そ こで,主観評価の結果を推定する客観評価法が提案さ れ,利用されている.

PESQ

perceptual evaluation

(2)

of speech quality

[1]

POLQA

perceptual objec- tive listening quality assessment

[2]

は,広く用いら れている客観評価法である.しかし,

PESQ

は,電話 帯域の音声を対象としており,

POLQA

は,音声の長 さなどに制約があるため,任意の音声での評価は困難 である.このことから,任意の音声に対しても,音色 の加工を行った音声を評価することができる知覚モデ ルの構築は,膨大な音声を自動で評価する領域で役に 立つことが期待される.

本研究では,音声の音色の加工に伴う劣化の予測が 困難という問題点を解決するため,音色の加工後に起 こる音質劣化に特化した知覚モデルを開発する.既存 の音声の客観評価法と音色を表す音響特徴量の関係を 調査する.調査した結果より,複数の知覚モデルを開 発する.これらの知覚モデルから最適な知覚モデルを 選択するため,主観評価実験を実施し,提案した知覚 モデルが既存の評価法よりも優れているかを明らかに する.

本章では,序論として本研究の背景及び目的につい て述べた.

2.

では,音声の評価法について関連研究を 説明し,

3.

では,提案法の概要について述べる.

4.

で は,知覚モデルの選定のために実施した予備実験を示 す.

5.

では,

4.

の結果を基にした知覚モデルの開発を 述べる.

6.

では,主観評価実験について述べ,

7.

は,

6.

までに得られた結果から構築した知覚モデルの 有効性について論じる.

8.

では,本論文の結論及び今 後の課題を述べる.

2.

音声評価に関する関連研究

音声の加工は,入力された音声パラメータを,設定 された目的のパラメータへと変換することにより実施 される.その際,定常的に起きるノイズや,局所的に 生じる振幅のピークなどの劣化が生じることがある.

したがって,目的とする音色であるかを評価するため の方法があり,特に主観評価法が広く利用されている.

MOS

mean opinion score

)評価は代表的な主観評 価法であり,音質について「非常に良い」から「非常 に悪い」までの

5

段階で評価する方法である.しかし,

評価者や評価音声の準備にコストがかかるという問題 点がある.具体的には,まず正常な聴力をもつ被験者 を多数集める必要がある.評価環境は,専用の無響室 や防音室などの評価施設で行い,騒音や音圧レベルな どの条件を揃えたり,評価音声の順序を毎回変化させ たりするなど,評価に対するばらつきを抑えなければ

ならない.この問題点を解決し,

MOS

評価と同等の 評価値を推定する方法として,

PESQ

POLQA

や,

AutoMOS [3]

などの客観評価法が提案されている.

PESQ

POLQA

は,参照音声と評価音声を比較 し,知覚・認知モデルのそれぞれの処理から,評価 値を推定する方法である.

PESQ

は電話帯域の音声 を対象としており,

POLQA

PESQ

を拡張し,性 能の向上に加え,より広帯域な音声も対象としてい る.

PESQ

POLQA

は,共に国際規格となってい る.しかし,

PESQ

はサンプリング周波数が

16 kHz

を上回る音声に対応しておらず,

POLQA

は使用する 音声への制約,特に時間に関する制約が多い.サン プリング周波数

48 kHz

に対応させた

PESQ

の拡張 版である

EW-PESQ [4]

も提案されているが,音色の 加工を行った音声の評価法としての検討が十分であ るとは言い難い.近年では,

AutoMOS

と呼ばれる,

ニューラルネットワークを用いた客観評価法も提案さ れている.

AutoMOS

は,スペクトルとその動的特徴 量を入力として,評価値を出力するように学習を行う.

text-to-speech

システムなどで合成された音声や,評 価音声しか用意できない環境に対しても利用すること ができ,その利用範囲は広い.しかし,学習を行うた めのデータセットが,文献中では約

17

万音声と非常 に多く,どのような音声で構成されているかが不明で あるため,同じ性能を達成するデータセットの構築が 課題となる.

3.

提 案 法

3. 1

本研究の位置づけ

本研究の目的は,音色変化による劣化の計測である ため,スペクトル包絡のみを評価する指標として,ス ペクトル距離に着目する.スペクトル距離は,参照音 声と評価音声のそれぞれのスペクトル包絡を,適当な 距離関数を用いて得られた誤差の尺度である.

本研究では,

2.

で述べた

PESQ

EW-PESQ

を従 来法とする.

4.

以降で利用する親密度別単語了解度 試験用音声データセット

2007

familiarity-controlled wordlists 2007: FW07

[5]

の発話内容が

4

モーラの 単語と短いため,発話時間に制約のある

POLQA

は 今回比較する従来法から除外した.また,

AutoMOS

も,学習するためのデータセットに結果が依存し,再 現性を担保することができないため除外した.音色の みを加工した音声の音質劣化の推定を目的とするため,

音色のみの加工を行った音声を評価音声とし,加工を

(3)

1 メルケプストラムを用いた音声変換のフロー図

行う前の音声を参照音声として,二つの音声を比較す る評価法とする.サンプリング周波数が

40 kHz

以上 のフルバンド音声を対象とし,信号処理のみを用いて 評価値を推定する.評価値は,

MOS

値と同じ

1

から

5

の範囲で推定する.

3. 2

メルケプストラムを用いた音声変換

音声変換のフロー図を図

1

に示す.音色のみの加工 を行うため,音声から音色を表す音響特徴量を抽出す る.音響特徴量の抽出には,音声分析合成システムで ある

WORLD [6]

D4C edition [7]

)を利用した.ま

た,

WORLD

の構成モジュールは複数あるため,基本

周波数推定には

Harvest [8]

,スペクトル包絡推定に は

CheapTrick [9], [10]

を用いた.

WORLD

は,高品 質な音声の分析合成システムであり,声の高さを表す 基本周波数,声の音色を表すスペクトル包絡,声のか すれ具合を表す非周期性指標の三つのパラメータを用 いた

Vocoder

の機構を採用している.同じ音声デー タセットを用いて,声質変換

[11]

の精度を競う

Voice Conversion Challenge 2016 [12]

では,参加した

17

チームのうち,

13

チームでメルケプストラム

[13]

を 用いたシステムを開発している.性能の面でもメルケ プストラムを用いたシステムが上位に多いこと

[14]

か ら,本研究ではメルケプストラムを用いた音声変換を 行う.音色の加工方法は,メルケプストラム次数の

1

から

N

次までの

1

刻みのうち,一つの次元のみを

8

から

10

まで

1

刻みで定数倍する.加工したメルケプ ストラムをスペクトル包絡に復元し,元音声から推定

2 メルケプストラム次数の変化によるPESQEW- PESQの評価値

した基本周波数と非周期性指標を用いて

WORLD

で 合成することにより音声変換を行う.

メ ル ケ プ ス ト ラ ム 次 数

N

を 決 め る た め に ,メ ル ケ プ ス ト ラ ム 次 数 を

1

か ら

100

次 に し た 際 の ,

PESQ

または

EW-PESQ

の評価値の変化について 予備調査を行った.使用音声は,

JSUT

Japanese speech corpus of Saruwatari laboratory, the Uni- versity of Tokyo

[15]

から女性話者の

10

音声,

HTS- demo NIT-ATR503-M001 [16]

から男性話者の

10

音 声,計

20

音声を用いた.調査結果を,図

2

に示す.縦 軸は

PESQ

または

EW-PESQ

の評価値である

MOS- LQO

MOS-listening quality objective

),横軸はメ ルケプストラム次数を表す.図

2

より,

28

次以上でど ちらの評価値も変動がおおむね飽和したため,

28

次を 音声変換に用いるメルケプストラム次数と決定した.

3. 3

スペクトルの種類

調査するスペクトルとして,

WORLD

で推定した スペクトル包絡に加え,以下の項で述べる

5

種類のス ペクトルを用いる.

3. 3. 1

メ ル 尺 度

メル尺度(

mel

[17]

は,音の高さの知覚的尺度であ る.低域の周波数差には敏感だが,高域の周波数差に は鈍感という聴覚特性を基に作成された.周波数から メル尺度への変換は,文献

[18]

から,式

(1)

を用いる.

mel( f ) = 1127 . 01048 log f

700 + 1

, (1)

f

Hz

を単位とする周波数を表す.式

(1)

以外にも幾 つかの変換式が提案されているが,どの変換式も低域 では線形,高域では対数関数で近似されている.本研 究では,

WORLD

で得られたスペクトル包絡に,

100

次のメルフィルタバンクをかけたものをメルスペクト

(4)

ルとして用いる.本実験では,フィルタバンクの上限・

下限周波数をそれぞれ

24000 Hz

20 Hz

にした.こ の上下限は以下に示す他の尺度でも同一である.

3. 3. 2

バーク尺度

バーク尺度(

Bark

[19]

は,臨界帯域幅測定法を用 いた心理学実験を基に作成された音響心理学的尺度で ある.周波数

f

からバーク尺度への変換は,文献

[20]

から,式

(2)

を用いる.

Bark( f ) = 26 . 81 f

1960 + f 0 . 53 . (2)

本研究では,

WORLD

で得られたスペクトル包絡に,

100

次のバークフィルタバンクをかけたものをバーク スペクトルとして用いる.

3. 3. 3 ERB

尺度

ERB

equivalent rectangular bandwidth

)尺 度

[21]

は,バーク尺度で利用されていた臨界帯域幅測 定法を改良した,ノッチ雑音マスキング法を用いた心 理学実験を基に作成された音響心理学的尺度である.

周波数

f

から

ERB

尺度への変換は,文献

[22]

から,

(3)

を用いる.

ERB( f ) = 21 . 4 log

10

4 . 37 f

1000 + 1

. (3)

本研究では,音声波形から得られた

100

次の

ERB

ス ペクトルを用いる.

3. 3. 4

ガンマチャープ

ガンマチャープ

[23]

は,音圧のレベル依存性や圧 縮特性といった聴覚末梢系の非線形性や,時間変化に よる動的な特性をモデル化した聴覚フィルタである.

ガンマチャープには,線形で時不変なガンマチャープ

gammachirp: GC

),非線形で時不変な圧縮型ガンマ チャープ(

compressive gammachirp: cGC

),非線形 で時変な動的圧縮型ガンマチャープの

3

種類がある.

聴覚特性を最もよく表現しているフィルタは,動的圧 縮型ガンマチャープであるが,非線形性があるため波 形に対する音圧レベルという他の尺度には存在しない パラメータが必要であること,及び時変性を取り入れ るため計算に時間がかかることから,本研究では

GC

cGC

のみを用いる.

3. 4

距離関数の種類

調査する距離関数として,式

(4)–(7), (9)

で述べる

5

種類の距離関数と,それらの対数で表現する距離関 数を加えた計

10

種類を用いる.

代表的な距離関数であるユークリッド距離は,式

(4)

で表される.

D

EU

= 1 T

T

0

1 f

N

fN

0

D

EU

( t, f ) df dt, (4) D

EU

( t, f ) =

P ( t, f ) P ˆ ( t, f )

2

,

P ( t, f )

は,真値のスペクトル包絡の時間周波数表現 であり,

P ˆ ( t, f )

は,加工したスペクトル包絡の時間周 波数表現である.

T

は信号長に相当し,

t

は分析時刻,

f

Nはナイキスト周波数であり,

f

は周波数を示す.こ の距離関数は,誤差の正負にかかわらず対称である.

(5)

は,対数スペクトル距離である.

D

LS

= 1 T

T

0

1 f

N

fN

0

D

LS

( t, f ) df dt, (5)

D

LS

( t, f ) =

10 log

10

P ( t, f ) P ˆ ( t, f )

2

.

対数スペクトル距離は,ユークリッド距離を対数軸上 で評価した距離関数となる.

音声評価で利用される板倉斉藤距離

[24]

を式

(6)

に 示す.

D

IS

= 1 T

T

0

1 f

N

f

N 0

D

IS

( t, f ) df dt, (6)

D

IS

( t, f ) = P ( t, f ) P ˆ ( t, f ) log

P ( t, f ) P ˆ ( t, f ) 1 .

ユークリッド距離では対称であった正負に対して,負 方向には大きく,正方向には小さく距離を取る,非対 称性をもつ.スペクトル包絡のピークが弱まるより強 まる加工が音声として自然なため,この距離関数は音 声に適していると言える.

(7)

に示す距離関数は,文献

[25]

で提案された,

重み付き板倉斎藤距離である.

D

WIS

= 1 T

T

0

1

0 . 45 f

s

2 f

0

D

WIS

( t ) dt, (7) D

WIS

( t ) =

0.45fs

2f0

D

WIS

( t, f ) u ( f ) df,

D

WIS

( t, f ) = P ( t, f ) P ˆ ( t, f ) log

P ( t, f ) P ˆ ( t, f ) 1 , u ( f ) = 9 . 294

0 . 00437 f + 1 , (8)

(5)

f

sはサンプリング周波数を,

f

0は基本周波数を示す.

板倉斎藤距離に,低域ほど大きく,高域ほど小さい周 波数重みをかけ合わせたもので,周波数重みは,式

(3)

の導関数として,式

(8)

で表される.積分範囲は,低 域は重みが大きくなりすぎるため,高域は折り返しの 影響を除くために狭くしている.

最後に,式

(9)

は,文献

[26]

で提案された距離関数 である.

D

dB

=

1 T

T

0

1 f

N

fN

0

D

dB

( t, f ) df dt, (9) D

dB

( t, f )

=

10 log

10

P ( t, f ) P ¯ ( t )

10 log

10

P ˆ ( t, f )

¯ ˆ P ( t )

2

, P ¯ ( t )

は,真値のスペクトル包絡の周波数の平均値であ り,

P ¯ ˆ ( t )

は,加工したスペクトル包絡の周波数の平均 値である.文献中では,ガンマチャープを用いた声道 長の推定のために用いられている.

4.

従来法と提案法の比較

4. 1

実 験 条 件

知覚モデルを開発するための予備実験として,知覚 モデルの選定に利用することを目的とした従来法と提 案法の比較実験を行い,従来法と提案法の相関につい て調査する.実験条件を表

1

に,提案法で使用する スペクトル及び距離関数を表

2

に示す.使用音声は

FW07

を用いた.

FW07

は,

4

モーラの単語で構成さ れた発話時間の短い音声で構成されているデータセッ トである.本章以降での実験には主観評価を含むため,

3. 2

のメルケプストラム次数の決定の実験で使用した

JSUT

HTS-demo NIT-ATR503-M001

のような発 話時間の長い音声では,発話の局所的な劣化を評価す ることが困難となる.そのため,本論文では,発話時 間が短く固定された

FW07

を使用した.

FW07

は,サ ンプリング周波数が

48 kHz

であるため,

16 kHz

まで の音声にしか対応していない

PESQ

では評価できな い.そのため,

PESQ

で評価を行う際は,音声を

16 kHz

にダウンサンプリングする.

4. 2

実 験 結 果

まず,

PESQ

または

EW-PESQ

と提案法の距離と の相関係数のうち,それぞれ上位五つについて表

3

に示す.表中において,例えば,

ERB-log ( D

dB

)

は,

ERB

尺度のスペクトルを用いた式

(9)

の対数距離で

1 従来法と提案法の比較実験の実験条件 メルケプストラム次数 28

変化量 1刻みで−8から10倍の19通り

使用音声 FW07

音源 40音声(男女各2×10文章)

加工種類 532種類(28×19通り)

従来法 PESQ,EW-PESQ

提案法

60種類

(スペクトル6種類

×距離関数10種類)

2 実験に用いるスペクトルと距離関数.6種類のスペ クトルと10種類の距離関数を組み合わせた60 類の指標が存在する.

スペクトル 距離関数 WORLD DEU

mel DLS

Bark DIS

ERB DWIS

GC DdB

cGC log (DEU) log (DLS) log (DIS) log (DWIS) log (DdB)

3 従来法と提案法の距離との相関係数 従来法 提案法 相関係数

PESQ

ERB-log (DdB) −0.814 GC-log (DLS) 0.801 Bark-log (DdB) 0.792 ERB-log (DLS) 0.785 mel-log (DdB) −0.781

EW-PESQ

ERB-log (DdB) −0.753 GC-log (DLS) 0.746 GC-log (DdB) 0.724 ERB-log (DLS) −0.721 Bark-log (DdB) −0.708

あることを示す.次に,従来法のそれぞれで最も相関 係数が高かった組み合わせについて,散布図と回帰直 線を図

3, 4

に示す.縦軸は

PESQ

または

EW-PESQ

の評価値,横軸は提案法の距離を表し,右上に相関係 数を示す.

距離関数では,対数軸上で比較する

log ( D

LS

)

log ( D

dB

)

を用いた提案法が,従来法との相関が強い という結果が得られた.すなわち,従来法の距離関数 も対数関数に近い特性を有する可能性が示唆される.

また,従来法と提案法の間に非線形性があることも確 認できる.

(6)

3 PESQERB-log (DdB)の距離との散布図と回帰 直線

4 EW-PESQERB-log (DdB)の距離との散布図 と回帰直線

5.

知覚モデルの開発

5. 1

非線形モデルの推定

スペクトル距離から評価値を推定する知覚モデルを 開発する.知覚モデルには,

4. 2

より従来法の評価値 と提案法の距離との間に非線形性があったため,非線 形モデルを使用する.非線形モデルとして,式

(10)–

(12) [27]

を用いる.

Exp y = a e

bx

+ c, (10)

Shah y = a + bx + cd

x

, (11) Stirling y = a + b e

cx

1

c , (12)

x

はスペクトル距離,

y

は評価値,

a, b, c, d

は各非線 形モデルのパラメータである.パラメータは,

4. 2

の データを基に,レーベンバーグ・マーカート法

[28]

に よって求める.

5. 2

開発した知覚モデルと従来法の比較

開発した

360

種類の知覚モデルと従来法の比較を行

4 知覚モデルに用いる従来法,スペクトル,距離関数 及び非線形モデル.2種類の従来法,6種類のスペ クトル,10種類の距離関数と3種類の非線形モデル を組み合わせた360種類の知覚モデルが存在する.

従来法 スペクトル 距離関数 モデル

PESQ WORLD DEU Exp

EW-PESQ mel DLS Shah

Bark DIS Stirling

ERB DWIS

GC DdB

cGC log (DEU) log (DLS) log (DIS) log (DWIS) log (DdB)

5 従来法と知覚モデルの評価値との相関係数

従来法 提案法 相関係数

PESQ

WORLD-log (DIS)-Shah 0.851

ERB-DdB-Shah 0.848

ERB-DdB-Exp 0.848

ERB-DdB-Stirling 0.848 WORLD-log (DIS)-Exp 0.846

EW-PESQ

ERB-DdB-Shah 0.814

ERB-DdB-Exp 0.814

ERB-DdB-Stirling 0.814 ERB-log (DdB)-Shah 0.811 ERB-log (DdB)-Exp 0.806

5 PESQPESQ-WORLD-log (DIS)-Shahの評価 値との散布図と回帰直線

う.

360

種類の知覚モデルで使用したスペクトル,距 離関数,非線形モデルを表

4

に示す.

PESQ

または

EW-PESQ

と開発した知覚モデルとの相関係数のう

ち,それぞれ上位五つについて表

5

に示す.表中におい て,例えば,

WORLD-log ( D

IS

)-Shah

は,

WORLD

で推定したスペクトルを用いた式

(6)

の対数距離を基 に,

Shah

のモデルで推定した知覚モデルであること を示す.次に,従来法のそれぞれで最も相関係数が高

(7)

6 EW-PESQEW-PESQ-ERB-DdB-Shahの評 価値との散布図と回帰直線

かった組み合わせについて,散布図と回帰直線を図

5, 6

に示す.縦軸は

PESQ

または

EW-PESQ

の評価値,

横軸は提案法の評価値を表し,左上に相関係数を示す.

PESQ

では,

ERB- D

dB

WORLD-log ( D

IS

)

の 組み合わせが,

EW-PESQ

では,

ERB- D

dB

ERB- log ( D

dB

)

の組み合わせが,従来法と相関の強い知覚 モデルとなった.また,非線形モデルの種類について は,大きな差は見られなかったが,

Stirling

のモデル は,幾つかの知覚モデルに対して,パラメータは収 束しているが曲線の当てはめに失敗していることが あった.

6.

主観評価実験

6. 1

実 験 条 件

実験条件を,表

6

に示す.音声の加工種類について は,

PESQ

の評価値が,

1.0

から

1.5

になる音声を

5

種類,

1.5

から

2.0

になる音声を

7

種類,

2.0

から

2.5

になる音声を

8

種類,

2.5

から

3.0

になる音声を

8

種 類,

3.0

から

3.5

になる音声を

7

種類,

3.5

から

4.0

に なる音声を

5

種類の計

40

種類を使用した.

6. 2

実 験 結 果

MOS

5.

で開発した知覚モデルの評価値との相関 係数のうち,それぞれ上位五つについて表

7

に示す.

表中において,例えば,

PESQ-WORLD-log ( D

WIS

)- Shah

は,

PESQ

の結果と

WORLD

で推定したスペ クトルを用いた式

(6)

の対数距離を基に,

Shah

のモデ ルで推定した知覚モデルであることを示す.次に,従 来法のそれぞれで最も相関係数が高かった知覚モデル と従来法について,散布図と回帰直線を図

7–10

に示 す.縦軸は

MOS

,横軸は提案法の評価値を表し,左 上に相関係数を示す.最も相関が強くなった知覚モデ

6 主観評価実験の実験条件 使用音声 FW07

音声数 160音声

(男女各1×2文章×加工40種)

サンプリング 48 kHz / 16 bit

実験環境 防音室(A-weighted SPL 17 dB)

再生機材 Roland QUAD-CAPTURE

SENNHEISER HD 650 被験者 2015

評価法 MOS評価

7 MOSと知覚モデルの評価値との相関係数

提案法 相関係数

PESQ-WORLD-log (DWIS)-Shah 0.949 PESQ-WORLD-log (DWIS)-Exp 0.948 PESQ-WORLD-log (DWIS)-Stirling 0.948 PESQ-Mel-log (DWIS)-Shah 0.946 PESQ-Mel-log (DWIS)-Stirling 0.945 EW-PESQ-WORLD-log (DWIS)-Stirling 0.948 EW-PESQ-WORLD-log (DWIS)-Exp 0.948 EW-PESQ-WORLD-log (DWIS)-Shah 0.948 EW-PESQ-Mel-log (DWIS)-Stirling 0.945 EW-PESQ-Mel-log (DWIS)-Exp 0.945

7 MOSPESQ-WORLD-log (DWIS)-Shahの評 価値との散布図と回帰直線

8 MOSEW-PESQ-WORLD-log(DWIS)-Stirling の評価値との散布図と回帰直線

(8)

9 MOSPESQの評価値との散布図と回帰直線

10 MOSEW-PESQの評価値との散布図と回帰

直線

11 MOSPESQ,EW-PESQ及びPESQ- WORLD-log (DWIS)-Shahとの相関係数

ルは,

PESQ-WORLD-log ( D

WIS

)-Shah

となった.

最適な知覚モデルを

PESQ-WORLD-log ( D

WIS

)- Shah

と定義し,この知覚モデルについて,

PESQ

EW-PESQ

よりも有意であるかを調べるため,文献

[29]

を参考に検定を行った.図

11

は,

MOS

PESQ

EW-PESQ

及 び

PESQ-WORLD-log ( D

WIS

)-Shah

との相関係数を表す.検定の結果,

PESQ

EW-

PESQ

そ れ ぞ れ に つ い て 開 発 し た 知 覚 モ デ ル が ,

p < 0 . 001

と な り 有 意 差 が 認 め ら れ た .

PESQ- WORLD-log ( D

WIS

)-Shah

の モ デ ル を ,式

(13)

に 示す.

y = 1 . 507896 0 . 012978 x

+ 1 . 013483 × 0 . 643603

x

. (13)

7.

考 察

まず,本研究では,相関係数に基づいて知覚モデ ルを開発した.提案法同士や提案法と従来法を,相 関係数の値で直接比較することはできないが,二つ の相関係数の有意差を判定する検定を用いて比較を 行った.最適な知覚モデルとして,

360

種類の中から

PESQ-WORLD-log ( D

WIS

)-Shah

を選択した.この 最適な知覚モデルの相関係数と

p > 0 . 001

で有意な差 がない知覚モデルは,

360

種類中

18

種類あった.こ の

18

種類の知覚モデルは,従来法のどちらの相関係 数とも

p < 0 . 001

で有意な差があった.このことか ら,提案法に基づく知覚モデルは,従来法の

PESQ

EW-PESQ

と比較して優れているといえる.

次に,本研究では,非線形モデルとして

3

種類のみ を用いた.この

3

種類以外の非線形モデルや線形モデ ルも使用して知覚モデルの推定を行ったが,その中で 首尾よく当てはめが行えた

3

種類のみを選定した.ま た,線形モデルより非線形モデルが適している点につ いては,図

3, 4

から分かるとおり,従来法と提案法 の距離の間に,非線形な関係性があることが確認でき る.そのため,複数の非線形モデルを対象とした知覚 モデルを作成し,より相関が高くなるように構築した 効果が認められたといえる.

本来,知覚モデルは主観評価実験に基づいて開発す べきである.一方,今回のように多数のパラメータか ら構成される膨大な音声の評価を行うことは現実的 ではないといえる.例えば,今回,知覚モデルを開発 するためのデータとなった

4.

の実験を主観的に行う 場合,

21280

音声を評価する必要がある.そのため,

PESQ

のような,国際電気通信連合で既に規格化され ており,信頼できる評価法を使用し,

4. 2

でも述べた 非線形性を提案法により解消するというアプローチを 採用した.結果,図

9, 10

の従来法より図

7, 8

の提 案法はばらつきが抑えられ,図

11

に示すように従来 法より性能が向上した.このばらつきは,

4. 2

でも述 べた非線形性が影響していると考えられ,この影響が

(9)

線形になるように変換する提案法により,従来法より ばらつきを抑えることができたと考えられる.

最後に,表

7

で上位の知覚モデルに使用しているス ペクトル包絡や距離関数は,表

3

や表

5

で上位であっ たとは限らない.

4.

の実験では,最適な知覚モデルに 使用されている

WORLD

log ( D

WIS

)

の組み合わせ は,

PESQ

とは

−0 . 553

EW-PESQ

とは

−0 . 463

の 相関係数であった.一方,

5.

の実験では,最適な知覚 モデルに使用されている

WORLD

log ( D

WIS

)

Shah

の組み合わせは,

PESQ

とは

0 . 835

EW-PESQ

とは

0 . 764

の相関係数であり,どちらも相関が相対的 に高い数値を示した.つまり,非線形性の影響が線形 になるように変換するために使用した非線形モデルに より,主観評価実験の結果と相関が強くなったと考え られる.

8.

む す び

本研究では,音声の音色加工に伴う劣化を計測する 知覚モデルを開発した.提案法として,音声の音色を 表すスペクトルと,スペクトルを評価する距離関数に 着目し,スペクトルを

6

種類,距離関数を

10

種類の 全

60

種類について検討した.まず,従来法と提案法 の距離との比較を行い,対数軸上で比較する距離関数 の相関が強くなることを確認した.次に,従来法と提 案法の比較実験の結果を基に,知覚モデルを開発し た.従来法と提案法の距離との間には非線形な関係性 があることが確認できたため,非線形モデルをベース とした.従来法と開発した知覚モデルの性能の評価を 行い,

WORLD

のスペクトルや

ERB

尺度と対数軸 上で比較する距離関数を組み合わせた知覚モデルが,

従来法との相関が強い結果となった.最後に,知覚モ デルの性能の評価を行うために,主観評価実験を実施 した.主観評価実験の結果を基に,最適な知覚モデル として,

PESQ-WORLD-log ( D

WIS

)-Shah

が,

MOS

との相関が最も強いことを示した.

今後の課題として,より複雑な音色の加工を行った 音声への性能評価が挙げられる.今回の評価音声の加 工方法は,一つに限定しているため,他の音色加工に よる音声に対しての評価値が,正しく推定できるとは 限らない.そのため,より多様な加工を行った音声に 対しても頑強であるかの評価は必要である.

謝辞 ガンマチャープについて御教授を賜った和歌山 大学システム工学部システム工学科入野俊夫教授に深謝 する.本研究は,科研費

JP16H05899, JP16H01734

JST

さきがけ

JPMJPR18J8

の支援を受けた.

文 献

[1] ITU-T, “Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone net- works and speech codecs,” Recommendation P.862, International Telecommunication Union, 2001.

[2] ITU-T, “Perceptual objective listening quality pre- diction,” Recommendation P.863, International Telecommunication Union, 2011.

[3] B. Patton, Y. Agiomyrgiannakis, M. Terry, K.

Wilson, R.A. Saurous, and D. Sculley, “AutoMOS:

Learning a non-intrusive assessor of naturalness-of- speech,” NIPS 2016 End-to-end Learning for Speech and Audio Processing Workshop, pp.1–5, 2016.

[4] B.C. Bispo, P.A.A. Esquef, L.W.P. Biscainho, A.A.

de Lima, F.P. Freeland, R.A. de Jesus, A. Said, B.

Lee, R.W. Schafer, and T. Kalker, “EW-PESQ: A quality assessment method for speech signals sam- pled at 48 kHz,” J. Audio Eng. Soc., vol.58, no.4, pp.251–268, 2010.

[5] 近藤公久,天野成昭,坂本修一,鈴木陽一,“親密度別単 語了解度試験用音声データセット2007 (FW07),” NII 声資源コンソーシアム,2007.

[6] M. Morise, F. Yokomori, and K. Ozawa, “WORLD:

a vocoder-based high-quality speech synthesis sys- tem for real-time applications,” IEICE Trans. Inf.

& Syst., vol.E99-D, no.7, pp.1877–1884, July 2016.

DOI:10.1587/transinf.2015EDP7457

[7] M. Morise, “D4C, a band-aperiodicity estimator for high-quality speech synthesis,” Speech Commun., vol.84, pp.57–65, 2016. DOI:10.1016/j.specom.2016.

09.001

[8] M. Morise, “Harvest: a high-performance fundamen- tal frequency estimator from speech signals,” In- terspeech 2017, pp.2321–2325, 2017. DOI:10.21437/

Interspeech.2017-68

[9] M. Morise, “Cheaptrick, a spectral envelope estima- tor for high-quality speech synthesis,” Speech Com- mun., vol.67, pp.1–7, 2015. DOI:10.1016/j.specom.

2014.09.003

[10] M. Morise, “Error evaluation of an F0-adaptive spec- tral envelope estimator in robustness against the additive noise and F0 error,” IEICE Trans. Inf.

& Syst., vol.E98-D, no.7, pp.1405–1408, July 2015.

DOI:10.1587/transinf.2015EDL8015

[11] Y. Stylianou, O. Cappe, and E. Moulines, “Contin- uous probabilistic transform for voice conversion,”

IEEE Trans. Speech Audio Process., vol.6, no.2, pp.131–142, 1998. DOI:10.1109/89.661472

[12] T. Toda, L.-H. Chen, D. Saito, F. Villavicencio, M.

Wester, Z. Wu, and J. Yamagishi, “The voice con- version challenge 2016,” Interspeech 2016, pp.1632–

1636, 2016. DOI:10.21437/Interspeech.2016-1066 [13] T. Fukada, K. Tokuda, T. Kobayashi, and S. Imai,

(10)

“An adaptive algorithm for mel-cepstral analysis of speech,” ICASSP-92: 1992 IEEE International Con- ference on Acoustics, Speech and Signal Processing, vol.1, pp.137–140, 1992. DOI:10.1109/ICASSP.1992.

225953

[14] M. Wester, Z. Wu, and J. Yamagishi, “Multidimen- sional scaling of systems in the voice conversion chal- lenge 2016,” 9th ISCA Speech Synthesis Workshop, pp.38–43, 2016. DOI:10.21437/SSW.2016-7 [15] R. Sonobe, S. Takamichi, and H. Saruwatari, “JSUT

corpus: free large-scale Japanese speech corpus for end-to-end speech synthesis,” arXiv preprint, 1711.

00354, 2017.

[16] HTS Working Group, “The NITech Japanese speech database NIT ATR503 M001,” May 29 2019. http://

hts.sp.nitech.ac.jp/archives/2.3/HTS-demo NIT- ATR503-M001.tar.bz2

[17] S.S. Stevens, J. Volkmann, and E.B. Newman, “A scale for the measurement of the psychological magni- tude pitch,” J. Acoust. Soc. Am., vol.8, no.3, pp.185–

190, 1937. DOI:10.1121/1.1915893

[18] S.S. Stevens and J. Volkmann, “The relation of pitch to frequency: a revised scale,” The American Jour- nal of Psychology, vol.53, no.3, pp.329–353, 1940.

DOI:10.2307/1417526

[19] E. Zwicker, “Subdivision of the audible frequency range into critical bands (frequenzgruppen),” J.

Acoust. Soc. Am., vol.33, no.2, p.248, 1961. DOI:10.

1121/1.1908630

[20] H. Traunm¨uller, “Analytical expressions for the tono- topic sensory scale,” J. Acoust. Soc. Am., vol.88, no.1, pp.97–100, 1990. DOI:10.1121/1.399849 [21] B.C.J. Moore and B.R. Glasberg, “Suggested formu-

lae for calculating auditory-filter bandwidths and ex- citation patterns,” J. Acoust. Soc. Am., vol.74, no.3, pp.750–753, 1983. DOI:10.1121/1.389861

[22] B.R. Glasberg and B.C.J. Moore, “Derivation of au- ditory filter shapes from notched-noise data,” Hear- ing Research, vol.47, no.1, pp.103–138, 1990. DOI:10.

1016/0378-5955(90)90170-T

[23] T. Irino and R.D. Patterson, “A dynamic compres- sive gammachirp auditory filterbank,” IEEE Trans.

Audio, Speech, Language Process., vol.14, no.6, pp.2222–2232, 2006. DOI:10.1109/TASL.2006.874669 [24] A.H.-S. Chan and S.-I. Ao, Advances in industrial engineering and operations research, Springer, 2008.

DOI:10.1007/978-0-387-74905-1

[25] 赤桐隼人,森勢将雅,入野俊夫,河原英紀,“スペクトル ピークを強調したF0適応型スペクトル包絡抽出法の最適 化と評価,信学論(A),vol.J94-A, no.8, pp.557–567, Aug. 2011.

[26] 入野俊夫,河原英紀,R.D. Patterson,“聴覚における スケール分析のための末梢系フィルタバンクのウェーブ レット性と非線形性,数理解析研究所講究録,vol.1928, pp.27–57, 2014.

[27] LightstoneR, “非線形フィット関数の一覧|データ分析・

グ ラ フ 作 成 Origin|ラ イ ト ス ト ー ン ,” May 29 2019.

https://www.lightstone.co.jp/origin/flist2.html [28] K. Levenberg, “A method for the solution of certain

non-linear problems in least squares,” Quarterly of Applied Mathematics, vol.2, no.2, pp.164–168, 1944.

[29] 池田 央,統計ガイドブック,新曜社,1989.

(2019530日受付,930日再受付,

1216日早期公開)

小川 樹

2019年山梨大学工学部コンピュータ理 工学科を卒業.現在,山梨大学大学院医工 農学総合教育部工学専攻コンピュータ理工 学コースに在籍中.音声の音色加工に伴う 劣化に関する研究に従事.

森勢 将雅 (正員)

2008年和歌山大学大学院システム工学 研究科博士後期課程修了.関西学院大学 博士研究員,立命館大学助教,山梨大学大 学院総合研究部特任助教・准教授を経て,

20194月より明治大学総合数理学部先 端メディアサイエンス学科専任准教授.博 士(工学).主に,音声・聴覚情報処理に関する研究に従事.日 本音響学会,情報処理学会各会員.

図 1 メルケプストラムを用いた音声変換のフロー図 行う前の音声を参照音声として,二つの音声を比較す る評価法とする.サンプリング周波数が 40 kHz 以上 のフルバンド音声を対象とし,信号処理のみを用いて 評価値を推定する.評価値は, MOS 値と同じ 1 から 5 の範囲で推定する. 3
図 3 PESQ と ERB-log (D dB ) の距離との散布図と回帰 直線 図 4 EW-PESQ と ERB-log (D dB ) の距離との散布図 と回帰直線 5
図 8 MOS と EW-PESQ-WORLD-log( D WIS )-Stirling の評価値との散布図と回帰直線
図 9 MOS と PESQ の評価値との散布図と回帰直線

参照

関連したドキュメント

転倒評価の研究として,堀川らは高齢者の易転倒性の評価 (17) を,今本らは高 齢者の身体的転倒リスクの評価 (18)

音節の外側に解放されることがない】)。ところがこ

④日常生活の中で「かキ,久ケ,.」音 を含むことばの口声模倣や呼気模倣(息づかい

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

Classroom 上で PowerPoint をプレビューした状態だと音声は再生されません。一旦、自分の PC

(4) 現地参加者からの質問は、従来通り講演会場内設置のマイクを使用した音声による質問となり ます。WEB 参加者からの質問は、Zoom

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察

By the method I, emotional recognition rate is 60% for close data, and 50% for open data(8 sentence speech of another speaker).The method II improves drastically the recognition