• 検索結果がありません。

システムデザイン研究科 情報通信システム学域

N/A
N/A
Protected

Academic year: 2021

シェア "システムデザイン研究科 情報通信システム学域"

Copied!
48
0
0

読み込み中.... (全文を見る)

全文

(1)

i-vector に基づく話者照合における非線形帯域 拡張法とその評価に関する研究

A study of non-linear artificial bandwidth extension by using i-vector-based speaker

verification and its evaluation

首都大学東京大学院

システムデザイン研究科 情報通信システム学域

17890512 上西遼大

(2)

目 次

i

目 次

1

はじめに

1

2 i-vectorPLDA, x-vector/PLDA

に基づく話者照合

4

2.1 i-vector [1] . . . 4

2.2 PLDA [2] . . . 6

2.3 x-vector [3] . . . 6

3

非線形帯域拡張法

9 3.1

付帯情報を用いない帯域拡張法

. . . 9

3.2

スペクトルシフティング法

(SHIFT) . . . 9

3.3

線形予測分析合成法

(LPAS) . . . 9

3.4

非線形帯域拡張法

(N-BWE) . . . 10

3.5 PLDA

に基づく話者照合と

N-BWE . . . 12

3.6

帯域拡張法のスペクトログラムによる比較

. . . 12

4

日本語データベースにおいての実験

14 4.1

共通実験条件

. . . 14

4.2 clean

音声

. . . 15

4.2.1

比較手法

(clean

音声

) . . . 15

4.2.2

実験結果

(clean

音声

) . . . 16

4.3

電話音声

. . . 18

4.3.1

比較手法

(

電話音声

) . . . 18

4.3.2

実験結果

(

電話音声

) . . . 20

5

英語データベースにおいての実験

22 5.1

共通実験条件

. . . 22

5.1.1

英語データベースの詳細

. . . 22

5.2

共通比較条件

(

話者照合実験

) . . . 23

5.3 i-vector

に基づく話者照合実験

. . . 25

(3)

目 次

ii

5.3.1

実験条件

(i-vector) . . . 25

5.3.2

実験結果

(i-vector) . . . 26

5.4 x-vector

に基づく話者照合実験

. . . 28

5.4.1

実験条件

(x-vector). . . 28

5.4.2

実験結果

(x-vector). . . 28

5.5

客観評価実験

. . . 30

5.5.1

客観評価実験結果

. . . 31

6

結論

34

7

謝辞

35

8

参考文献

36

(4)

あらまし

iii

あらまし

本論文は

, i-vector / PLDA, x-vector / PLDA

に基づく話者照合システ ムを用いて非線形帯域拡張(

N-BWE

)法を評価することを目的とし

ている

. N-BWE

法とは帯域拡張法の一つで

,

モデル学習を行わず

,

算量が非常に軽い手法として提案された

. N-BWE

は単純な非線形関 数とフィルタのみで構成されているにもかかわらず

,GMM-UBM

に 基づく話者照合の等価エラー率

(EER)

と二乗平均平方根対数スペク トル歪み(

RMS-LSD

)において高い性能を得られることが報告され

ている

. PLDA

に基づく話者照合は話者とチャネルの依存性を分離す

ることに焦点を当てているが

,

帯域制限による劣化音声を用いた場合 については議論されていない

.

そこで本論文では

, i-vector / PLDA , x-vector / PLDA

に基づく話者照合システムを構築し

, N-Bwe

や他の 帯域拡張法を用いることでサンプリング周波数の違いによる帯域制 限のかかった音声がシステムに与える影響について調査し

,

帯域拡張 を適用した音声の客観評価と

EER

の関係を考察した

.

実験結果より

,

N-Bwe

で生成された音声は低い

RMS-LSD

を得られ

,

かつアップサ

ンプリングのみを行なった音声と比較して

i-vector

を用いた場合及び

x-vector

を用いた場合の話者照合システムどちらにおいても

EER

改善したことを報告する

.

(5)

あらまし

iv

Summary

This paper aims to evaluate an effect of a non-linear bandwidth extension (N-Bwe) method by using i-vector/PLDA-based and x-vector/PLDA-based automatic speaker verification (ASV) systems. The N-Bwe method has been reported as a blind, non-learning and light-weight BWE approach.

Although the N-Bwe method consists of a simple non-linear function and lters, it has archived high accuracy in terms of speaker individual- ity and root mean square log-spectral distortion (RMS-LSD). Recently, i-vector/PLDA-based ASV systems become one of the state-of-the-art ASV systems. While the PLDA-based ASV approaches focus on re- moving speaker and channel dependency, there are few discussions about speeches which degraded by band limits. Thus, this paper investigates the infuence of the speech degradation by band limits toward the PLDA- based ASV systems. In the experiments, the N-Bwe and shift-based BWE methods were evaluated by the PLDA-based ASV systems. From the results, the N-Bwe method improved equal error rate (EER) from the simply up-sampled situation.

(6)

1.

はじめに

1

1 はじめに

近年

,

端末へのログインやサイトへのアクセス

,

入室管理など様々 な場面において本人認証を行う機会が増えている

.

これらは主にパ スワードや

ID

カードなどを用いることで本人認証が行われている

.

しかしこれらの認証方法は

ID

カードの携帯やパスワードの記憶など ユーザーへの負担が大きい

.

また紛失

,

忘却

,

盗難などのリスクも常 に存在し

,

このリスクもユーザーへの負担につながっている

.

これら のユーザーへの負担を軽くする方法として指紋

,

虹彩などの個人の身 体的特徴を用いて個人認証を行う生体認証技術が注目を集めている

.

特に声を用いた生体認証は発話内容や言語に依存せず

,

発生器官の形 状の違いなどの身体的特徴や話し方の癖といった行動的特徴を併せ 持っていることから

,

生体認証に用いる特徴量として頑健であると考 える

.

声を用いた生体認証技術である話者照合は

i-vector [1, 4, 5]

probabilistic linear discriminant analysis(PLDA)

に基づく手法

[2,6,7]

x-vector

などと呼ばれる手法

[3,8–10]

により非常にその認証精度が向

上していることが報告されている

.

これらの手法はアメリカ国立標準

技術研究所

(NIST)

から公開されている

speaker recognition evaluation (SRE)

シリーズや

Speaker In the Wild(SITW)

と呼ばれる世界標準の

データベースを用いて評価され

,

高い性能を得られることが示されて

いる

.

特に近年ではネットバンキングや携帯電話のセキュリティシス

テムやスマートスピーカーなどの音声対話システムや携帯電話

, PC

などの普及により音声を入力インターフェースとしてシステムを稼

働する機会が増えてきている

.

これらのことから

,

話者照合システム

のさらなる普及が期待されている

.

しかし収録環境によってはシステ

ムが想定しているサンプリング周波数と実際の入力音声のサンプリ

ング周波数が一致しない場合も想定されている

.

特に通信を介した

音声は通信速度維持のために

,

帯域に制限がかかるため音声の明瞭性

や話者性が大幅に低下してしまい認証システムの性能に大きな影響

を与えてしまうことが知られている

[11, 12].

サンプリング周波数の

(7)

1.

はじめに

2

不一致を解消するために一般的にはサンプリング周波数が高い音声 をダウンサンプリングし低いサンプリング周波数に合わせることが 多い

.

しかし入力されるテストデータのサンプリング周波数が低い ため

,

学習データをダウンサンプリングさせて話者照合システムを再 び構築し直すには高いコストがかかるという問題点がある

.

テスト データのサンプリング周波数が低いため

,

アップサンプリングを適用 してサンプリング周波数を学習データに合わせることも可能である が

,

アップサンプリングのみだと帯域制限の影響が残るため話者照合 性能が低下してしまうことが知られている

.

そこで本論文では帯域制限の問題に対応するため

,

帯域拡張法に焦 点を当て

,

話者照合実験を行う

.

帯域拡張法は帯域制限などにより高 周波数成分が欠落しているデータに対して高周波数を復元する技術 の一である

[13–17].

これまでに多くの帯域拡張法が提案されている が大まかには

,

付帯情報を用いる手法と用いない手法の二つに分類す ることができる

.

付帯情報を用いない手法は低周波数成分のみを用い て高周波数成分を推定するものである

.

近年画像信号処理の分野に おいて

,

非線形処理による超解像画像処理の手法が 報告された

[18].

また

,

付帯情報を用いず

,

学習を行わないかつ計算量が軽い手法とし て非線形帯域拡張法

N-Bwe(Non-linearbandwidth extension) [11]

が提

案された

. N-Bwe

は単純な非線形関数で構成されているのにもかか

わらず

, GMM-UBM(Gaussian mixture model - Universal background

model)

に基づく話者照合の等価エラー率

(EER)

において高い性能が

得られたことが報告されている

.

また近年

,

複数の帯域制限が混合し ているデータを用いてモデル学習を行う話者照合システムが報告さ

れている

[12, 19].

しかし帯域拡張法を用いた話者照合システムの影

響を調査したものはほとんどない

.

そのため本論文では付帯情報を 用いない帯域拡張法に焦点を当て

,

最先端の話者照合システムへの影 響を調査する

.

実験では

i-vector

に基づく話者照合システムを構築し

,

N-Bwe

や他の帯域拡張法を用いた場合にシステムに与える影響につ

いて調査し

,

帯域拡張を適用した音声の

EER

と客観評価について考

(8)

1.

はじめに

3

察した

.

具体的には帯域制限がかかった

8kHz

の音声にアップサンプ リングを適用し

16kHz

にした音声と帯域制限がかかった

8kHz

の音声 に非線形帯域拡張法を適用して

16kHz

にした音声を比較する

.

また登 録データ

,

学習データ

,

テストデータ全てを

N-Bwe

法を用いて

16kHz

にし話者照合実験を行なった結果とテストデータのみを

N-Bwe

法を

用いて

16kHz

にし話者照合実験を行なった結果

, 8kHz

の音声を用い

て話者照合実験を行なった結果を比較し考察する

.

また

N-Bwe

が日

本語以外の言語

(

英語

)

でも有効であるか

,

実際に使用されているサン

プリング周波数が低く

,

帯域制限のかかった固定電話の音声でも有効

であるか

,

会話音声

,

ノイズがのった音声にも頑健であるかについて

も話者照合実験により合わせて言及する

. N-Bwe

が有効であること

を確認するために

N-Bwe

を適用した

16kHz

の音声

,

アップサンプリ

ングをした

16kHz

の音声

, 8kHz

の音声

, 16kHz

の音声を用いてそれぞ

れ話者照合実験

,

客観評価実験を行なった

.

実験結果より帯域制限の

かかった音声はアップサンプリングするだけでなく

N-Bwe

法を用い

ることで照合性能が改善した

.

また全て

8kHz

で構築した話者照合シ

ステムの精度と全て

N-Bwe

を適用し

16kHz

で構築した話者照合シス

テムの精度と比較すると

N-Bwe

法を用いた場合の話者照合システム

の精度が改善したことを報告する

.

同様に他言語

,

固定電話の音声

,

イズがのった音声にも

N-Bwe

を適用することでアップサンプリング

した音声を適用する場合よりも頑健であることを報告する

.

(9)

2. I-VECTOR PLDA, X-VECTOR/PLDA

に基づく話者照合

4

2 i-vectorPLDA, x-vector / PLDA に基づく話者照合

話者照合とはユーザーの入力音声を用いて

,

入力音声が本人である か否かを判定するシステムである

.

一般的に話者照合システムは登録 部と照合部の二つに分けられており

,

登録部において照合したい話者 の音声の声を用いて特定話者モデルを作成する

.

照合部では入力され た音声の特徴量と登録部で作成された特定話者モデルのスコアを計 算し

,

閾値以上であれば受理

,

未満であれば棄却するシステムである

.

最新の話者照合システムは

i-vector

に基づく手法や

x-vector

に基づく 手法が提案されているが

,

本稿では実験に使用する

i-vector

に基づく 話者照合システム及び

x-vector

に基づく話者照合システムについて 言及することにする

.

2.1 i-vector [1]

近年

, i-vector

に基づく話者照合システムは最新のシステムの一つ

としてみなされている

[1, 4, 5]. i-vector

における話者モデルは式

1

よって定義される

.

Mu = mubm+Tωu, (1)

ここで

, mubmRCDF

は大量の不特定話者データで学習した

universal

background model (UBM)

と呼ばれる

GMM

から平均を取り出した

GMM

スーパーベクトル

,TRCDF×DT

は話者とチャネル変動をを含む

全変動

(TV)

行列である

. D

は音響特徴量の次元数を表す

. ωuRDT

発話

u

の固有ベクトルを表す確率変数であり

,

平均ベクトルが

0∈ RDT

で共分散行列が単位行列

1 ∈ RDT×DT

のガウス分布

N(ω; 0,I)

に従う

.

この

ω

が各発話に対する

i-vector

であり

GMM

スーパーベクトル空間

における平均的な話者からの差を次元圧縮し各話者を表現したものと

考えられる

. i-vector

を用いる場合

,

識別には主に

cos

類似度や

PLDA

を用いることが多い

.

(10)

2. I-VECTOR PLDA, X-VECTOR/PLDA

に基づく話者照合

5

登録部 照合部

発話 i-vector抽出 𝑝(𝜔$|𝛿, 𝜁$)

発話 i-vector抽出 𝑝(𝜔$|𝛿, 𝜁$)

UBM TV PLDAmodel 対数尤度⽐

受理 棄却

1: i-vector

に基づく話者照合のフロー図

a.

コサイン類似度を用いた評価

登録話者の

i-vectorω1

と照合話者の

i-vectorω2

のコサイン類似 度によりスコアリングを行う

.

cos(ω1, ω2) = ω1ω˙2

||ω1||||ω2|| (2)

この類似度が閾値以上であれば

,

照合話者を登録話者とみなし

,

閾値以下であれば受理されない

.

この時

i-vector

をそのまま用い るのではなく

,

話者内変動の影響を補正して得たベクトルを用い ることが有効である

.

b. PLDA

に基づく評価

登録話者の

i-vector ω1

と照合話者の

i-vector ω2

を用いて

ω1, ω2

が同一話者モデルから生成されたか

(H1)

否か

(H0)

に関する仮説 に対して対数尤度比

log p(ω1, ω2|H1)

p(ω1|H0)p(ω2|H0) (3)

を計算することで照合性能を評価する

. PLDA

の詳細においては

次節で説明する

.

(11)

2. I-VECTOR PLDA, X-VECTOR/PLDA

に基づく話者照合

6

2.2 PLDA [2]

この節では

i-vector

に基づく話者照合のための

PLDA

について説明 する

. PLDA

では

,

発話

u

から抽出された

i-vectorωu

をその生成過程を 無視して式

(4)

のように生成されたと考える

.

ωu = ω¯ + Φδ+ Γζuu. (4)

ここで

Γ

は話者とチャネルの部分空間を張る基底行列であり

, δ

ζu

は話者及びチャネル因子を表しており

,

それぞれ標準正規分布 に従う

. ϵu

は残差成分を表し

,

平均ベクトル

0 ∈ RCDF,

対角共分散行

Σ ∈ RCDF×CDF

のガウス分布に従う

. ¯ω

i-vector

空間におけるオフ セットである

.

(4)

から確率生成モデルを考える

.

p(ωu|δ, ζu) = N( ¯ω+ Φδ+ Γζu,Σ). (5)

(5)

より登録話者の

i-vectorω1

と照合話者の

i-vectorω2

を用いて

ω12

が同一話者モデルから生成されたか

(H1)

否か

(H0)

に関する仮 説に対して対数尤度比

log p(ω1, ω2|H1)

p(ω1|H0)p(ω2|H0) (6)

を計算することで照合性能を評価する

. i-vector/PLDA

に基づく話者 照合システムは図

1

によって示す

.

2.3 x-vector [3]

話者照合において最も

state-of-the-art

とされている話者照合の方法

として

x-vector

がある

.

これは可変長の発話から固定次元にマッピ

ングする

DNN(Deep Neural Network)

を構築することで得られる

. i-

vector

に基づく手法よりも話者照合に対して頑健であると報告されて

いるが

,

膨大な発話データが必要である

. x-vector/PLDA

に基づく話

者照合システムは図

2

によって示す

. i-vector

に基づく話者照合シス

テムと同様にあらかじめ登録部において照合話者及び

, DNN, PLDA

(12)

2. I-VECTOR PLDA, X-VECTOR/PLDA

に基づく話者照合

7

登録部 照合部

発話 話者毎の

x-vector抽出 𝑝(𝜔$|𝛿, 𝜁$)

発話 話者毎の

x-vector抽出 𝑝(𝜔$|𝛿, 𝜁$)

DNN PLDAmodel 対数尤度⽐

受理 棄却

2: x-vector

に基づく話者照合のフロー図

の構築を行なっている必要がある

. DNN

の概要図を図

3

に示す

. DNN

はネットワークは

7

つの層とプーリング層

,

活性化関数で構成されて おり

, N

人の話者を分類されるように学習される

.

3

において

its

は 発話

s,

フレーム

t

の特徴

i

であり

,

これを

DNN

の入力として用いる

.

プーリング層より前の隠れ層ではフレーム単位で処理を行なってい る

.

プーリング層は前の隠れ層の出力を集約し

,

対角標準偏差と平均 を計算する

.

プーリング層より後の隠れ層は全てセグメント単位で処 理を行なっている

.

この結果は全結合である最終層に伝搬され

,

発話

s

の話者

k

のラベルが出力される

.

3

enb

は埋め込みを示してお

,

これが

x-vector

と呼ばれる

. DNN

を構築する目的はフレーム単位

ではなく発話単位で埋め込みの

enb

を抽出することである

. x-vector

を用いる話者照合のスコアを計算するために通常

PLDA

を用いる

.

(13)

2. I-VECTOR PLDA, X-VECTOR/PLDA

に基づく話者照合

8

Frame level Segment

level

Static Pooling layer

𝑖"#

𝑒𝑛𝑏

Spkrlabel

𝑃(𝑠𝑝𝑘𝑟-|𝑠)

3: DNN

構成図

(14)

3.

非線形帯域拡張法

9

3 非線形帯域拡張法

3.1

付帯情報を用いない帯域拡張法

帯域拡張法としてこれまでに多くの手法が報告されている

.

これら の手法は付帯情報を用いるか用いないかに分類することができる

.

論文では付帯情報を用いず

,

かつ学習を行わない帯域拡張法に焦点を 当てる

.

一般的な帯域拡張ではインターポレータとローパスフィルタ によるアップサンプリングを狭帯域音声に適用し

,

高周波域を持たな いアップサンプリング音声を生成する

.

付帯情報を用いない帯域拡張 法ではアップサンプリングによりできた空の高周波成分を低周波数 成分のみで補うことを目的としている

.

3.2

スペクトルシフティング法

(SHIFT)

非学習型の帯域拡張法の一つとしてスペクトルシフティング法が

ある

[20].

この手法は

4 kHz

未満の周期を変調することによって高周

波成分を生成し

,

その成分をアップサンプリングにより空いた周波数 領域にシフトすることで広帯域音声を生成している

.

単純な処理のた め処理量が非常に少ないという利点がある.

3.3

線形予測分析合成法

(LPAS)

付帯状況を用いない帯域拡張法の一つであり

,

シフトベースの手法 の品質を改善するためにシフトに基づく手法を拡張した

LPAS [21]

が提案された

. LPAS

は狭帯域信号からスペクトル包絡線および残留 誤差情報から抽出された高周波数成分を用いて広帯域信号生成する 手法である

.

生成された高周波成分は単純にシフトされたものよりも 自然なものになることが報告されている

.

LPAS

のフロー図を図

4

に示す

.

狭帯域音声

xwb[n]

から広帯域音声

ˆ

xswb[n]

を生成するためフレームごとに処理することを考える

.

まず

,

4

2

の高周波数成分生成について説明する

.

ここで

awb

は線形予

(15)

3.

非線形帯域拡張法

10

4: LPAS

のフロー図

測係数であり

,

これを用いることで周波数応答

H(ω)

を求める

.

残差 成分

ewb[n]

はゼロ挿入をし

, H(ω)

ˆ(Eswb(ω))

をかけ

,

ハイパスフィル タを通すことで

,

高周波数成分のみを抽出する

.

次にまず

,

4

3

低周波数成分について説明する

.

ここでは狭帯域音声にアップサンプ リングを適応することで高周波数成分を持たない広帯域音声を生成 する

.

最後に 図

4

2

の出力に逆フーリエ変換を適応し

,

時間領域の 信号を得る

.

時間領域において

,

4

3

の出力を

s

を用いてサンプ リングのずれを考慮し足し合わせることで擬似的に高周波数成分を 持つ広帯域音声を生成する

.

フレーム毎に処理を行うため

,

フレーム 同士の不連続性を避けるため合成の際には

[22, 23]

を用いる

. 3.2

拡張法のため

,

作成された音声は自然性が高いが

,

照合を考慮した帯 域拡張法ではない

.

3.4

非線形帯域拡張法

(N-BWE)

付帯情報を用いない手法でかつ学習を行わない帯域拡張法として非

線形帯域拡張法

(N-BWE)

が提案されている

[11].

非線形帯域拡張法

の利点として

,

学習を行わないため処理が非常に軽く

,

任意のサンプ

リング周波数に対応できることである

.

5

N-BWE

法のブロック

図を示している

.

図に示すように

, FS0Hz

でサンプリングされた狭帯

域音声

x[n]

に対して

,

インターポレータ

m,

およびローパスフィルタ

(16)

3.

非線形帯域拡張法

11

Limiter

Narrowband 

signal Upsampling Extended

signal LPF

Sampling rate Upsampling rate

Non-linear function +sgn

Hz Hz

5: N-BWE

法フロー図

を用いたアップサンプリングを適用することで

,

高周波数成分を持た ない

yU P[n]

を生成する

.

ここで

, n

は離散時間変数である

.

次に

,

アッ プサンプリングされた信号に対して式

(7)

で表される非線形関数を用 いることで高周波数成分が生成される

.

yNLF[n] =sgn(yF(A)[n]) · |yF(A)[n]α| ×β, (7)

ただし

,

sgn(a) =







1 (a> 0) 0 (a= 0)

−1 (a< 0)

, (8)

ここで

β

は非線形性制御のための任意のパラメーターであり

, a

は実数である

.

また

,

6

limiter

は以下の式で与えられる

.

yHB[n] = 

yNLF[n], yNLF[n] ≤ Th

M, yNLF[n] > Th , (9)

ここで

,Th

は閾値

, M

は定数である

.

5

hA

hB

はフィルタを示し

ており

,

オールパスフィルタ

,

バンドパスフィルタやハイパスフィル

(17)

3.

非線形帯域拡張法

12

200 400 600 Time (secs) (a) Reference Speech

0 1 2 3 4 5 6 7 8

Frequency (kHz)

200 400 600 Time (secs) (b) Narrowband 0

1 2 3 4 5 6 7 8

Frequency (kHz)

200 400 600 Time (secs)

(c) SHIFT 0

1 2 3 4 5 6 7 8

Frequency (kHz)

200 400 600 Time (secs)

(d) LPA S 0

1 2 3 4 5 6 7 8

Frequency (kHz)

200 400 600 Time (secs)

(e) N-BW E 0

1 2 3 4 5 6 7 8

Frequency (kHz)

(a) Org (b) UP (c) SHIFT (d) LPAS (e) N-BWE

6: Spectrogram examples of speech signals (m= 2;FS0 =8 kHz,FS1 =16kHz)

タを想定している

. hA

は非線形関数を適用する狙った帯域を選択す るためのフィルタであり

,hB

は特に非線形処理を施した音声に生じる 低周波成分へのまわりこみなどによるノイズを取り除く目的がある

.

まわりこみを取り除くことで

yN B[n]

との足し合わせの際に元の音声 を傷つけないためノイズが低減されると期待できる

.

3.5 PLDA

に基づく話者照合と

N-BWE

帯域拡張法は帯域制限による高周波成分を補うことを目的として

いる

. PLDA

に基づく話者照合システムは話者とチャネル変動を取り

除くことに重点を置いている

.

しかし

,

これまでに帯域制限によって 失った変動については議論されていない

.

そこで本論文では

,

帯域制 限により劣化した音声を用い帯域拡張法と

PLDA

システムの性能に ついても調査し

,

議論する

.

3.6

帯域拡張法のスペクトログラムによる比較

6

,

原音声

,

アップサンプリング

, SHIFT, LPAS, N-BWE

による

音声信号のスペクトログラムを示している

.

まず

, 16kHz

でサンプリ

ングされた原音声の信号

(a)

0 kHz

から

8 kHz

までの周波数成分を

(18)

3.

非線形帯域拡張法

13

有していることがわかる

.

次に原音声のサンプリング周波数を

16 kHz

から

8 kHz

に落とし

,

また

8 kHz

から

16kHz

にアップサンプリング

した音声が図

2

(b)

である

.

図からもわかるように

4 kHz

以上の高

い周波数成分を含んでいない

.

信号

(c)

SHIFT [20]

によって生成さ

れた音声

,

信号

(d)

LPAS [21]

によって生成された音声

,

信号

(e)

N-BWE

で生成された音声である

. (c), (d), (e)

から帯域拡張法によっ

てアップサンプリングではなかった高周波数成分が生成されている

ことがわかる

.

(19)

4.

日本語データベースにおいての実験

14

4 日本語データベースにおいての実験

この章ではまず

N-BWE

法が

i-vector

に基づく話者照合実験におい て有効かどうかを確認する

.

次に

, N-BWE

の有効性を評価するため に原音声及び通信音声を用いて

i-vector

に基づく話者照合実験行い

N-BWE

法が通信音声においても有効であるかを確認した

.

4.1

共通実験条件

話者照合システムの主な構築条件を

1

に示す

. i-vector

を推定する ために必要となる

UBM, TV

行列の学習には

JNAS

データベース

[24]

から女性話者の音声

23657

文章を用いた

. GMM

の混合数は

1024, i-

vector

の次元数は

400

次元である

.

日本語データベースの実験では評

価のために

VLD

データベース

[25]

を用いた

. JNAS

データベースで はサンプリング周波数が

16kHz

であるが

, VLD

データベースではサ ンプリング周波数は

48kHz

で収録されているため

, 16kHz

にダウンサ ンプリングしたものを

16kHz

の原音声として扱う

.

この原音声のう

, 70

文章

×17

名を特定話者モデルの学習データ

, 30

文章

×17

名をテ ストデータとした

.

1:

共通実験条件

UBM, TV

用データベース

JNAS(

女性

) 23657

文章

GMM

混合数

1024

i-vector

次元数

400

次元

UBM

学習回数

30

TV

学習回数

10

登録データ

VLD

データベース

(

女性

) 17

x70

文章 テストデータ

VLD

データベース

(

女性

) 17

x30

文章 フレーム長

/

フレームシフト

20ms/10ms

特徴量

MFCC19

次元

+ ∆ + ∆∆

評価尺度

EER(Equal Error Rate)

(20)

4.

日本語データベースにおいての実験

15

4.2 clean

音声

この節では

clean

音声に対して

N-BWE

を適用し

,

その有効性につい て確認する

.

なお本節の内容は

[26]

において発表済みである

.

4.2.1 比較手法(clean音声)

比較手法は以下の通りである

.

テストデータのみに帯域拡張を適用

した結果

(test)

と学習データ

,

登録データ及びテストデータ全てに帯

域拡張を適用した場合

(all)

の二つについて確認する

. (A) UP (test)

狭帯域音声

(8 kHz

サンプリング

)

に対してアップサンプリング のみを行なった音声

(yU P[n])

をテストデータのみに用いた

. (B) N-BWE (test)

狭帯域音声に

N-BWE [11]

を適用した音声をテストデータとし て用いた

.

フィルタ

hA[n]

には以下の式

(10)

を用いた

.

フィルタ

hB[n]

は図

7

のように定義した

.

hA[n] = 

1 (n = 0)

0 (n , 0). (10)

非線形関数

(

(7))

α

β

はそれぞれ

2

100,000

とした

. (C) Down (test)

16 kHz

の原音声から

8 kHz

にダウンサンプリングされた狭帯域

音声

x[n]

を登録及びテストデータとして用いた

. (D) N-BWE (all)

狭帯域音声に

N-BWE [11]

を適用した音声をテストデータとし て用いた

.

フィルタ

hA[n]

には以下の式

(10)

を用いた

.

フィルタ

hB[n]

は図

7

のように定義した

.

非線形関数

(

(7))

α

β

はそ れぞれ

2

100,000

とした

.

(E) Org (all)

全ての音声データは

16 kHz

の原音声である

.

(21)

4.

日本語データベースにおいての実験

16

7: Filters designed for the N-BWE

2:

比較手法

(clean

音声

)

Train Enrollment Test

(A)UP

原音声

(16k)

原音声

(16k)

アップ

サンプリング

(B)N-BWE

原音声

(16k)

原音声

(16k) N-BWE

(C)Down

ダウン

サンプリング

ダウン サンプリング

ダウン サンプリング

(D)N-BWE N-BWE N-BWE N-BWE

(E)Org

原音声

(16k)

原音声

(16k)

原音声

(16k)

4.2.2 実験結果(clean音声)

8

に手法ごとの

EER

を示す

.

まず

(A)UP

(E)Org

を比較する

. (A)

(E)

の違いはテストデータが帯域制限されているか

,

いないか

(22)

4.

日本語データベースにおいての実験

17

6.9 6.67

3.09

2.31

0.76 0

1 2 3 4 5 6 7 8

(A)Up (B)N-BWE (C)Down (D)N-Bwe (E)Org

EER(%)

8:

話者照合の実験結果

(clean

音声

)

のみの違いであるが

, (A)

の照合性能が大幅に低下している

.

このこと により

,

音声の帯域制限は話者照合の照合性能に大きく影響を与えて いることが確認できる

.

次に

(A)UP

(B)N-BWE

を比較してみると

,

(B)N-BWE

の方が精度が高い

.

このことにより高帯域成分による影響

もわずかながらではあるが話者照合の性能に影響を与えていること がわかる

.

しかし

, (A)UP, (B)N-BWE

(C)Down

をそれぞれ比較する と

,

テストデータをアップサンプリング

,

帯域拡張をしたものよりも

,

ダウンサンプリングで学習しなおしたものの方が性能が良いという ことがわかる

.

次に

(C)Down

(D)N-BWE

を比較してみると

, (D)

方が照合性能が高い

.

これらのことより

,

話者照合において

N-BWE

法が有効であり

,

サンプリング周波数を落として学習しなおすよりも

N-BWE

法を適用して学習しなおす方が照合性能が良いということが

確認できた

.

(23)

4.

日本語データベースにおいての実験

18

4.3

電話音声

この節では電話音声に対して

N-BWE

を適用し

,

その有効性につい て確認する

.

なお本節の内容は

[27]

において発表済みである

.

電話音 声に関しては通信を介した音声は様々なパターンがあるが本稿では 固定電話の音声について考える

.

本稿では入力音声に対してを

ITU-T

勧告

G.712 [28]

に基づくフィルタを用い帯域制限をかけたうえでダ

ウンサンプリングを行う

.

次に

ITU-T

勧告

G.711 [29]

によって策定 された

µ− law

方式による符号化を用いることで固定電話を介した 音声を摸擬した

.

実験において

µ

は圧縮効率を表しており

,

値が小さ いほど強く圧縮されていることを示す

.

電話音声作成のフローを図

9

示す

.

エンコーダは以下の式

11

で作成し

,

デコーダーは以下の式

12

で作 成した

.

F(s) = sign(s)in(1+µ|s|)

in(1+µ) (11)

y =y∗27F1(y) = sign(y)1

µ(1+µ)|y|−1 (12)

また正規化は次の式

13

で表した

.

y = sign(F).∗ceil(|F| ∗27) (13)

4.3.1 比較手法(電話音声)

本実験では実際に使用されている圧縮率

µ= 255

N-BWE

法でも 有効であるか確認するため

,

他の圧縮率及び

clean

音声とも比較し

,

の有効性を検証する

.

(A) 8k

16 kHz

の原音声から

8 kHz

にダウンサンプリングされた狭帯域

音声

x[n]

を学習

,

登録及びテストデータとして用いた

.

(24)

4.

日本語データベースにおいての実験

19

Narrowband  signal

9:

電話音声作成フロー

(B) UP

狭帯域音声

(8 kHz

サンプリング

)

に対してアップサンプリング のみを行なった音声

(yU P[n])

を学習

,

登録及びテストデータに用 いた

.

(C) N-BWE

狭帯域音声に

N-BWE [11]

を適用した音声を学習

,

登録及びテ ストデータとして用いた

.

フィルタ

hA[n]

には式

(10)

を用いた

.

フィルタ

hB[n]

は図

7

のように定義した

.

非線形関数

(

(7))

α

β

はそれぞれ

2

100,000

とした

.

(D) 8k (255) (G) 8k (127) (J) 8k (63)

16 kHz

の原音声から

8 kHz

にダウンサンプリングされた狭帯域

音声

x[n]

に圧縮

,

伸長を適用し

,

学習

,

登録及びテストデータと して用いた

.

また圧縮率はそれぞれ

µ = 255, µ = 127, µ = 63

と した

.

(E) UP (255) (H) UP (127) (K) UP (63)

狭帯域音声

(8 kHz

サンプリング

)

に対してアップサンプリング のみを行なった音声

(yU P[n])

に圧縮

,

伸長を適用し

,

学習

,

登録及 びテストデータに用いた

.

また圧縮率はそれぞれ

µ = 255, µ = 127, µ = 63

とした

.

(F) N-BWE (255) (I) N-BWE(127) (L)N-BWE(63)

狭帯域音声に

N-BWE [11]

を適用し

,

圧縮

,

伸長した音声を学習

,

登録及びテストデータとして用いた

.

フィルタ

hA[n]

には式

(10)

を用いた

.

フィルタ

hB[n]

は図

7

のように定義した

.

非線形関数

(

(7))

α

β

はそれぞれ

2

100,000

とした

.

また圧縮率はそ

(25)

4.

日本語データベースにおいての実験

20

3:

比較手法

(電話音声)

Train Enrollment Test

(A)8k

ダウン

サンプリング

ダウン サンプリング

ダウン サンプリング

(B)UP

アップ

サンプリング

アップ サンプリング

アップ サンプリング

(C)N-BWE N-BWE N-BWE N-BWE

(D)8k (255)

ダウン

サンプリング

(255)

ダウン サンプリング

(255)

ダウン サンプリング

(255)

(E)UP (255)

アップ

サンプリング

(255)

アップ サンプリング

(255)

アップ サンプリング

(255)

(F)N-BWE (255) N-BWE (255) N-BWE (255) N-BWE (255)

(G)8k (127)

ダウン

サンプリング

(127)

ダウン サンプリング

(127)

ダウン サンプリング

(127)

(H)UP (127)

アップ

サンプリング

(127)

アップ サンプリング

(127)

アップ サンプリング

(127)

(I)N-BWE (127) N-BWE (127) N-BWE (127) N-BWE (127)

(J)8k (63)

ダウン

サンプリング

(63)

ダウン サンプリング

(63)

ダウン サンプリング

(63)

(K)UP (63)

アップ

サンプリング

(63)

アップ サンプリング

(63)

アップ サンプリング

(63)

(L)N-BWE (63) N-BWE (63) N-BWE (63) N-BWE (63)

れぞれ

µ = 255, µ = 127, µ =63

とした

.

4.3.2 実験結果(電話音声)

10

に手法ごとの

EER

を示す

.

まず

,

クリーン音声における

(A)

アップサンプリング

, (B)

提案法

, (C)8k

を比較すると

, (C)

よりもサン

プリング周波数をあげた

(A), (B)

の方が

EER

が低くなっていること

がわかる

.

ここで

(B)

(A)

よよりも

EER

が低いため帯域拡張法は

有効であると考えられる

.

次に

µ = 255

のときの

(D), (E), (F)

につい

て比較してみる

.

この

3

つの手法の中で提案法を用いた

(E)

が一番照

合性能が良いことがわかる

. µ = 127,63

も同様の傾向が得られた

.

(26)

4.

日本語データベースにおいての実験

21

2.66 2.31 3.09

4.52 3.73

4.92 4.41

3.22 4.77

6.05 5.12

5.97

2 2.5 3 3.5 4 4.5 5 5.5 6 6.5

(A) (B) (C) (D) (E) (F) (G) (H) (I) (J) (K) (L)

Equal Error Rate(%)

アップサンプリング 提案法 8k

clean 𝜇 = 255 𝜇 = 127 𝜇 = 63

10:

話者照合の実験結果

(

電話音声

)

縮がかかりノイズを含む音声においては非線形帯域拡張法が有効で

あることがわかる

.

これは提案法により生成した高周波数成分がノ

イズの影響を受けていても話者性を表現できているからだと考えら

れる

. µ = 255

及び

µ = 127

の結果を比較するときつい圧縮がかかる

µ = 127

の方が

3

手法とも

EER

が若干低い

. 8k

の結果でも

EER

低いことからノイズが含まれていても話者性を表す部分には悪い影

響を与えておらず

,

結果として

(G), (H)

EER

(D), (E)

よりも低く

なったと考えられる

.

(27)

5.

英語データベースにおいての実験

22

5 英語データベースにおいての実験

N-BWE

の有効性を評価するために実環境で収録された音声を用い

i-vector/PLDA

に基づく話者照合実験

, x-vector/PLDA

に基づく話 者照合実験を

N-BWE

の音声と他の帯域拡張法を適用した音声で行 い

EER

を比較した

.

また

,

その

EER

と生成した音声を客観評価尺度 で評価したスコアとの関係について調査した

.

なお

i-vector

の実験に 関しては

[30], x-vector

の実験に関しては

[31]

で発表済みである

.

5.1

共通実験条件

5.1.1 英語データベースの詳細

本実験では

Kaldi-toolkit [32]

SITW

データベース

[33]

を用いて

i-vector/PLDA

に基づく話者照合システムの構築及び

x-vector/PLDA

に基づく話者照合システムの構築を行なった

.

その際

, i-vector

に基づ く話者照合実験において必要な

UBM, PLDA, TV

行列を推定するた

,

また

x-vector

に基づく話者照合実験において

DNN

を構築するた

めに

Voxceleb

データベースを用いた

. Voxceleb

データベースは二つ

のデータセット

Voxceleb1 [34], Voxceleb2 [35]

で構成されており

,

ど ちらのデータセットも

Youtube

にアップロードされた著名人のインタ ビュービデオから収集されている

. Voxceleb1

は話者数

1251,

発話数

100,000

以上

,Voxceleb2

は話者数

6112,

発話数は

1,000,000

以上と なっている

.

これらのデータセットは様々な民族や職業

,

年齢

,

アクセ ントで構成されている

.

登録及びテスト用のデータベースには

SITW

を用いた

. SITW

は収録状況を制御したデータベースではなく

,

本来

の背景ノイズ等を含み

,

より実環境に近いデータベースとなっている

.

SITW

Voxceleb

は別々で収集されているが

, 2

つのデータベースに

は話者

60

名が重複しているため

,

学習前に

Voxceleb

のデータベース

から削除した

.

また

,

ノイズ用のデータベースとして

MUSAN [36]

RIRNOISE [37]

を用いた

. MUSAN

データベースは

900

以上のノイズ

と様々なジャンルの音楽

, 12

言語の会話が含まれている

. RIRNOISE

(28)

5.

英語データベースにおいての実験

23

は部屋の残響ノイズである

. PLDA

Voxceleb

データセットにノイ ズを付与した音声を用いて学習した

.

ノイズデータベース以外の全て のデータベースの言語は英語であり

, 16 kHz

でサンプリングされて いる

.

本実験でサンプリング周波数が

8 kHz

となっている狭帯域音声 は全て原音声の

16 kHz

から

8 kHz

へのダウンサンプリングしたもの を表す

.

5.2

共通比較条件

(

話者照合実験

)

4

に比較条件をまとめた

.

詳細は以下の通りである

. (A) UP (enroll)

狭帯域音声

(8 kHz

サンプリング

)

に対してアップサンプリング のみを行なった音声

(yU P[n])

を登録及びテストデータとして用 いた

.

(B) SHIFT (enroll)

狭帯域音声に

SHIFT [20]

を適用した音声を登録及びテストデー タとして用いた

.

バンドパスフィルタとして

[38]

を適用した

. (C) LPAS (enroll)

狭帯域音声に

LPAS [21]

を適用した音声を登録及びテストデー タとして用いた

.

(D) N-BWE (enroll)

狭帯域音声に

N-BWE [11]

を適用した音声を登録及びテストデー タとして用いた

.

フィルタ

hA[n]

には

(10)

を用いた

.

フィルタ

hB[n]

は図

7

のように定義した

.

非線形関数

(

(7))

α

β

はそ れぞれ

2

100,000

とした

.

(E) UP (test)

狭帯域音声

(8 kHz

サンプリング

)

に対してアップサンプリング のみを行なった音声

(yU P[n])

をテストデータとして用いた

.

登録

データは

16kHz

の原音声である

.

(29)

5.

英語データベースにおいての実験

24

4: Experimental conditions for each method

Train Enrollment Test

(A)UP (enroll)

原音声

(16k)

アップサンプリング アップサンプリング

(B)SHIFT (enroll)

原音声

(16k) Shift Shift

(C)LPAS (enroll)

原音声

(16k) LPAS LPAS

(D)N-BWE (enroll)

原音声

(16k)

N-BWE N-BWE

(E)UP (test)

原音声

(16k)

原音声

(16k)

アップサンプリング

(F)SHIFT (test)

原音声

(16k)

原音声

(16k) Shift

(G)LPAS (test)

原音声

(16k)

原音声

(16k) LPAS

(H)N-BWE (test)

原音声

(16k)

原音声

(16k) N-BWE

(I)Down

ダウンサンプリング ダウンサンプリング ダウンサンプリング

(J)Org

原音声

(16k)

原音声

(16k)

原音声

(16k)

(F) SHIFT (test)

狭帯域音声に

SHIFT [20]

を適用した音声をテストデータとして 用いた

.

バンドパスフィルタとして

[38]

を適用した

.

登録データ は

16kHz

の原音声である

.

(G) LPAS (test)

狭帯域音声に

LPAS [21]

を適用した音声をテストデータとして 用いた

.

登録データは

16kHz

の原音声である

.

(H) N-BWE (test)

狭帯域音声に

N-BWE [11]

を適用した音声をテストデータとし て用いた

.

フィルタ

hA[n]

には上記の式

(10)

を用いた

.

フィルタ

hB[n]

は図

7

のように定義した

.

非線形関数

(

(7))

α

β

はそ れぞれ

2

100,000

とした

.

登録データは

16kHz

の原音声である

. (I) Down

16 kHz

の原音声から

8 kHz

にダウンサンプリングされた狭帯域

音声

x[n]

を登録及びテストデータとして用いた

. (J) Org

全ての音声データは

16 kHz

の原音声である

.

(30)

5.

英語データベースにおいての実験

25

5:

実験条件

(i-vector)

UBM, TV

用データベース

Voxceleb1, Voxceleb2

UBM,TV

用発話数

100,000

PLDA

用データベース

Voxceleb1, Voxceleb2, musan, RIRnoise PLDA

構築用発話数

200,000

評価用データベース

SITW(dev, core)

特徴量

MFCC24

次元

+∆+∆∆

フレーム長

/

フレームシフト

25ms/20ms

UBM

混合数

2048

TV

行列学習回数

10

i-vector

次元数

400

PLDA

次元数

150

評価尺度

EER

5.3 i-vector

に基づく話者照合実験

この節では実環境で収録された音声を用いて

i-vector

に基づく話者 照合実験を行い

N-BWE

の有効性を確認する

.

5.3.1 実験条件(i-vector)

実験条件を表

5

に示す

. Voxceleb

データベースは計

1,000,000

以上 の発話を有するデータベースであるが

, UBM, TV

行列を学習する上

1,000,000

以上の発話を学習することは非常に時間を要するため

,

1,000,000

のうち

100,000

発話を用いて

UBM

TV

行列を学習した

.

手法毎に

UBM, TV

行列

, PLDA

を学習し直すことはコストが非常

にかかってしまうため現実的ではない

.

そのため

,

本実験では

UBM,

TV

行列

, PLDA

の推定には

16 kHz

でサンプリングされた原音声を

用いた

. (I) Down

に関してのみ

UBM, TV

行列

, PLDA

に用いた音声

データは

8 kHz

にダウンサンプリングされたデータを用いた

.

本実

験では二つのシナリオを調査した

.

一つ目は登録データ

,

テストデー

タ共にサンプリング周波数が異なる場合であり

,

二つ目はテストデー

タのみがサンプリング周波数が異なる場合である

.

比較条件は表

4

(31)

5.

英語データベースにおいての実験

26

14.63

15.86

12.44 12.90

11.82

14.32 14.59

10.44 7.54

4.80

0 2 4 6 8 10 12 14 16 18

(A)UP (B)SHIFT (C)LPAS (D)N-BWE (E)UP (F)SHIFT (G)LPAS (H)N-BWE (I)Down (L)Org

EER(%)

Enroll Test

11: I-vector-based speaker verification results by using i-vector (Development task)

15.86 16.87

13.91 15.10

14.19

15.45 15.06

12.41

8.58

5.74

0 2 4 6 8 10 12 14 16 18

(A)UP (B)SHIFT (C)LPAS (D)N-BWE (E)UP (F)SHIFT (G)LPAS (H)N-BWE (I)Down (L)Org

EER(%)

Enroll Test

12: I-vector-based speaker verification results by using i-vector (Evaluation task)

ある

.

5.3.2 実験結果(i-vector)

11, 12

に手法ごとの

EER

を示す

.

11, 12

では評価タスクが異 なるものの

,

ほぼ同じ傾向が得られた

.

そこで図

11

を用いて結果を考 察する

.

まず

(I) Down (8k)

(L) Org(16k)

を比較すると

EER

(L)

Org (16k)

の方が低い

.

これよりサンプリング周波数が高い方が照合

性能が高いことがわかる

.

次に

(L) Org (16k)

(A) UP (enroll)

を比

図 6: Spectrogram examples of speech signals ( m = 2; F S 0 = 8 kHz, F S 1 = 16kHz)
図 7: Filters designed for the N-BWE 表 2: 比較手法 (clean 音声 )
表 3: 比較手法 (電話音声)
表 4: Experimental conditions for each method
+7

参照

関連したドキュメント

Sixty- two elderly people were asked to answer a questionnaire about characteristics, activities of daily living, health management, disaster prevention awareness,

全国の 研究者情報 各大学の.

金沢大学学際科学実験センター アイソトープ総合研究施設 千葉大学大学院医学研究院

東京大学 大学院情報理工学系研究科 数理情報学専攻. [email protected]

情報理工学研究科 情報・通信工学専攻. 2012/7/12

関東総合通信局 東京電機大学 工学部電気電子工学科 電気通信システム 昭和62年3月以降

Is it possible to obtain similar results as in [COP] and in the present paper concerning John disks that are not necessarily

UBICOMM2008 BEST PAPER AWARD 丹   康 雄 情報科学研究科 教 授 平成20年11月. マルチメディア・仮想環境基礎研究会MVE賞