システムデザイン研究科情報通信システム学域

(1)

i-vector に基づく話者照合における非線形帯域拡張法とその評価に関する研究

A study of non-linear artificial bandwidth extension by using i-vector-based speaker

verification and its evaluation

首都大学東京大学院

システムデザイン研究科情報通信システム学域

17890512 ^上西遼大

(2)

はじめに

1

2 i-vectorPLDA, x-vector/PLDA

^{に基づく話者照合}

4

2.1 i-vector [1] . . . 4

2.2 PLDA [2] . . . 6

2.3 x-vector [3] . . . 6

3

非線形帯域拡張法

9 3.1

付帯情報を用いない帯域拡張法

. . . 9

3.2

スペクトルシフティング法

(SHIFT) . . . 9

3.3

線形予測分析合成法

(LPAS) . . . 9

3.4

^{非線形帯域拡張法}

(N-BWE) . . . 10

3.5 PLDA

^{に基づく話者照合と}

N-BWE . . . 12

3.6

帯域拡張法のスペクトログラムによる比較

. . . 12

4

日本語データベースにおいての実験

14 4.1

^{共通実験条件}

. . . 14

4.2 clean

^音声

. . . 15

4.2.1

比較手法

(clean

音声

) . . . 15

4.2.2

^実験結果

(clean

^音声

) . . . 16

4.3

電話音声

. . . 18

4.3.1

^比較手法

(

^電話音声

) . . . 18

4.3.2

^実験結果

(

^電話音声

) . . . 20

5

英語データベースにおいての実験

22 5.1

共通実験条件

. . . 22

5.1.1

英語データベースの詳細

. . . 22

5.2

^{共通比較条件}

(

^{話者照合実験}

) . . . 23

5.3 i-vector

に基づく話者照合実験

. . . 25

(3)

^実験条件

(i-vector) . . . 25

5.3.2

実験結果

(i-vector) . . . 26

5.4 x-vector

^{に基づく話者照合実験}

. . . 28

5.4.1

^実験条件

(x-vector). . . 28

5.4.2

実験結果

(x-vector). . . 28

5.5

^{客観評価実験}

. . . 30

5.5.1

客観評価実験結果

. . . 31

6

結論

34

7

^謝辞

35

8

^参考文献

36

(4)

あらまし

iii

あらまし

本論文は

, i-vector / PLDA, x-vector / PLDA

に基づく話者照合システムを用いて非線形帯域拡張（

N-BWE

）法を評価することを目的とし

ている

. N-BWE

法とは帯域拡張法の一つで

,

モデル学習を行わず

,

計

算量が非常に軽い手法として提案された

. N-BWE

^{は単純な非線形関} 数とフィルタのみで構成されているにもかかわらず

,GMM-UBM

に基づく話者照合の等価エラー率

(EER)

と二乗平均平方根対数スペクトル歪み（

RMS-LSD

）において高い性能を得られることが報告され

ている

. PLDA

に基づく話者照合は話者とチャネルの依存性を分離す

ることに焦点を当てているが

,

帯域制限による劣化音声を用いた場合については議論されていない

.

そこで本論文では

, i-vector / PLDA , x-vector / PLDA

に基づく話者照合システムを構築し

, N-Bwe

や他の帯域拡張法を用いることでサンプリング周波数の違いによる帯域制限のかかった音声がシステムに与える影響について調査し

,

帯域拡張を適用した音声の客観評価と

EER

^{の関係を考察した}

.

^{実験結果より}

,

N-Bwe

で生成された音声は低い

RMS-LSD

^を得られ

,

^{かつアップサ}

ンプリングのみを行なった音声と比較して

i-vector

を用いた場合及び

x-vector

を用いた場合の話者照合システムどちらにおいても

EER

^が

改善したことを報告する

.

(5)

あらまし

iv

Summary

This paper aims to evaluate an eﬀect of a non-linear bandwidth extension (N-Bwe) method by using i-vector/PLDA-based and x-vector/PLDA-based automatic speaker verification (ASV) systems. The N-Bwe method has been reported as a blind, non-learning and light-weight BWE approach.

Although the N-Bwe method consists of a simple non-linear function and lters, it has archived high accuracy in terms of speaker individual- ity and root mean square log-spectral distortion (RMS-LSD). Recently, i-vector/PLDA-based ASV systems become one of the state-of-the-art ASV systems. While the PLDA-based ASV approaches focus on re- moving speaker and channel dependency, there are few discussions about speeches which degraded by band limits. Thus, this paper investigates the infuence of the speech degradation by band limits toward the PLDA- based ASV systems. In the experiments, the N-Bwe and shift-based BWE methods were evaluated by the PLDA-based ASV systems. From the results, the N-Bwe method improved equal error rate (EER) from the simply up-sampled situation.

(6)

1.

^はじめに

1

1 ^はじめに

近年

,

端末へのログインやサイトへのアクセス

,

^{入室管理など様々} な場面において本人認証を行う機会が増えている

.

これらは主にパスワードや

ID

カードなどを用いることで本人認証が行われている

.

しかしこれらの認証方法は

ID

カードの携帯やパスワードの記憶などユーザーへの負担が大きい

.

また紛失

,

忘却

,

盗難などのリスクも常に存在し

,

このリスクもユーザーへの負担につながっている

.

^これらのユーザーへの負担を軽くする方法として指紋

,

虹彩などの個人の身体的特徴を用いて個人認証を行う生体認証技術が注目を集めている

.

特に声を用いた生体認証は発話内容や言語に依存せず

,

^{発生器官の形} 状の違いなどの身体的特徴や話し方の癖といった行動的特徴を併せ持っていることから

,

生体認証に用いる特徴量として頑健であると考える

.

声を用いた生体認証技術である話者照合は

i-vector [1, 4, 5]

や

probabilistic linear discriminant analysis(PLDA)

^{に基づく手法}

[2,6,7]

^や

x-vector

^{などと呼ばれる手法}

[3,8–10]

により非常にその認証精度が向

上していることが報告されている

.

これらの手法はアメリカ国立標準

技術研究所

(NIST)

^{から公開されている}

speaker recognition evaluation (SRE)

シリーズや

Speaker In the Wild(SITW)

と呼ばれる世界標準の

データベースを用いて評価され

,

高い性能を得られることが示されて

いる

.

特に近年ではネットバンキングや携帯電話のセキュリティシス

テムやスマートスピーカーなどの音声対話システムや携帯電話

, PC

などの普及により音声を入力インターフェースとしてシステムを稼

働する機会が増えてきている

.

^{これらのことから}

,

^{話者照合システム}

のさらなる普及が期待されている

.

しかし収録環境によってはシステ

ムが想定しているサンプリング周波数と実際の入力音声のサンプリ

ング周波数が一致しない場合も想定されている

.

特に通信を介した

音声は通信速度維持のために

,

帯域に制限がかかるため音声の明瞭性

や話者性が大幅に低下してしまい認証システムの性能に大きな影響

を与えてしまうことが知られている

[11, 12].

サンプリング周波数の

(7)

1.

^はじめに

2

不一致を解消するために一般的にはサンプリング周波数が高い音声をダウンサンプリングし低いサンプリング周波数に合わせることが多い

.

しかし入力されるテストデータのサンプリング周波数が低いため

,

学習データをダウンサンプリングさせて話者照合システムを再び構築し直すには高いコストがかかるという問題点がある

.

テストデータのサンプリング周波数が低いため

,

アップサンプリングを適用してサンプリング周波数を学習データに合わせることも可能であるが

,

アップサンプリングのみだと帯域制限の影響が残るため話者照合性能が低下してしまうことが知られている

.

そこで本論文では帯域制限の問題に対応するため

,

帯域拡張法に焦点を当て

,

^{話者照合実験を行う}

.

帯域拡張法は帯域制限などにより高周波数成分が欠落しているデータに対して高周波数を復元する技術の一である

[13–17].

これまでに多くの帯域拡張法が提案されているが大まかには

,

付帯情報を用いる手法と用いない手法の二つに分類することができる

.

付帯情報を用いない手法は低周波数成分のみを用いて高周波数成分を推定するものである

.

近年画像信号処理の分野において

,

非線形処理による超解像画像処理の手法が報告された

[18].

また

,

付帯情報を用いず

,

学習を行わないかつ計算量が軽い手法として非線形帯域拡張法

N-Bwe(Non-linearbandwidth extension) [11]

^が提

案された

. N-Bwe

は単純な非線形関数で構成されているのにもかか

わらず

, GMM-UBM(Gaussian mixture model - Universal background

model)

に基づく話者照合の等価エラー率

(EER)

^{において高い性能が}

得られたことが報告されている

.

また近年

,

複数の帯域制限が混合しているデータを用いてモデル学習を行う話者照合システムが報告さ

れている

[12, 19].

しかし帯域拡張法を用いた話者照合システムの影

響を調査したものはほとんどない

.

そのため本論文では付帯情報を用いない帯域拡張法に焦点を当て

,

最先端の話者照合システムへの影響を調査する

.

実験では

i-vector

に基づく話者照合システムを構築し

,

N-Bwe

や他の帯域拡張法を用いた場合にシステムに与える影響につ

いて調査し

,

帯域拡張を適用した音声の

EER

^{と客観評価について考}

(8)

1.

^はじめに

3

察した

.

具体的には帯域制限がかかった

8kHz

^{の音声にアップサンプ} リングを適用し

16kHz

にした音声と帯域制限がかかった

8kHz

の音声に非線形帯域拡張法を適用して

16kHz

^{にした音声を比較する}

.

^また登録データ

,

^{学習データ}

,

^{テストデータ全てを}

N-Bwe

^{法を用いて}

16kHz

にし話者照合実験を行なった結果とテストデータのみを

N-Bwe

法を

用いて

16kHz

にし話者照合実験を行なった結果

, 8kHz

^{の音声を用い}

て話者照合実験を行なった結果を比較し考察する

.

また

N-Bwe

が日

本語以外の言語

(

^英語

)

^{でも有効であるか}

,

実際に使用されているサン

プリング周波数が低く

,

帯域制限のかかった固定電話の音声でも有効

であるか

,

会話音声

,

ノイズがのった音声にも頑健であるかについて

も話者照合実験により合わせて言及する

. N-Bwe

^{が有効であること}

を確認するために

N-Bwe

を適用した

16kHz

の音声

,

アップサンプリ

ングをした

16kHz

の音声

, 8kHz

の音声

, 16kHz

の音声を用いてそれぞ

れ話者照合実験

,

客観評価実験を行なった

.

実験結果より帯域制限の

かかった音声はアップサンプリングするだけでなく

N-Bwe

法を用い

ることで照合性能が改善した

.

^また全て

8kHz

^{で構築した話者照合シ}

ステムの精度と全て

N-Bwe

^を適用し

16kHz

で構築した話者照合シス

テムの精度と比較すると

N-Bwe

法を用いた場合の話者照合システム

の精度が改善したことを報告する

.

^{同様に他言語}

,

^{固定電話の音声}

,

^ノ

イズがのった音声にも

N-Bwe

を適用することでアップサンプリング

した音声を適用する場合よりも頑健であることを報告する

.

(9)

2. I-VECTOR PLDA, X-VECTOR/PLDA

^{に基づく話者照合}

4

2 i-vectorPLDA, x-vector / PLDA ^{に基づく話者照合}

話者照合とはユーザーの入力音声を用いて

,

^{入力音声が本人である} か否かを判定するシステムである

.

一般的に話者照合システムは登録部と照合部の二つに分けられており

,

登録部において照合したい話者の音声の声を用いて特定話者モデルを作成する

.

照合部では入力された音声の特徴量と登録部で作成された特定話者モデルのスコアを計算し

,

^{閾値以上であれば受理}

,

未満であれば棄却するシステムである

.

に基づく手法や

x-vector

に基づく手法が提案されているが

,

本稿では実験に使用する

i-vector

^に基づく話者照合システム及び

x-vector

に基づく話者照合システムについて言及することにする

.

2.1 i-vector [1]

近年

, i-vector

に基づく話者照合システムは最新のシステムの一つ

としてみなされている

[1, 4, 5]. i-vector

における話者モデルは式

1

^によって定義される

.

Mu = mubm+Tω^u, (1)

ここで

, m_ubm ∈ R^CD^F

は大量の不特定話者データで学習した

universal

background model (UBM)

と呼ばれる

GMM

から平均を取り出した

GMM

^{スーパーベクトル}

,T ∈R^CD^F^×^D^T

は話者とチャネル変動をを含む

全変動

(TV)

^{行列である}

. D

は音響特徴量の次元数を表す

. ωu ∈R^D^T

^は

発話

u

の固有ベクトルを表す確率変数であり

,

平均ベクトルが

0∈ R^D^T

で共分散行列が単位行列

1 ∈ R^D^T^×^D^T

^{のガウス分布}

N(ω; 0,I)

^に従う

.

この

ω

^{が各発話に対する}

i-vector

であり

GMM

スーパーベクトル空間

における平均的な話者からの差を次元圧縮し各話者を表現したものと

考えられる

. i-vector

^{を用いる場合}

,

^{識別には主に}

cos

^類似度や

PLDA

を用いることが多い

.

(10)

^{に基づく話者照合}

5

登録部照合部

発話 i-vector抽出 𝑝(𝜔_$|𝛿, 𝜁_$)

UBM TV PLDAmodel 対数尤度⽐

受理棄却

図

1: i-vector

に基づく話者照合のフロー図

a.

コサイン類似度を用いた評価

登録話者の

i-vectorω¹

^{と照合話者の}

i-vectorω²

^{のコサイン類似} 度によりスコアリングを行う

.

cos(ω1, ω2) = ω¹ω˙²

||ω¹||||ω²|| (2)

この類似度が閾値以上であれば

,

照合話者を登録話者とみなし

,

閾値以下であれば受理されない

.

^この時

i-vector

^{をそのまま用い} るのではなく

,

話者内変動の影響を補正して得たベクトルを用いることが有効である

.

b. PLDA

に基づく評価

登録話者の

i-vector ω¹

^{と照合話者の}

i-vector ω²

^を用いて

ω¹, ω²

が同一話者モデルから生成されたか

(H₁)

^否か

(H₀)

^{に関する仮説} に対して対数尤度比

log p(ω¹, ω²|H1)

p(ω1|H₀)p(ω2|H₀) (3)

を計算することで照合性能を評価する

. PLDA

の詳細においては

次節で説明する

.

(11)

^{に基づく話者照合}

6

2.2 PLDA [2]

この節では

i-vector

に基づく話者照合のための

PLDA

^{について説明} する

. PLDA

^では

,

^発話

u

^{から抽出された}

i-vectorωu

をその生成過程を無視して式

(4)

のように生成されたと考える

.

ωu = ω¯ + Φδ+ Γζu +ϵu. (4)

ここで

,Φ

^と

Γ

は話者とチャネルの部分空間を張る基底行列であり

, δ

と

ζu

は話者及びチャネル因子を表しており

,

それぞれ標準正規分布に従う

. ϵ^u

^{は残差成分を表し}

,

^{平均ベクトル}

0 ∈ R^CD^F,

^{対角共分散行} 列

Σ ∈ R^CD^F^×^CD^F

^{のガウス分布に従う}

. ¯ω

^は

i-vector

^{空間におけるオフ} セットである

.

式

(4)

から確率生成モデルを考える

.

p(ωu|δ, ζu) = N( ¯ω+ Φδ+ Γζu,Σ). (5)

式

(5)

^{より登録話者の}

i-vectorω1

と照合話者の

i-vectorω2

を用いて

ω1,ω2

が同一話者モデルから生成されたか

(H₁)

否か

(H₀)

に関する仮説に対して対数尤度比

log p(ω1, ω2|H₁)

p(ω¹|H0)p(ω²|H0) (6)

を計算することで照合性能を評価する

. i-vector/PLDA

^{に基づく話者} 照合システムは図

1

^{によって示す}

.

2.3 x-vector [3]

話者照合において最も

state-of-the-art

とされている話者照合の方法

として

x-vector

^がある

.

これは可変長の発話から固定次元にマッピ

ングする

DNN(Deep Neural Network)

を構築することで得られる

. i-

vector

に基づく手法よりも話者照合に対して頑健であると報告されて

いるが

,

膨大な発話データが必要である

. x-vector/PLDA

^{に基づく話}

者照合システムは図

2

によって示す

. i-vector

に基づく話者照合シス

テムと同様にあらかじめ登録部において照合話者及び

, DNN, PLDA

(12)

^{に基づく話者照合}

7

登録部照合部

発話話者毎の

x-vector抽出 𝑝(𝜔_$|𝛿, 𝜁_$)

発話話者毎の

x-vector抽出 𝑝(𝜔_$|𝛿, 𝜁_$)

DNN PLDAmodel 対数尤度⽐

受理棄却

図

2: x-vector

に基づく話者照合のフロー図

の構築を行なっている必要がある

. DNN

の概要図を図

3

に示す

. DNN

はネットワークは

7

^{つの層とプーリング層}

,

活性化関数で構成されており

, N

人の話者を分類されるように学習される

.

図

3

において

i^t_s

は発話

s,

^フレーム

t

^の特徴

i

^であり

,

^これを

DNN

^{の入力として用いる}

.

プーリング層より前の隠れ層ではフレーム単位で処理を行なっている

.

プーリング層は前の隠れ層の出力を集約し

,

対角標準偏差と平均を計算する

.

プーリング層より後の隠れ層は全てセグメント単位で処理を行なっている

.

この結果は全結合である最終層に伝搬され

,

発話

s

の話者

k

のラベルが出力される

.

図

3

の

enb

は埋め込みを示してお

り

,

^これが

x-vector

^{と呼ばれる}

. DNN

を構築する目的はフレーム単位

ではなく発話単位で埋め込みの

enb

を抽出することである

. x-vector

を用いる話者照合のスコアを計算するために通常

PLDA

^を用いる

.

(13)

^{に基づく話者照合}

8

Frame level Segment

level

Static Pooling layer

𝑖_"^#

𝑒𝑛𝑏

Spkrlabel

𝑃(𝑠𝑝𝑘𝑟_-|𝑠)

図

3: DNN

構成図

(14)

3.

^{非線形帯域拡張法}

9

3 ^{非線形帯域拡張法}

3.1

付帯情報を用いない帯域拡張法

帯域拡張法としてこれまでに多くの手法が報告されている

.

^これらの手法は付帯情報を用いるか用いないかに分類することができる

.

^本論文では付帯情報を用いず

,

かつ学習を行わない帯域拡張法に焦点を当てる

.

一般的な帯域拡張ではインターポレータとローパスフィルタによるアップサンプリングを狭帯域音声に適用し

,

高周波域を持たないアップサンプリング音声を生成する

.

付帯情報を用いない帯域拡張法ではアップサンプリングによりできた空の高周波成分を低周波数成分のみで補うことを目的としている

.

3.2

スペクトルシフティング法

(SHIFT)

非学習型の帯域拡張法の一つとしてスペクトルシフティング法が

ある

[20].

^{この手法は}

4 kHz

未満の周期を変調することによって高周

波成分を生成し

,

その成分をアップサンプリングにより空いた周波数領域にシフトすることで広帯域音声を生成している

.

^{単純な処理のた} め処理量が非常に少ないという利点がある．

3.3

線形予測分析合成法

(LPAS)

付帯状況を用いない帯域拡張法の一つであり

,

^{シフトベースの手法} の品質を改善するためにシフトに基づく手法を拡張した

LPAS [21]

が提案された

. LPAS

は狭帯域信号からスペクトル包絡線および残留誤差情報から抽出された高周波数成分を用いて広帯域信号生成する手法である

.

生成された高周波成分は単純にシフトされたものよりも自然なものになることが報告されている

.

LPAS

のフロー図を図

4

に示す

.

狭帯域音声

x_wb[n]

から広帯域音声

ˆ

xswb[n]

を生成するためフレームごとに処理することを考える

.

^まず

,

図

4

の

2

の高周波数成分生成について説明する

.

ここで

a^wb

は線形予

(15)

3.

^{非線形帯域拡張法}

10

図

4: LPAS

のフロー図

測係数であり

,

これを用いることで周波数応答

H(ω)

を求める

.

残差成分

ewb[n]

^{はゼロ挿入をし}

, H(ω)

^と

ˆ(Eswb(ω))

^をかけ

,

^{ハイパスフィル} タを通すことで

,

高周波数成分のみを抽出する

.

^次にまず

,

^図

4

^の

3

^の低周波数成分について説明する

.

ここでは狭帯域音声にアップサンプリングを適応することで高周波数成分を持たない広帯域音声を生成する

.

最後に図

4

の

2

の出力に逆フーリエ変換を適応し

,

時間領域の信号を得る

.

時間領域において

,

図

4

の

3

の出力を

s

を用いてサンプリングのずれを考慮し足し合わせることで擬似的に高周波数成分を持つ広帯域音声を生成する

.

フレーム毎に処理を行うため

,

フレーム同士の不連続性を避けるため合成の際には

[22, 23]

^を用いる

. 3.2

^の拡張法のため

,

作成された音声は自然性が高いが

,

^{照合を考慮した帯} 域拡張法ではない

.

3.4

^{非線形帯域拡張法}

(N-BWE)

付帯情報を用いない手法でかつ学習を行わない帯域拡張法として非

線形帯域拡張法

(N-BWE)

^{が提案されている}

[11].

^{非線形帯域拡張法}

の利点として

,

学習を行わないため処理が非常に軽く

,

任意のサンプ

リング周波数に対応できることである

.

^図

5

^は

N-BWE

^{法のブロック}

図を示している

.

^{図に示すように}

, F_S₀Hz

でサンプリングされた狭帯

域音声

x[n]

に対して

,

インターポレータ

m,

およびローパスフィルタ

(16)

3.

^{非線形帯域拡張法}

11

Limiter

Narrowband

signal Upsampling Extended

signal LPF

Sampling rate Upsampling rate

Non-linear function +sgn

↑

Hz Hz

図

5: N-BWE

法フロー図

を用いたアップサンプリングを適用することで

,

^{高周波数成分を持た} ない

y_{U P}[n]

^{を生成する}

.

^ここで

, n

^{は離散時間変数である}

.

^次に

,

^アップサンプリングされた信号に対して式

(7)

で表される非線形関数を用いることで高周波数成分が生成される

.

yNLF[n] =sgn(yF(A)[n]) · |yF(A)[n]^α| ×β, (7)

ただし

,

sgn(a) =







1 (a> 0) 0 (a= 0)

−1 (a< 0)

, (8)

ここで

,α

^と

β

は非線形性制御のための任意のパラメーターであり

, a

は実数である

.

^また

,

^図

6

^の

limiter

は以下の式で与えられる

.

yHB[n] = 

y_NLF[n], y_NLF[n] ≤ T_h

M, y_NLF[n] > T_h , (9)

ここで

,T_h

は閾値

, M

は定数である

.

図

5

の

h_A

と

h_B

はフィルタを示し

ており

,

^{オールパスフィルタ}

,

バンドパスフィルタやハイパスフィル

(17)

3.

^{非線形帯域拡張法}

12

200 400 600 Time (secs) (a) Reference Speech

0 1 2 3 4 5 6 7 8

Frequency (kHz)

200 400 600 Time (secs) (b) Narrowband 0

1 2 3 4 5 6 7 8

Frequency (kHz)

200 400 600 Time (secs)

(c) SHIFT 0

1 2 3 4 5 6 7 8

Frequency (kHz)

200 400 600 Time (secs)

(d) LPA S 0

1 2 3 4 5 6 7 8

Frequency (kHz)

200 400 600 Time (secs)

(e) N-BW E 0

1 2 3 4 5 6 7 8

Frequency (kHz)

(a) Org (b) UP (c) SHIFT (d) LPAS (e) N-BWE

図

6: Spectrogram examples of speech signals (m= 2;F_S₀ =8 kHz,F_S₁ =16kHz)

タを想定している

. h_A

は非線形関数を適用する狙った帯域を選択するためのフィルタであり

,h_B

は特に非線形処理を施した音声に生じる低周波成分へのまわりこみなどによるノイズを取り除く目的がある

.

まわりこみを取り除くことで

y_{N B}[n]

との足し合わせの際に元の音声を傷つけないためノイズが低減されると期待できる

.

3.5 PLDA

^{に基づく話者照合と}

N-BWE

帯域拡張法は帯域制限による高周波成分を補うことを目的として

いる

. PLDA

に基づく話者照合システムは話者とチャネル変動を取り

除くことに重点を置いている

.

しかし

,

これまでに帯域制限によって失った変動については議論されていない

.

^{そこで本論文では}

,

^帯域制限により劣化した音声を用い帯域拡張法と

PLDA

^{システムの性能に} ついても調査し

,

議論する

.

3.6

帯域拡張法のスペクトログラムによる比較

図

6

は

,

原音声

,

アップサンプリング

, SHIFT, LPAS, N-BWE

による

音声信号のスペクトログラムを示している

.

^まず

, 16kHz

^{でサンプリ}

ングされた原音声の信号

(a)

は

0 kHz

から

8 kHz

までの周波数成分を

(18)

3.

^{非線形帯域拡張法}

13

有していることがわかる

.

次に原音声のサンプリング周波数を

16 kHz

から

8 kHz

に落とし

,

また

8 kHz

から

16kHz

にアップサンプリング

した音声が図

2

^の

(b)

^である

.

^{図からもわかるように}

4 kHz

^以上の高

い周波数成分を含んでいない

.

^信号

(c)

^は

SHIFT [20]

^{によって生成さ}

れた音声

,

信号

(d)

は

LPAS [21]

によって生成された音声

,

信号

(e)

は

N-BWE

で生成された音声である

. (c), (d), (e)

^{から帯域拡張法によっ}

てアップサンプリングではなかった高周波数成分が生成されている

ことがわかる

.

(19)

4.

日本語データベースにおいての実験

14

4 日本語データベースにおいての実験

この章ではまず

N-BWE

^法が

i-vector

に基づく話者照合実験において有効かどうかを確認する

.

次に

, N-BWE

の有効性を評価するために原音声及び通信音声を用いて

i-vector

に基づく話者照合実験行い

N-BWE

法が通信音声においても有効であるかを確認した

.

4.1

^{共通実験条件}

話者照合システムの主な構築条件を

1

に示す

. i-vector

を推定するために必要となる

UBM, TV

^{行列の学習には}

JNAS

^{データベース}

[24]

から女性話者の音声

23657

^{文章を用いた}

. GMM

^{の混合数は}

1024, i-

vector

の次元数は

400

次元である

.

日本語データベースの実験では評

価のために

VLD

^{データベース}

[25]

^を用いた

. JNAS

^{データベースで} はサンプリング周波数が

16kHz

であるが

, VLD

データベースではサンプリング周波数は

48kHz

で収録されているため

, 16kHz

にダウンサンプリングしたものを

16kHz

^{の原音声として扱う}

.

^{この原音声のう} ち

, 70

文章

×17

名を特定話者モデルの学習データ

, 30

文章

×17

名をテストデータとした

.

表

1:

共通実験条件

UBM, TV

用データベース

JNAS(

女性

) 23657

文章

GMM

混合数

1024

i-vector

次元数

400

次元

UBM

学習回数

30

回

TV

学習回数

10

回

登録データ

VLD

データベース

(

女性

) 17

名

x70

文章テストデータ

VLD

データベース

(

女性

) 17

名

x30

文章フレーム長

/

フレームシフト

20ms/10ms

特徴量

MFCC19

次元

+ ∆ + ∆∆

評価尺度

EER(Equal Error Rate)

(20)

4.

日本語データベースにおいての実験

15

4.2 clean

^音声

この節では

clean

^{音声に対して}

N-BWE

^を適用し

,

^{その有効性につい} て確認する

.

^{なお本節の内容は}

[26]

において発表済みである

.

4.2.1 比較手法(clean音声)

比較手法は以下の通りである

.

テストデータのみに帯域拡張を適用

した結果

(test)

^{と学習データ}

,

登録データ及びテストデータ全てに帯

域拡張を適用した場合

(all)

の二つについて確認する

. (A) UP (test)

狭帯域音声

(8 kHz

^{サンプリング}

)

に対してアップサンプリングのみを行なった音声

(y_{U P}[n])

をテストデータのみに用いた

. (B) N-BWE (test)

狭帯域音声に

N-BWE [11]

を適用した音声をテストデータとして用いた

.

フィルタ

h_A[n]

には以下の式

(10)

を用いた

.

フィルタ

hB[n]

^は図

7

^{のように定義した}

.

hA[n] = 

1 (n = 0)

0 (n , 0). (10)

非線形関数

(

^式

(7))

^の

α

^と

β

^{はそれぞれ}

2

^と

100,000

^とした

. (C) Down (test)

16 kHz

^{の原音声から}

8 kHz

にダウンサンプリングされた狭帯域

音声

x[n]

を登録及びテストデータとして用いた

. (D) N-BWE (all)

狭帯域音声に

N-BWE [11]

を適用した音声をテストデータとして用いた

.

フィルタ

h_A[n]

には以下の式

(10)

を用いた

.

フィルタ

hB[n]

^は図

7

^{のように定義した}

.

^{非線形関数}

(

^式

(7))

^の

α

^と

β

^はそれぞれ

2

^と

100,000

^とした

.

(E) Org (all)

全ての音声データは

16 kHz

^{の原音声である}

.

(21)

4.

日本語データベースにおいての実験

16

図

7: Filters designed for the N-BWE

表

2:

比較手法

(clean

音声

)

Train Enrollment Test

(A)UP

原音声

(16k)

原音声

(16k)

アップ

サンプリング

(B)N-BWE

原音声

(16k)

原音声

(16k) N-BWE

(C)Down

ダウン

サンプリング

ダウンサンプリング

(D)N-BWE N-BWE N-BWE N-BWE

(E)Org

原音声

(16k)

原音声

(16k)

原音声

(16k)

4.2.2 実験結果(clean音声)

図

8

に手法ごとの

EER

を示す

.

まず

(A)UP

と

(E)Org

を比較する

. (A)

^と

(E)

の違いはテストデータが帯域制限されているか

,

^いないか

(22)

4.

日本語データベースにおいての実験

17

6.9 6.67

3.09

2.31

0.76 0

1 2 3 4 5 6 7 8

(A)Up (B)N-BWE (C)Down (D)N-Bwe (E)Org

EER(%)

図

8:

話者照合の実験結果

(clean

音声

)

のみの違いであるが

, (A)

の照合性能が大幅に低下している

.

このことにより

,

音声の帯域制限は話者照合の照合性能に大きく影響を与えていることが確認できる

.

次に

(A)UP

と

(B)N-BWE

を比較してみると

,

(B)N-BWE

^{の方が精度が高い}

.

このことにより高帯域成分による影響

もわずかながらではあるが話者照合の性能に影響を与えていることがわかる

.

しかし

, (A)UP, (B)N-BWE

と

(C)Down

をそれぞれ比較すると

,

テストデータをアップサンプリング

,

帯域拡張をしたものよりも

,

ダウンサンプリングで学習しなおしたものの方が性能が良いということがわかる

.

^次に

(C)Down

^と

(D)N-BWE

^{を比較してみると}

, (D)

^の方が照合性能が高い

.

^{これらのことより}

,

^{話者照合において}

N-BWE

法が有効であり

,

サンプリング周波数を落として学習しなおすよりも

N-BWE

法を適用して学習しなおす方が照合性能が良いということが

確認できた

.

(23)

4.

日本語データベースにおいての実験

18

4.3

^電話音声

この節では電話音声に対して

N-BWE

^を適用し

,

^{その有効性につい} て確認する

.

^{なお本節の内容は}

[27]

において発表済みである

.

^電話音声に関しては通信を介した音声は様々なパターンがあるが本稿では固定電話の音声について考える

.

本稿では入力音声に対してを

ITU-T

勧告

G.712 [28]

に基づくフィルタを用い帯域制限をかけたうえでダ

ウンサンプリングを行う

.

次に

ITU-T

勧告

G.711 [29]

によって策定された

µ− law

方式による符号化を用いることで固定電話を介した音声を摸擬した

.

実験において

µ

は圧縮効率を表しており

,

値が小さいほど強く圧縮されていることを示す

.

電話音声作成のフローを図

9

示す

.

エンコーダは以下の式

11

で作成し

,

デコーダーは以下の式

12

で作成した

.

F(s) = sign(s)in(1+µ|s|)

in(1+µ) (11)

y^′ =y∗2⁻⁷F⁻¹(y^′) = sign(y^′)1

µ(1+µ)^|^y^′^|−1 (12)

また正規化は次の式

13

で表した

.

y = sign(F).∗ceil(|F| ∗2⁷) (13)

4.3.1 比較手法(電話音声)

本実験では実際に使用されている圧縮率

µ= 255

が

N-BWE

法でも有効であるか確認するため

,

^{他の圧縮率及び}

clean

^{音声とも比較し}

,

^その有効性を検証する

.

(A) 8k

16 kHz

の原音声から

8 kHz

にダウンサンプリングされた狭帯域

音声

x[n]

^を学習

,

登録及びテストデータとして用いた

.

(24)

4.

日本語データベースにおいての実験

19

Narrowband signal

図

9:

電話音声作成フロー

(B) UP

狭帯域音声

(8 kHz

サンプリング

)

に対してアップサンプリングのみを行なった音声

(yU P[n])

^を学習

,

登録及びテストデータに用いた

.

(C) N-BWE

狭帯域音声に

N-BWE [11]

^{を適用した音声を学習}

,

^{登録及びテ} ストデータとして用いた

.

フィルタ

h_A[n]

には式

(10)

を用いた

.

フィルタ

hB[n]

^は図

7

^{のように定義した}

.

^{非線形関数}

(

^式

(7))

^の

α

と

β

^{はそれぞれ}

2

^と

100,000

^とした

.

(D) 8k (255) (G) 8k (127) (J) 8k (63)

16 kHz

^{の原音声から}

8 kHz

にダウンサンプリングされた狭帯域

音声

x[n]

に圧縮

,

伸長を適用し

,

学習

,

登録及びテストデータとして用いた

.

また圧縮率はそれぞれ

µ = 255, µ = 127, µ = 63

とした

.

(E) UP (255) (H) UP (127) (K) UP (63)

狭帯域音声

(8 kHz

^{サンプリング}

)

に対してアップサンプリングのみを行なった音声

(y_{U P}[n])

^に圧縮

,

^{伸長を適用し}

,

^学習

,

^登録及びテストデータに用いた

.

また圧縮率はそれぞれ

µ = 255, µ = 127, µ = 63

^とした

.

(F) N-BWE (255) (I) N-BWE(127) (L)N-BWE(63)

狭帯域音声に

N-BWE [11]

^を適用し

,

^圧縮

,

^{伸長した音声を学習}

,

登録及びテストデータとして用いた

.

^フィルタ

h_A[n]

^には式

(10)

を用いた

.

フィルタ

h_B[n]

は図

7

のように定義した

.

非線形関数

(

^式

(7))

^の

α

^と

β

^{はそれぞれ}

2

^と

100,000

^とした

.

^{また圧縮率はそ}

(25)

4.

日本語データベースにおいての実験

20

表

3:

比較手法

(電話音声)

(A)8k

ダウン

サンプリング

ダウンサンプリング

(B)UP

アップ

サンプリング

アップサンプリング

(C)N-BWE N-BWE N-BWE N-BWE

(D)8k (255)

ダウン

サンプリング

(255)

ダウンサンプリング

(255)

ダウンサンプリング

(255)

(E)UP (255)

アップ

サンプリング

(255)

アップサンプリング

(255)

アップサンプリング

(255)

(F)N-BWE (255) N-BWE (255) N-BWE (255) N-BWE (255)

(G)8k (127)

ダウン

サンプリング

(127)

ダウンサンプリング

(127)

ダウンサンプリング

(127)

(H)UP (127)

アップ

サンプリング

(127)

アップサンプリング

(127)

アップサンプリング

(127)

(I)N-BWE (127) N-BWE (127) N-BWE (127) N-BWE (127)

(J)8k (63)

ダウン

サンプリング

(63)

ダウンサンプリング

(63)

ダウンサンプリング

(63)

(K)UP (63)

アップ

サンプリング

(63)

アップサンプリング

(63)

アップサンプリング

(63)

(L)N-BWE (63) N-BWE (63) N-BWE (63) N-BWE (63)

れぞれ

µ = 255, µ = 127, µ =63

とした

.

4.3.2 実験結果(電話音声)

図

10

に手法ごとの

EER

を示す

.

まず

,

クリーン音声における

(A)

アップサンプリング

, (B)

^提案法

, (C)8k

^{を比較すると}

, (C)

^{よりもサン}

プリング周波数をあげた

(A), (B)

の方が

EER

が低くなっていること

がわかる

.

ここで

(B)

が

(A)

よよりも

EER

が低いため帯域拡張法は

有効であると考えられる

.

^次に

µ = 255

^のときの

(D), (E), (F)

^につい

て比較してみる

.

この

3

つの手法の中で提案法を用いた

(E)

が一番照

合性能が良いことがわかる

. µ = 127,63

も同様の傾向が得られた

.

^圧

(26)

4.

日本語データベースにおいての実験

21

2.66 2.31 3.09

4.52 3.73

4.92 4.41

3.22 4.77

6.05 5.12

5.97

2 2.5 3 3.5 4 4.5 5 5.5 6 6.5

(A) (B) (C) (D) (E) (F) (G) (H) (I) (J) (K) (L)

Equal Error Rate(%)

アップサンプリング提案法 8k

clean 𝜇 = 255 𝜇 = 127 𝜇 = 63

図

10:

話者照合の実験結果

(

電話音声

)

縮がかかりノイズを含む音声においては非線形帯域拡張法が有効で

あることがわかる

.

これは提案法により生成した高周波数成分がノ

イズの影響を受けていても話者性を表現できているからだと考えら

れる

. µ = 255

^及び

µ = 127

の結果を比較するときつい圧縮がかかる

µ = 127

の方が

3

手法とも

EER

が若干低い

. 8k

の結果でも

EER

が

低いことからノイズが含まれていても話者性を表す部分には悪い影

響を与えておらず

,

結果として

(G), (H)

の

EER

が

(D), (E)

よりも低く

なったと考えられる

.

(27)

5.

英語データベースにおいての実験

22

5 英語データベースにおいての実験

N-BWE

の有効性を評価するために実環境で収録された音声を用い

て

i-vector/PLDA

に基づく話者照合実験

, x-vector/PLDA

に基づく話者照合実験を

N-BWE

の音声と他の帯域拡張法を適用した音声で行い

EER

を比較した

.

また

,

その

EER

と生成した音声を客観評価尺度で評価したスコアとの関係について調査した

.

なお

i-vector

の実験に関しては

[30], x-vector

^{の実験に関しては}

[31]

^{で発表済みである}

.

5.1

共通実験条件

5.1.1 英語データベースの詳細

本実験では

Kaldi-toolkit [32]

^と

SITW

^{データベース}

[33]

^を用いて

i-vector/PLDA

に基づく話者照合システムの構築及び

x-vector/PLDA

に基づく話者照合システムの構築を行なった

.

^その際

, i-vector

^に基づく話者照合実験において必要な

UBM, PLDA, TV

行列を推定するた

め

,

また

x-vector

に基づく話者照合実験において

DNN

を構築するた

めに

Voxceleb

^{データベースを用いた}

. Voxceleb

^{データベースは二つ}

のデータセット

Voxceleb1 [34], Voxceleb2 [35]

で構成されており

,

どちらのデータセットも

Youtube

にアップロードされた著名人のインタビュービデオから収集されている

. Voxceleb1

^は話者数

1251,

^発話数は

100,000

以上

,Voxceleb2

は話者数

6112,

発話数は

1,000,000

以上となっている

.

これらのデータセットは様々な民族や職業

,

^年齢

,

^アクセントで構成されている

.

登録及びテスト用のデータベースには

SITW

を用いた

. SITW

は収録状況を制御したデータベースではなく

,

本来

の背景ノイズ等を含み

,

より実環境に近いデータベースとなっている

.

SITW

と

Voxceleb

は別々で収集されているが

, 2

つのデータベースに

は話者

60

^{名が重複しているため}

,

^学習前に

Voxceleb

^{のデータベース}

から削除した

.

^また

,

ノイズ用のデータベースとして

MUSAN [36]

^と

RIRNOISE [37]

を用いた

. MUSAN

データベースは

900

以上のノイズ

と様々なジャンルの音楽

, 12

言語の会話が含まれている

. RIRNOISE

(28)

5.

英語データベースにおいての実験

23

は部屋の残響ノイズである

. PLDA

^は

Voxceleb

^{データセットにノイ} ズを付与した音声を用いて学習した

.

ノイズデータベース以外の全てのデータベースの言語は英語であり

, 16 kHz

^{でサンプリングされて} いる

.

本実験でサンプリング周波数が

8 kHz

となっている狭帯域音声は全て原音声の

16 kHz

から

8 kHz

へのダウンサンプリングしたものを表す

.

5.2

共通比較条件

(

話者照合実験

)

表

4

^{に比較条件をまとめた}

.

詳細は以下の通りである

. (A) UP (enroll)

狭帯域音声

(8 kHz

サンプリング

)

に対してアップサンプリングのみを行なった音声

(y_{U P}[n])

を登録及びテストデータとして用いた

.

(B) SHIFT (enroll)

狭帯域音声に

SHIFT [20]

を適用した音声を登録及びテストデータとして用いた

.

バンドパスフィルタとして

[38]

^{を適用した}

. (C) LPAS (enroll)

狭帯域音声に

LPAS [21]

を適用した音声を登録及びテストデータとして用いた

.

(D) N-BWE (enroll)

狭帯域音声に

N-BWE [11]

を適用した音声を登録及びテストデータとして用いた

.

フィルタ

h_A[n]

には

(10)

を用いた

.

フィルタ

hB[n]

^は図

7

^{のように定義した}

.

^{非線形関数}

(

^式

(7))

^の

α

^と

β

^はそれぞれ

2

^と

100,000

^とした

.

(E) UP (test)

狭帯域音声

(8 kHz

^{サンプリング}

)

に対してアップサンプリングのみを行なった音声

(y_{U P}[n])

をテストデータとして用いた

.

登録

データは

16kHz

^{の原音声である}

.

(29)

5.

英語データベースにおいての実験

24

表

4: Experimental conditions for each method

(A)UP (enroll)

原音声

(16k)

アップサンプリングアップサンプリング

(B)SHIFT (enroll)

原音声

(16k) Shift Shift

(C)LPAS (enroll)

原音声

(16k) LPAS LPAS

(D)N-BWE (enroll)

原音声

(16k)

N-BWE N-BWE

(E)UP (test)

原音声

(16k)

原音声

(16k)

アップサンプリング

(F)SHIFT (test)

原音声

(16k)

原音声

(16k) Shift

(G)LPAS (test)

原音声

(16k)

原音声

(16k) LPAS

(H)N-BWE (test)

原音声

(16k)

原音声

(16k) N-BWE

(I)Down

ダウンサンプリングダウンサンプリングダウンサンプリング

(J)Org

原音声

(16k)

原音声

(16k)

原音声

(16k)

(F) SHIFT (test)

狭帯域音声に

SHIFT [20]

を適用した音声をテストデータとして用いた

.

バンドパスフィルタとして

[38]

を適用した

.

登録データは

16kHz

^{の原音声である}

.

(G) LPAS (test)

狭帯域音声に

LPAS [21]

を適用した音声をテストデータとして用いた

.

^{登録データは}

16kHz

^{の原音声である}

.

(H) N-BWE (test)

狭帯域音声に

N-BWE [11]

を適用した音声をテストデータとして用いた

.

^フィルタ

h_A[n]

^{には上記の式}

(10)

^を用いた

.

^フィルタ

h_B[n]

は図

7

のように定義した

.

非線形関数

(

式

(7))

の

α

^と

β

^はそれぞれ

2

^と

100,000

^とした

.

^{登録データは}

16kHz

^{の原音声である}

. (I) Down

16 kHz

の原音声から

8 kHz

にダウンサンプリングされた狭帯域

音声

x[n]

を登録及びテストデータとして用いた

. (J) Org

全ての音声データは

16 kHz

^{の原音声である}

.

(30)

5.

英語データベースにおいての実験

25

表

5:

実験条件

(i-vector)

UBM, TV

用データベース

Voxceleb1, Voxceleb2

UBM,TV

用発話数

100,000

PLDA

用データベース

Voxceleb1, Voxceleb2, musan, RIRnoise PLDA

構築用発話数

200,000

評価用データベース

SITW(dev, core)

特徴量

MFCC24

次元

+∆+∆∆

フレーム長

/

フレームシフト

25ms/20ms

UBM

混合数

2048

TV

行列学習回数

10

i-vector

次元数

400

PLDA

次元数

150

評価尺度

EER

5.3 i-vector

^{に基づく話者照合実験}

この節では実環境で収録された音声を用いて

i-vector

^{に基づく話者} 照合実験を行い

N-BWE

の有効性を確認する

.

5.3.1 実験条件(i-vector)

実験条件を表

5

に示す

. Voxceleb

データベースは計

1,000,000

以上の発話を有するデータベースであるが

, UBM, TV

^{行列を学習する上}

で

1,000,000

以上の発話を学習することは非常に時間を要するため

,

1,000,000

^のうち

100,000

^{発話を用いて}

UBM

^と

TV

^{行列を学習した}

.

手法毎に

UBM, TV

^行列

, PLDA

を学習し直すことはコストが非常

にかかってしまうため現実的ではない

.

そのため

,

本実験では

UBM,

TV

^行列

, PLDA

^{の推定には}

16 kHz

でサンプリングされた原音声を

用いた

. (I) Down

に関してのみ

UBM, TV

行列

, PLDA

に用いた音声

データは

8 kHz

にダウンサンプリングされたデータを用いた

.

本実

験では二つのシナリオを調査した

.

^{一つ目は登録データ}

,

^{テストデー}

タ共にサンプリング周波数が異なる場合であり

,

二つ目はテストデー

タのみがサンプリング周波数が異なる場合である

.

^{比較条件は表}

4

^で

(31)

5.

英語データベースにおいての実験

26

14.63

15.86

12.44 12.90

11.82

14.32 14.59

10.44 7.54

4.80

0 2 4 6 8 10 12 14 16 18

(A)UP (B)SHIFT (C)LPAS (D)N-BWE (E)UP (F)SHIFT (G)LPAS (H)N-BWE (I)Down (L)Org

EER(%)

Enroll Test

図

11: I-vector-based speaker verification results by using i-vector (Development task)

15.86 16.87

13.91 15.10

14.19

15.45 15.06

12.41

8.58

5.74

0 2 4 6 8 10 12 14 16 18

(A)UP (B)SHIFT (C)LPAS (D)N-BWE (E)UP (F)SHIFT (G)LPAS (H)N-BWE (I)Down (L)Org

EER(%)

Enroll Test

図

12: I-vector-based speaker verification results by using i-vector (Evaluation task)

ある

.

5.3.2 実験結果(i-vector)

図

11, 12

に手法ごとの

EER

を示す

.

図

11, 12

では評価タスクが異なるものの

,

ほぼ同じ傾向が得られた

.

^そこで図

11

^{を用いて結果を考} 察する

.

まず

(I) Down (8k)

と

(L) Org(16k)

を比較すると

EER

は

(L)

Org (16k)

^{の方が低い}

.

これよりサンプリング周波数が高い方が照合

性能が高いことがわかる

.

^次に

(L) Org (16k)

^と

(A) UP (enroll)

システムデザイン研究科 情報通信システム学域

i-vector に基づく話者照合における非線形帯域 拡張法とその評価に関する研究

A study of non-linear artificial bandwidth extension by using i-vector-based speaker

verification and its evaluation

首都大学東京大学院

システムデザイン研究科 情報通信システム学域

17890512 上西遼大

目 次

目 次

はじめに

に基づく話者照合

非線形帯域拡張法

付帯情報を用いない帯域拡張法

スペクトルシフティング法

線形予測分析合成法

非線形帯域拡張法

に基づく話者照合と

帯域拡張法のスペクトログラムによる比較

日本語データベースにおいての実験

共通実験条件

音声

比較手法

音声

実験結果

音声

電話音声

比較手法

電話音声

実験結果

電話音声

英語データベースにおいての実験

共通実験条件

英語データベースの詳細

共通比較条件

話者照合実験

に基づく話者照合実験

目 次

実験条件

実験結果

に基づく話者照合実験

実験条件

実験結果

客観評価実験

客観評価実験結果

結論

謝辞

参考文献

あらまし

あらまし

本論文は

に基づく話者照合システ ムを用いて非線形帯域拡張（

）法を評価することを目的とし

ている

法とは帯域拡張法の一つで

モデル学習を行わず

計

算量が非常に軽い手法として提案された

は単純な非線形関 数とフィルタのみで構成されているにもかかわらず

に 基づく話者照合の等価エラー率

と二乗平均平方根対数スペク トル歪み（

）において高い性能を得られることが報告され

ている

に基づく話者照合は話者とチャネルの依存性を分離す

ることに焦点を当てているが

帯域制限による劣化音声を用いた場合 については議論されていない

そこで本論文では

に基づく話者照合システムを構築し

や他の 帯域拡張法を用いることでサンプリング周波数の違いによる帯域制 限のかかった音声がシステムに与える影響について調査し

帯域拡張 を適用した音声の客観評価と

の関係を考察した

実験結果より

で生成された音声は低い

を得られ

かつアップサ

ンプリングのみを行なった音声と比較して

を用いた場合及び

を用いた場合の話者照合システムどちらにおいても

が

改善したことを報告する

あらまし

システムデザイン研究科情報通信システム学域

i-vector に基づく話者照合における非線形帯域拡張法とその評価に関する研究

システムデザイン研究科情報通信システム学域

17890512 ^上西遼大

目次

目次

^{に基づく話者照合}

^{非線形帯域拡張法}

^{に基づく話者照合と}

^{共通実験条件}

^音声

^実験結果

^音声

^比較手法

^電話音声

^実験結果

^電話音声

^{共通比較条件}

^{話者照合実験}

目次

^実験条件

^{に基づく話者照合実験}

^実験条件

^{客観評価実験}

^謝辞

^参考文献

に基づく話者照合システムを用いて非線形帯域拡張（

^{は単純な非線形関} 数とフィルタのみで構成されているにもかかわらず

に基づく話者照合の等価エラー率

と二乗平均平方根対数スペクトル歪み（

帯域制限による劣化音声を用いた場合については議論されていない

や他の帯域拡張法を用いることでサンプリング周波数の違いによる帯域制限のかかった音声がシステムに与える影響について調査し

帯域拡張を適用した音声の客観評価と

^{の関係を考察した}

^{実験結果より}

^を得られ

^{かつアップサ}

^が

^はじめに

1 ^はじめに

^{入室管理など様々} な場面において本人認証を行う機会が増えている

これらは主にパスワードや

カードの携帯やパスワードの記憶などユーザーへの負担が大きい

盗難などのリスクも常に存在し

^これらのユーザーへの負担を軽くする方法として指紋

虹彩などの個人の身体的特徴を用いて個人認証を行う生体認証技術が注目を集めている

^{発生器官の形} 状の違いなどの身体的特徴や話し方の癖といった行動的特徴を併せ持っていることから

生体認証に用いる特徴量として頑健であると考える

^{に基づく手法}

^や

^{などと呼ばれる手法}

^{から公開されている}

^{これらのことから}

^{話者照合システム}

^はじめに

不一致を解消するために一般的にはサンプリング周波数が高い音声をダウンサンプリングし低いサンプリング周波数に合わせることが多い

しかし入力されるテストデータのサンプリング周波数が低いため

学習データをダウンサンプリングさせて話者照合システムを再び構築し直すには高いコストがかかるという問題点がある

テストデータのサンプリング周波数が低いため

アップサンプリングを適用してサンプリング周波数を学習データに合わせることも可能であるが

アップサンプリングのみだと帯域制限の影響が残るため話者照合性能が低下してしまうことが知られている

帯域拡張法に焦点を当て

^{話者照合実験を行う}

帯域拡張法は帯域制限などにより高周波数成分が欠落しているデータに対して高周波数を復元する技術の一である

これまでに多くの帯域拡張法が提案されているが大まかには

付帯情報を用いる手法と用いない手法の二つに分類することができる

付帯情報を用いない手法は低周波数成分のみを用いて高周波数成分を推定するものである

近年画像信号処理の分野において

非線形処理による超解像画像処理の手法が報告された

学習を行わないかつ計算量が軽い手法として非線形帯域拡張法

^が提