• 検索結果がありません。

嚇 鞭

N/A
N/A
Protected

Academic year: 2021

シェア "嚇 鞭"

Copied!
54
0
0

読み込み中.... (全文を見る)

全文

(1)

平 成28年 度 修 士 論 文

ノイズ環 境 お よび帯 域 制 限 に関 す る 話 者 照 合 の頑 健 性 に関 す る研 究

Astudyonrobustspeakerverification fornoisyreverberantenvironment

andbandwidthlimitation

首 都 大 学 東 京 大 学 院 シ ス テ ム デ ザ イ ン研 究 科 シ ス テ ム デ ザ イ ン専 攻 情 報 通 信 シ ス テ ム 学 域

15890530中 西 亮 介

指導教員 貴家 仁志 教授

(2)

目 次

目 次

1は じめ に

2話 者 照 合

2.1GMM‑UBMに 基 づ く 話 者 照 合

2.2等 価 エ ラ ー 率(EER)...

2.3Z‑Norm...

3逐 次適 応 を用 いたス コア統合 重 みの推 定法

3.1 3.2 3.3

45

2

3.6

ゴ ヒ 旦

尽...。....

モ デ ル よ る ス コ ア 統 合...

案 法...

3.3.1複 のSNRモ デ ル を 用 い た コ ア 統 合.

3.3.2ス コ ア 統 合 重 み の 推 定 法...

実 験 準 備...

実 験 結 果...

3.5.1雑 音 重 畳 プ ロ ト コ ル の ち が い よ る 比 較

3.5.2残 を 重 畳 し な い 場 合...

3.5.3残 を 重 畳 し た 場 合...

3.5.4NTT‑VRデ タ ベ ー ス を 使 し た 場 合.

と め...

4非 く 話

4.1背 景.。...。...

4.2帯 法...

4.3非 法...

4.4実 験...

4.4.1実 件...

4.4.2実 果...

4.5ま め...

1

5077800037780241111111222 5567114022223334

(3)

目 次 .

5お わ り に 41

(4)

あ ら ま し iii

あ ら ま し

本 論 文 で は話 者 照 合 の た め の ノイ ズ 環 境 に対 す る ス コ ア統 合 重 み 推 定 法 お よび 帯 域 制 限 に対 す る非 線 形 帯 域 拡 張 法 を 提案 す る.話 者 照 合 は声 を用 い た 生 体 認 証 技 術 で あ る が,実 環 境 下 に お い て そ の 照 合 性 能 は雑 音 や残 響 な ど の ノ イ ズ の 影 響 を受 けて 低 下 して しま う とい う問 題 が あ る.本 論 文 で は ノイ ズ環 境 下 に お け る複 数 のSNRモ デ ル を用 い た 逐 次 適 応 を行 い,ス コ ア統 合 で 重 要 とな る適 切 な 統 合 重 み を推 定 す る手 法 を提案 す る.ス コア統 合 は複 数 の識 別 器 を用 い て,各 識 別 器 の 識 別 結 果 を統 合 す る手 法 で あ る.評 価 実 験 を行 い,提 案 法 の 有 効 性 を確 認 した.ま た,電 話 で の通 話 音 声 は通 信 速 度 の確 保 の た め 帯 域 制 限 が か か っ て い る こ とが 多 く,帯 域 制 限 の か か っ た 音 声 は音 質 や 話 者 性 が 大 き く低 下 す る こ とが 知 られ て い る.本 論 文 で は 非 線 形 帯 域 拡 張 法 を電 話 音 声 な ど の帯 域 制 限 の か か っ た 音 声 に 適 用 し,話 者 照 合 に お け る帯 域 拡 張 の 有 効 性 を評 価 す る.帯 域 拡 張 法 は これ まで い くつ か提 案 され て い る が,こ れ まで 話 者 照 合 へ の適 用 例 は ほ とん ど報 告 され て い な い.提 案 法 の 性 能 評 価 は話 者 照 合 実 験 に よ り行 わ れ た.そ の 結 果,学 習 デ ー タ とテ ス トデ ー タ そ れ ぞれ に提 案 法 を適用 し8kHzか ら16kHzに 帯 域 拡 張 した 場 合 に帯 域 拡 張 を行 う 前 に比 べ エ ラ ー改 善 率 が27.7%改 善 した.

(5)

あ ら ま し iv

Summary

Thispaperproposesaweightestimationmethodusingscorefusionin noisyreverberantenvironmentandanon‑linearbandwidthextension methodagainstthebandwidthlimitationspeechesfbrspeakerveri且ca‑

tionsystems.Speakerverificationsystemsareabiometricauthentication techniqueusingspeech.Itiswell㎞ownthatbackgroundnoiseandre‑

verberationaffecttheperformancesofspeakerverificationsystems.Al‑

thoughscorefusionisoneoftheeffectivemethodsagainstnoisyrever‑

berantenvironment,thismethodrequiresanadequateweightestimation method.Inthispaper,theproposedmethodestimatesanadequateweight ofscorefusionbyusingasupervisedadaptationwithsomeSNRmod‑

els.Theexperimentalresultsshowthattheproposedweightestimation methodprovidesahighperformanceinnoisyreverberantenvironment.

Speakerverificationsystemsareparticularlyexpectedtobeperfbrmed ontelephonenetworks.Itiswell㎞ownthatthebandwidthli血tation speecheslackclarityanddrasticallydegradethespeechqualityandthe

speakerindividualit》 孔Thispaperproposesanon‑linearbandwidthexten‑

sionmethodfbradaptingittothenarrowbandspeeches,andevaluates itforaspeakerverificationsystem.Severalarti且cialbandwidthexpan‑

sionmethodshavebeenproposedtogenerateawidebandsignalfrom anarrowbandsignal.However,mosttheconventionalexpansionmeth‑

odshavenotbeenappliedtospeakerveri盒cationsystems.Theproposed methodisevaluatedundersomespeakerveri盒cationexperimentstocon一 且rmtheperfbrmanceofthespeakerveri盒cation.Asaresult,theproposed methodhasanErrorReductionof27.7%comparedtotheuseofnarrow‑

bandspeeches,wherethebandwidthofthetrainingdataandthetestdata arerespectivelyexpandedfrom8kHzto16kHz.

(6)

は じ め に 1

1は じめ に

現 在,携 帯 電 話 やATMの セ キ ュ リテ ィ と して 生 体 認 証 の使 用 が 普 及 しつ つ あ る.生 体 認 証 は指 紋 や 虹 彩,静 脈,顔 画 像 な ど人 間 の 身 体 的 な 特 徴 を用 い た 個 人 認 証 法 で あ る.そ の 中 で も声 を用 い た 生 体 認 証 で あ る話 者 照 合 は マ イ ク の よ うな簡 単 な装 置 で 実 現 可 能 で あ る こ とや,ユ ー ザ が使 用 す る た め に事 前 練 習 を行 う必 要 が な い こ とか ら も生 体 認 証 の 中 で も ユ ー ザ が使 用 す る こ とに対 す る抵 抗 が 少 な い 方 法 とな っ て い る.近 年 で は,話 者 照 合 の 手 法 と してi‑vector[1]や PLDA(Probabilisticlineardiscriminantanalysis)[2‑4]と い った も の が 提 案 さ れ て お り照 合 性 能 も大 幅 に 向上 して きて い る た め 更 な る普 及 が 期 待 され て い る.し か しな が ら,実 際 に話 者 照 合 シ ス テ ム を使 用 す る場 合 や 携 帯 電 話 な どで の使 用 の た め に,ノ イ ズ 環 境 お よび 帯 域 制 限 とい った 問 題 を考 慮 す る必 要 が あ る.本 論 文 で は,ノ イ ズ 環 境 に頑 健 な手 法 と して 逐 次 適 応 を用 い た ス コア統 合 重 み の 推 定 ア ル ゴ リズ ム を,帯 域 制 限 の 問 題 に 対 して 非 線 形 帯 域 拡 張 法 に基 づ く話 者 照 合 を そ れ ぞ れ 提 案 す る.

第 一 に,ノ イ ズ環 境 に お け る話 者 照 合 の た め の逐 次 適 応 を用 い たス コ ア統 合 重 み の 推 定 ア ル ゴ リズ ム を提 案 す る.実 際 に話 者 照 合 シ ス テ ム を使 用 す る場 合,シ ス テ ム に入 力 さ れ た 音 声 が 背 景 雑 音 お よび 残 響 の影 響 を受 け る こ とで 入 力 音 声 と学 習 モ デ ル 間 の環 境 の 不 一 致 が起 こ り,話 者 照 合 シ ス テ ム の 性 能 が低 下 して し ま う こ とが報 告 さ れ て い る.入 力 音 声 の 環 境 をす べ て 学 習 す る こ とは難 しい た め,背 景 雑 音 や 残 響 に対 す る シ ス テ ム の 頑 健 性 を 向 上 す る た め の さ ま ざ ま な 手 法 が研 究 され て い る[5,6].そ れ らの 手 法 の ひ とつ に ス コ ア統 合 が あ る.ス コ ア統 合 は複 数 の 識 別 器 か ら出力 され た 照 合 ス コア を組 み 合 わ せ る こ と で シス テ ム の 認 識 精 度 を改 善 す る手 法 で あ る[7,8].

ス コア 統 合 は単 一 の ス コ ア を用 い た 手 法 よ りも複 雑 な モ デ ル を形 成 す る こ とが で き るが,シ ス テ ム の性 能 は ス コア 統 合 を行 う際 の統 合 重 み に依 存 す る た め,適 切 な統 合 重 み を推 定 す る 方 法 が必 要 とな る.

(7)

1.は じ め に 2

そ こで,本 論 文 で は あ らか じめSNRご と に学 習 した話 者 モ デ ル か ら 得 られ た ス コ ア を統 合 す る手 法 お よ び 逐 次 適 応 を用 い た ス コア統 合 重 み の 推 定 手 法 を提 案 す る.雑 音 お よび 残 響 環 境 下 に お け る話 者 照 合 実 験 を行 い,提 案 法 の有 効 性 を確 認 す る.

第 二 に,帯 域 制 限 され た 音 声 に よ る 話 者 照 合 の た め の 非 線 形 帯 域 拡 張 法 を提 案 す る.話 者 照 合 は今 後 の さ らな る展 開 と してi携帯 電 話 な どの 音 声 を用 い た セ キ ュ リテ ィ シ ス テ ム と して の 利 用 が期 待 され て い る.電 話 で の通 話 音 声 は通 信 速 度 の 確 保 の た め に帯 域 制 限 が か か った 音 声 が 多 く用 い られ て い る.帯 域 制 限 が か か った 音 声 は明 瞭 性 に欠 け,音 質 や 話 者 性 が 大 き く低 下 して し まい,ま た 音 声 認 識 や 話 者 認 識 の 観 点 か ら も広 帯 域 音 声 に比 べ て 認 識 性 能 が低 下 して し ま う な ど様 々 な 問題 を 引 き起 こ して し ま うこ とが 知 られ て い る.帯 域 制 限 に よ り失 わ れ た広 帯 域 成 分 を復 元 す る た め に,帯 域 拡 張 法 が 狭 帯 域 音 声 か ら広 帯 域 音 声 を作 る技 術 と して これ まで い くつ か 提 案 され て い る[9‑11].し か し,こ れ まで 話 者 照 合 へ の適 用 例 は ほ とん ど報 告 され て い な い.本 論 文 で は非 線 形 帯 域 拡 張 法 を電 話 音 声 な どの 帯 域 制 限 の か か っ た 音 声 に 適 用 し,話 者 照 合 に お け る帯 域 拡 張 の有 効 性 を 評 価 す る.非 線 形 帯 域 拡 張 法 は狭 帯 域 音 声 に ハ イパ ス フ ィル タ を か け た後 に非 線 形 関 数 を用 い る こ とで 広 帯 域 音 声 を生 成 し,狭 帯 域 音 声 と加 算 合 成 す る た め 非 常 に処 理 が 軽 い とい う特 徴 を持 つ.提 案 法 の 性 能 評価 は 話 者 照 合 の精 度 で 評 価 す る た め に話 者 照 合 実 験 に

よ り行 わ れ た.そ の 結 果,学 習 デ ー タ とテ ス トデ ー タ そ れ ぞ れ に提 案 法 を適 用 し8kHzか ら16kHzに 帯 域 拡 張 した 場 合 に帯 域 拡 張 を行 う 前 に比 べ エ ラー 改 善 率 が27.7%改 善 した.

以 下 で は,ま ず2章 で 話 者 照 合 の基 本 的 な手 法 で あ るGMM‑UBM

に基 づ く話 者 照 合 に つ い て 説 明 す る.そ の後,逐 次 適 応 を用 い た ス コア 統 合 重 み の 推 定 アル ゴ リズ ム と提 案 法 の 実 験 結 果 につ い て3章 で 説 明 し,4章 で非 線 形 帯 域 拡 張 法 に基 づ く話 者 照 合 とそ の 実験 結 果

に つ い て 説 明 す る.

(8)

話者照合 3

2話 者 照 合

2.1GMM‑UBMに 基 づ く話 者 照 合

話 者 照 合 はユ ー ザ が 「自分 が 誰 で あ るか 」 を 申告 し,入 力 され た 音 声 が そ の ユ ー ザ 本 人 で あ る か否 か を 判 定 す る.話 者 照 合 シ ス テ ム の 概 要 を 図1に 示 す.話 者 照 合 は登 録 部 と照 合 部 の 二 つ に 分 け られ て

璽慧一算Waveform

Training Test

図1:話 者 照 合 シ ス テ ム の 概 要

お り,登 録 部 で は あ ら か じ め 登 録 ユ ー ザ の 声 か ら特 定 話 者 モ デ ル を 学 習 し て お く.照 合 部 で は 入 力 さ れ た 音 声 か ら特 徴 量 を 抽 出 し,得

ら れ た 特 徴 量xを 登 録 時 に 学 習 さ れ た ユ ー ザ モ デ ル λuと 詐 称 者 モ デ ル λ1に 入 力 し,そ れ ぞ れ の モ デ ル か ら入 力 音 声 の ユ ー ザ ら し さ,詐 称 者 ら し さ を 尤 度 と してp(xllU),p(X1λ1)で 算 出 す る.最 後 にp(xlλU), p(X1λ1)か ら照 合 ス コ アS(X,λ)を 計 算 し,閾 値 θとS(X,λ)を 比 較 す る

こ とで 判 定 を 行 う.照 合 ス コ ア の 計 算 式 は 以 下 の とお りで あ る.

P(xlλu)

.(1)S(X,λ)=109 P(xlλ1)

(9)

2.話 者 照 合 4

登 録 部 に お い て,特 定 話 者 モ デ ル の 学 習 時 に 登 録 ユ ー ザ の 音 声 の み を 用 い て 学 習 す る と デ ー タ 量 の 少 な さ な ど か ら登 録 ユ ー ザ が 発 生 し う る す べ て の 範 囲 の モ デ ル を表 現 す る こ とが 難 し い.GMM‑UBM[12]

は あ ら か じめ 不 特 定 多 数 話 者 の 音 声 か らUBM(UniversalBackground

Model)を 学 習 し て お き,登 録 ユ ー ザ の 特 定 話 者 モ デ ル をUBMに 応 さ せ る こ と で,ユ ー ザ の 発 声 範 囲 を カ バ ー す る こ と が で き る.特 定 話 者 モ デ ル の 適 応 に は 最 大 事 後 確 率(Maximumaposteriori;MAP)

推 定[13]を 用 い る.

/\ ノ\

adaptation GMMUBM

福M

GMM‑UBM

M協BM

図2:GMM‑UBMに お け る 特 定 話 者 モ デ ル の 適 応

(10)

2.話 者 照 合 5

2.2等 価 エ ラ ー 率(EER)

等 価 エ ラー 率(EqualErrorRate;EER)は 話 者 照 合 シ ス テ ム の性 能 評 価 の 基 準 と して用 い られ る指標 の ひ とつ で あ り,本 人 拒 否 率(False RejectionRate;FRR)と 他 人 受 入 率(FalseAcceptanceRate;FAR)が

等 し くな る と きの 値 を表 す(図3).話 者 照 合 シス テ ム は入 力 音 声 が 本 人 の も の で あ る に も か か わ らず 誤 って 拒 否 さ れ て し ま う割 合 を表 す FRRと 詐 称 者 の も の で あ る に もか かわ らず 誤 って 受 理 され て し ま う 割 合 を表 すFARの ふ た つ の 面 か ら評 価 す る必 要 が あ る.FRRが い と本 人 で あ るユ ー ザ を正 し く照 合 で き な くな る.一 方 でFARが い と シス テ ム の安 全 性 が低 下 し,詐 称 者 が 受 理 され る リス ク が 高 く な っ て し ま う.話 者 照 合 シ ス テ ム はFRRとFARの どち らも低 い値 で あ る こ とが 望 ま しい が,こ れ らは トレー ドオ フの 関 係 に あ る.こ の こ とか ら照 合 時 に得 られ た 照 合 ス コ ア か ら全 話 者 共 通 の 閾 値 を設 定 しFRRとFARを 計 算 した あ とに,そ れ らの値 か ら計 算 したEER を用 い て 話 者 照 合 シス テ ム の評 価 が 行 わ れ て い る.一 ・般 的 にEERが

どち らも低 い シ ス テ ム は照 合性 能 が 高 い とい え る.

︻選

・EER【%1

threshoId

図3:等 価 エ ラ ー 率(EER)

(11)

2.話 者 照 合 6

2.3Z‑Norm

話 者 照 合 に 用 い る 照 合 ス コ ア は 同 一 話 者 で も 発 声 内 容 や 発 声 時 期 に よ り大 き く変 動 す る た め,尤 度 に ぼ ら つ き が 生 じて し ま いEERを 低 く抑 え る こ と が 困 難 と な る.し た が っ て 照 合 ス コ ア を正 規 化 す る 必 要 が あ る.本 実 験 に お け る 照 合 ス コ ア はZ‑Norm[14]に よ る 正 規 化 が 行 わ れ て い る.

Z‑Normは,詐 称 者 の 音 声 に対 す る 照 合 ス コ ア の 分 布 を推 定 し,そ の 分 布 を 正 規 化 す る 手 法 で あ る.Z‑Normに よ る 正 規 化 式 を 以 下 に 示 す.

s(x,λ)一 μ1(2) SZN(X,λ)=

0‑1

こ こ で μ1,σ1は そ れ ぞ れ 詐 称 者 音 声 に 対 す る 照 合 ス コ ア の 平 均 お よ び 分 散 を 表 す.

こ こ で,S(X,λ)は 入 力 デ ー タXと ユ ー ザ モ デ ル λu,お よ び 詐 称 者 モ デ ル λ1か ら求 め た 照 合 ス コ ア で あ る.ま た,詐 称 者 音 声 に 対 す る 照 合 ス コ ア の 平 均 お よ び 分 散 を そ れ ぞ れ μ1,0‑1と す る.

(12)

逐次適応 を用いたス コア統合 重みの推 定法 7

3逐 次 適 応 を用 いた ス コア統 合 重 み の推 定 法

提 案 法 で あ る逐 次 適 応 を用 い た ス コア統 合 重 み の 推 定 ア ル ゴ リズ ム[15,16]に つ い て 説 明 す る.実 験 を 行 い,提 案 法 の 有 効 性 を確 認 す る.

3.1背

実 際 に話 者 照 合 シ ス テ ム を使 用 す る場 合,シ ス テ ム に入 力 され た 音 声 が 背 景 雑 音 お よび残 響 の 影 響 を受 け る こ とで,入 力 音 声 と学 習 モ デ ル 間 の 環 境 の 不 一 致 が起 こ り話 者 照 合 シ ス テ ム の性 能 が低 下 し て しま う こ とが報 告 され て い る.入 力 音 声 の環 境 をす べ て 学 習 す る こ と は難 しい た め,背 景 雑 音 や 残 響 に対 す る シ ス テ ム の頑 健 性 を 向 上 す るた め の さ ま ざ まな手 法 が 研 究 され て い る[5,6].こ れ らの 手 法 は 大 き く分 け る と特 徴 量 に関 す る 手 法[17‑19]と モ デ ル に 関 す る手 法[20,21]の 二 種 類 に分 類 す る こ とが で き る.特 に モ デ ル に関 す る手 法 はバ ッ クエ ン ドで 処 理 を行 うも の が 多 く,そ れ らの手 法 の ひ とつ に話 者 モ デ ル と入 力 音 声 の雑 音 やSignal‑to‑NoiseRatio(SNR)の 条 件 を 一 致 させ る 手 法 が あ る.し か し,実 際 に用 い る場 合 は入 力 音 声 の 雑 音 やSNRが 未 知 で あ る た め に,SNRの 推 定 を行 う必 要 が あ る.ま た,特 定 話 者 モ デ ル のSNRが 入 力 音声 に対 して 一 致 す る と きに 必 ず

し も最 も性 能 が良 いSNRと な る とは 限 らな い とい う問 題 も あ る.

一 方 で,モ デ ル に関 す る ア プ ロー チ の別 の 手 法 に,複 数 の識 別 器 か ら得 られ た 識 別 結 果 の 統 合 が あ る.こ れ は認 識 結 果 の 統 合 お よ び特 徴 量 の統 合,ス コア の 統 合 に 分 け る こ とが で き る.ス コ ア統 合 は複 数 の 識 別 器 か ら出 力 さ れ た 照 合 ス コ ア を組 み 合 わ せ る こ とで シ ス テ ム の 認 識 精 度 を改 善 す る手 法 で あ る[7,8].ス コ ア統 合 は単 一 の ス コ ア を用 い た手 法 よ りも複 雑 な モ デ ル を形 成 す る こ とが で き る が,シ ス テ ム の 性 能 は ス コ ア統 合 を行 う際 の統 合 重 み に依 存 す る.そ の た め,適 切 な 統 合 重 み を推 定 す る方 法 が 必 要 とな る.

(13)

3.逐 次 適 応 を 用 い た ス コ ア 統 合 重 み の 推 定 法 8

Testdata

1幡if耐 → 漁 ・

Fusion

Score2

Classifier 1C脇if耐2

ClassifierN ScoreN

Result

図4:ス コ ア 統 合 の 例

提 案 法 で は あ らか じめSNRご とに 学 習 した 話 者 モ デ ル を用 い て ス コ ア統 合 を行 う.教 師 あ りの評 価 デ ー タ を用 い てSNRご との特 定 話 者 モ デ ル と入 力 音 声 との ス コア を計 算 し,評 価 デ ー タ に対 す る等 価 エ ラー 率(EqualErrorRate;EER)が 低 くな る よ うに逐 次 的 に重 み を 更 新 す る.提 案 法 の 有 効 性 を確 認 す る た め に,雑 音 お よび残 響 環 境 下 に お け る話 者 照 合 実 験 を行 っ た.雑 音 重 畳 に はQUTLNOISE‑SRE

protocol[22]を 使 用 し,残 響 を重 畳 した 音声 と重 畳 して い な い 音 声 の そ れ ぞ れ で 実 験 を行 っ た.

3.2複 数 モ デ ル に よ るス コ ア統 合

従 来 の 話 者 照 合 シ ス テ ム は入 力 信 号 と特 定 話 者 モ デ ル との 照 合 ス コ ア を計 算 す る た め に単 一 の モ デ ル を用 い て い る.雑 音 お よ び残 響 環 境 下 に お け る照 合 性 能 を よ り向 上 させ る た め に,ア ンサ ンブ ル 学 習 に基 づ き複 数 の識 別 器 か ら得 られ た識 別 結 果 を統 合 す る手 法 が 提 案 され て い る[7].ア ンサ ンブ ル学 習 に基 づ く手 法 は認 識 結 果 の統 合 お よび 特徴 量 の 統 合,照 合 ス コア の統 合 に分 け る こ とが で き る.ス コ

ア統 合 は複 数 の 識 別 器 か ら出力 され た ス コア を組 み 合 わ せ る こ とで シス テ ム の精 度 を高 め る手 法 で あ る.図4に 複 数 の 識別 器 を用 い た ス

(14)

3.逐 次適応 を用 いたス コア統合重 みの推定法 9

コ ア統 合 の例 を示 す[23].手 順 と して は,は じめ に あ らか じめ複 数 の 識 別 器 を学 習 して お き,テ ス トデ ー タ が入 力 され た とき に は各 識 別 器 との 照 合 ス コ ア が そ れ ぞ れ 計 算 され る.次 に識 別 器 ご と に得 られ た ス コア の 統 合 を行 い,最 終 的 に統 合 され た ス コ ア を用 い て 照 合 を 行 う.ス コ アの統 合 時 に,各 モ デ ル か ら計 算 され た ス コア を どの よ う に統 合 す る か を 決 め る必 要 が あ る.あ らか じめ 教 師 あ りデ ー タ を用 い て 重 み の 学 習 を行 い逐 次 的 に更 新 す る手 法 をBoostingと 呼 び,そ の 代 表 的 な アル ゴ リズ ム にAdaBoost[24]が あ る.ま た重 み の 事 前 学 習 を行 わず,各 ス コア に対 す る重 み を 同 一 とす る手 法 をBagging[25]

と呼 ぶ.Baggingは 重 み の推 定 を行 わ な い た め に処 理 が 早 いが,十 分 な 精 度 が 出 な い とい う問 題 が あ る.一 方AdaBoostは 重 み の 事 前 学 習 を行 うた め,モ デ ル ご と に よ り適 切 な重 み を学 習 で き る とい う利 点 が あ る.重 み の推 定 法 に は さ ま ざ まな 手 法 が 提 案 され て い る が,処 理 が 複 雑 に な って し ま う とい う問 題 が あ る.

(15)

3.逐 次適応 を用 いたス コア統 合重みの推定法 10

3.3提 案 法

3.3.1複 数 のSNRモ デ ル を 用 い た ス コ ア 統 合

SNRご とに学 習 した 話 者 モ デ ル を用 い た ス コ ア統 合 につ い て 説 明 す る.図5に 提案 法 に よ る ス コ ア統 合 の フ ロー を示 す.こ こ でSNR

OdB mode1

5dB modeIT estdata

Clean model

Result

図5:SNRご と に 学 習 し た 話 者 モ デ ル を 用 い た ス コ ア 統 合 の フ ロ ー チ ャ ー ト

ご とに学 習 した 話 者 モ デ ル は,図4のClassifierに 相 当 す る.教 師 あ り評価 デ ー タ を用 いてSNRご との 特 定 話 者 モ デ ル との ス コア を計 算 し,照 合 精 度 が 高 くな る よ うに逐 次 的 に更 新 を行 う.

3.3.2ス コ ア 統 合 重 み の 推 定 法

図6に ス コ ア 統 合 重 み の 推 定 ア ル ゴ リズ ム を 示 す.ス コ ア 統 合 重 み の 推 定 手 順 は(a)準 備,(b)重 み の 初 期 化,(c)重 み の 推 定 の3つ 分 け ら れ る.ま ず(a)準 備 と して,SNRご との 話 者 モ デ ルmと 評 価 デ ー タiか ら重 み 学 習 用 ス コ アSm(i),i=1,2,̲,Nを 計 算 す る.こ でm∈Mは 重 畳 し たSNRを 示 す.次 に,(b)各SNRモ デ ル に 対 す る ス コ ア 統 合 重 みw(m)の 初 期 化 を 行 う.mdBモ デ ル に 対 す る 重 み w(m)の 初 期 値w(m)は,

w(m)=M(3)1

(16)

3.逐 次適応 を用 いたス コア統合重み の推定法 11

に よ り計 算 され る.(c)重 み の学 習 は さ らに(i)重 み の 更 新 量 の計 算, (ii)重み の仮 更 新,(iii)仮 更 新 後 の重 み の正 規 化,(iv)仮 の重 み の有 効 性 の 判 定 と更 新 の4段 階 に分 け られ る.は じめ に,(i)各SNRの

コ ア に対 す る重 み の 更 新 量 を計 算 す る.重 み の 更 新 量 △w(m)は,

△w(m)=5・m(i)・ ρ ・y(i) (4)

に よ り計 算 さ れ る.こ こ で,ρ は重 み の 更 新 率,y⑦ は教 師 デ ー タ が 登 録 話 者 か 否 か の ラ ベ ル を 表 す.更 新 量 △w(m)を 計 算 し た あ と,現 在 の 重 みw(m)と 更 新 量 △w(m)を 用 い て(ii)重 みw(m)を 仮 更 新 す る.

仮 更 新 後 の 重 みw'(m)は,

w'(m)=w(m)+△w(m) (5)

に よ り計 算 され る.仮 更 新 後 の 重 みw'(m)は 大 きい値 とな る場 合 が あ る ため,SNRご とに(iii)重みw'伽)の 正 規 化 を行 う.正 規 化 式 を以 下 に示 す.

wAorm(M)=Σ ん)・(6)

仮 更 新 した 重 み を 用 い て(iv)重 み を 更 新 す る か 判 定 を行 う.評 価 デ ー タ と正 規 化 され た 重 み 垢 。rm(M)か らEERπ'を 計 算 し,話 者 照 合 シ ス テ ム の 性 能 を 評 価 す る.仮 更 新 後 の 重 みwA。rm(M)か ら 算 出 し たEERπ' を 更 新 前 の 重 みw(m)か ら算 出 したEERπ と比 較 し,π'≦ πで あ れ ぼ 重 み をw(m)=w'(m)と す る.以 上 の4つ の 手 順 を評 価 デ ー タ を 用 い

て 繰 り返 し,各SNRの 最 終 的 な 重 みw(m)を 決 定 す る.

(17)

3.逐 次適応 を用 いたス コア統合重みの推定法 12

(a)Prepare Sm(の

(b)Weightinitialization w(m)

(c)Weightestimation w(m)

Estimatedweights

u噌

(i}Calculate theupdaterate△w(m)

(ii)Calculate thetentativeadaptedweight

w'(拠)

u

(iii)Weightnormalization w'η 。。襯(m)

u

CalculatingEERπ' usingW'ηoγ 糀(m)

1Vo

π ≧ π'

yθ ∫

(iv}w@)=w'π 。γm(m) ' π=π

図6:ス コ ア 統 合 重 み の 推 定 ア ル ゴ リズ ム

(18)

3.逐 次適応 を用 いたス コア統合重 みの推定法 13

表1:実 験 条 件

UBM用 デ ー タ ベ ー ス JNAS(女 性 の み) UBM学 習 デ ー タ 23657文 章 ×7SNR

(計165599文 章) 登 録 話 者 デ ー タ ベ ー ス VLDデ ー タ ベ ー ス

学習 データ (特定 話者モデル)

70文 章 ×17名 (計1190文 章) テ ス トデ ー タ 20文 章 ×17名

(計340文 章) 評 価 デ ー タ

(重 み 学 習 用 デ ー タ)

10文 章 ×17名 (計170文 章)

GMM混 合数 1024

サ ンプ リング周波数 16kHz

フ レ ー ム 長 25msec

フ レ ー ム シ フ ト 10msec

特徴量 MFCC19次+△+△

3.4実 験 準 備

提 案 法 の 有 効 性 に つ い て 調 査 す る た め に,話 者 照 合 実 験 を 行 っ た.

従 来 の 話 者 照 合 シ ス テ ム と し てGMM‑UBM[12]を 用 い た.

表1に 実 験 条 件 を 示 す.雑 音 環 境 下 に お け る 複 数 の 異 な るSNRの テ ス トデ ー タ が 入 力 さ れ た 場 合 の 性 能 を 評 価 す る た め に,SNRを OdBか ら30dBで5dBき ざ み で 重 畳 し た.重 畳 し たSNRをM=

{0,5,10,15,

20,30,clean}と す る.UBMは,OdBか ら30dBで 各SNRの 雑 音 重 畳 音 声 とclean音 声 を す べ て 混 ぜ て マ ル チ コ ン デ ィ シ ョ ン学 習 を 行 っ た.

UBMの 学 習 に はJapaneseNewspaperArticleSentences(JNAS)デ ー タ ベ ー ス[26]か ら女 性 音 声 の み を使 用 し た.UBM用 学 習 デ ー タ へ 重 畳 す る雑 音 デ ー タ ベ ー ス は 電 子 協 騒 音 デ ー タ ベ ー ス[27]か ら 走 行 自動 車 内(1500ccク ラ ス)雑 音 を使 用 した.ま た,雑 音 の 重 畳 に はFiltering andAddingNoiseTool(FaNT)[28]を 使 用 し た.MAP適 応 に よ り特 定 話 者 モ デ ル をUBMへ 適 応 し た.特 定 話 者 モ デ ル 用 学 習 デ ー タ お よ

(19)

3.逐 次適応 を用いたス コア統合重み の推定法 14

CAFE

HOME

STREET

CAR

REVERB

LOCATION GROUPA SESSIONlSESSION2

LOCATION GROUPB

SESSION1 SESSION2

CAFE‑

FOODCOURTB‑1

CAFE‑

FOODCOURTB‑2

CAFE‑

CAFE‑1

c《Fε ・ CA}愚2

HOME‑

KITCHEN‑2

HOME‑

LIVINGB‑1

HOME・

KITCHEN‑1

H◎M婁 LIVINi蔵 欝塗

STREET‑

CITY‑1

STREET‑

CITY‑2

STREET‑

KG‑1

釘R麗 丁粘 縦 ト2

CAR‑

WINDOWNB‑1

CAR‑

WINDOWNB‑2

l

CAR‑

WINUPB‑1

CA艮 ズ WINUP8μ2

REVERB‑

POOL‑1

REVεRB‑

POOL‑2

REVERB‑

CARPARK‑1

曜VεR暮 一 CA鞍PARI〈 ・2

開発 デ ー タ 学 習 デ ー タ テ ス トデ ー タ

図7:QUT‑NOISEdatabaseの 概 要

び 評 価 デ ー タ,テ ス トデ ー タ に はVLDデ ー タ ベ ー ス[29]か らポ ッ プ フ ィル タ を 装 着 し た ヘ ッ ドセ ッ トマ イ ク(SHURESMIOA‑CN)で 収 録 さ れ た も の を使 用 し た.話 者 数 は17名 で,女 性 に よ り収 録 され て い る.VLDデ ー タ ベ ー ス に はQUT‑NOISE‑SREprotocol[22]を 用 い て, QUT‑NOISEdatabase[30]か らCARシ ナ リオ 雑 音 を 重 畳 し た.

QUTLNOISEdatabaseは 各30分 以 上 の20の ノ イ ズ セ ッ シ ョ ン で 構 成 さ れ て い る 雑 音 デ ー タ ベ ー ス で あ る.図7にQUTLNOISEdatabase

の 概 要 を 示 す.CAFE,HOME,STREET,CAR,REVERBの5つ シ ナ リ オ か ら 成 り,収 録 は1シ ナ リ オ に つ き2箇 所,計10箇 所 で 収 録 さ れ て い る.CARシ ナ リオ を 除 い て,各 場 所 で 録 音 日 ご と に セ ッ シ ョ ンが 分 け られ て い る.ま た,CARシ ナ リオ とREVERBシ ナ リオ

(20)

3。 逐次適応 を用 いたス コア統 合重みの推定法 15

は 残 響 環 境 下 で 収 録 さ れ て い る.

QUT‑NOISE‑SREprotocolはclean環 境 で 収 録 さ れ た 音 声 デ ー タ ベ ー ス にQuTLNOISEdatabaseを 重 畳 す る た め の プ ロ ト コル で あ る.

図8(a)にFaNTに よ る雑 音 重 畳,図8(b)にQUT‑NOISE‑SREprotocol

を 用 い た 雑 音 重 畳 の フ ロ ー を そ れ ぞ れ 示 す.FaNTに よ る 雑 音 重 畳 手 法 で は,clean音 声 に 雑 音 デ ー タ を 乗 せ る と き に ま っ た く 同 じ セ グ メ

ン トの 雑 音 デ ー タ を重 畳 し て い る.一 方,QUTLNOISE‑SREprotocol

はclean音 声 に 雑 音 デ ー タ を乗 せ る と き にQUT‑NOISEdatabaseの 択 し た シ ナ リ オ の 雑 音 デ ー タ か ら重 畳 す る セ グ メ ン トを ラ ン ダ ム に 選 択 す る.ま た,CARシ ナ リ オ とREVERBシ ナ リオ の 雑 音 を 重 畳 す る 場 合,clean音 声 に 残 響 を 重 畳 し た あ と に 雑 音 デ ー タ を 重 畳 す る.

こ の よ う に 残 響 を 考 慮 す る こ と でQUTLNOISE‑SREprotocolは よ り 実 環 境 に 近 い 雑 音 環 境 を 表 す こ と が で き る.

近 年,話 者 照 合 性 能 の 評 価 に 用 い る デ ー タ ベ ー ス は 実 際 の 環 境 で 収 録 さ れ た も の が 使 用 さ れ る こ と が 多 い.こ れ ら の デ ー タ ベ ー ス を 用 い た 評 価 は 重 要 で あ る が,デ ー タ ベ ー ス に 雑 音 お よ び 残 響 を 重 畳 し た 音 声 を 用 い て そ の 影 響 を調 査 す る こ と も 重 要 で あ る.そ の た め 本 実 験 で は 残 響 を 重 畳 し た 音 声 デ ー タ と残 響 を 重 畳 し な い 音 声 デ ー タ を 作 成 し,そ れ ぞ れ の 条 件 で 話 者 照 合 の 性 能 を 評 価 し た.こ の と き 残 響 を 重 畳 し た 場 合 と重 畳 し な い 場 合 の 提 案 法 に お け る 重 み の 更 新 率 ρ は そ れ ぞ れ0.003,0.005と し た.

表2に 本 実 験 で 比 較 す る 各 条 件 を 示 す.特 定 話 者 モ デ ル と テ ス ト デ ー タ の 収 録 条 件 を 合 わ せ た も の を マ ッチ ドコ ン デ ィ シ ョン(Matched Condition;MC),テ ス トデ ー タ に 対 し て も っ と もEERが 低 く な る SNRの 特 定 話 者 モ デ ル を1つ 選 択 し用 い る も の を ベ ス トコ ン デ ィ シ ョ

ン(BestCondition;BC),テ ス トデ ー タ に 雑 音 除 去 法 の ひ と つ で あ る ス ペ ク トル サ ブ トラ ク シ ョ ン を 適 用 し,Cleanモ デ ル と照 合 し た も の

を ス ペ ク トル サ ブ トラ ク シ ョ ン(Spectralsubtraction;SS)と す る.Uni‑

formは 統 合 重 み を す べ て のSNRに お い てw(m)=1/M=1/7yO.143 と し て ス コ ア を 統 合 す る.

(21)

3.逐 次適応 を用 いたス コア統合重 みの推 定法 16

Cleanspeech

輔1

nOlse

, Noisyspeech

繍,購'}

嚇 鞭

(a)FaNT QUT‑NOISE

璽1脚 齢Y蜘

rClean蜘

幽l/甑

r『

繭ll

講蝿

1>

繍縣

蝋1嚇

Ψ

(b)QUT‑NOISE‑SREprotocol

図8:雑 音 重 畳 手 法 ご と の ち が い

(22)

3.逐 次適 応 を用いた スコア統合重 みの推 定法 17

表2:比 較 す る 手 法

手法 特定話者モ デル ス コ ア 統 合

MC テ ス トデ ー タ のSNRと 同SNRの モ デ ル

BC (Oracle)

テ ス トデ ー タ に 対 し て EERの 最 も 低 い モ デ ル

SS

Cleanモ デ ル (テ ス トデ ー タ に

SSを 適 用)

Unifo㎜ 各SNRモ デ ル で

ス コ ア 計 算 後,統 統合重 み は一定

Proposed method

各SNRモ デ ル で ス コ ア 計 算 後,統

評価 デー タに対す る EERが 下が った場合 に

重み を更新

3.5実 験 結 果

3.5.1雑 音 重 畳 プ ロ トコ ル の ち が い に よ る 比 較

は じめ にFaNTに よ る雑 音 重 畳 と残 響 を 重 畳 して い な い 場 合 のQUT‑

NOISE‑SREprptocolに よ る 雑 音 重 畳 の2つ の フ.ロ トコ ル に よ る 照 合 結 果 の ち が い を 比 較 す る た め の 話 者 照 合 実 験 を 行 った.ど ち らの プ ロ

トコ ル も特 定 話 者 モ デ ル とテ ス トデ ー タ の 条 件 は 合 わ せ て い る.FaNT に よ る 雑 音 重 畳 とQUT‑NOISE‑SREprotocolに よ る 雑 音 重 畳 の テ ス

トデ ー タ のSNRご と のEERを 図9に 示 す.図9よ り,全SNRの テ ス トデ ー タ に お い てQUTLNOISE‑SREprotocolに よ る 雑 音 重 畳 を 行 っ た 場 合 のEERがFaNTに よ る 雑 音 重 畳 の も の よ りも 低 くな っ て い る.こ れ よ り,QuT‑NOISE‑SREprotocolは 学 習 デ ー タ に 使 用 さ れ る 雑 音 の 種 類 が 多 い た め,FaNTと 比 較 して よ り頑 健 な 話 者 モ デ ル を 学 習 で き る と い う特 徴 が あ る こ と が わ か る.

(23)

3.逐 次 適 応 を 用 い た ス コ ア 統 合 重 み の 推 定 法 18

086420864204⊥

︻違Φoσ]

0 5 101520

testdatasNR【dB1

30 clean

図9:2つ の 雑 音 重 畳 プ ロ ト コ ル に よ る テ ス トデ ー タ のSNRご とのEER 3.5.2残 響 を 重 畳 しな い場 合

図10(a)に 雑 音 だ け を 重 畳 し,残 響 は 重 畳 し て い な い 場 合 のMC お よ びBC,SS,Uniform,提 案 法 に よ る テ ス トデ ー タ のSNRご との EERを 示 す.ま ず,MCとBCを 比 較 す る と,テ ス トデ ー タ のSNR

が0,5,15,30dBの と き にBCのEERはMCのEERよ り も 低 くな っ て い る.こ の こ と か ら話 者 モ デ ル とテ ス トデ ー タ のSNRが 一 致 して い る と き のEERが 最 も 低 いEERで あ る と は 限 ら な い こ と が 確 認 で き る.次 に,BCとUniform,提 案 法 に よ る 実 験 結 果 を 比 較 す る.テ

トデ ー タ のSNRが20dB以 下 の と き にUniformお よ び 提 案 法 はBC よ りもEERが 低 く,30dB以 上 の と き もBCと ほ ぼ 等 し く な っ て い る.ま た,SSとUniform,提 案 法 を 比 較 す る と,Uniformお よ び 提 案 法 のEERはSSよ りも 低 くな っ て い る.ス コ ア 統 合 を 用 い た 手 法 は SSに よ り雑 音 除 去 を 行 っ た 場 合 よ り も 複 雑 な モ デ ル を 表 現 で きて い る こ と が 考 え られ る.以 上 よ り,提 案 法 を 含 む ス コ ア 統 合 手 法 は 雑

(24)

3.逐 次適応 を用 いたス コア統 合重みの推定法 19

MC‑◇ 。BC→ ・SS鱒 ◆‑Uniform‑◆ ■9Proposed

12

ユ0

864[違Φoσ]

2

0

◇ \

o.

\\

o

、 ●.∂冷 .

」蚤

.● ・,.匙 ● .、 一 一

1 1奪Il

0510152030clean

testdataSNR[dB]

(a)提 案 法 や そ の 他 手 法 に よ る テ ス ト デ ー タ のSNRご と のEER 囲clean翅30dB翅20dB翅15dB%10dB囮5dB國OdB

1.2

1 8)420000 0

b︒

一〇 .2

0510152030clean

testdataSNR[dB]

(b)提 案 法 の 最 終 的 な 重 み

図10:残 響 を 重 畳 し な い 場 合 のEERと 推 定 さ れ た 重 み

(25)

3.逐 次適応 を用 いたス コア統合重みの推定法 20

音 に頑 健 で あ る こ とが わ か った.

次 に提 案 法 に よ り最 終 的 に推 定 され た ス コ ア統 合 重 み を図10(b)に 示 す.各 項 目 は提 案 法 に よ り推 定 され た,各SNRモ デ ル か ら得 られ た ス コア に対 す る重 み をテ ス トデ ー タのSNRご とに表 して い る.横 軸 は テ ス トデ ー タのSNR,縦 軸 は最 終 的 に推 定 され た重 み の 値 を表

して い る.図10(b)よ り,テ ス トデ ー タ のSNRご とに推 定 され る重 み に ば らつ きが あ る こ とが わ か る.特 にOdBの モ デ ル の重 み が 大 き

く変 化 して い る.

3.5.3残 響 を 重 畳 し た 場 合

図11(a)に 雑 音 だ け で な く残 響 も 重 畳 し た 場 合 の テ ス トデ ー タ の SNRご と の 各 手 法 に お け るEERを 示 す.図10(a)と 比 較 す る と,残 響 が 重 畳 され た 場 合 は 全 体 的 にEERが 高 く な る こ と が わ か る.SSは MCと 比 べ て 残 響 の 影 響 を 低 減 で き て お り,BCと 近 い 性 能 とな っ て い る.BCとUniform,提 案 法 を 比 較 す る と,残 響 が な い 場 合 と 同 様 に テ ス トデ ー タ のSNRが15dB以 下 の と き にUniformお よ び 提 案 法 のEERはBCよ りも 低 く な っ て い る.テ ス トデ ー タ が 低SNRの 場 合 は 残 響 環 境 下 に お い て も ス コ ア 統 合 が 有 効 で あ る こ と が わ か る.

しか し,MCとUniform,提 案 法 を 比 較 す る と,テ ス トデ ー タ のSNR が20dB以 上 の と き にUniformのEERはMCよ り も 高 くな って し ま

う.残 響 環 境 下 に お い て,Uniformは テ ス トデ ー タ のSNRが 高 い と き に 照 合 性 能 が 低 下 し て し ま う こ と が わ か る.一 方,提 案 法 はclean を 除 く全SNRの テ ス トデ ー タ に お い てMCよ り もEERが 低 く な っ て い る.Uniformと 比 較 し て も,提 案 法 の 方 が 高 い 性 能 を 得 ら れ て い る.こ の こ と か ら,提 案 法 で あ る 重 み の 推 定 は 残 響 環 境 下 に お い て も 雑 音 に 頑 健 で あ る こ と が わ か っ た.

提 案 法 に よ り最 終 的 に 推 定 さ れ た 重 み を 図11(b)に 示 す.テ ス ト デ ー タ のSNRが 低 い と き は 推 定 後 の 重 み の 変 動 は 小 さ く,図11(a) か ら もUniformと 提 案 法 のEERの 値 は 近 い こ と が わ か る.一 方,テ ス トデ ー タ のSNRが 高 い と き は 低SNRモ デ ル か ら得 た ス コ ア の 重

(26)

3.逐 次適応 を用 いたス コア統合重 みの推定法 21

MC‑◆ ・BC→ ・SS。 ◆‑Unlform十Proposed

30

25

茎20

tt15

量10

5

0

0510152030dean

testdataSNR[dB]

(a)提 案 法 や そ の 他 手 法 に よ る テ ス トデ ー タ のSNRご と のEER 囮dean囮30dB図20dB臼15dB四10dB囲5dB囮OdB

1.2

1

O.8

GO・6 .皇ρ

≧0、4

0.2

0

一〇 .2

磯'・

\ \

・ ・

\ 、

、 、

\ 駁 ミ=・

一:r‑一 一 一一つ ・̲一 一つ

口融●

・.̲b

韮1

0 5101520

testdataSNR[dB]

(b)提 案 法 の 最 終 的 な 重 み

30 clean

図11:残 響 を 重 畳 した 場 合 のEERと 推 定 さ れ た 重 み

(27)

3.逐 次適応 を用 いたス コア統合重みの推定法 22

み は 小 さ く,高SNRモ デ ル か ら得 た ス コ ア の重 み が 大 き くな る よ う に重 み が 学 習 され て い る.こ の た め 提 案 法 はテ ス トデ ー タが 高SNR の場 合 に お い てUniformで 起 こる よ うな 照 合 性 能 の低 下 が な く,BC

よ りも 良 い照 合 性 能 とな った こ とが考 え られ る.以 上 よ り,提 案 法 に よ る ス コ ア統 合 重 み の 推 定 は残 響 環 境 下 に お い て も頑 健 で あ る こ

とが わ か った.

3.5.4NTT・VRデLタ ベ ー ス を 使 用 し た 場 合

VLDデ ー タ ベ ー ス 以 外 の デ ー タ ベ ー ス を用 い た 比 較 と して,登 話 者 用 デ ー タ ベ ー ス にNTTLVRデ ー タ ベ ー ス[31]の 女 性 音 声 の み を 用 い た 場 合 で も 実 験 を行 っ た.話 者 数 は13名 で あ り,話 者 一 人 に つ き 学 習 デ ー タ は1990年8月 に 収 録 さ れ た116文 章 を,テ ス トデ ー タ は1991年6月 に収 録 さ れ た30文 章 を そ れ ぞ れ 使 用 し た.実 験 はVLD デ ー タ ベ ー ス に よ る 実 験 と 同 様 の 条 件 で 行 っ た.

図12に テ ス トデ ー タ のSNRご と の 各 手 法 に お け るEERを 示 す.

図12(a)は 雑 音 だ け を 重 畳 し,残 響 は 重 畳 し て い な い 場 合 で あ り, 図12(b)は 雑 音 だ け で な く残 響 も 重 畳 し た 場 合 で あ る.VLDデ ー タ ベ ー ス に よ り実 験 を 行 っ た 場 合 のEER(図10(a),図11(a))と 図12

を比 較 す る と,NTTLVRデ ー タ ベ ー ス に よ り実 験 を 行 った 場 合 は 全 体 的 にEERが 高 く な っ て い る.本 実 験 で は 学 習 デ ー タ と テ ス トデ ー タ の 発 話 時 期 が 異 な る た め に,全 体 的 にEERが 高 くな っ た こ と が 考 え られ る.残 響 を 重 畳 しな い 場 合(図12(a))に お い て,ス コ ア 統 合 手 法 (Uniformお よ び 提 案 法)と 単 一 の モ デ ル を 用 い た 手 法(MC,BC,SS)

を比 較 す る と,テ ス トデ ー タ のSNRが15dB以 下 の 場 合 に ス コ ア 統 合 手 法 のEERは 低 く な っ て い る.ま た,残 響 を重 畳 し た 場 合(図12(b)) で も 同 じ傾 向 と な っ た.こ の こ と か ら ス コ ア 統 合 の デ ー タ ベ ー ス に 関 す る 汎 用 性 が 確 認 で き た.残 響 を 重 畳 し な い 場 合 は テ ス ト デ ー タ のSNRが20dB,cleanの と き に,ス コ ア 統 合 を用 い た 手 法 が 単 一 の モ デ ル に よ る 手 法 よ りもEERが 低 くな っ た.し か し,残 響 環 境 下 に お い て は テ ス トデ ー タ のSNRが20dB以 上 の と き に,ス コ ア 統 合 を

(28)

3。 逐次適応 を用 いたス コア統合重 みの推定法 23

MC‑◆ ・BC→ ・SS● ◆oUnlform‑◆‑Proposed

26 24

22

茎20

αr18

§ 些i6

璽14 9

12 10

8

'

8

◇ 。 「◆ .

幽一一一■幽闇騨

金,\6 一◎ こ

..

一く ㍉7奢 一…4

聾1誓

0 5 101520

testdataSNR[dB]

(a)残 響 を 重 畳 し な い 場 合

30 clean

MC‑◇ 。BC→ ・SS。 ◆ ●Unlform‑◆‑Proposed

40

35

塁30

皇25 ig2・

15

10

気 ・.

.

.◆

、. ▲

6 \ ◆

.

一尊

●一 一6一 一一 ●

鴨、

こ 弓L雫 。→

ll

0510152030

testdataSNR[dB]

(b)残 響 を 重 畳 し た 場 合

図12:NTT‑VRデ ー タ ベ ー ス を 用 い た 場 合 のEER

dean

(29)

3.逐 次 適 応 を 用 い た ス コ ア 統 合 重 み の 推 定 法 24

用 い た 手 法 が単 一 の モ デ ル に よ る手 法 よ りもEERが 高 くな った.特 にUniformで は照 合 性 能 が 大 き く低 下 して い る.一 方 で,提 案 法 は Uniformと 比 べ て 低SNRモ デ ル か ら得 られ た ス コ ア に よ る影 響 を低 減 して い る こ とが わ か る.こ の こ とか ら提 案 法 に よ りス コ ア統 合 重 み を推 定 す る こ とが,重 み を推 定 しな い よ りも有 効 で あ る こ とが 確 認 で きた.

3.6ま と め

本 論 文 で は あ らか じめSNRご とに別 々 に学 習 した 話 者 モ デ ル か ら 得 られ た 照 合 ス コア を統 合 す る手 法 と,そ の ス コ ア統 合 重 み の 逐 次

適 応 を用 い た 推 定 手 法 を提 案 した.残 響 環 境 下 に お け る提 案 法 の頑 健 性 を調 査 す る た め に,QuT‑NOISE‑SREprotocolを 使 用 してclean

音 声 に残 響 を重 畳 した.残 響 を重 畳 した も の と重 畳 しな い もの を作 成 して,そ れ ぞ れ の 環 境 下 でGMM‑UBMを 用 い た 話 者 照 合 実 験 を 行 っ た.実 験 結 果 よ り,提 案 法 は残 響 環 境 下 に お い て も照 合 性 能 の 低 下 が 少 な く,雑 音 に対 して頑 健 で あ る こ とが わ か っ た.

参照

関連したドキュメント

 本実験の前に,林間学校などで行った飯 はん 盒 ごう 炊 すい

[r]

[r]

[r]

[r]

[r]

安全第一 福島第一安全第一 福島第一 安全 第一 福島第一. 安全第一 福島第一安全第一

安全第一 福島第一安全第一 福島第一 福島第一 安全 第一. 安全第一 福島第一安全第一