函
平 成28年 度 修 士 論 文
ノイズ環 境 お よび帯 域 制 限 に関 す る 話 者 照 合 の頑 健 性 に関 す る研 究
Astudyonrobustspeakerverification fornoisyreverberantenvironment
andbandwidthlimitation
首 都 大 学 東 京 大 学 院 シ ス テ ム デ ザ イ ン研 究 科 シ ス テ ム デ ザ イ ン専 攻 情 報 通 信 シ ス テ ム 学 域
15890530中 西 亮 介
指導教員 貴家 仁志 教授
目 次
目 次
1は じめ に
2話 者 照 合
2.1GMM‑UBMに 基 づ く 話 者 照 合
2.2等 価 エ ラ ー 率(EER)...
2.3Z‑Norm...
3逐 次適 応 を用 いたス コア統合 重 みの推 定法
3.1 3.2 3.3
45
2﹂つ﹂
3.6
ゴ ヒ 旦
目 尽...。....
複 数 モ デ ル に よ る ス コ ア 統 合...
提 案 法...
3.3.1複 数 のSNRモ デ ル を 用 い た ス コ ア 統 合.
3.3.2ス コ ア 統 合 重 み の 推 定 法...
実 験 準 備...
実 験 結 果...
3.5.1雑 音 重 畳 プ ロ ト コ ル の ち が い に よ る 比 較
3.5.2残 響 を 重 畳 し な い 場 合...
3.5.3残 響 を 重 畳 し た 場 合...
3.5.4NTT‑VRデ ー タ ベ ー ス を 使 用 し た 場 合.
ま と め...
4非 線 形 帯 域 拡 張 法 に 基 づ く 話 者 照 合
4.1背 景.。...。...
4.2帯 域 拡 張 法...
4.3非 線 形 帯 域 拡 張 法...
4.4実 験...
4.4.1実 験 条 件...
4.4.2実 験 結 果...
4.5ま と め...
・‑
1
稽﹂う⊃5〆077800037780241111111222 5567114022223334
目 次 .‑‑︒
5お わ り に 41
あ ら ま し iii
あ ら ま し
本 論 文 で は話 者 照 合 の た め の ノイ ズ 環 境 に対 す る ス コ ア統 合 重 み 推 定 法 お よび 帯 域 制 限 に対 す る非 線 形 帯 域 拡 張 法 を 提案 す る.話 者 照 合 は声 を用 い た 生 体 認 証 技 術 で あ る が,実 環 境 下 に お い て そ の 照 合 性 能 は雑 音 や残 響 な ど の ノ イ ズ の 影 響 を受 けて 低 下 して しま う とい う問 題 が あ る.本 論 文 で は ノイ ズ環 境 下 に お け る複 数 のSNRモ デ ル を用 い た 逐 次 適 応 を行 い,ス コ ア統 合 で 重 要 とな る適 切 な 統 合 重 み を推 定 す る手 法 を提案 す る.ス コア統 合 は複 数 の識 別 器 を用 い て,各 識 別 器 の 識 別 結 果 を統 合 す る手 法 で あ る.評 価 実 験 を行 い,提 案 法 の 有 効 性 を確 認 した.ま た,電 話 で の通 話 音 声 は通 信 速 度 の確 保 の た め 帯 域 制 限 が か か っ て い る こ とが 多 く,帯 域 制 限 の か か っ た 音 声 は音 質 や 話 者 性 が 大 き く低 下 す る こ とが 知 られ て い る.本 論 文 で は 非 線 形 帯 域 拡 張 法 を電 話 音 声 な ど の帯 域 制 限 の か か っ た 音 声 に 適 用 し,話 者 照 合 に お け る帯 域 拡 張 の 有 効 性 を評 価 す る.帯 域 拡 張 法 は これ まで い くつ か提 案 され て い る が,こ れ まで 話 者 照 合 へ の適 用 例 は ほ とん ど報 告 され て い な い.提 案 法 の 性 能 評 価 は話 者 照 合 実 験 に よ り行 わ れ た.そ の 結 果,学 習 デ ー タ とテ ス トデ ー タ そ れ ぞれ に提 案 法 を適用 し8kHzか ら16kHzに 帯 域 拡 張 した 場 合 に帯 域 拡 張 を行 う 前 に比 べ エ ラ ー改 善 率 が27.7%改 善 した.
あ ら ま し iv
Summary
Thispaperproposesaweightestimationmethodusingscorefusionin noisyreverberantenvironmentandanon‑linearbandwidthextension methodagainstthebandwidthlimitationspeechesfbrspeakerveri且ca‑
tionsystems.Speakerverificationsystemsareabiometricauthentication techniqueusingspeech.Itiswell㎞ownthatbackgroundnoiseandre‑
verberationaffecttheperformancesofspeakerverificationsystems.Al‑
thoughscorefusionisoneoftheeffectivemethodsagainstnoisyrever‑
berantenvironment,thismethodrequiresanadequateweightestimation method.Inthispaper,theproposedmethodestimatesanadequateweight ofscorefusionbyusingasupervisedadaptationwithsomeSNRmod‑
els.Theexperimentalresultsshowthattheproposedweightestimation methodprovidesahighperformanceinnoisyreverberantenvironment.
Speakerverificationsystemsareparticularlyexpectedtobeperfbrmed ontelephonenetworks.Itiswell㎞ownthatthebandwidthli血tation speecheslackclarityanddrasticallydegradethespeechqualityandthe
speakerindividualit》 孔Thispaperproposesanon‑linearbandwidthexten‑
sionmethodfbradaptingittothenarrowbandspeeches,andevaluates itforaspeakerverificationsystem.Severalarti且cialbandwidthexpan‑
sionmethodshavebeenproposedtogenerateawidebandsignalfrom anarrowbandsignal.However,mosttheconventionalexpansionmeth‑
odshavenotbeenappliedtospeakerveri盒cationsystems.Theproposed methodisevaluatedundersomespeakerveri盒cationexperimentstocon一 且rmtheperfbrmanceofthespeakerveri盒cation.Asaresult,theproposed methodhasanErrorReductionof27.7%comparedtotheuseofnarrow‑
bandspeeches,wherethebandwidthofthetrainingdataandthetestdata arerespectivelyexpandedfrom8kHzto16kHz.
は じ め に 1
1は じめ に
現 在,携 帯 電 話 やATMの セ キ ュ リテ ィ と して 生 体 認 証 の使 用 が 普 及 しつ つ あ る.生 体 認 証 は指 紋 や 虹 彩,静 脈,顔 画 像 な ど人 間 の 身 体 的 な 特 徴 を用 い た 個 人 認 証 法 で あ る.そ の 中 で も声 を用 い た 生 体 認 証 で あ る話 者 照 合 は マ イ ク の よ うな簡 単 な装 置 で 実 現 可 能 で あ る こ とや,ユ ー ザ が使 用 す る た め に事 前 練 習 を行 う必 要 が な い こ とか ら も生 体 認 証 の 中 で も ユ ー ザ が使 用 す る こ とに対 す る抵 抗 が 少 な い 方 法 とな っ て い る.近 年 で は,話 者 照 合 の 手 法 と してi‑vector[1]や PLDA(Probabilisticlineardiscriminantanalysis)[2‑4]と い った も の が 提 案 さ れ て お り照 合 性 能 も大 幅 に 向上 して きて い る た め 更 な る普 及 が 期 待 され て い る.し か しな が ら,実 際 に話 者 照 合 シ ス テ ム を使 用 す る場 合 や 携 帯 電 話 な どで の使 用 の た め に,ノ イ ズ 環 境 お よび 帯 域 制 限 とい った 問 題 を考 慮 す る必 要 が あ る.本 論 文 で は,ノ イ ズ 環 境 に頑 健 な手 法 と して 逐 次 適 応 を用 い た ス コア統 合 重 み の 推 定 ア ル ゴ リズ ム を,帯 域 制 限 の 問 題 に 対 して 非 線 形 帯 域 拡 張 法 に基 づ く話 者 照 合 を そ れ ぞ れ 提 案 す る.
第 一 に,ノ イ ズ環 境 に お け る話 者 照 合 の た め の逐 次 適 応 を用 い たス コ ア統 合 重 み の 推 定 ア ル ゴ リズ ム を提 案 す る.実 際 に話 者 照 合 シ ス テ ム を使 用 す る場 合,シ ス テ ム に入 力 さ れ た 音 声 が 背 景 雑 音 お よび 残 響 の影 響 を受 け る こ とで 入 力 音 声 と学 習 モ デ ル 間 の環 境 の 不 一 致 が起 こ り,話 者 照 合 シ ス テ ム の 性 能 が低 下 して し ま う こ とが報 告 さ れ て い る.入 力 音 声 の 環 境 をす べ て 学 習 す る こ とは難 しい た め,背 景 雑 音 や 残 響 に対 す る シ ス テ ム の 頑 健 性 を 向 上 す る た め の さ ま ざ ま な 手 法 が研 究 され て い る[5,6].そ れ らの 手 法 の ひ とつ に ス コ ア統 合 が あ る.ス コ ア統 合 は複 数 の 識 別 器 か ら出力 され た 照 合 ス コア を組 み 合 わ せ る こ と で シス テ ム の 認 識 精 度 を改 善 す る手 法 で あ る[7,8].
ス コア 統 合 は単 一 の ス コ ア を用 い た 手 法 よ りも複 雑 な モ デ ル を形 成 す る こ とが で き るが,シ ス テ ム の性 能 は ス コア 統 合 を行 う際 の統 合 重 み に依 存 す る た め,適 切 な統 合 重 み を推 定 す る 方 法 が必 要 とな る.
1.は じ め に 2
そ こで,本 論 文 で は あ らか じめSNRご と に学 習 した話 者 モ デ ル か ら 得 られ た ス コ ア を統 合 す る手 法 お よ び 逐 次 適 応 を用 い た ス コア統 合 重 み の 推 定 手 法 を提 案 す る.雑 音 お よび 残 響 環 境 下 に お け る話 者 照 合 実 験 を行 い,提 案 法 の有 効 性 を確 認 す る.
第 二 に,帯 域 制 限 され た 音 声 に よ る 話 者 照 合 の た め の 非 線 形 帯 域 拡 張 法 を提 案 す る.話 者 照 合 は今 後 の さ らな る展 開 と してi携帯 電 話 な どの 音 声 を用 い た セ キ ュ リテ ィ シ ス テ ム と して の 利 用 が期 待 され て い る.電 話 で の通 話 音 声 は通 信 速 度 の 確 保 の た め に帯 域 制 限 が か か った 音 声 が 多 く用 い られ て い る.帯 域 制 限 が か か った 音 声 は明 瞭 性 に欠 け,音 質 や 話 者 性 が 大 き く低 下 して し まい,ま た 音 声 認 識 や 話 者 認 識 の 観 点 か ら も広 帯 域 音 声 に比 べ て 認 識 性 能 が低 下 して し ま う な ど様 々 な 問題 を 引 き起 こ して し ま うこ とが 知 られ て い る.帯 域 制 限 に よ り失 わ れ た広 帯 域 成 分 を復 元 す る た め に,帯 域 拡 張 法 が 狭 帯 域 音 声 か ら広 帯 域 音 声 を作 る技 術 と して これ まで い くつ か 提 案 され て い る[9‑11].し か し,こ れ まで 話 者 照 合 へ の適 用 例 は ほ とん ど報 告 され て い な い.本 論 文 で は非 線 形 帯 域 拡 張 法 を電 話 音 声 な どの 帯 域 制 限 の か か っ た 音 声 に 適 用 し,話 者 照 合 に お け る帯 域 拡 張 の有 効 性 を 評 価 す る.非 線 形 帯 域 拡 張 法 は狭 帯 域 音 声 に ハ イパ ス フ ィル タ を か け た後 に非 線 形 関 数 を用 い る こ とで 広 帯 域 音 声 を生 成 し,狭 帯 域 音 声 と加 算 合 成 す る た め 非 常 に処 理 が 軽 い とい う特 徴 を持 つ.提 案 法 の 性 能 評価 は 話 者 照 合 の精 度 で 評 価 す る た め に話 者 照 合 実 験 に
よ り行 わ れ た.そ の 結 果,学 習 デ ー タ とテ ス トデ ー タ そ れ ぞ れ に提 案 法 を適 用 し8kHzか ら16kHzに 帯 域 拡 張 した 場 合 に帯 域 拡 張 を行 う 前 に比 べ エ ラー 改 善 率 が27.7%改 善 した.
以 下 で は,ま ず2章 で 話 者 照 合 の基 本 的 な手 法 で あ るGMM‑UBM
に基 づ く話 者 照 合 に つ い て 説 明 す る.そ の後,逐 次 適 応 を用 い た ス コア 統 合 重 み の 推 定 アル ゴ リズ ム と提 案 法 の 実 験 結 果 につ い て3章 で 説 明 し,4章 で非 線 形 帯 域 拡 張 法 に基 づ く話 者 照 合 とそ の 実験 結 果
に つ い て 説 明 す る.
話者照合 3
2話 者 照 合
2.1GMM‑UBMに 基 づ く話 者 照 合
話 者 照 合 はユ ー ザ が 「自分 が 誰 で あ るか 」 を 申告 し,入 力 され た 音 声 が そ の ユ ー ザ 本 人 で あ る か否 か を 判 定 す る.話 者 照 合 シ ス テ ム の 概 要 を 図1に 示 す.話 者 照 合 は登 録 部 と照 合 部 の 二 つ に 分 け られ て
璽慧一算Waveform
Training Test
↓嚇噺
懲輪曾細
●黒
図1:話 者 照 合 シ ス テ ム の 概 要
お り,登 録 部 で は あ ら か じ め 登 録 ユ ー ザ の 声 か ら特 定 話 者 モ デ ル を 学 習 し て お く.照 合 部 で は 入 力 さ れ た 音 声 か ら特 徴 量 を 抽 出 し,得
ら れ た 特 徴 量xを 登 録 時 に 学 習 さ れ た ユ ー ザ モ デ ル λuと 詐 称 者 モ デ ル λ1に 入 力 し,そ れ ぞ れ の モ デ ル か ら入 力 音 声 の ユ ー ザ ら し さ,詐 称 者 ら し さ を 尤 度 と してp(xllU),p(X1λ1)で 算 出 す る.最 後 にp(xlλU), p(X1λ1)か ら照 合 ス コ アS(X,λ)を 計 算 し,閾 値 θとS(X,λ)を 比 較 す る
こ とで 判 定 を 行 う.照 合 ス コ ア の 計 算 式 は 以 下 の とお りで あ る.
P(xlλu)
.(1)S(X,λ)=109 P(xlλ1)
2.話 者 照 合 4
登 録 部 に お い て,特 定 話 者 モ デ ル の 学 習 時 に 登 録 ユ ー ザ の 音 声 の み を 用 い て 学 習 す る と デ ー タ 量 の 少 な さ な ど か ら登 録 ユ ー ザ が 発 生 し う る す べ て の 範 囲 の モ デ ル を表 現 す る こ とが 難 し い.GMM‑UBM[12]
は あ ら か じめ 不 特 定 多 数 話 者 の 音 声 か らUBM(UniversalBackground
Model)を 学 習 し て お き,登 録 ユ ー ザ の 特 定 話 者 モ デ ル をUBMに 適 応 さ せ る こ と で,ユ ー ザ の 発 声 範 囲 を カ バ ー す る こ と が で き る.特 定 話 者 モ デ ル の 適 応 に は 最 大 事 後 確 率(Maximumaposteriori;MAP)
推 定[13]を 用 い る.
/\ 諦 ノ\
adaptation GMMUBM
→
響 福M
GMM‑UBM
M協BM
図2:GMM‑UBMに お け る 特 定 話 者 モ デ ル の 適 応
2.話 者 照 合 5
2.2等 価 エ ラ ー 率(EER)
等 価 エ ラー 率(EqualErrorRate;EER)は 話 者 照 合 シ ス テ ム の性 能 評 価 の 基 準 と して用 い られ る指標 の ひ とつ で あ り,本 人 拒 否 率(False RejectionRate;FRR)と 他 人 受 入 率(FalseAcceptanceRate;FAR)が
等 し くな る と きの 値 を表 す(図3).話 者 照 合 シス テ ム は入 力 音 声 が 本 人 の も の で あ る に も か か わ らず 誤 って 拒 否 さ れ て し ま う割 合 を表 す FRRと 詐 称 者 の も の で あ る に もか かわ らず 誤 って 受 理 され て し ま う 割 合 を表 すFARの ふ た つ の 面 か ら評 価 す る必 要 が あ る.FRRが 高 い と本 人 で あ るユ ー ザ を正 し く照 合 で き な くな る.一 方 でFARが 高 い と シス テ ム の安 全 性 が低 下 し,詐 称 者 が 受 理 され る リス ク が 高 く な っ て し ま う.話 者 照 合 シ ス テ ム はFRRとFARの どち らも低 い値 で あ る こ とが 望 ま しい が,こ れ らは トレー ドオ フの 関 係 に あ る.こ の こ とか ら照 合 時 に得 られ た 照 合 ス コ ア か ら全 話 者 共 通 の 閾 値 を設 定 しFRRとFARを 計 算 した あ とに,そ れ らの値 か ら計 算 したEER を用 い て 話 者 照 合 シス テ ム の評 価 が 行 わ れ て い る.一 ・般 的 にEERが
どち らも低 い シ ス テ ム は照 合性 能 が 高 い とい え る.
ま︼匡く﹂
マ
﹁男︻選
・EER【%1
threshoId
図3:等 価 エ ラ ー 率(EER)
2.話 者 照 合 6
2.3Z‑Norm
話 者 照 合 に 用 い る 照 合 ス コ ア は 同 一 話 者 で も 発 声 内 容 や 発 声 時 期 に よ り大 き く変 動 す る た め,尤 度 に ぼ ら つ き が 生 じて し ま いEERを 低 く抑 え る こ と が 困 難 と な る.し た が っ て 照 合 ス コ ア を正 規 化 す る 必 要 が あ る.本 実 験 に お け る 照 合 ス コ ア はZ‑Norm[14]に よ る 正 規 化 が 行 わ れ て い る.
Z‑Normは,詐 称 者 の 音 声 に対 す る 照 合 ス コ ア の 分 布 を推 定 し,そ の 分 布 を 正 規 化 す る 手 法 で あ る.Z‑Normに よ る 正 規 化 式 を 以 下 に 示 す.
s(x,λ)一 μ1(2) SZN(X,λ)=
0‑1
こ こ で μ1,σ1は そ れ ぞ れ 詐 称 者 音 声 に 対 す る 照 合 ス コ ア の 平 均 お よ び 分 散 を 表 す.
こ こ で,S(X,λ)は 入 力 デ ー タXと ユ ー ザ モ デ ル λu,お よ び 詐 称 者 モ デ ル λ1か ら求 め た 照 合 ス コ ア で あ る.ま た,詐 称 者 音 声 に 対 す る 照 合 ス コ ア の 平 均 お よ び 分 散 を そ れ ぞ れ μ1,0‑1と す る.
逐次適応 を用いたス コア統合 重みの推 定法 7
3逐 次 適 応 を用 いた ス コア統 合 重 み の推 定 法
提 案 法 で あ る逐 次 適 応 を用 い た ス コア統 合 重 み の 推 定 ア ル ゴ リズ ム[15,16]に つ い て 説 明 す る.実 験 を 行 い,提 案 法 の 有 効 性 を確 認 す る.
3.1背 景
実 際 に話 者 照 合 シ ス テ ム を使 用 す る場 合,シ ス テ ム に入 力 され た 音 声 が 背 景 雑 音 お よび残 響 の 影 響 を受 け る こ とで,入 力 音 声 と学 習 モ デ ル 間 の 環 境 の 不 一 致 が起 こ り話 者 照 合 シ ス テ ム の性 能 が低 下 し て しま う こ とが報 告 され て い る.入 力 音 声 の環 境 をす べ て 学 習 す る こ と は難 しい た め,背 景 雑 音 や 残 響 に対 す る シ ス テ ム の頑 健 性 を 向 上 す るた め の さ ま ざ まな手 法 が 研 究 され て い る[5,6].こ れ らの 手 法 は 大 き く分 け る と特 徴 量 に関 す る 手 法[17‑19]と モ デ ル に 関 す る手 法[20,21]の 二 種 類 に分 類 す る こ とが で き る.特 に モ デ ル に関 す る手 法 はバ ッ クエ ン ドで 処 理 を行 うも の が 多 く,そ れ らの手 法 の ひ とつ に話 者 モ デ ル と入 力 音 声 の雑 音 やSignal‑to‑NoiseRatio(SNR)の 条 件 を 一 致 させ る 手 法 が あ る.し か し,実 際 に用 い る場 合 は入 力 音 声 の 雑 音 やSNRが 未 知 で あ る た め に,SNRの 推 定 を行 う必 要 が あ る.ま た,特 定 話 者 モ デ ル のSNRが 入 力 音声 に対 して 一 致 す る と きに 必 ず
し も最 も性 能 が良 いSNRと な る とは 限 らな い とい う問 題 も あ る.
一 方 で,モ デ ル に関 す る ア プ ロー チ の別 の 手 法 に,複 数 の識 別 器 か ら得 られ た 識 別 結 果 の 統 合 が あ る.こ れ は認 識 結 果 の 統 合 お よ び特 徴 量 の統 合,ス コア の 統 合 に 分 け る こ とが で き る.ス コ ア統 合 は複 数 の 識 別 器 か ら出 力 さ れ た 照 合 ス コ ア を組 み 合 わ せ る こ とで シ ス テ ム の 認 識 精 度 を改 善 す る手 法 で あ る[7,8].ス コ ア統 合 は単 一 の ス コ ア を用 い た手 法 よ りも複 雑 な モ デ ル を形 成 す る こ とが で き る が,シ ス テ ム の 性 能 は ス コ ア統 合 を行 う際 の統 合 重 み に依 存 す る.そ の た め,適 切 な 統 合 重 み を推 定 す る方 法 が 必 要 とな る.
3.逐 次 適 応 を 用 い た ス コ ア 統 合 重 み の 推 定 法 8
Testdata 一
1幡if耐 ・→ 漁 ・
Fusion
→ Score2
→ Classifier → 1C脇if耐2
… …
→
→
→
→ ClassifierN → ScoreN
Result
図4:ス コ ア 統 合 の 例
提 案 法 で は あ らか じめSNRご とに 学 習 した 話 者 モ デ ル を用 い て ス コ ア統 合 を行 う.教 師 あ りの評 価 デ ー タ を用 い てSNRご との特 定 話 者 モ デ ル と入 力 音 声 との ス コア を計 算 し,評 価 デ ー タ に対 す る等 価 エ ラー 率(EqualErrorRate;EER)が 低 くな る よ うに逐 次 的 に重 み を 更 新 す る.提 案 法 の 有 効 性 を確 認 す る た め に,雑 音 お よび残 響 環 境 下 に お け る話 者 照 合 実 験 を行 っ た.雑 音 重 畳 に はQUTLNOISE‑SRE
protocol[22]を 使 用 し,残 響 を重 畳 した 音声 と重 畳 して い な い 音 声 の そ れ ぞ れ で 実 験 を行 っ た.
3.2複 数 モ デ ル に よ るス コ ア統 合
従 来 の 話 者 照 合 シ ス テ ム は入 力 信 号 と特 定 話 者 モ デ ル との 照 合 ス コ ア を計 算 す る た め に単 一 の モ デ ル を用 い て い る.雑 音 お よ び残 響 環 境 下 に お け る照 合 性 能 を よ り向 上 させ る た め に,ア ンサ ンブ ル 学 習 に基 づ き複 数 の識 別 器 か ら得 られ た識 別 結 果 を統 合 す る手 法 が 提 案 され て い る[7].ア ンサ ンブ ル学 習 に基 づ く手 法 は認 識 結 果 の統 合 お よび 特徴 量 の 統 合,照 合 ス コア の統 合 に分 け る こ とが で き る.ス コ
ア統 合 は複 数 の 識 別 器 か ら出力 され た ス コア を組 み 合 わ せ る こ とで シス テ ム の精 度 を高 め る手 法 で あ る.図4に 複 数 の 識別 器 を用 い た ス
3.逐 次適応 を用 いたス コア統合重 みの推定法 9
コ ア統 合 の例 を示 す[23].手 順 と して は,は じめ に あ らか じめ複 数 の 識 別 器 を学 習 して お き,テ ス トデ ー タ が入 力 され た とき に は各 識 別 器 との 照 合 ス コ ア が そ れ ぞ れ 計 算 され る.次 に識 別 器 ご と に得 られ た ス コア の 統 合 を行 い,最 終 的 に統 合 され た ス コ ア を用 い て 照 合 を 行 う.ス コ アの統 合 時 に,各 モ デ ル か ら計 算 され た ス コア を どの よ う に統 合 す る か を 決 め る必 要 が あ る.あ らか じめ 教 師 あ りデ ー タ を用 い て 重 み の 学 習 を行 い逐 次 的 に更 新 す る手 法 をBoostingと 呼 び,そ の 代 表 的 な アル ゴ リズ ム にAdaBoost[24]が あ る.ま た重 み の 事 前 学 習 を行 わず,各 ス コア に対 す る重 み を 同 一 とす る手 法 をBagging[25]
と呼 ぶ.Baggingは 重 み の推 定 を行 わ な い た め に処 理 が 早 いが,十 分 な 精 度 が 出 な い とい う問 題 が あ る.一 方AdaBoostは 重 み の 事 前 学 習 を行 うた め,モ デ ル ご と に よ り適 切 な重 み を学 習 で き る とい う利 点 が あ る.重 み の推 定 法 に は さ ま ざ まな 手 法 が 提 案 され て い る が,処 理 が 複 雑 に な って し ま う とい う問 題 が あ る.
3.逐 次適応 を用 いたス コア統 合重みの推定法 10
3.3提 案 法
3.3.1複 数 のSNRモ デ ル を 用 い た ス コ ア 統 合
SNRご とに学 習 した 話 者 モ デ ル を用 い た ス コ ア統 合 につ い て 説 明 す る.図5に 提案 法 に よ る ス コ ア統 合 の フ ロー を示 す.こ こ でSNR
OdB mode1
5dB modeIT estdata
Clean model
Result
図5:SNRご と に 学 習 し た 話 者 モ デ ル を 用 い た ス コ ア 統 合 の フ ロ ー チ ャ ー ト
ご とに学 習 した 話 者 モ デ ル は,図4のClassifierに 相 当 す る.教 師 あ り評価 デ ー タ を用 いてSNRご との 特 定 話 者 モ デ ル との ス コア を計 算 し,照 合 精 度 が 高 くな る よ うに逐 次 的 に更 新 を行 う.
3.3.2ス コ ア 統 合 重 み の 推 定 法
図6に ス コ ア 統 合 重 み の 推 定 ア ル ゴ リズ ム を 示 す.ス コ ア 統 合 重 み の 推 定 手 順 は(a)準 備,(b)重 み の 初 期 化,(c)重 み の 推 定 の3つ に 分 け ら れ る.ま ず(a)準 備 と して,SNRご との 話 者 モ デ ルmと 評 価 デ ー タiか ら重 み 学 習 用 ス コ アSm(i),i=1,2,̲,Nを 計 算 す る.こ こ でm∈Mは 重 畳 し たSNRを 示 す.次 に,(b)各SNRモ デ ル に 対 す る ス コ ア 統 合 重 みw(m)の 初 期 化 を 行 う.mdBモ デ ル に 対 す る 重 み w(m)の 初 期 値w(m)は,
w(m)=M(3)1
3.逐 次適応 を用 いたス コア統合重み の推定法 11
に よ り計 算 され る.(c)重 み の学 習 は さ らに(i)重 み の 更 新 量 の計 算, (ii)重み の仮 更 新,(iii)仮 更 新 後 の重 み の正 規 化,(iv)仮 の重 み の有 効 性 の 判 定 と更 新 の4段 階 に分 け られ る.は じめ に,(i)各SNRの ス
コ ア に対 す る重 み の 更 新 量 を計 算 す る.重 み の 更 新 量 △w(m)は,
△w(m)=5・m(i)・ ρ ・y(i) (4)
に よ り計 算 さ れ る.こ こ で,ρ は重 み の 更 新 率,y⑦ は教 師 デ ー タ が 登 録 話 者 か 否 か の ラ ベ ル を 表 す.更 新 量 △w(m)を 計 算 し た あ と,現 在 の 重 みw(m)と 更 新 量 △w(m)を 用 い て(ii)重 みw(m)を 仮 更 新 す る.
仮 更 新 後 の 重 みw'(m)は,
w'(m)=w(m)+△w(m) (5)
に よ り計 算 され る.仮 更 新 後 の 重 みw'(m)は 大 きい値 とな る場 合 が あ る ため,SNRご とに(iii)重みw'伽)の 正 規 化 を行 う.正 規 化 式 を以 下 に示 す.
wAorm(M)=Σ 畿 ん)・(6)
仮 更 新 した 重 み を 用 い て(iv)重 み を 更 新 す る か 判 定 を行 う.評 価 デ ー タ と正 規 化 され た 重 み 垢 。rm(M)か らEERπ'を 計 算 し,話 者 照 合 シ ス テ ム の 性 能 を 評 価 す る.仮 更 新 後 の 重 みwA。rm(M)か ら 算 出 し たEERπ' を 更 新 前 の 重 みw(m)か ら算 出 したEERπ と比 較 し,π'≦ πで あ れ ぼ 重 み をw(m)=w'(m)と す る.以 上 の4つ の 手 順 を評 価 デ ー タ を 用 い
て 繰 り返 し,各SNRの 最 終 的 な 重 みw(m)を 決 定 す る.
3.逐 次適応 を用 いたス コア統合重みの推定法 12
(a)Prepare Sm(の
(b)Weightinitialization w(m)
(c)Weightestimation w(m)
Estimatedweights
u噌
(i}Calculate theupdaterate△w(m)
響
(ii)Calculate thetentativeadaptedweight
曹 w'(拠)
u
(iii)Weightnormalization w'η 。。襯(m)
u
CalculatingEERπ' usingW'ηoγ 糀(m)
1Vo
π ≧ π'
yθ ∫
(iv}w@)=w'π 。γm(m) ' π=π
■
図6:ス コ ア 統 合 重 み の 推 定 ア ル ゴ リズ ム
3.逐 次適応 を用 いたス コア統合重 みの推定法 13
表1:実 験 条 件
UBM用 デ ー タ ベ ー ス JNAS(女 性 の み) UBM学 習 デ ー タ 23657文 章 ×7SNR
(計165599文 章) 登 録 話 者 デ ー タ ベ ー ス VLDデ ー タ ベ ー ス
学習 データ (特定 話者モデル)
70文 章 ×17名 (計1190文 章) テ ス トデ ー タ 20文 章 ×17名
(計340文 章) 評 価 デ ー タ
(重 み 学 習 用 デ ー タ)
10文 章 ×17名 (計170文 章)
GMM混 合数 1024
サ ンプ リング周波数 16kHz
フ レ ー ム 長 25msec
フ レ ー ム シ フ ト 10msec
特徴量 MFCC19次+△+△ △
3.4実 験 準 備
提 案 法 の 有 効 性 に つ い て 調 査 す る た め に,話 者 照 合 実 験 を 行 っ た.
従 来 の 話 者 照 合 シ ス テ ム と し てGMM‑UBM[12]を 用 い た.
表1に 実 験 条 件 を 示 す.雑 音 環 境 下 に お け る 複 数 の 異 な るSNRの テ ス トデ ー タ が 入 力 さ れ た 場 合 の 性 能 を 評 価 す る た め に,SNRを OdBか ら30dBで5dBき ざ み で 重 畳 し た.重 畳 し たSNRをM=
{0,5,10,15,
20,30,clean}と す る.UBMは,OdBか ら30dBで 各SNRの 雑 音 重 畳 音 声 とclean音 声 を す べ て 混 ぜ て マ ル チ コ ン デ ィ シ ョ ン学 習 を 行 っ た.
UBMの 学 習 に はJapaneseNewspaperArticleSentences(JNAS)デ ー タ ベ ー ス[26]か ら女 性 音 声 の み を使 用 し た.UBM用 学 習 デ ー タ へ 重 畳 す る雑 音 デ ー タ ベ ー ス は 電 子 協 騒 音 デ ー タ ベ ー ス[27]か ら 走 行 自動 車 内(1500ccク ラ ス)雑 音 を使 用 した.ま た,雑 音 の 重 畳 に はFiltering andAddingNoiseTool(FaNT)[28]を 使 用 し た.MAP適 応 に よ り特 定 話 者 モ デ ル をUBMへ 適 応 し た.特 定 話 者 モ デ ル 用 学 習 デ ー タ お よ
3.逐 次適応 を用いたス コア統合重み の推定法 14
CAFE
HOME
STREET
CAR
REVERB
LOCATION GROUPA SESSIONlSESSION2
LOCATION GROUPB
SESSION1 SESSION2
一
CAFE‑
FOODCOURTB‑1
CAFE‑
FOODCOURTB‑2
CAFE‑
CAFE‑1
c《Fε ・ CA}愚2
■
HOME‑
KITCHEN‑2
■
HOME‑
LIVINGB‑1
■
HOME・
KITCHEN‑1
H◎M婁 ・ LIVINi蔵 欝塗
■
STREET‑
CITY‑1
STREET‑
CITY‑2
■
STREET‑
KG‑1
■
釘R麗 丁粘 縦 ト2
CAR‑
WINDOWNB‑1
CAR‑
WINDOWNB‑2
l
CAR‑
WINUPB‑1
■
CA艮 ズ WINUP8μ2
■
REVERB‑
POOL‑1 薩
REVεRB‑
POOL‑2
■
REVERB‑
CARPARK‑1
■
曜VεR暮 一 CA鞍PARI〈 ・2
開発 デ ー タ 学 習 デ ー タ テ ス トデ ー タ
図7:QUT‑NOISEdatabaseの 概 要
び 評 価 デ ー タ,テ ス トデ ー タ に はVLDデ ー タ ベ ー ス[29]か らポ ッ プ フ ィル タ を 装 着 し た ヘ ッ ドセ ッ トマ イ ク(SHURESMIOA‑CN)で 収 録 さ れ た も の を使 用 し た.話 者 数 は17名 で,女 性 に よ り収 録 され て い る.VLDデ ー タ ベ ー ス に はQUT‑NOISE‑SREprotocol[22]を 用 い て, QUT‑NOISEdatabase[30]か らCARシ ナ リオ 雑 音 を 重 畳 し た.
QUTLNOISEdatabaseは 各30分 以 上 の20の ノ イ ズ セ ッ シ ョ ン で 構 成 さ れ て い る 雑 音 デ ー タ ベ ー ス で あ る.図7にQUTLNOISEdatabase
の 概 要 を 示 す.CAFE,HOME,STREET,CAR,REVERBの5つ の シ ナ リ オ か ら 成 り,収 録 は1シ ナ リ オ に つ き2箇 所,計10箇 所 で 収 録 さ れ て い る.CARシ ナ リオ を 除 い て,各 場 所 で 録 音 日 ご と に セ ッ シ ョ ンが 分 け られ て い る.ま た,CARシ ナ リオ とREVERBシ ナ リオ
3。 逐次適応 を用 いたス コア統 合重みの推定法 15
は 残 響 環 境 下 で 収 録 さ れ て い る.
QUT‑NOISE‑SREprotocolはclean環 境 で 収 録 さ れ た 音 声 デ ー タ ベ ー ス にQuTLNOISEdatabaseを 重 畳 す る た め の プ ロ ト コル で あ る.
図8(a)にFaNTに よ る雑 音 重 畳,図8(b)にQUT‑NOISE‑SREprotocol
を 用 い た 雑 音 重 畳 の フ ロ ー を そ れ ぞ れ 示 す.FaNTに よ る 雑 音 重 畳 手 法 で は,clean音 声 に 雑 音 デ ー タ を 乗 せ る と き に ま っ た く 同 じ セ グ メ
ン トの 雑 音 デ ー タ を重 畳 し て い る.一 方,QUTLNOISE‑SREprotocol
はclean音 声 に 雑 音 デ ー タ を乗 せ る と き にQUT‑NOISEdatabaseの 選 択 し た シ ナ リ オ の 雑 音 デ ー タ か ら重 畳 す る セ グ メ ン トを ラ ン ダ ム に 選 択 す る.ま た,CARシ ナ リ オ とREVERBシ ナ リオ の 雑 音 を 重 畳 す る 場 合,clean音 声 に 残 響 を 重 畳 し た あ と に 雑 音 デ ー タ を 重 畳 す る.
こ の よ う に 残 響 を 考 慮 す る こ と でQUTLNOISE‑SREprotocolは よ り 実 環 境 に 近 い 雑 音 環 境 を 表 す こ と が で き る.
近 年,話 者 照 合 性 能 の 評 価 に 用 い る デ ー タ ベ ー ス は 実 際 の 環 境 で 収 録 さ れ た も の が 使 用 さ れ る こ と が 多 い.こ れ ら の デ ー タ ベ ー ス を 用 い た 評 価 は 重 要 で あ る が,デ ー タ ベ ー ス に 雑 音 お よ び 残 響 を 重 畳 し た 音 声 を 用 い て そ の 影 響 を調 査 す る こ と も 重 要 で あ る.そ の た め 本 実 験 で は 残 響 を 重 畳 し た 音 声 デ ー タ と残 響 を 重 畳 し な い 音 声 デ ー タ を 作 成 し,そ れ ぞ れ の 条 件 で 話 者 照 合 の 性 能 を 評 価 し た.こ の と き 残 響 を 重 畳 し た 場 合 と重 畳 し な い 場 合 の 提 案 法 に お け る 重 み の 更 新 率 ρ は そ れ ぞ れ0.003,0.005と し た.
表2に 本 実 験 で 比 較 す る 各 条 件 を 示 す.特 定 話 者 モ デ ル と テ ス ト デ ー タ の 収 録 条 件 を 合 わ せ た も の を マ ッチ ドコ ン デ ィ シ ョン(Matched Condition;MC),テ ス トデ ー タ に 対 し て も っ と もEERが 低 く な る SNRの 特 定 話 者 モ デ ル を1つ 選 択 し用 い る も の を ベ ス トコ ン デ ィ シ ョ
ン(BestCondition;BC),テ ス トデ ー タ に 雑 音 除 去 法 の ひ と つ で あ る ス ペ ク トル サ ブ トラ ク シ ョ ン を 適 用 し,Cleanモ デ ル と照 合 し た も の
を ス ペ ク トル サ ブ トラ ク シ ョ ン(Spectralsubtraction;SS)と す る.Uni‑
formは 統 合 重 み を す べ て のSNRに お い てw(m)=1/M=1/7yO.143 と し て ス コ ア を 統 合 す る.
3.逐 次適応 を用 いたス コア統合重 みの推 定法 16
Cleanspeech
磁
輔1
nOlse
繍, Noisyspeech
繍,購'}
嚇 鞭
(a)FaNT QUT‑NOISE
曜 叩 璽1脚甲 齢Y蜘
rClean蜘 へ
撒 幽l/甑
剤 、
r『 ㍉
旦
繭ll
講蝿
'Ψ 1>
繍縣
蝋1嚇
》 〉
Ψ
㌧ ノ
(b)QUT‑NOISE‑SREprotocol
図8:雑 音 重 畳 手 法 ご と の ち が い
3.逐 次適 応 を用いた スコア統合重 みの推 定法 17
表2:比 較 す る 手 法
手法 特定話者モ デル ス コ ア 統 合
MC テ ス トデ ー タ のSNRと 同SNRの モ デ ル
一
BC (Oracle)
テ ス トデ ー タ に 対 し て EERの 最 も 低 い モ デ ル
一
SS
Cleanモ デ ル (テ ス トデ ー タ に
SSを 適 用)
一
Unifo㎜ 各SNRモ デ ル で
ス コ ア 計 算 後,統 合 統合重 み は一定
Proposed method
各SNRモ デ ル で ス コ ア 計 算 後,統 合
評価 デー タに対す る EERが 下が った場合 に
重み を更新
3.5実 験 結 果
3.5.1雑 音 重 畳 プ ロ トコ ル の ち が い に よ る 比 較
は じめ にFaNTに よ る雑 音 重 畳 と残 響 を 重 畳 して い な い 場 合 のQUT‑
NOISE‑SREprptocolに よ る 雑 音 重 畳 の2つ の フ.ロ トコ ル に よ る 照 合 結 果 の ち が い を 比 較 す る た め の 話 者 照 合 実 験 を 行 った.ど ち らの プ ロ
トコ ル も特 定 話 者 モ デ ル とテ ス トデ ー タ の 条 件 は 合 わ せ て い る.FaNT に よ る 雑 音 重 畳 とQUT‑NOISE‑SREprotocolに よ る 雑 音 重 畳 の テ ス
トデ ー タ のSNRご と のEERを 図9に 示 す.図9よ り,全SNRの テ ス トデ ー タ に お い てQUTLNOISE‑SREprotocolに よ る 雑 音 重 畳 を 行 っ た 場 合 のEERがFaNTに よ る 雑 音 重 畳 の も の よ りも 低 くな っ て い る.こ れ よ り,QuT‑NOISE‑SREprotocolは 学 習 デ ー タ に 使 用 さ れ る 雑 音 の 種 類 が 多 い た め,FaNTと 比 較 して よ り頑 健 な 話 者 モ デ ル を 学 習 で き る と い う特 徴 が あ る こ と が わ か る.
3.逐 次 適 応 を 用 い た ス コ ア 統 合 重 み の 推 定 法 18
08642086420﹁∠‑占‑占‑占4⊥‑占
︻違Φ杞匡﹂oヒ巴雪σ]
0 5 101520
testdatasNR【dB1
30 clean
図9:2つ の 雑 音 重 畳 プ ロ ト コ ル に よ る テ ス トデ ー タ のSNRご とのEER 3.5.2残 響 を 重 畳 しな い場 合
図10(a)に 雑 音 だ け を 重 畳 し,残 響 は 重 畳 し て い な い 場 合 のMC お よ びBC,SS,Uniform,提 案 法 に よ る テ ス トデ ー タ のSNRご との EERを 示 す.ま ず,MCとBCを 比 較 す る と,テ ス トデ ー タ のSNR
が0,5,15,30dBの と き にBCのEERはMCのEERよ り も 低 くな っ て い る.こ の こ と か ら話 者 モ デ ル とテ ス トデ ー タ のSNRが 一 致 して い る と き のEERが 最 も 低 いEERで あ る と は 限 ら な い こ と が 確 認 で き る.次 に,BCとUniform,提 案 法 に よ る 実 験 結 果 を 比 較 す る.テ ス
トデ ー タ のSNRが20dB以 下 の と き にUniformお よ び 提 案 法 はBC よ りもEERが 低 く,30dB以 上 の と き もBCと ほ ぼ 等 し く な っ て い る.ま た,SSとUniform,提 案 法 を 比 較 す る と,Uniformお よ び 提 案 法 のEERはSSよ りも 低 くな っ て い る.ス コ ア 統 合 を 用 い た 手 法 は SSに よ り雑 音 除 去 を 行 っ た 場 合 よ り も 複 雑 な モ デ ル を 表 現 で きて い る こ と が 考 え られ る.以 上 よ り,提 案 法 を 含 む ス コ ア 統 合 手 法 は 雑
3.逐 次適応 を用 いたス コア統 合重みの推定法 19
MC‑◇ 。BC→ ・SS鱒 ◆‑Uniform‑◆ ■9Proposed
12
ユ0
864[違Φ杞匡﹂o﹂﹂固①⊃σ]
2
0
直
禽
●
◇ \
o.
、 ●
\\
曹●
、
しo
●\
、 ●.∂冷 .●
、」蚤
.● ・,.匙 ● .、 一 一
響 1 量 1奪Il ▼
0510152030clean
testdataSNR[dB]
(a)提 案 法 や そ の 他 手 法 に よ る テ ス ト デ ー タ のSNRご と のEER 囲clean翅30dB翅20dB翅15dB%10dB囮5dB國OdB
1.2
1 8ぐ)420000 0
主b︒石≧
一〇 .2
0510152030clean
testdataSNR[dB]
(b)提 案 法 の 最 終 的 な 重 み
図10:残 響 を 重 畳 し な い 場 合 のEERと 推 定 さ れ た 重 み
3.逐 次適応 を用 いたス コア統合重みの推定法 20
音 に頑 健 で あ る こ とが わ か った.
次 に提 案 法 に よ り最 終 的 に推 定 され た ス コ ア統 合 重 み を図10(b)に 示 す.各 項 目 は提 案 法 に よ り推 定 され た,各SNRモ デ ル か ら得 られ た ス コア に対 す る重 み をテ ス トデ ー タのSNRご とに表 して い る.横 軸 は テ ス トデ ー タのSNR,縦 軸 は最 終 的 に推 定 され た重 み の 値 を表
して い る.図10(b)よ り,テ ス トデ ー タ のSNRご とに推 定 され る重 み に ば らつ きが あ る こ とが わ か る.特 にOdBの モ デ ル の重 み が 大 き
く変 化 して い る.
3.5.3残 響 を 重 畳 し た 場 合
図11(a)に 雑 音 だ け で な く残 響 も 重 畳 し た 場 合 の テ ス トデ ー タ の SNRご と の 各 手 法 に お け るEERを 示 す.図10(a)と 比 較 す る と,残 響 が 重 畳 され た 場 合 は 全 体 的 にEERが 高 く な る こ と が わ か る.SSは MCと 比 べ て 残 響 の 影 響 を 低 減 で き て お り,BCと 近 い 性 能 とな っ て い る.BCとUniform,提 案 法 を 比 較 す る と,残 響 が な い 場 合 と 同 様 に テ ス トデ ー タ のSNRが15dB以 下 の と き にUniformお よ び 提 案 法 のEERはBCよ りも 低 く な っ て い る.テ ス トデ ー タ が 低SNRの 場 合 は 残 響 環 境 下 に お い て も ス コ ア 統 合 が 有 効 で あ る こ と が わ か る.
しか し,MCとUniform,提 案 法 を 比 較 す る と,テ ス トデ ー タ のSNR が20dB以 上 の と き にUniformのEERはMCよ り も 高 くな って し ま
う.残 響 環 境 下 に お い て,Uniformは テ ス トデ ー タ のSNRが 高 い と き に 照 合 性 能 が 低 下 し て し ま う こ と が わ か る.一 方,提 案 法 はclean を 除 く全SNRの テ ス トデ ー タ に お い てMCよ り もEERが 低 く な っ て い る.Uniformと 比 較 し て も,提 案 法 の 方 が 高 い 性 能 を 得 ら れ て い る.こ の こ と か ら,提 案 法 で あ る 重 み の 推 定 は 残 響 環 境 下 に お い て も 雑 音 に 頑 健 で あ る こ と が わ か っ た.
提 案 法 に よ り最 終 的 に 推 定 さ れ た 重 み を 図11(b)に 示 す.テ ス ト デ ー タ のSNRが 低 い と き は 推 定 後 の 重 み の 変 動 は 小 さ く,図11(a) か ら もUniformと 提 案 法 のEERの 値 は 近 い こ と が わ か る.一 方,テ ス トデ ー タ のSNRが 高 い と き は 低SNRモ デ ル か ら得 た ス コ ア の 重
3.逐 次適応 を用 いたス コア統合重 みの推定法 21
MC‑◆ ・BC→ ・SS。 ◆‑Unlform十Proposed
30
25
茎20 塞
tt15 罵
量10
5
0
0510152030dean
testdataSNR[dB]
(a)提 案 法 や そ の 他 手 法 に よ る テ ス トデ ー タ のSNRご と のEER 囮dean囮30dB図20dB臼15dB四10dB囲5dB囮OdB
1.2
1
O.8
GO・6 .皇ρ
の
≧0、4
0.2
0
一〇 .2
儀
磯'・
\ \
金 ・ ・
▼ 騰
\ 、、
咲\
の
、 、
\ 駁 ミ=・
一:r‑一 一 一一つ ・̲一 一つ
口融● ・
・.̲b
臨 嚢 韮 韮1 轟 誓
0 5101520
testdataSNR[dB]
(b)提 案 法 の 最 終 的 な 重 み
30 clean
図11:残 響 を 重 畳 した 場 合 のEERと 推 定 さ れ た 重 み
3.逐 次適応 を用 いたス コア統合重みの推定法 22
み は 小 さ く,高SNRモ デ ル か ら得 た ス コ ア の重 み が 大 き くな る よ う に重 み が 学 習 され て い る.こ の た め 提 案 法 はテ ス トデ ー タが 高SNR の場 合 に お い てUniformで 起 こる よ うな 照 合 性 能 の低 下 が な く,BC
よ りも 良 い照 合 性 能 とな った こ とが考 え られ る.以 上 よ り,提 案 法 に よ る ス コ ア統 合 重 み の 推 定 は残 響 環 境 下 に お い て も頑 健 で あ る こ
とが わ か った.
3.5.4NTT・VRデLタ ベ ー ス を 使 用 し た 場 合
VLDデ ー タ ベ ー ス 以 外 の デ ー タ ベ ー ス を用 い た 比 較 と して,登 録 話 者 用 デ ー タ ベ ー ス にNTTLVRデ ー タ ベ ー ス[31]の 女 性 音 声 の み を 用 い た 場 合 で も 実 験 を行 っ た.話 者 数 は13名 で あ り,話 者 一 人 に つ き 学 習 デ ー タ は1990年8月 に 収 録 さ れ た116文 章 を,テ ス トデ ー タ は1991年6月 に収 録 さ れ た30文 章 を そ れ ぞ れ 使 用 し た.実 験 はVLD デ ー タ ベ ー ス に よ る 実 験 と 同 様 の 条 件 で 行 っ た.
図12に テ ス トデ ー タ のSNRご と の 各 手 法 に お け るEERを 示 す.
図12(a)は 雑 音 だ け を 重 畳 し,残 響 は 重 畳 し て い な い 場 合 で あ り, 図12(b)は 雑 音 だ け で な く残 響 も 重 畳 し た 場 合 で あ る.VLDデ ー タ ベ ー ス に よ り実 験 を 行 っ た 場 合 のEER(図10(a),図11(a))と 図12
を比 較 す る と,NTTLVRデ ー タ ベ ー ス に よ り実 験 を 行 った 場 合 は 全 体 的 にEERが 高 く な っ て い る.本 実 験 で は 学 習 デ ー タ と テ ス トデ ー タ の 発 話 時 期 が 異 な る た め に,全 体 的 にEERが 高 くな っ た こ と が 考 え られ る.残 響 を 重 畳 しな い 場 合(図12(a))に お い て,ス コ ア 統 合 手 法 (Uniformお よ び 提 案 法)と 単 一 の モ デ ル を 用 い た 手 法(MC,BC,SS)
を比 較 す る と,テ ス トデ ー タ のSNRが15dB以 下 の 場 合 に ス コ ア 統 合 手 法 のEERは 低 く な っ て い る.ま た,残 響 を重 畳 し た 場 合(図12(b)) で も 同 じ傾 向 と な っ た.こ の こ と か ら ス コ ア 統 合 の デ ー タ ベ ー ス に 関 す る 汎 用 性 が 確 認 で き た.残 響 を 重 畳 し な い 場 合 は テ ス ト デ ー タ のSNRが20dB,cleanの と き に,ス コ ア 統 合 を用 い た 手 法 が 単 一 の モ デ ル に よ る 手 法 よ りもEERが 低 くな っ た.し か し,残 響 環 境 下 に お い て は テ ス トデ ー タ のSNRが20dB以 上 の と き に,ス コ ア 統 合 を
3。 逐次適応 を用 いたス コア統合重 みの推定法 23
MC‑◆ ・BC→ ・SS● ◆oUnlform‑◆‑Proposed
26 24
22
茎20
αr18得
§ 些i6
璽14 9
12 10
8
●
▲
、
●
\
艦 、
●
●
、 \◆ '
、 \ ●
8
●
◇ 。 「◆ .
一 幽一一一■幽闇騨 ・
\ 金,\6㌦ 一◎ こ
..
一く ㍉7奢● 勉一…4
髭 蓼 崔 聾1誓
0 5 101520
testdataSNR[dB]
(a)残 響 を 重 畳 し な い 場 合
30 clean
MC‑◇ 。BC→ ・SS。 ◆ ●Unlform‑◆‑Proposed
40
35
塁30
童
皇25 ig2・
15
10
虫
蝕 気 ・.
晦 \
. ●
・ .◆ \
、. ▲ ■
6 \ ◆
.
、 \
▼ 一尊
辱 ●一 一6一 一一 ●
鴨、
こ 弓L雫 。→
●
匪 暉 ll 謹
0510152030
testdataSNR[dB]
(b)残 響 を 重 畳 し た 場 合
図12:NTT‑VRデ ー タ ベ ー ス を 用 い た 場 合 のEER
dean
3.逐 次 適 応 を 用 い た ス コ ア 統 合 重 み の 推 定 法 24
用 い た 手 法 が単 一 の モ デ ル に よ る手 法 よ りもEERが 高 くな った.特 にUniformで は照 合 性 能 が 大 き く低 下 して い る.一 方 で,提 案 法 は Uniformと 比 べ て 低SNRモ デ ル か ら得 られ た ス コ ア に よ る影 響 を低 減 して い る こ とが わ か る.こ の こ とか ら提 案 法 に よ りス コ ア統 合 重 み を推 定 す る こ とが,重 み を推 定 しな い よ りも有 効 で あ る こ とが 確 認 で きた.
3.6ま と め
本 論 文 で は あ らか じめSNRご とに別 々 に学 習 した 話 者 モ デ ル か ら 得 られ た 照 合 ス コア を統 合 す る手 法 と,そ の ス コ ア統 合 重 み の 逐 次
適 応 を用 い た 推 定 手 法 を提 案 した.残 響 環 境 下 に お け る提 案 法 の頑 健 性 を調 査 す る た め に,QuT‑NOISE‑SREprotocolを 使 用 してclean
音 声 に残 響 を重 畳 した.残 響 を重 畳 した も の と重 畳 しな い もの を作 成 して,そ れ ぞ れ の 環 境 下 でGMM‑UBMを 用 い た 話 者 照 合 実 験 を 行 っ た.実 験 結 果 よ り,提 案 法 は残 響 環 境 下 に お い て も照 合 性 能 の 低 下 が 少 な く,雑 音 に対 して頑 健 で あ る こ とが わ か っ た.