1012【音声言語シンポジウム】pdf 最近の更新履歴 Ryo Masumura: Web

(1)

確率的言語モデル基く

音声ドキュメント検索

Web ^利用 ^{モデル拡張} ^検討

東大学大学院工学研究科

◎増村亮咸聖俊伊藤彰則

(2)

検索質問₍クリ₎ ユヸザ

ンタヸネット

音声ドキュメント

サッカヸ関話 _search

 ^近 ^{音声ドキュメント検索} ^(SDR) ^注目

 ^録音 ^{音声デヸタ}⁽ニュヸス音声や国会討論 ₎ テキストクリ検索

 ^{音声認識技術} ^利用 ^{テキストへ変換} 既存検索技術利用可能

音声認識誤発生伴い検索性能劣

(3)

音声ドキュメント検索問題対処法

音声認識デコヸダ音声認識

結果

音声ドキュメント

僕サッカヸボヸル好けヷヷヷ

僕作家ボヸル好けヷヷヷ

認識誤

⇒ ドキュメント拡張プロヸチ着目

タヸゲット文書出現い単語

予測、落単語補完方法

 ^{音声ドキュメント検索} ^問題

サッカヸ関話 _search

ヒットヷヷヷ

 ^{音声認識誤} ^あ ^場合 ^検索 ^う対処方法今回研究対象

(4)

々以前提案枠組

 ^Web ^関連文書 ^用い ^{ドキュメント拡張} ^プロヸチ

 Web ^対象音声 ^関連 ^文書 ^準備 ^、落単語補完いうデ

優言語資源あ _Web 利用あゆ落対補完期待

音声ドキュメント音声認識

音声認識デコヸダ結果

World Wide Web Web

検索モデル進歩

 ^従来 ^{検索モデル}

 ^{ベクトル空間モデル}(G.Salton et.al, 1975)

•様々発見的手法駆使_(tfidf ₎

 ^新 ^{検索モデル}

 ^{確率的言語モデル}(J.M.Ponte et.al, 1998)

•発見的手法用い、数理的説明可能枠組

•統計的学習理論相性い

音声ドキュメント検索_(SDR) 分近導入

 ^ラテ ^ス ^利用 ^枠組 (T.K.Chia et.al, 2007)

 ^{翻訳モデル} ^利用 ^枠組 (K.Honda et.al, 2010)

(6)

本研究目的

1. ^{言語モデル} ^情報検索 ^{音声ドキュメント検索} 利用場合問題何ヷヷヷ

2. ^そ ^問題 ^解決 ^、優 ^情報源 ^あ

Web ^現実的 ^手段 ^う ^有効利用 ^ヷヷヷ

確率的言語モデル基く検索モデル

Web ^利用 ^拡張 ^プロヸチ ^統合

～要ポント～

(7)

・

P(Q|D₁) ^P(Q|D²⁾ P(Q|D_N)

D₁ D₂ D_N

文書コレクション

サッカヸ関話

確率的言語モデル情報検索

 ^ク ^リ^Q

^文書

^D

^適合 ^確率

^P(D|Q)

^求

クリ尤度モデル

 ^ク ^リ ^文書 ^{ランダムサンプリング} ^生 ^想定

文書クリ生

いう問題帰着

Q

クリ生過程、文書

_D

モデル依存

 ^ク ^{リ尤度モデル} ^情報検索

(8)

文書モデル

 ^文書 ^D ^多項分布 ^モデル ⁽ ^{文書モデル} ⁾

文書モデルパラメヸタ

パラメヸタう推定非常要

クリ_Q け単語_w

i ^出現回数

 ^各試行 ^独立 ^、¹^回 ^試行 ¹^単語生

※ 零確率問題対処けい

 ^生 ^いク ^リ ^対 ^確率値 ⁰ ^単語 ^一存在場合必クリ尤度_P(Q|_q

D⁾⁼⁰ ^うヷヷヷ

P(w_i|_q_D)

qD ^wⁱ ^Q ^サッカヸ ^関 ^話

(9)

一般的モデルパラメータ推定

 ^デ ^{リクレスムヸジング} ^{パラメヸタ推定}

文書_D 含単語数文書_D け _w

i ^出現回数

スムヸジングパラメヸタコレクションモデルパラメヸタ

 ^{文書コレクション}⁽^{コレクションモデル}⁾ ^基 ^{く事前分布} 利用、零確率問題回避

音声ドキュメント検索い、

パラメヸタ推定十分あ

 ^{コレクションモデル} ^{パラメヸタ} ^{最尤推定値} ^一般的 ^、文書コレクション存在全単語生確率付

(10)

音声ドキュメント検索け問題

 ^認識誤 ^伴う書 ^起 ^劣 ^問題

 ^{文書コレクション} ^{最尤推定値} ^{スムヸジング}

、文書コレクション落単語生確率

え、零確率問題対処い

 ^対象音声 ^本来存在 ^要単語 ^ク ^リ

え場合、ユヸザ意図検索可能

文書コレクション自体単語落

対象音声中要単語落

以上問題 _Web 利用拡張プロヸチ適用

(11)

文書コレクション対スムヸジング

コレクションモデルパラメヸタ自体

デリクレスムヸジング使推定

問題 _: 文書コレクション自体単語落

 ^{文書コレクション} ^事前分布 ^、膨大

文書コレクション集合あ _Web 単語出現分布想定

 ^全 ^Web^ペヸジ ^単語頻度 ^数え

事前分布獲得可能実際実行非現実的

～問題対解決策～

Web ^{検索ヒット数} ^代用 ^方法 ^提案

(12)

Web ^{検索ヒット数} ^利用 ^{スムヸジング}

 Web ^{キヸワヸド検索} ^得 ^{検索ヒット数} ^利用

 ^あ ^十分大 ^{語彙リスト} ^作 ^、各単語対検索ヒット数取得

 ^近似的 ^一般的 ^{単語出現分布} ^構

⇒ _q

G ^{グロヸバルモデル} ^呼ぶ

スムヸジングパラメヸタ

音声ドキュメント特有零確率問題対処可能

グロヸバルモデルパラメヸタ

(13)

落単語補完モデル

音声認識結果関連文書利用

落単語補完モデル行う

問題 _: 対象音声中要単語落

 ^Web ^収集源 ^、 ^落 ^要単語混入関連文書収集期待

～問題対解決策～

効率的 _Web 関連文書収集枠組、び

事前ダンロヸドデヸタ構築

 ^あ ^十分大 ^{語彙リスト} ^対 ^各単語

使 _Web 検索行う、 _Web 文書サンプリング

“^東^Word^大学

“^音響^Word

・

“^超音波

Word Web search engine 超音波 _search

・

クリ用い単語グルヸプ、単語対応付け保持

Web search engine 音響 _search Web search engine 東大学 _search

Web ^逐 ^クセス ^{く、キヸワヸド検索}

等価方法容易 _Web デヸタ利用可能

事前ダンロヸドデヸタ群

(15)

ヷヷヷヷ

“^ボヸル

“^作家

“^東ヷヷヷヷ _“音響

ヷヷヷヷヷヷヷヷ

ヷヷヷヷ

 ^対象音声 ^{関連文書選択} ^高速 ^行う枠組

音声認識結果出現単語対応付けデヸタ抽出

(16)

落単語補間モデル

 ^{関連文書群} ^{文書モデル} ^様 ^事前分布

想定関連文書モデル構築

コレクションモデルパラメヸタ関連文書群_R け _w

i ^出現回数

落単語確率関連文書モデル補う期待

認識結果推定パラメヸタ関連文書推定パラメヸタ

(17)

検索実験

 ^CSJ ^{テストコレクション} ^用い ^検索実験

 検索対象：日本語講演音声₂₇₀₂講演(Acc: 75.12%)

 ^評価ク ^{リ：適合文書} ^決 ^い ³⁹^ク ^リ

 ^評価 ¹¹^点 ^{均補間適合率}^{(11pt AP)} ^使用

再現率

補間適合率

0 _1.0

均値≒₁₁点均補間適合率 1 ^○(^適合)

2 ^×(^非適合) 3 ^○

4 ^○ 5 ^×

… …

 ^詞 ^使用 ^モデル ^構築

 Web ^利用 Yahoo! Japan ^使用

 ^提案手法 ^有効性 ^調査

(18)

Web ^{検索ヒット数} ^用い ^{スムヸジング} ^評価

0.3 0.35 0.4 0.45 0.5

Collection Global Collection+Global Smoothing method

11ptAP

Correct Hypothesis

Collection:

文書モデル事前分布文書コレクション利用 Global:

文書モデル事前分布 Web^{検索ヒット数} ^利用 Collection+Global:

文書コレクション事前分布 Web^{検索ヒット数} ^利用

文書モデル事前分布

 Web^{検索ヒット数} ^{直接文書モデル} ^事前知識

利用性能劣う

 ^提案手法 11ptAP 0.023^ポ ^ント改善

 ^提案手法 ^通常 ^{テキスト検索} ^有効

(19)

Web ^文書 ^構築 ^{関連文書モデル} ^評価

0.15 0.2 0.25 0.3 0.35

1 10 100 1000 10000

Number of relevant Web Documents (N)

11ptAP

関連文書候補 _KLダバヸジンスランキング後、関連文書群

利用文書数変場合

評価 λ=0

 ^N=3000(^{関連文書候補群} ^約^1/4) ^時最高い性能(11ptAP=0.313) ^得

 ^関連文書 ^あ ^{程度高い性能} ^得

 ^{関連文書候補} ^文書数テストコレクション均約₁₂₀₀₀文書

 ^事前分布 ^、

前実験有効性確認

(Collection+Global) ^使用

(20)

線形補間よる混合モデル化の評価

0.3 0.35 0.4 0.45 0.5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Interpolation coefficient (λ)

11ptAP

Proposed Baseline Correct

Proposed:

文書モデル関連文書モデル線形補間方法

Baseline:

音声認識結果基く文書モデル

Correct:

正解書起基く文書モデル

 ^{関連文書群} ^数 ^、前実験最良い結果得

N=3000 ^設定

 Correct ^比較 ^、 ^改善 ^余地あ

 l=0.6 ^時 ^、^Baseline ^比較 11ptAP 0.033^ポ ^ント改善

(21)

確率的言語モデル基く検索モデル

対 _Web 利用拡張プロヸチ適用

SDR ^け ^問題 : ^{文書コレクション自体} ^単語 ^落

 ^Web^{検索ヒット数} ^利用

スムヸジング改善方法提案

SDR ^け ^問題 : ^{対象音声中} ^要単語 ^落

 ^関連 ^Web^文書 ^効率的 ^収集 ^、落単語補完モデル提案

検索実験、前者約_0.023ポント改善、後者

0.033^ポ ^ント改善 ^{、提案手法} ^有効性 ^確認

1012【音声言語シンポジウム】pdf 最近の更新履歴 Ryo Masumura: Web

確率的言語モデル 基 く

音声ドキュメント検索

Web 利用 モデル拡張 検討

東 大学大学院工学研究科

◎増村 亮 咸 聖俊 伊藤 彰則

 近 音声ドキュメント検索 (SDR) 注目

音声認識誤 発生 伴い検索性能 劣

音声ドキュメント検索 問題 対処法

⇒ ドキュメント拡張 プロヸチ 着目

 音声ドキュメント検索 問題

々 以前提案 枠組

 Web 関連文書 用い ドキュメント拡張 プロヸチ

検索モデル 進歩

 従来 検索モデル

 新 検索モデル

本研究 目的

確率的言語モデル 基 く検索モデル

Web 利用 拡張 プロヸチ 統合

～ 要 ポ ント ～

確率的言語モデル 情報検索

文書

適合 確率

求

ク リ 生 過程 、文書

モデル 依存

 ク リ尤度モデル 情報検索

文書モデル

 文書 D 多項分布 モデル ( 文書モデル )

パラメヸタ う 推定 非常 要

一般的 モデルパラメータ推定

 デ リクレスムヸジング パラメヸタ推定

音声ドキュメント検索 い 、

パラメヸタ推定 十分 あ

音声ドキュメント検索 け 問題

 認識誤 伴う書 起 劣 問題

以上 問題 Web 利用 拡張 プロヸチ 適用

文書コレクション 対 スムヸジング

コレクションモデル パラメヸタ自体

デ リクレスムヸジング 使 推定

問題 : 文書コレクション自体 単語 落

Web 検索ヒット数 代用 方法 提案

Web 検索ヒット数 利用 スムヸジング

 Web キヸワヸド検索 得 検索ヒット数 利用

音声ドキュメント特有 零確率問題 対処可能

落単語 補完 モデル

音声認識結果 関連 文書 利用

落単語 補完 モデル 行う

問題 : 対象音声中 要単語 落

効率的 Web 関連文書収集 枠組 、 び

関連文書 落単語 補完 モデル 提案

事前ダ ンロヸドデヸタ 構築

 あ 十分大 語彙リスト 対 各単語

使 Web 検索 行う 、 Web 文書 サンプリング

Web 逐 クセス く、キヸワヸド検索

等価 方法 容易 Web デヸタ 利用可能

関連文書 選択

 対象音声 関連文書選択 高速 行う枠組

落単語補間 モデル

 関連文書群 文書モデル 様 事前分布

想定 関連文書モデル 構築

落単語 確率 関連文書モデル 補う 期待

検索実験

 CSJ テストコレクション 用い 検索実験

 提案手法 有効性 調査

Web 検索ヒット数 用い スムヸジング 評価

Web 文書 構築 関連文書モデル 評価

線形補間 よる混合モデル化の評価

確率的言語モデル 基 く検索モデル

対 Web 利用 拡張 プロヸチ 適用

確率的言語モデル基く

Web ^利用 ^{モデル拡張} ^検討

東大学大学院工学研究科

◎増村亮咸聖俊伊藤彰則

 ^近 ^{音声ドキュメント検索} ^(SDR) ^注目

音声認識誤発生伴い検索性能劣

音声ドキュメント検索問題対処法

⇒ ドキュメント拡張プロヸチ着目

 ^{音声ドキュメント検索} ^問題

々以前提案枠組

 ^Web ^関連文書 ^用い ^{ドキュメント拡張} ^プロヸチ

検索モデル進歩

 ^従来 ^{検索モデル}

 ^新 ^{検索モデル}

本研究目的

確率的言語モデル基く検索モデル

Web ^利用 ^拡張 ^プロヸチ ^統合

～要ポント～

確率的言語モデル情報検索

^文書

^適合 ^確率

^求

クリ生過程、文書

モデル依存

 ^ク ^{リ尤度モデル} ^情報検索

 ^文書 ^D ^多項分布 ^モデル ⁽ ^{文書モデル} ⁾

パラメヸタう推定非常要

一般的モデルパラメータ推定

 ^デ ^{リクレスムヸジング} ^{パラメヸタ推定}

音声ドキュメント検索い、

パラメヸタ推定十分あ

音声ドキュメント検索け問題

 ^認識誤 ^伴う書 ^起 ^劣 ^問題

以上問題 _Web 利用拡張プロヸチ適用

文書コレクション対スムヸジング

コレクションモデルパラメヸタ自体

デリクレスムヸジング使推定

問題 _: 文書コレクション自体単語落

Web ^{検索ヒット数} ^代用 ^方法 ^提案

Web ^{検索ヒット数} ^利用 ^{スムヸジング}

 Web ^{キヸワヸド検索} ^得 ^{検索ヒット数} ^利用

音声ドキュメント特有零確率問題対処可能

落単語補完モデル

音声認識結果関連文書利用

落単語補完モデル行う

問題 _: 対象音声中要単語落

効率的 _Web 関連文書収集枠組、び

関連文書落単語補完モデル提案

事前ダンロヸドデヸタ構築

 ^あ ^十分大 ^{語彙リスト} ^対 ^各単語

使 _Web 検索行う、 _Web 文書サンプリング

Web ^逐 ^クセス ^{く、キヸワヸド検索}

等価方法容易 _Web デヸタ利用可能

関連文書選択

 ^対象音声 ^{関連文書選択} ^高速 ^行う枠組

落単語補間モデル

 ^{関連文書群} ^{文書モデル} ^様 ^事前分布

想定関連文書モデル構築

落単語確率関連文書モデル補う期待

 ^CSJ ^{テストコレクション} ^用い ^検索実験

 ^提案手法 ^有効性 ^調査

Web ^{検索ヒット数} ^用い ^{スムヸジング} ^評価

Web ^文書 ^構築 ^{関連文書モデル} ^評価

線形補間よる混合モデル化の評価

確率的言語モデル基く検索モデル

対 _Web 利用拡張プロヸチ適用