確率的言語モデル 基 く
音声ドキュメント検索
Web 利用 モデル拡張 検討
東 大学大学院工学研究科
◎増村 亮 咸 聖俊 伊藤 彰則
検索質問(ク リ) ユヸザ
ンタヸネット
音声ドキュメント
サッカヸ 関 話 search
近 音声ドキュメント検索 (SDR) 注目
録音 音声デヸタ(ニュヸス音声や国会討論 ) テキスト ク リ 検索
音声認識技術 利用 テキストへ変換 既存 検索技術 利用可能
音声認識誤 発生 伴い検索性能 劣
音声ドキュメント検索 問題 対処法
音声認識 デコヸダ 音声認識
結果
音声ドキュメント
僕 サッカヸボヸル 好 け ヷヷヷ
僕 作家ボヸル 好 け ヷヷヷ
認識誤
⇒ ドキュメント拡張 プロヸチ 着目
タヸゲット 文書 出現 い単語
予測 、 落単語 補完 方法
音声ドキュメント検索 問題
サッカヸ 関 話 search
ヒット ヷヷヷ
音声認識誤 あ 場合 検索 う 対処方法 今回 研究対象
々 以前提案 枠組
Web 関連文書 用い ドキュメント拡張 プロヸチ
Web 対象音声 関連 文書 準備 、 落単語 補完 いう デ
優 言語資源 あ Web 利用 あ ゆ 落 対 補完 期待
音声ドキュメント 音声認識
音声認識 デコヸダ 結果
World Wide Web Web
関連文書
僕 サッカヸボヸル 好 け ヷヷヷ
補完
僕 作家ボヸル 好 け ヷヷヷ
ボヸル 使うスポヸツ いえ サッカヸ ヷヷヷ
ボヸル search
既 あ 情報 Web クセス ボヸル 共起
サッカヸ 出現
検索モデル 進歩
従来 検索モデル
ベクトル空間モデル(G.Salton et.al, 1975)
•様々 発見的手法 駆使(tfidf )
新 検索モデル
確率的言語モデル(J.M.Ponte et.al, 1998)
•発見的手法 用い 、数理的 説明可能 枠組
•統計的学習理論 相性 い
音声ドキュメント検索(SDR) 分 近 導入
ラテ ス 利用 枠組 (T.K.Chia et.al, 2007)
翻訳モデル 利用 枠組 (K.Honda et.al, 2010)
本研究 目的
1. 言語モデル 情報検索 音声ドキュメント検索 利用 場合 問題 何 ヷヷヷ
2. そ 問題 解決 、優 情報源 あ
Web 現実的 手段 う 有効利用 ヷヷヷ
確率的言語モデル 基 く検索モデル
Web 利用 拡張 プロヸチ 統合
~ 要 ポ ント ~
・
・
・
・
・
・
P(Q|D1) P(Q|D2) P(Q|DN)
D1 D2 DN
文書コレクション
サッカヸ 関 話
確率的言語モデル 情報検索
ク リQ
文書
D適合 確率
P(D|Q)求
ク リ尤度モデル
ク リ 文書 ランダムサンプリング 生 想定
文書 ク リ 生
いう問題 帰着
Q
ク リ 生 過程 、文書
Dモデル 依存
ク リ尤度モデル 情報検索
文書モデル
文書 D 多項分布 モデル ( 文書モデル )
文書モデル パラメヸタ
パラメヸタ う 推定 非常 要
ク リQ け 単語w
i 出現回数
各試行 独立 、1回 試行 1単語生
※ 零確率問題 対処 け い
生 いク リ 対 確率値 0 単語 一 存在 場合 必 ク リ尤度P(Q|q
D)=0 うヷヷヷ
P(wi|qD)
qD wi Q サッカヸ 関 話
一般的 モデルパラメータ推定
デ リクレスムヸジング パラメヸタ推定
文書D 含 単語数 文書D け w
i 出現回数
スムヸジングパラメヸタ コレクションモデル パラメヸタ
文書コレクション(コレクションモデル) 基 く事前分布 利用 、零確率問題 回避
音声ドキュメント検索 い 、
パラメヸタ推定 十分 あ
コレクションモデル パラメヸタ 最尤推定値 一般的 、 文書コレクション 存在 全 単語 生 確率 付
音声ドキュメント検索 け 問題
認識誤 伴う書 起 劣 問題
文書コレクション 最尤推定値 スムヸジング
、文書コレクション 落 単語 生 確率
え 、零確率問題 対処 い
対象音声 本来存在 要単語 ク リ
え 場合 、ユヸザ 意図 検索 可能
文書コレクション自体 単語 落
対象音声中 要単語 落
以上 問題 Web 利用 拡張 プロヸチ 適用
文書コレクション 対 スムヸジング
コレクションモデル パラメヸタ自体
デ リクレスムヸジング 使 推定
問題 : 文書コレクション自体 単語 落
文書コレクション 事前分布 、膨大
文書コレクション集合 あ Web 単語出現分布 想定
全 Webペヸジ 単語頻度 数え
事前分布 獲得可能 実際 実行 非現実的
~ 問題 対 解決策 ~
Web 検索ヒット数 代用 方法 提案
Web 検索ヒット数 利用 スムヸジング
Web キヸワヸド検索 得 検索ヒット数 利用
あ 十分大 語彙リスト 作 、 各単語 対 検索ヒット数 取得
近似的 一般的 単語出現分布 構
⇒ q
G グロヸバルモデル 呼ぶ
スムヸジングパラメヸタ
音声ドキュメント特有 零確率問題 対処可能
グロヸバルモデル パラメヸタ
落単語 補完 モデル
音声認識結果 関連 文書 利用
落単語 補完 モデル 行う
問題 : 対象音声中 要単語 落
Web 収集源 、 落 要単語 混入 関連文書 収集 期待
~ 問題 対 解決策 ~
効率的 Web 関連文書収集 枠組 、 び
関連文書 落単語 補完 モデル 提案
実際 Web上 全 デヸタ 探 可能 あ 、 音声認識結果 Webへ クセス 非効率的
事前ダ ンロヸドデヸタ 構築
あ 十分大 語彙リスト 対 各単語
使 Web 検索 行う 、 Web 文書 サンプリング
“東Word 大学
“音響Word
・
・
・
“超音波
Word Web search engine 超音波 search
・
・
・
ク リ 用い 単語 グルヸプ 、 単語 対応付け 保持
Web search engine 音響 search Web search engine 東 大学 search
Web 逐 クセス く、キヸワヸド検索
等価 方法 容易 Web デヸタ 利用可能
事前ダ ンロヸドデヸタ群
ヷヷヷヷ
“ボヸル
“作家
“東 ヷヷヷヷ “音響
ヷヷヷヷ ヷヷヷヷ
ヷヷヷヷ
関連文書 選択
事前ダ ンロヸドデヸタ群
関連文書候補群
1. 全 関連文書候補 対 、 KLダ バヸジ ンス 利用
音声認識結果 関連性 測
2. 上位N文書 関連文書 選択
関連文書群 規模:約1000万ペヸジ
規模:1万ペヸジ
規模:Nペヸジ
対象音声 関連文書選択 高速 行う枠組
音声認識結果 出現 単語 対応付け デヸタ 抽出
落単語補間 モデル
関連文書群 文書モデル 様 事前分布
想定 関連文書モデル 構築
コレクションモデル パラメヸタ 関連文書群R け w
i 出現回数
関連文書群R 含 単語数
文書モデル
スムヸジングパラメヸタ
音声認識結果 推定 モデル 関連文書
推定 モデル 線形補間 混合モデル 表現
落単語 確率 関連文書モデル 補う 期待
認識結果 推定 パラメヸタ 関連文書 推定 パラメヸタ
検索実験
CSJ テストコレクション 用い 検索実験
検索対象:日本語講演音声2702講演(Acc: 75.12%)
評価ク リ:適合文書 決 い 39ク リ
評価 11点 均補間適合率(11pt AP) 使用
再現率
補間適合率
0 1.0
均値≒11点 均補間適合率 1 ○(適合)
2 ×(非適合) 3 ○
4 ○ 5 ×
… …
詞 使用 モデル 構築
Web 利用 Yahoo! Japan 使用
提案手法 有効性 調査
Web 検索ヒット数 用い スムヸジング 評価
0.3 0.35 0.4 0.45 0.5
Collection Global Collection+Global Smoothing method
11ptAP
Correct Hypothesis
Collection:
文書モデル 事前分布 文書コレクション 利用 Global:
文書モデル 事前分布 Web検索ヒット数 利用 Collection+Global:
文書コレクション 事前分布 Web検索ヒット数 利用
文書モデル 事前分布
Web検索ヒット数 直接文書モデル 事前知識
利用 性能 劣 う
提案手法 11ptAP 0.023ポ ント改善
提案手法 通常 テキスト検索 有効
Web 文書 構築 関連文書モデル 評価
0.15 0.2 0.25 0.3 0.35
1 10 100 1000 10000
Number of relevant Web Documents (N)
11ptAP
関連文書候補 KLダ バヸジ ンス ランキング後、関連文書群
利用 文書数 変 場合
評価 λ=0
N=3000(関連文書候補群 約1/4) 時 最 高い性能(11ptAP=0.313) 得
関連文書 あ 程度高い性能 得
関連文書候補 文書数 テストコレクション 均 約12000文書
事前分布 、
前実験 有効性 確認
(Collection+Global) 使用
線形補間 よる混合モデル化の評価
0.3 0.35 0.4 0.45 0.5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Interpolation coefficient (λ)
11ptAP
Proposed Baseline Correct
Proposed:
文書モデル 関連文書モデル 線形補間 方法
Baseline:
音声認識結果 基 く 文書モデル
Correct:
正解 書 起 基 く 文書モデル
関連文書群 数 、前実験 最 良い結果 得
N=3000 設定
Correct 比較 、 改善 余地あ
l=0.6 時 、Baseline 比較 11ptAP 0.033ポ ント改善
確率的言語モデル 基 く検索モデル
対 Web 利用 拡張 プロヸチ 適用
SDR け 問題 : 文書コレクション自体 単語 落
Web検索ヒット数 利用
スムヸジング 改善方法 提案
SDR け 問題 : 対象音声中 要単語 落
関連 Web文書 効率的 収集 、 落単語 補完 モデル 提案
検索実験 、前者 約0.023ポ ント改善、後者
0.033ポ ント改善 、提案手法 有効性 確認