• 検索結果がありません。

1012【音声言語シンポジウム】pdf 最近の更新履歴 Ryo Masumura: Web

N/A
N/A
Protected

Academic year: 2018

シェア "1012【音声言語シンポジウム】pdf 最近の更新履歴 Ryo Masumura: Web"

Copied!
21
0
0

読み込み中.... (全文を見る)

全文

(1)

確率的言語モデル 基 く

音声ドキュメント検索

Web 利用 モデル拡張 検討

東 大学大学院工学研究科

◎増村 亮 咸 聖俊 伊藤 彰則

(2)

検索質問( ) ユヸザ

ンタヸネット

音声ドキュメント

サッカヸ search

音声ドキュメント検索 (SDR) 注目

録音 音声デヸタ(ニュヸス音声や国会討論 ) テキスト ク リ 検索

音声認識技術 利用 テキストへ変換 既存 検索技術 利用可能

音声認識誤 発生 伴い検索性能 劣

(3)

音声ドキュメント検索 問題 対処法

音声認識 デコヸダ 音声認識

結果

音声ドキュメント

サッカヸボヸル ヷヷヷ

作家ボヸル ヷヷヷ

認識誤

⇒ ドキュメント拡張 プロヸチ 着目

タヸゲット 文書 出現 い単語

予測 、 落単語 補完 方法

音声ドキュメント検索 問題

サッカヸ search

ヒット ヷヷヷ

音声認識誤 場合 検索 対処方法 今回 研究対象

(4)

々 以前提案 枠組

Web 関連文書 用い ドキュメント拡張 プロヸチ

 Web 対象音声 関連 文書 準備 落単語 補完 いう デ

優 言語資源 あ Web 利用 あ ゆ 落 対 補完 期待

音声ドキュメント 音声認識

音声認識 デコヸダ 結果

World Wide Web Web

関連文書

サッカヸボヸル ヷヷヷ

補完

作家ボヸル ヷヷヷ

ボヸル 使うスポヸツ いえ サッカヸ ヷヷヷ

ボヸル search

情報 Web クセス ボヸル 共起

サッカヸ 出現

(5)

検索モデル 進歩

従来 検索モデル

ベクトル空間モデル(G.Salton et.al, 1975)

•様々 発見的手法 駆使(tfidf )

検索モデル

確率的言語モデル(J.M.Ponte et.al, 1998)

•発見的手法 用い 、数理的 説明可能 枠組

•統計的学習理論 相性 い

音声ドキュメント検索(SDR) 分 近 導入

ラテ 利用 枠組 (T.K.Chia et.al, 2007)

翻訳モデル 利用 枠組 (K.Honda et.al, 2010)

(6)

本研究 目的

1. 言語モデル 情報検索 音声ドキュメント検索 利用 場合 問題 何 ヷヷヷ

2. 問題 解決 、優 情報源

Web 現実的 手段 有効利用 ヷヷヷ

確率的言語モデル 基 く検索モデル

Web 利用 拡張 プロヸチ 統合

~ 要 ポ ント ~

(7)

P(Q|D1) P(Q|D2) P(Q|DN)

D1 D2 DN

文書コレクション

サッカヸ

確率的言語モデル 情報検索

Q

文書

D

適合 確率

P(D|Q)

リ尤度モデル

文書 ランダムサンプリング 想定

文書

いう問題 帰着

Q

ク リ 生 過程 、文書

D

モデル 依存

リ尤度モデル 情報検索

(8)

文書モデル

文書 D 多項分布 モデル ( 文書モデル )

文書モデル パラメヸタ

パラメヸタ う 推定 非常 要

Q 単語w

i 出現回数

各試行 独立 1 試行 1単語生

※ 零確率問題 対処 け い

いク 確率値 0 単語 存在 場合 リ尤度P(Q|q

D)=0 うヷヷヷ

P(wi|qD)

qD wi Q サッカヸ

(9)

一般的 モデルパラメータ推定

リクレスムヸジング パラメヸタ推定

文書D 単語数 文書D w

i 出現回数

スムヸジングパラメヸタ コレクションモデル パラメヸタ

文書コレクション(コレクションモデル) く事前分布 利用 、零確率問題 回避

音声ドキュメント検索 い 、

パラメヸタ推定 十分 あ

コレクションモデル パラメヸタ 最尤推定値 一般的 文書コレクション 存在 単語 確率

(10)

音声ドキュメント検索 け 問題

認識誤 伴う書 問題

文書コレクション 最尤推定値 スムヸジング

、文書コレクション 単語 確率

、零確率問題 対処

対象音声 本来存在 要単語

場合 、ユヸザ 意図 検索 可能

文書コレクション自体 単語 落

対象音声中 要単語 落

以上 問題 Web 利用 拡張 プロヸチ 適用

(11)

文書コレクション 対 スムヸジング

コレクションモデル パラメヸタ自体

デ リクレスムヸジング 使 推定

問題 : 文書コレクション自体 単語 落

文書コレクション 事前分布 、膨大

文書コレクション集合 Web 単語出現分布 想定

Webペヸジ 単語頻度 数え

事前分布 獲得可能 実際 実行 非現実的

~ 問題 対 解決策 ~

Web 検索ヒット数 代用 方法 提案

(12)

Web 検索ヒット数 利用 スムヸジング

 Web キヸワヸド検索 検索ヒット数 利用

十分大 語彙リスト 各単語 対 検索ヒット数 取得

近似的 一般的 単語出現分布

q

G グロヸバルモデル 呼ぶ

スムヸジングパラメヸタ

音声ドキュメント特有 零確率問題 対処可能

グロヸバルモデル パラメヸタ

(13)

落単語 補完 モデル

音声認識結果 関連 文書 利用

落単語 補完 モデル 行う

問題 : 対象音声中 要単語 落

Web 収集源 要単語 混入 関連文書 収集 期待

~ 問題 対 解決策 ~

効率的 Web 関連文書収集 枠組 、 び

関連文書 落単語 補完 モデル 提案

実際 Web デヸタ 可能 音声認識結果 Web クセス 非効率的

(14)

事前ダ ンロヸドデヸタ 構築

十分大 語彙リスト 各単語

使 Web 検索 行う 、 Web 文書 サンプリング

Word 大学

音響Word

超音波

Word Web search engine 超音波 search

用い 単語 グルヸプ 単語 対応付け 保持

Web search engine 音響 search Web search engine 大学 search

Web クセス く、キヸワヸド検索

等価 方法 容易 Web デヸタ 利用可能

事前ダ ンロヸドデヸタ群

(15)

ヷヷヷヷ

ボヸル

作家

ヷヷヷヷ 音響

ヷヷヷヷ ヷヷヷヷ

ヷヷヷヷ

関連文書 選択

事前ダ ンロヸドデヸタ群

関連文書候補群

1. 関連文書候補 KL バヸジ ンス 利用

音声認識結果 関連性

2. 上位N文書 関連文書 選択

関連文書群 規模:約1000万ペヸジ

規模:1万ペヸジ

規模:Nペヸジ

対象音声 関連文書選択 高速 行う枠組

音声認識結果 出現 単語 対応付け デヸタ 抽出

(16)

落単語補間 モデル

関連文書群 文書モデル 事前分布

想定 関連文書モデル 構築

コレクションモデル パラメヸタ 関連文書群R w

i 出現回数

関連文書群R 単語数

文書モデル

スムヸジングパラメヸタ

音声認識結果 推定 モデル 関連文書

推定 モデル 線形補間 混合モデル 表現

落単語 確率 関連文書モデル 補う 期待

認識結果 推定 パラメヸタ 関連文書 推定 パラメヸタ

(17)

検索実験

CSJ テストコレクション 用い 検索実験

 検索対象:日本語講演音声2702講演(Acc: 75.12%)

評価ク リ:適合文書 39

評価 11 均補間適合率(11pt AP) 使用

再現率

補間適合率

0 1.0

均値≒11 均補間適合率 1 (適合)

2 ×(非適合) 3

4 5 ×

… …

使用 モデル 構築

 Web 利用 Yahoo! Japan 使用

提案手法 有効性 調査

(18)

Web 検索ヒット数 用い スムヸジング 評価

0.3 0.35 0.4 0.45 0.5

Collection Global Collection+Global Smoothing method

11ptAP

Correct Hypothesis

Collection:

文書モデル 事前分布 文書コレクション 利用 Global:

文書モデル 事前分布 Web検索ヒット数 利用 Collection+Global:

文書コレクション 事前分布 Web検索ヒット数 利用

文書モデル 事前分布

 Web検索ヒット数 直接文書モデル 事前知識

利用 性能 劣 う

提案手法 11ptAP 0.023 ント改善

提案手法 通常 テキスト検索 有効

(19)

Web 文書 構築 関連文書モデル 評価

0.15 0.2 0.25 0.3 0.35

1 10 100 1000 10000

Number of relevant Web Documents (N)

11ptAP

関連文書候補 KL バヸジ ンス ランキング後、関連文書群

利用 文書数 場合

評価 λ=0

N=3000(関連文書候補群 1/4) 最 高い性能(11ptAP=0.313)

関連文書 程度高い性能

関連文書候補 文書数 テストコレクション 12000文書

事前分布

前実験 有効性 確認

(Collection+Global) 使用

(20)

線形補間 よる混合モデル化の評価

0.3 0.35 0.4 0.45 0.5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Interpolation coefficient (λ)

11ptAP

Proposed Baseline Correct

Proposed:

文書モデル 関連文書モデル 線形補間 方法

Baseline:

音声認識結果 文書モデル

Correct:

正解 文書モデル

関連文書群 、前実験 良い結果

N=3000 設定

 Correct 比較 改善 余地あ

 l=0.6 Baseline 比較 11ptAP 0.033 ント改善

(21)

確率的言語モデル 基 く検索モデル

Web 利用 拡張 プロヸチ 適用

SDR 問題 : 文書コレクション自体 単語

Web検索ヒット数 利用

スムヸジング 改善方法 提案

SDR 問題 : 対象音声中 要単語

関連 Web文書 効率的 収集 落単語 補完 モデル 提案

検索実験 、前者 約0.023ポ ント改善、後者

0.033 ント改善 、提案手法 有効性 確認

参照

関連したドキュメント

 オランダ連合東インド会社による 1758 年の注文書 には、図案付きでチョコレートカップ 10,000 個の注 文が見られる

(2)連結損益計算書及び連結包括利益計算書 (連結損益計算書) 単位:百万円 前連結会計年度 自 2019年4月1日 至 2020年3月31日 売上高

[r]

分野 特許関連 商標関連 意匠関連 その他知財関連 エンフォースメント 政府関連 出典 サイト BBC ※公的機関による発表 YES NO リンク

十条冨士塚 附 石造物 有形民俗文化財 ― 平成3年11月11日 浮間村黒田家文書 有形文化財 古 文 書 平成4年3月11日 瀧野川村芦川家文書 有形文化財 古

変更 更許 許可 可申 申請 請書 書( (第 第1 16 6号 号様 様式 式( (第 第5 59 9条 条関 関係 係) )) )の の備 備考 考欄

Ⅰ.連結業績

[r]