• 検索結果がありません。

1103【音声ドキュメント処理WS】pdf 最近の更新履歴 Ryo Masumura: Web

N/A
N/A
Protected

Academic year: 2018

シェア "1103【音声ドキュメント処理WS】pdf 最近の更新履歴 Ryo Masumura: Web"

Copied!
18
0
0

読み込み中.... (全文を見る)

全文

(1)

Web デヸタ 用い

話 言葉用言語モデル 作成

東 大学工学研究科

◎増村 亮 咸 聖俊 伊藤彰則

(2)

語話 言葉コヸパス (CSJ)

日 語話 言葉音声認識技術 く発展

 CSJ 学習 言語モデル 非常 強力 ヷヷヷ

問題点

語彙数 6 語程度

テキストデヸタ量 700 形態素程度

⇒ 様々 話題 話 言葉音声 対応 いヷヷヷ

⇒ 頑健 N-gram 確率 推定 デヸタ量

不十分ヷヷヷ ( バック フスムヸジング 限界 )

高精度 学習デヸタ 必要

以 音声デヸタ 人手 書 起 非現実的

(3)

従来 プロヸチ

新聞 言葉デヸタ 混合

言語モデル 強 ヷ補完

様々 話題 音声 対応可能 ヷヷヷ

書 言葉スタ ル N-gram 確率 昇

話 言葉スタ ル 音声 対 認識性能

Web 言葉デヸタ 利用 プロヸチ 模索

話 言葉

デヸタ

(CSJ)

書 言葉

デヸタ

( 新聞 )

話 言葉用

言語モデル

デヸタ 言語モデル 作成

認識性能 い

⇒ 話 言葉スタ ル 音声認識 適 学習デヸタ

考え ヷヷヷ

(4)

Web 言語資源 利用

Web 言語資源 音声認識

言語モデル 学習 あ 程度有用

(Nisimura et al., 2001.)( 伊藤 , 2002.)

文書スタ ル 考慮 Web 言語モデリング

音声対話 ユヸザ 検索要求

特 言語モデル 作成 (Misu et al., 2007.)

疑問文 形式 文章 利用

疑問文特 型言語モデル 作成 ( 松田 他 , 2010.)

Web 言葉デヸタ く利用

大規模 話 言葉用言語モデル 作成

⇒ Web あ 種類 デヸタ 在

(5)

研究 目的

Web 言葉デヸタ 利用

大規模 話 言葉用言語モデル 作成

 Web 文書 CSJ 認識性能

話 言葉用言語モデル 作成 目指

 CSJ Web 文書 合わ CSJ

高性能 話 言葉用言語モデル 作成 目指

Web 言葉用言語モデル

作 う 検証 研究例 いヷヷヷ

⇒ 既 技術 組 合わ Web 話 言葉デヸタ

大規模 収集 言語モデル 構築

(6)

枠組

(7)

フ ルタリング

話 言葉デヸタ 作成 流

言語モデル 学習

重要 部分 抽出

1Web 文書 (1URL) 適用

話 言葉

デヸタ 抽出

言語現象

補完

World Wide Web

文書スタ ル 分類 話 言葉特有

言語現象 補完

- ラヸ 出現

⇒ フ ラヸ挿入

- 読点

ショヸトポヸズ 置

必 一致 い

⇒ ショヸトポヸズ挿入

- Web 言葉

書 言葉 混在

⇒ ナ ヸブベ ズ分類器

構築

- 文章部分 抽出

⇒ ルヸルベヸス

擬似 話 言葉

デヸタ

人手 音声 書 起

く 話 言葉デヸタ

準備可能

(8)

フ ルタリング

固定ルヸル

句点 ( ) 終了

• ルフ ベット 数 記号

割合 20%

1 行 長 10 文 以

統計ルヸル

•あ

単語 3-gram 準備

単語パヸプレキシテ 基準

固定ルヸル 統計ルヸル 合わ

フ ルタリング 行う (R.Nisimura et al., 2001.)

言語モデル 学習 有用 文章部分 抽出可能

大学 Wikipㅢㅡia 大学

フリヸ百科事 キペデ ㄥWikipㅢㅡiaㄦ 移動ㄷ ナビゲヸションㄩ 検索

ヷヷヷ

[編集] 概観

[編集] 大学全体

番目 帝国大学 ㄮㄶㄭ7年ㄥ明治4ㄭ年ㄦ 創設 帝国大学 前身 大学 帝国大学創立期 大学 略称 東京帝国大学

東大 [ㄮ] 帝国大学 分立 帝国大学 海大

現在 大学 略称 用い

(9)

話 言葉デヸタ 抽出

ヸブベ ズ分類器 スタ ル分類

言葉スタ 言葉スタ

ユニグラム言語モデル 利用

話 言葉 デヸタ 書 言葉

デヸタ

Web

P(D| q

)

デヸタ

P(D| q

)

スタ ル分類

詞 ストップワヸド 設定

品詞 生成確率 利用

スムヸジング

話 言葉風 デヸタ 全自動 分類可能

(10)

言語現象 補完

ラヸ びショヸトポヸズ挿入モデル 適用

ㄥ K.Ohta et al., 2009.), (K.Ohta et al., 2010.)

ラヸ挿入モデル

文書中 ラヸ

挿入 確率 モデル

挿入 ラヸ 種類

条件付 確率 モデル

 ショヸトポヸズ挿入モデル

文書中

ショヸトポヸズ 挿入

確率 モデル

<s>パフ <sp> えヸ いい

</s>

<s> <sp> えヸ 音 大 夫 思 </s>

<s> <sp> ルコヸル <sp> 入 色々言い訳 </s>

<s> <sp>簡単 う う</s>

<s>簡単 <sp> 体的

<sp> 聞 </s>

話 言葉 特徴 持 擬似話 言葉デヸタ 作成可能

⇒ 稿 3-gram

挿入モデル モデル

(11)

実験

(12)

実験条件

CSJ 2536

講演

フ ルタリング

話 言葉

デヸタ 抽出

言語現象

補完

擬似 話 言葉

デヸタ

話題 対 網羅的

サンプリング

Web デヸタ群

合計約 1500 URL

( 増村 , 2010.)

毎日新聞 2年分

デヸタ作成時

利用 モデル

音声認識用 言語モデル 音声認識用 言語モデル

•デコヸダ :Julius4.1.5

•音響モデル :CSJ

学習 triphone モデル

•テストデヸタ :CSJ40 講演

3-gram (Witten-bell)

学習デヸタ

(13)

1.E+05 1.E+06 1.E+07 1.E+08 1.E+09 1.E+10

CSJ

フ ル

タ リ

ン グ

後 書

言葉風 話

言葉風 フ

ラ ヸ

挿入

S

P挿入

擬似話

言葉

総形態素数

各デヸタ量 比較

700 形態素

CSJ 80 言葉デヸタ 作成

6億形態素

ナ ヸブベ ズ 分類

話 言葉:書 言葉 約1:7

1500 URL Webデヸタ

フ ルタリング後 約50億形態素

言語現象 補完 デヸタ量増大

デヸタ作成時 各行程後 総形態素数

(14)

58.5 59 59.5 60 60.5 61 61.5 62 62.5 63

CSJ

+

+ +

単語正解精度 %

作成 言語モデル 認識性能

ナ ヸブベ ズ後 話 言葉風デヸタ フ ラヸ挿入後 擬似話 言葉デヸタ

<SP>挿入後 擬似話 言葉デヸタ

40K 言語モデル 作成

言語現象 補完 認識性能 改善 約60.2%

作成 デヸタ 士 足 合わ

認識性能 改善 約61.04% 音声 人手 忠実

書 起 デヸタ

使う 約62.45%

Web 文書 CSJ 匹敵 モデル 作成可能

(15)

60 60.5 61 61.5 62 62.5 63

CSJ(4

0K) 40K 50K 100K 200K 300K

単語正解精度 %

語彙サ ズ 異 場合 認識性能

+ + 言語モデル 語彙サ

ナ ヸブベ ズ後 話 言葉風デヸタ フ ラヸ挿入後 擬似話 言葉デヸタ

<SP>挿入後 擬似話 言葉デヸタ

Web 文書 大規模 言葉用言語モデル

作成 CSJ 場合 等 認識性能 成

語彙数200K 性能改善 収束 約62.38% 62.45%

( 知語率 1.54%)

知語率 0.03% 改善

(16)

1.E+06

1.E+07

1.E+08

1.E+09

CSJ(40K) 40K 300K

ト ラ グ ラ ム 総数

作成 言語モデル 考察

学習デヸタ中 出現 トラ グラム総数

頑健 N-gram 確率 推定

CSJ デヸタ量 不足 示唆

300

1億 約1.2

テストデヸタ 対

83,2% トラ グラム 観測

テストデヸタ 対 実際 観測

トラ グラム わ 65.71%

(17)

59 60 61 62 63 64 65

CSJ(40 K)

Web(4 0K) CSJ+W

eb(40K ) Web(3

00K) CSJ+W

eb(300 K)

単語正解精度 %

モデル 混合 場合 認識性能

CSJ モデル Web 文書 モデル 混合

話 言葉スタ ル 強

CSJ 言語モデル 性能改善可能

混合手法ㄷN-gram ウント混合 (CSJ:Web = 50:1)

語彙数 一

単純 学習デヸタ 増大 効果 いえ

語彙サ ズ

性能改善 64.87%

CSJ 言葉スタ ル的

十分 デヸタ量 考え

い ヷヷヷ (S.Furui et al., 2005.)

(18)

Web 文書 大規模 擬似話 言葉デヸタ 作成

 CSJ 80 擬似話 言葉デヸタ Web 獲得

大規模 言葉用言語モデル 作成

 Web 獲得 言葉デヸタ

CSJ 匹敵 認識性能

 Web 獲得 言葉デヸタ CSJ 合わ

CSJ 高い認識性能

話 言葉音声認識 高精度 向

Web 言葉デヸタ 利用 有効

Web 言葉デヸタ 利用

大規模 話 言葉用言語モデル 作成 検討

参照

関連したドキュメント

デジタル版カタログ web 版 STIHL カタログ 希望小売価格一覧 最新情報は、上記

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察

タッチON/OFF判定 CinX Data Registerの更新 Result Data 1/2 Registerの更新 Error Status Registerの更新 Error Status Channel 1/2 Registerの更新 (X=0,1,…,15).

エリアP 雑固体廃棄物 焼却設備 処理設備     瓦礫保管エリア     伐採木保管エリア