1103【音声ドキュメント処理WS】pdf 最近の更新履歴 Ryo Masumura: Web

(1)

Web ^デヸタ ^用い

話言葉用言語モデル作成

東大学工学研究科

◎増村亮咸聖俊伊藤彰則

(2)

 ^日 ^語話 ^{言葉コヸパス} ^(CSJ)

日語話言葉音声認識技術く発展

 CSJ ^学習 ^{言語モデル} ^非常 ^強力 ^ヷヷヷ

問題点

 ^異 ^語彙数 ⁶ ^語程度

 ^{テキストデヸタ量} ^約 ⁷⁰⁰ ^{形態素程度}

⇒ 様々話題話言葉音声対応いヷヷヷ

⇒ 頑健 _N-gram 確率推定デヸタ量

^{不十分ヷヷヷ} ( ^バック ^{フスムヸジング} ^限界 )

高精度学習デヸタ必要

以音声デヸタ人手書起非現実的

(3)

従来プロヸチ

 ^新聞 ^書 ^{言葉デヸタ} ^混合

言語モデル強ヷ補完

 ^様々 ^話題 ^音声 ^対応可能 ^あ ^ヷヷヷ

書言葉スタル _N-gram 確率昇

話言葉スタル音声対認識性能

Web ^話 ^{言葉デヸタ} ^利用 ^プロヸチ ^模索

話言葉

デヸタ

(CSJ)

書言葉

デヸタ

( ^新聞 )

話言葉用

言語モデル

デヸタ言語モデル作成

認識性能い

⇒ 話言葉スタル音声認識適学習デヸタ

^手 ^入 ^い ^考え ^い ^ヷヷヷ

(4)

Web ^言語資源 ^利用

 ^Web ^言語資源 ^音声認識

言語モデル学習あ程度有用

(Nisimura et al., 2001.)( ^伊藤 ^他 , 2002.)

文書スタル考慮 _Web 言語モデリング

 ^音声対話 ^ユヸザ ^検索要求

特言語モデル作成 (Misu et al., 2007.)

 ^文 ^疑問文 ^形式 ^あ ^文章 ^利用

疑問文特型言語モデル作成 ₍ 松田他 _{, 2010.)}

Web ^話 ^{言葉デヸタ} ^う ^く利用

大規模話言葉用言語モデル作成

⇒ Web あ種類デヸタ在

(5)

研究目的

Web ^話 ^{言葉デヸタ} ^利用

大規模話言葉用言語モデル作成

 Web ^文書 ^CSJ ^等 ^認識性能 ^持

話言葉用言語モデル作成目指

 CSJ Web ^文書 ^組 ^合わ ^CSJ ^以

高性能話言葉用言語モデル作成目指

 ^Web ^話 ^{言葉用言語モデル}

作う検証研究例いヷヷヷ

⇒ 既技術組合わ _Web 話言葉デヸタ

^大規模 ^収集 ^{言語モデル} ^構築

(6)

枠組

(7)

フルタリング

話言葉デヸタ作成流

言語モデル学習

重要部分抽出

 ^1Web ^文書 ^(1URL) ^次 ^流 ^適用

話言葉

デヸタ抽出

言語現象

補完

World Wide Web

文書スタル分類話言葉特有

言語現象補完

- ^フ ^ラヸ ^あ ^出現 ^い

⇒ フラヸ挿入

- ^読点 ^置

ショヸトポヸズ置

必一致い

⇒ ショヸトポヸズ挿入

- Web ^話 ^言葉

書言葉混在

⇒ ナヸブベズ分類器

^構築

- ^文章部分 ^抽出

⇒ ルヸルベヸス

擬似話言葉

デヸタ

人手音声書起

く話言葉デヸタ

準備可能

(8)

フルタリング

 ^{固定ルヸル}

• ^句点 ⁽ ^！ ^？ ^♪ ^含 ⁾ ^終了

• ルフベット数記号

割合 _20% 以

• ₁ 行長 ₁₀ 文以

 ^{統計ルヸル}

•あ

単語 _3-gram 準備

単語パヸプレキシテ基準

 ^{固定ルヸル} ^{統計ルヸル} ^組 ^合わ

フルタリング行う (R.Nisimura et al., 2001.)

言語モデル学習有用文章部分抽出可能

東大学ㄪＷｉｋｉｐㅢㅡｉａ東大学

出 ㄷ フリヸ百科事ウキペデㄥＷｉｋｉｐㅢㅡｉａㄦ移動ㄷ ナビゲヸションㄩ検索

ヷヷヷ

［編集］概観

［編集］大学全体

日番目帝国大学ㄮㄶㄭ７年ㄥ明治４ㄭ年ㄦ創設東帝国大学前身大学あ東帝国大学創立期大学略称東京帝国大学

東大あ大あ［ㄮ］後東帝国大学分立海帝国大学海大

現在大東大学略称く東大用い

(9)

話言葉デヸタ抽出

 ^ナ ^ヸブベ ^ズ分類器 ^スタ ^ル分類

 ^話 ^言葉スタ ^ル ^書 ^言葉スタ ^ル

ユニグラム言語モデル利用

話言葉デヸタ書言葉

デヸタ

Web

P(D| _q

書

)

デヸタ

P(D| _q

話

)

• ^スタ ^ル分類

詞ストップワヸド設定

• ^品詞 ^生成確率 ^利用

スムヸジング

話言葉風デヸタ全自動分類可能

(10)

言語現象補完

 ^フ ^ラヸびショヸトポヸズ挿入モデル適用

ㄥ K.Ohta et al., 2009.), (K.Ohta et al., 2010.)

 ^フ ^{ラヸ挿入モデル}

 ^文書中 ^あ ^置 ^フ ^ラヸ

挿入確率モデル

 ^挿入 ^フ ^ラヸ ^種類

条件付確率モデル

 ショヸトポヸズ挿入モデル

 ^文書中 ^あ ^置

ショヸトポヸズ挿入

確率モデル

<s>^パフ ^ヸ<sp> ^えヸ ^う ^いい

</s>

<s>^あ ^ヸ<sp> ^酒 ^入 ^えヸ ^少 ^く ^い音大夫思 </s>

<s> ^う <sp> ^ルコヸル <sp> 入色々言い訳 </s>

<s>^簡単 ^く <sp> ^い ^体的

曲 _<sp> 聞 </s>

話言葉特徴持擬似話言葉デヸタ作成可能

⇒ 稿 _3-gram

^{挿入モデル} ^モデル

(11)

実験

(12)

実験条件

CSJ 2536

講演

フルタリング

話言葉

デヸタ抽出

言語現象

補完

擬似話言葉

デヸタ

話題対網羅的

サンプリング

Web ^デヸタ群

合計約 ₁₅₀₀ _URL

( ^増村 ^他 , 2010.)

毎日新聞 2^年分

デヸタ作成時

利用モデル

音声認識用言語モデル音声認識用言語モデル

•デコヸダ :Julius4.1.5

•音響モデル _:CSJ

学習 _triphone モデル

•テストデヸタ _:CSJ40 講演

3-gram (Witten-bell)

学習デヸタ

(13)

1.E+05 1.E+06 1.E+07 1.E+08 1.E+09 1.E+10

CS^J

フル

タリ

ング

後書

言葉風話

言葉風フ

ラヸ

挿入

S

P^挿入

擬似話

言葉

総形態素数

各デヸタ量比較

約₇₀₀ 形態素

CSJ ^約 80 ^倍 ^話 ^{言葉デヸタ} ^作成

約₆億形態素

ナヸブベズ分類

話言葉_:書言葉約_1:7

約₁₅₀₀ _URL Web^デヸタ

フルタリング後約₅₀億形態素

言語現象補完デヸタ量増大

 ^{デヸタ作成時} ^各行程後 ^{総形態素数}

(14)

58.5 59 59.5 60 60.5 61 61.5 62 62.5 63

CS^J

+

+ +

単語正解精度 %

作成言語モデル認識性能

ナヸブベズ後話言葉風デヸタフラヸ挿入後擬似話言葉デヸタ

<SP>^挿入後擬似話言葉デヸタ

 ^約 ^40K ^{言語モデル} ^作成

言語現象補完認識性能改善約_60.2%

作成デヸタ士足合わ

認識性能改善約_61.04% 音声人手忠実

書起デヸタ

使う約_62.45%

Web ^文書 CSJ ^匹敵 ^モデル ^作成可能

(15)

60 60.5 61 61.5 62 62.5 63

CS^J(4

0K⁾ ₄₀^K ₅₀^K ₁₀^0K ₂₀^0K ₃₀^0K

語彙サズ異場合認識性能

 ⁺ ⁺ ^{言語モデル} ^語彙サ ^ズ ^変

ナヸブベズ後話言葉風デヸタフラヸ挿入後擬似話言葉デヸタ

<SP>^挿入後擬似話言葉デヸタ

Web ^文書 ^大規模 ^話 ^{言葉用言語モデル}

作成 _CSJ 場合等認識性能成

語彙数_200K 性能改善収束約_62.38% 約_62.45%

( ^知語率 1.54%)

知語率 _0.03% 改善

(16)

1.E+06

1.E+07

1.E+08

1.E+09

CSJ(40K) 40K 300K

トラグラム総数

作成言語モデル考察

 ^{学習デヸタ中} ^出現 ^トラ ^{グラム総数}

頑健 _N-gram 確率推定

CSJ ^デヸタ量 ^不足 ^い ^示唆

約₃₀₀

約₁億約_1.2億

テストデヸタ対

約_83,2% トラグラム観測

テストデヸタ対実際観測

トラグラムわ _65.71%

(17)

59 60 61 62 63 64 65

CSJ⁽⁴⁰ K)

We^b(4 0K⁾ CSJ^+W

eb(^40K ) We^b(3

00K⁾ CSJ^+W

eb(³⁰⁰ K)

モデル混合場合認識性能

 ^CSJ ^モデル ^Web ^文書 ^モデル ^混合

話言葉スタル強

CSJ ^{言語モデル} ^{性能改善可能}

混合手法ㄷ_N-gram ウント混合 (CSJ:Web = 50:1)

語彙数一

単純学習デヸタ増大効果いえ

語彙サズ

性能改善 _64.87%

CSJ ^話 ^言葉スタ ^ル的

十分デヸタ量考え

いヷヷヷ (S.Furui et al., 2005.)

(18)

1103【音声ドキュメント処理WS】pdf 最近の更新履歴 Ryo Masumura: Web

Web デヸタ 用い

話 言葉用言語モデル 作成

東 大学工学研究科

◎増村 亮 咸 聖俊 伊藤彰則

 日 語話 言葉コヸパス (CSJ)

日 語話 言葉音声認識技術 く発展

 CSJ 学習 言語モデル 非常 強力 ヷヷヷ

問題点

 異 語彙数 6 語程度

 テキストデヸタ量 約 700 形態素程度

⇒ 様々 話題 話 言葉音声 対応 いヷヷヷ

⇒ 頑健 N-gram 確率 推定 デヸタ量

不十分ヷヷヷ ( バック フスムヸジング 限界 )

高精度 学習デヸタ 必要

以 音声デヸタ 人手 書 起 非現実的

従来 プロヸチ

 新聞 書 言葉デヸタ 混合

言語モデル 強 ヷ補完

 様々 話題 音声 対応可能 あ ヷヷヷ

書 言葉スタ ル N-gram 確率 昇

話 言葉スタ ル 音声 対 認識性能

Web 話 言葉デヸタ 利用 プロヸチ 模索

話 言葉

デヸタ

(CSJ)

書 言葉

デヸタ

( 新聞 )

話 言葉用

言語モデル

⇒ 話 言葉スタ ル 音声認識 適 学習デヸタ

手 入 い 考え い ヷヷヷ

Web 言語資源 利用

 Web 言語資源 音声認識

言語モデル 学習 あ 程度有用

(Nisimura et al., 2001.)( 伊藤 他 , 2002.)

文書スタ ル 考慮 Web 言語モデリング

 音声対話 ユヸザ 検索要求

特 言語モデル 作成 (Misu et al., 2007.)

 文 疑問文 形式 あ 文章 利用

疑問文特 型言語モデル 作成 ( 松田 他 , 2010.)

Web 話 言葉デヸタ う く利用

大規模 話 言葉用言語モデル 作成

⇒ Web あ 種類 デヸタ 在

研究 目的

Web 話 言葉デヸタ 利用

大規模 話 言葉用言語モデル 作成

 Web 文書 CSJ 等 認識性能 持

話 言葉用言語モデル 作成 目指

 CSJ Web 文書 組 合わ CSJ 以

高性能 話 言葉用言語モデル 作成 目指

 Web 話 言葉用言語モデル

作 う 検証 研究例 いヷヷヷ

⇒ 既 技術 組 合わ Web 話 言葉デヸタ

大規模 収集 言語モデル 構築

枠組

フ ルタリング

話 言葉デヸタ 作成 流

言語モデル 学習

重要 部分 抽出

 1Web 文書 (1URL) 次 流 適用

話 言葉

デヸタ 抽出

言語現象

補完

World Wide Web

文書スタ ル 分類 話 言葉特有

言語現象 補完

- フ ラヸ あ 出現 い

⇒ フ ラヸ挿入

- 読点 置

ショヸトポヸズ 置

必 一致 い

⇒ ショヸトポヸズ挿入

- Web 話 言葉

書 言葉 混在

⇒ ナ ヸブベ ズ分類器

構築

- 文章部分 抽出

Web ^デヸタ ^用い

話言葉用言語モデル作成

東大学工学研究科

◎増村亮咸聖俊伊藤彰則

 ^日 ^語話 ^{言葉コヸパス} ^(CSJ)

日語話言葉音声認識技術く発展

 CSJ ^学習 ^{言語モデル} ^非常 ^強力 ^ヷヷヷ

 ^異 ^語彙数 ⁶ ^語程度

 ^{テキストデヸタ量} ^約 ⁷⁰⁰ ^{形態素程度}

⇒ 様々話題話言葉音声対応いヷヷヷ

⇒ 頑健 _N-gram 確率推定デヸタ量

^{不十分ヷヷヷ} ( ^バック ^{フスムヸジング} ^限界 )

高精度学習デヸタ必要

以音声デヸタ人手書起非現実的

従来プロヸチ

 ^新聞 ^書 ^{言葉デヸタ} ^混合

言語モデル強ヷ補完

 ^様々 ^話題 ^音声 ^対応可能 ^あ ^ヷヷヷ

書言葉スタル _N-gram 確率昇

話言葉スタル音声対認識性能

Web ^話 ^{言葉デヸタ} ^利用 ^プロヸチ ^模索

話言葉

書言葉

( ^新聞 )

話言葉用

⇒ 話言葉スタル音声認識適学習デヸタ

^手 ^入 ^い ^考え ^い ^ヷヷヷ

Web ^言語資源 ^利用

 ^Web ^言語資源 ^音声認識

言語モデル学習あ程度有用

(Nisimura et al., 2001.)( ^伊藤 ^他 , 2002.)

文書スタル考慮 _Web 言語モデリング

 ^音声対話 ^ユヸザ ^検索要求

特言語モデル作成 (Misu et al., 2007.)

 ^文 ^疑問文 ^形式 ^あ ^文章 ^利用

疑問文特型言語モデル作成 ₍ 松田他 _{, 2010.)}

Web ^話 ^{言葉デヸタ} ^う ^く利用

大規模話言葉用言語モデル作成

⇒ Web あ種類デヸタ在

研究目的

Web ^話 ^{言葉デヸタ} ^利用

大規模話言葉用言語モデル作成

 Web ^文書 ^CSJ ^等 ^認識性能 ^持

話言葉用言語モデル作成目指

 CSJ Web ^文書 ^組 ^合わ ^CSJ ^以

高性能話言葉用言語モデル作成目指

 ^Web ^話 ^{言葉用言語モデル}

作う検証研究例いヷヷヷ

⇒ 既技術組合わ _Web 話言葉デヸタ

^大規模 ^収集 ^{言語モデル} ^構築

フルタリング

話言葉デヸタ作成流

言語モデル学習

重要部分抽出

 ^1Web ^文書 ^(1URL) ^次 ^流 ^適用

話言葉

デヸタ抽出

文書スタル分類話言葉特有

言語現象補完

- ^フ ^ラヸ ^あ ^出現 ^い

⇒ フラヸ挿入

- ^読点 ^置

ショヸトポヸズ置

必一致い

- Web ^話 ^言葉

書言葉混在

⇒ ナヸブベズ分類器

^構築

- ^文章部分 ^抽出

人手音声書起

く話言葉デヸタ

フルタリング

 ^{固定ルヸル}

• ^句点 ⁽ ^！ ^？ ^♪ ^含 ⁾ ^終了

• ルフベット数記号

割合 _20% 以

• ₁ 行長 ₁₀ 文以

 ^{統計ルヸル}

単語 _3-gram 準備

単語パヸプレキシテ基準