Web デヸタ 用い
話 言葉用言語モデル 作成
東 大学工学研究科
◎増村 亮 咸 聖俊 伊藤彰則
日 語話 言葉コヸパス (CSJ)
日 語話 言葉音声認識技術 く発展
CSJ 学習 言語モデル 非常 強力 ヷヷヷ
問題点
異 語彙数 6 語程度
テキストデヸタ量 約 700 形態素程度
⇒ 様々 話題 話 言葉音声 対応 いヷヷヷ
⇒ 頑健 N-gram 確率 推定 デヸタ量
不十分ヷヷヷ ( バック フスムヸジング 限界 )
高精度 学習デヸタ 必要
以 音声デヸタ 人手 書 起 非現実的
従来 プロヸチ
新聞 書 言葉デヸタ 混合
言語モデル 強 ヷ補完
様々 話題 音声 対応可能 あ ヷヷヷ
書 言葉スタ ル N-gram 確率 昇
話 言葉スタ ル 音声 対 認識性能
Web 話 言葉デヸタ 利用 プロヸチ 模索
話 言葉
デヸタ
(CSJ)
書 言葉
デヸタ
( 新聞 )
話 言葉用
言語モデル
デヸタ 言語モデル 作成
認識性能 い
⇒ 話 言葉スタ ル 音声認識 適 学習デヸタ
手 入 い 考え い ヷヷヷ
Web 言語資源 利用
Web 言語資源 音声認識
言語モデル 学習 あ 程度有用
(Nisimura et al., 2001.)( 伊藤 他 , 2002.)
文書スタ ル 考慮 Web 言語モデリング
音声対話 ユヸザ 検索要求
特 言語モデル 作成 (Misu et al., 2007.)
文 疑問文 形式 あ 文章 利用
疑問文特 型言語モデル 作成 ( 松田 他 , 2010.)
Web 話 言葉デヸタ う く利用
大規模 話 言葉用言語モデル 作成
⇒ Web あ 種類 デヸタ 在
研究 目的
Web 話 言葉デヸタ 利用
大規模 話 言葉用言語モデル 作成
Web 文書 CSJ 等 認識性能 持
話 言葉用言語モデル 作成 目指
CSJ Web 文書 組 合わ CSJ 以
高性能 話 言葉用言語モデル 作成 目指
Web 話 言葉用言語モデル
作 う 検証 研究例 いヷヷヷ
⇒ 既 技術 組 合わ Web 話 言葉デヸタ
大規模 収集 言語モデル 構築
枠組
フ ルタリング
話 言葉デヸタ 作成 流
言語モデル 学習
重要 部分 抽出
1Web 文書 (1URL) 次 流 適用
話 言葉
デヸタ 抽出
言語現象
補完
World Wide Web
文書スタ ル 分類 話 言葉特有
言語現象 補完
- フ ラヸ あ 出現 い
⇒ フ ラヸ挿入
- 読点 置
ショヸトポヸズ 置
必 一致 い
⇒ ショヸトポヸズ挿入
- Web 話 言葉
書 言葉 混在
⇒ ナ ヸブベ ズ分類器
構築
- 文章部分 抽出
⇒ ルヸルベヸス
擬似 話 言葉
デヸタ
人手 音声 書 起
く 話 言葉デヸタ
準備可能
フ ルタリング
固定ルヸル
• 句点 ( ! ? ♪ 含 ) 終了
• ルフ ベット 数 記号
割合 20% 以
• 1 行 長 10 文 以
統計ルヸル
•あ
単語 3-gram 準備
単語パヸプレキシテ 基準
固定ルヸル 統計ルヸル 組 合わ
フ ルタリング 行う (R.Nisimura et al., 2001.)
言語モデル 学習 有用 文章部分 抽出可能
東 大学 ㄪ Wikipㅢㅡia 東 大学
出 ㄷ フリヸ百科事 ウ キペデ ㄥWikipㅢㅡiaㄦ 移動ㄷ ナビゲヸションㄩ 検索
ヷヷヷ
[編集] 概観
[編集] 大学全体
日 番目 帝国大学 ㄮㄶㄭ7年ㄥ明治4ㄭ年ㄦ 創設 東 帝国大学 前身 大学 あ 東 帝国大学創立期 大学 略称 東京帝国大学
東大 あ 大 あ [ㄮ] 後 東 帝国大学 分立 海 帝国大学 海大
現在 大 東 大学 略称 く 東 大 用い
話 言葉デヸタ 抽出
ナ ヸブベ ズ分類器 スタ ル分類
話 言葉スタ ル 書 言葉スタ ル
ユニグラム言語モデル 利用
話 言葉 デヸタ 書 言葉
デヸタ
Web
P(D| q
書)
デヸタP(D| q
話)
• スタ ル分類
詞 ストップワヸド 設定
• 品詞 生成確率 利用
スムヸジング
話 言葉風 デヸタ 全自動 分類可能
言語現象 補完
フ ラヸ びショヸトポヸズ挿入モデル 適用
ㄥ K.Ohta et al., 2009.), (K.Ohta et al., 2010.)
フ ラヸ挿入モデル
文書中 あ 置 フ ラヸ
挿入 確率 モデル
挿入 フ ラヸ 種類
条件付 確率 モデル
ショヸトポヸズ挿入モデル
文書中 あ 置
ショヸトポヸズ 挿入
確率 モデル
<s>パフ ヸ<sp> えヸ う いい
</s>
<s>あ ヸ<sp> 酒 入 えヸ 少 く い 音 大 夫 思 </s>
<s> う <sp> ルコヸル <sp> 入 色々言い訳 </s>
<s>あ ヸ<sp>簡単 く 曲 う う</s>
<s>簡単 く <sp> い 体的
曲 <sp> 聞 </s>
話 言葉 特徴 持 擬似話 言葉デヸタ 作成可能
⇒ 稿 3-gram
挿入モデル モデル
実験
実験条件
CSJ 2536
講演
フ ルタリング
話 言葉
デヸタ 抽出
言語現象
補完
擬似 話 言葉
デヸタ
話題 対 網羅的
サンプリング
Web デヸタ群
合計約 1500 URL
( 増村 他 , 2010.)
毎日新聞 2年分
デヸタ作成時
利用 モデル
音声認識用 言語モデル 音声認識用 言語モデル
•デコヸダ :Julius4.1.5
•音響モデル :CSJ
学習 triphone モデル
•テストデヸタ :CSJ40 講演
3-gram (Witten-bell)
学習デヸタ
1.E+05 1.E+06 1.E+07 1.E+08 1.E+09 1.E+10
CSJ
フ ル
タ リ
ン グ
後 書
言葉風 話
言葉風 フ
ラ ヸ
挿入
S
P挿入
擬似話
言葉
総形態素数
各デヸタ量 比較
約700 形態素
CSJ 約 80 倍 話 言葉デヸタ 作成
約6億形態素
ナ ヸブベ ズ 分類
話 言葉:書 言葉 約1:7
約1500 URL Webデヸタ
フ ルタリング後 約50億形態素
言語現象 補完 デヸタ量増大
デヸタ作成時 各行程後 総形態素数
58.5 59 59.5 60 60.5 61 61.5 62 62.5 63
CSJ
+
+ +
単語正解精度 %
作成 言語モデル 認識性能
ナ ヸブベ ズ後 話 言葉風デヸタ フ ラヸ挿入後 擬似話 言葉デヸタ
<SP>挿入後 擬似話 言葉デヸタ
約 40K 言語モデル 作成
言語現象 補完 認識性能 改善 約60.2%
作成 デヸタ 士 足 合わ
認識性能 改善 約61.04% 音声 人手 忠実
書 起 デヸタ
使う 約62.45%
Web 文書 CSJ 匹敵 モデル 作成可能
60 60.5 61 61.5 62 62.5 63
CSJ(4
0K) 40K 50K 100K 200K 300K
単語正解精度 %
語彙サ ズ 異 場合 認識性能
+ + 言語モデル 語彙サ ズ 変
ナ ヸブベ ズ後 話 言葉風デヸタ フ ラヸ挿入後 擬似話 言葉デヸタ
<SP>挿入後 擬似話 言葉デヸタ
Web 文書 大規模 話 言葉用言語モデル
作成 CSJ 場合 等 認識性能 成
語彙数200K 性能改善 収束 約62.38% 約62.45%
( 知語率 1.54%)
知語率 0.03% 改善
1.E+06
1.E+07
1.E+08
1.E+09
CSJ(40K) 40K 300K
ト ラ グ ラ ム 総数
作成 言語モデル 考察
学習デヸタ中 出現 トラ グラム総数
頑健 N-gram 確率 推定
CSJ デヸタ量 不足 い 示唆
約300
約1億 約1.2億
テストデヸタ 対
約83,2% トラ グラム 観測
テストデヸタ 対 実際 観測
トラ グラム わ 65.71%
59 60 61 62 63 64 65
CSJ(40 K)
Web(4 0K) CSJ+W
eb(40K ) Web(3
00K) CSJ+W
eb(300 K)
単語正解精度 %
モデル 混合 場合 認識性能
CSJ モデル Web 文書 モデル 混合
話 言葉スタ ル 強
CSJ 言語モデル 性能改善可能
混合手法ㄷN-gram ウント混合 (CSJ:Web = 50:1)
語彙数 一
単純 学習デヸタ 増大 効果 いえ
語彙サ ズ
性能改善 64.87%