言語 デ ン 学習デ タ 課題を
解決す た 2 アプロ チ
N ン ェン 研究所
増村 亮
-gr 言語 デ
基本性能 利便性を上 た 研究
WF 相性抜群
他 モデル RNN 等 を使う際も必ず併用
地味だけ 強力 実用的
実用化 世界 、広いド イン 対し 、
- gra 言語モデル まだ滅び い
言語 デ を研究さ 方 勧 !
そ た 解決すべ 課題 何?
必要 学習デ タを簡単 集 た 技術
学習デ タ 少 く 、う く動作す た 技術
We 上 言語資源 、
CSJ並 話し言葉用言語 デ を作成 を検討
必要 学習デ タを簡単 集 た 技術
フ ン
話し言葉 ー 抽出
フ ー等 の補完
Web 話し言葉 ー
話し言葉 ー
元 ー を ードとして、Webか 必要 ー を選定 Web ー 群
混合 n-gram
単語誤 率 評価 CSJ
A. C Jのみか 構築した n-gram LM 37.55 % B. Web ー のみか 構築した n-gram LM 37.63 % C. 両 ー か 構築した n-gram LM 35.18 %
線形補間 混合
Webベー n-gram 通常の
n-gram
バッ オフ 限界を超え た 、 デ 構造 改善を行う く、
学習デ タ 拡張を図 生成型アプロ チを検討
単語誤 率 評価 CSJ ボ ー
A. C Jか 構築した n-gram LM 27.94 % 40.68 % B. 生成 ー か 構築した n-gram LM 27.85 % 38.71 %
C. n-gram LM 26.42 % 37.92 %
学習デ タ 少 く 、う く動作す た 技術
LWLM
学習 ー
生成 ー
柔軟 構造
を持つLWLMを学習
ン
サンプ ン N-gram近似
線形補間 混合
LWLMベー のn-gram
通常 のn-gram
混合 n-gram