• 検索結果がありません。

1409【ASJ2014A オーラル】pdf 最近の更新履歴 Ryo Masumura: Web

N/A
N/A
Protected

Academic year: 2018

シェア "1409【ASJ2014A オーラル】pdf 最近の更新履歴 Ryo Masumura: Web"

Copied!
20
0
0

読み込み中.... (全文を見る)

全文

(1)

Latent Words Language Model

クロス混合 基 く言語モデル適応

NTT メデ ンテリジェンス研究所

○増村 亮 , 浅見太一 , 大庭 隆伸 , 政瀧浩和 , 阪内澄宇

(2)

話し言葉音声認識 し し 直面す ケヸス

対象ドメ ン 完全 マッチし 学習デヸタ い 、

部分的 マッチし 学習デヸタ あ いうケヸス 多い

 通信関係コンタクトセンタ 音声書 起こし

( ) :金融関係コンタクトセンタ 言語モデル 必要

金融 関す Web テキスト ヷヷヷ

(3)

本発表 概要

対象ドメ マッチし 学習デヸタ い場合

言語モデルを構築す 手法 高度化を検討

基本 枠組 : モデル混合 基 く言語モデル適応

ベヸスラ ン: n-gram 混合

従来法:ベヸスラ + LWLM

提案法:ベヸスラ + LWLM + Cross Mixture LWLM

(4)

ジェンダ

4. 評価実験

5.

1. 研究背景 本発表 概要

2. 従来法 課題

3. 提案法

(5)

2-1. n-gram 混合 言語モデル適応 (Baseline)

学習デヸタ 1

n-gram

Adapted

n-gram

学習デヸタ 2

開発デヸタ

n-gram

混合重 を調節す こ 適応を実現

n-gram 学習デヸタ ドメ 強く依

対象ドメ ン マッチし い要素モデル 適応効果 小さい

n-gram 混合 枠組 、

対象ドメ 近い要素モデルを準備す こ 重要

(6)

2-2. Latent Words Language Model [Deschacht+, 2011.]

特徴 :膨大 潜在変数空間 基 く柔軟 モデル構造

ドメ ミスマッチ いモデル化 可能

特徴 :潜在変数 単 ンデクス く、具体的 単語 表さ

モデル間 共通 潜在変数空間を持

�−

�−

�+

�+

�−

�−

�+

�+

パラメヸタ

潜在語系列

観測語系列

状態遷移:

潜在変数

n-gram モデル

状態出力:

観測語

unigram モデル

 K 種類 潜在変数 K 種類 観測語 結び

(7)

2-3. LWLM n-gram 近似 [Masumura+, 2013.]

学習デヸタ 一ドメ ン n-gram モデル 等、

対象ドメ ン外 n-gram モデル 大幅 性能改善

�−

�−

�+

�+

�−

�−

�+

�+

LWLM

生成デヸタ

単語予測 確率分布を求 こ 困 、

確率過程 従 単語列を生成す こ 容易

~� ℎ |ℎ �− , ℎ �− , �

1. 潜在語を生成

~� � |ℎ , �

2. 観測語を生成

(8)

2-4. LWLM を利用し 言語モデル適応 ( 従来法 )

学習デヸタ 1

LWLM

LWLM

n-gram

n-gram

Adapted

n-gram

学習デヸタ 2

開発デヸタ

LWLM ドメ ミスマッチ 頑健

通常 枠組 性能改善を実現

LWLM

n-gram 近似済

(9)

2-5. 従来法 課題

さ 性能改善を実現す 、

ドメ ン マッチし モデルを準備可能 枠組 必要

学習デヸタ 1

LWLM

LWLM

n-gram

n-gram

学習デヸタ 2

スタ ル:○

話題:△

LWLM 効果

×を△ し

学習 メヸジ

スタ ル:○

話題:×

スタ ル:×

話題:○

スタ ル:△

話題:○

スタ ル:○

話題:×

スタ ル:×

話題:○

スタ ル:○、話題○ モデル 準備 い い

(10)

山田

御 前

増村

大庭

政瀧

し う

状態遷移:

ドメ ン スタ ルをモデル化し い 仮定

状態出力:

ドメ ン 話題をモデル化し い 仮定

� = {� , � }

3-1. 解決 着眼点

ドメ ン スタ ル 話題を分 し い 考え 、

適合し パラメヸタ 士を組 合わすこ ヷヷヷ

LWLM

学習

デヸタ

(11)

� = {� , � }

� = {� , � }

学習デヸタ 1

構築し LWLM

学習デヸタ 2

構築し LWLM

, = {� , � }

, = {� , � }

( スタ ル○:話題× )

( スタ ル×:話題○ )

Cross-mixture LWLM

( スタ ル○:話題○ )

Cross-mixture LWLM

( スタ ル×:話題× )

3-2. Cross Mixture LWLM (CM-LWLM) 提案

状態遷移 パラメヸタ 状態出力 パラメヸタ

異 学習デヸタ 基 い い LWLM

LWLM 共通 潜在変数空間を

個々 パラメヸタをモデル間 交換し 不整合 起 い

(12)

3-3. CM-LWLM を用い 言語モデル適応 ( 提案法 )

学習デヸタ 1

個々 学習デヸタ ドメ ン ミスマッチ あ 、

影響を軽減し 言語モデル適応 実現 期待

LWLM

LWLM

n-gram

n-gram

CM-

LWLM

CM-

LWLM

Adapted

n-gram

学習デヸタ 2

開発デヸタ

LWLM

n-gram 近似済

(13)

ジェンダ

4. 評価実験

5.

1. 研究背景 本発表 概要

2. 従来法 課題

3. 提案法

(14)

4-1. 実験条件

テストデヸタ CSJ: 学会 10 講演

開発デヸタ CSJ: 学会 10 講演

学習デヸタ 1

CSJ 模擬講演デヸタ

400 万形態素 ( スタ ル○:話題× )

学習デヸタ 2

テストデヸタ 話題 関連す Web デヸタ

300 万形態素 ( スタ ル×:話題○ )

デコヸダ VoiceRex (WFST-based)

音響モデル

Context dependent DNN-HMM

8 hidden layers of 2048 nodes

ドメ ン ミスマッチ あ 2 学習デヸタ

開発デヸタを対象ドメ ン し モデルを構築

(15)

Witten-Bell

n-gram (WBLM)

階層 Pitman-Yor

言語モデル (HPYLM)

n-gram 近似

を行 LWLM

100

150

200

250

300

350

学習デヸタ 1 学習デヸタ 2

4-2. 通常 n-gram LWLM 比較

35

36

37

38

39

40

学習デヸタ 1 学習デヸタ 2

ドメ ン ミスマッチ あ 場合 、 LWLM 有用

(

)

(16)

34.5

35

35.5

36

36.5

37

37.5

38

LWLM

Traiing 1

LWLM

Training 2

CM-LWLM

(1+2)

CM-LWLM

(2+1)

仮説通 傾向 、マッチし う パラメヸタ

を組 合わせ こ 、ドメ ン マッチし モデルを構築可能

Cross Mixture LWLM 検証

スタ ル:○

話題:×

スタ ル:×

話題:○

スタ ル:○

話題:○

スタ ル:×

話題:×

マッチし う パラメヸタを

組 合わせ 最高性能

(

)

仮説:

スタ ル 状態遷移パラメヸタ

話題 状態出力パラメヸタ

含 い ?

ミスマッチ パラメヸタを

組 合わせ 悪い性能

(17)

言語モデル適応 評価

1.Baseline

(WBLM)

3.Conventional

(2+LWLM)

2.Baseline

(HPYLM)

4.Proposed

(3+Cross-mixutre LWLM)

100

110

120

130

140

150

27

28

29

30

(

)

提案法 、ドメ ン ミスマッチを緩和す 効果

得 、言語モデル適応 性能改善を実現

(18)

ジェンダ

4. 評価実験

5.

1. 研究背景 本発表 概要

2. 従来法 課題

3. 提案法

(19)

Cross-mixture LWLM

言語モデル適応 高度化手法を提案

ベヸスラ 単語誤 1.5 ント、

従来手法 約 0.5 ポ ント 改善効果を得

部分的 適合す モデルを組 合わせ

ドメ ン マッチす モデルを構築

(20)

ジェンダ

4. 評価実験

5.

1. 研究背景 本発表 概要

2. 従来法 課題

3. 提案法

参照

関連したドキュメント

最近一年間の幹の半径の生長ヰま、枝葉の生長量

ユーザ情報を 入力してくだ さい。必要に 応じて複数(2 つ目)のメー ルアドレスが 登録できます。.

タッチON/OFF判定 CinX Data Registerの更新 Result Data 1/2 Registerの更新 Error Status Registerの更新 Error Status Channel 1/2 Registerの更新 (X=0,1,…,15).

エリアP 雑固体廃棄物 焼却設備 処理設備     瓦礫保管エリア     伐採木保管エリア

※ログイン後最初に表示 される申込メニュー画面 の「ユーザ情報変更」ボタ ンより事前にメールアド レスをご登録いただきま

東京電力エリアの場合は 東京電力パワーグリッド の「Web 申込システム」へ のユーザIDが必要とな

ご使用場所住所の郵便番号 を入力して「住所検索」ボタ ンを押下してください。 「住