• 検索結果がありません。

1508【音声研究会】pdf 最近の更新履歴 Ryo Masumura: Web

N/A
N/A
Protected

Academic year: 2018

シェア "1508【音声研究会】pdf 最近の更新履歴 Ryo Masumura: Web"

Copied!
30
0
0

読み込み中.... (全文を見る)

全文

(1)

Latent Words Recurrent Neural Network

言語モデル 提案 音声認識 適用

増村 亮 , 浅見 一 †, 大庭 隆伸 †,

政瀧 浩和 †, 阪内 澄宇 †, 伊藤 彰則‡

NTT メデ ンテリジェンス研究所

‡ 東 大学大学院工学研究科

(2)

本研究

言語モデル モデル構造 高度 研究 焦点

�− �−�+�+

Back-off N-gram LM

� � = � � |� , � ng 高度

�=

(3)

言語モデル 主 課題

大量 学習デヸタ い 、

言い回 をカバヸ い

⇒ 少 いデヸタ 様々 言い回 をカバヸ い

デヸタスパヸスネス

制約 局所性

短い単語文脈 (N-1 単語 )

を制約 、

長距 文脈を反映 い

⇒ 文脈情報を柔軟 捉え い

ドメ ン依存性

学習デヸタ ドメ ン

モデル制約 強く依存 、

ドメ ン 異 性能 低い

⇒ マルチドメ ン ロバスト い

(4)

モデル構造 高度 研究

• Maximum Entropy LM [Rosenfeld+, 1996]

• Decision Tree LM [Potamianos+, 1998]

• Random Forest LM [Xu+, 2004]

• Neural Network LM [Bengio+,2003][Schwenk+,2007]

Recurrent Neural Network LM [Mikolov+, 2010]

識別モデルベヸス モデル構造

生成モデル (Bayesian モデル ) ベヸス モデル構造

• Hierarchical Pitman-Yor LM [Teh, 2006]

• Bayesian Class-based LM [Su, 2011]

• Dirichlet Class LM [Chien+, 2011]

Latent Words LM [Deschacht+, 2011]

(5)

本研究 概要

Recurrent Neural Network LM Latent Words LM

識別モデルベヸス 生成モデルベヸス

Latent Words Recurrent Neural Network LM

新 言語モデルを提案

(6)

ジェンダ

3. 改善 提案手法

1. 概要

2. RNNLM LWLM 概要 課題

4. CSJ 評価実験

5.

(7)

観測単語空間

Recurrent Neural Network LM

[Mikolov+, 2010]

再帰的 ネットワヸク 長距 文脈を考慮可能

�−�−�+�+

�−�− �+

�−

k-1 番目

単語

1-of-N 表現

直前

隠 層

出力

入力 保持

生成

確率

hidden(k)

Output(k)

input(k)

hidden(k-1)

� � = � � |� �− , � �− , � rnn

�=

k 番目 単語 生成確率

(8)

観測単語空間

潜在変数空間

�−�+�+

�−

�− �−�+�+

� � = � � |ℎ , � lw � ℎ |� , � lw

�=

Latent Words LM

[Deschacht+, 2011]

潜在語 く柔軟 構造を持ち、少 い学習デヸタ

様々 言い回 をカバヸ 、学習デヸタ 異 ドメ ン 頑健

潜在語 い N-gram 構造

語彙サ ズ 同数

潜在変数 ( 潜在語 ) モデル

潜在語 ユニグラム

潜在語 観測語

生成確率を持 、 、観測語

潜在語を一意 決定 い

(9)

RNNLM LWLM

音声認識 適用方法

• RNNLM N-gram 近似 [Deoras+, 2011]

ワンパスデコヸデ ング 利用

リスコ リング 利用

• LWLM :仮説 潜在語系列を推定

仮説 潜在変数系列 同時生成確率を求 (Vitebi 近似 )

[Masumura+, 2013]

• RNNLM :仮説 直接確率値を求

[Mikolov+, 2010]

• LWLM N-gram 近似 [Masumura+, 2013]

(10)

RNNLM LWLM 利点

RNN 構造 長距 関係を

柔軟 捉え 可能

潜在変数空間を持 、観測単語系列 裏 隠

関係性を明示的 捉え い い

RNNLM

潜在変数空間 基 くソフトクラス 構造 、

裏 隠 潜在変数 関係を考慮可能

潜在変数間 モデル N-gram 構造 あ 、

潜在変数間 長距 関係を考慮 い い

LWLM

(11)

ジェンダ

3. 改善 提案手法

1. 概要

2. RNNLM LWLM 概要 課題

4. CSJ 評価実験

5.

(12)

改善 デ

RNNLM LWLM 両者 点を 補う

両者 利点を結合 い ?

RNN 構造 長距 関係を

柔軟 捉え 可能

潜在変数空間 基 くソフトクラス 構造 、

裏 隠 潜在変数 関係を考慮可能

RNNLM

LWLM

利点

結合

(13)

Latent Words

Recurrent Neural Network LM 提案

観測単語空間

潜在変数空間

�−�+�+

�−

�−�−�+�+

�−�−�+

�− 潜在語 RNN 構造

一 前 潜在語 、

一 前 中間層 出力

潜在語 生成確率 決

潜在語 ユニグラム

潜在語 観測語

生成確率を持 、 、観測語

潜在語を一意 決定 い

� � = � � |ℎ , � lrn � ℎ |� �− , ℎ �− , � lrn

�=

(14)

従来手法 関係

� � = � � |ℎ , � lrn � ℎ |� �− , ℎ �− , � lrn

�=

潜在変数空間 くソフトクラス構造 RNNLM

潜在変数空間 RNN 構造 モデル LWLM

LWLM

LWRNNLM

� � = � � |ℎ , � lw � ℎ |� , � lw

�=

RNNLM

� � = � � |� �− , � �− , � rnn

�=

(15)

LWRNNLM 実現

識別モデル (Neural Network) 生成モデル (Bayesian Modeling)

を組 合わ 構造を持 、

学習方法や音声認識 適用方法 工 必要

学習方法

音声認識 適用方法

潜在変数系列 推定

Recurrent Neural Network パラメヸタ推定

ワンパスデコヸデ ング う利用

リスコ リング う利用

(16)

LWRNNLM 学習方法

LWRNNLM を学習デヸタ 直接推論

困 あ 、 LWLM 学習時 パラメヸタを応用

最初 学習デヸタ

LWLM を学習

潜在変数系列

n-gram 構造を除去

潜在変数系列

RNN 構造を推定

(17)

LWRNNLM 音声認識 適用方法

ワンパスデコヸデ ング 利用

• LWRNNLM N-gram 近似

確率過程 大量 テキストデヸタをランダムサンプリング

生成 、生成デヸタ N-gram モデルを構築

リスコ リング 利用

• LWLM を用い 単語系列 潜在語系列 候補を推定

候補 中 LWRNNLM 潜在語系列を決定 、

同時生成確率を求

基本的 LWLM 同時併用 前提

• LWRNNLM Viterbi 近似

(18)

ジェンダ

3. 改善 提案手法

1. 概要

2. RNNLM LWLM 概要 課題

4. CSJ 評価実験

5.

(19)

実験概要

CSJ を用い 音声認識性能 評価

Out-Of-Domain 性能 同時 評価

学習デヸタ CSJ2672 講演 (700M words)

開発デヸタ (In-Domain) CSJ10 講演 (20K words)

テストデヸタ (In-Domain) CSJ10 講演 (20K words)

テストデヸタ (Out-Of-Domain) スメヸルタスク (20M words)

デコヸダ VoiceRex (WFST-based)

音響モデル DNN-HMM with 8 layers

実験条件

(20)

比較対象

MKN3g Modified Kneser-Ney 3-gram LM

RNN 500 ノヸドヷ 500 クラス RNNLM

RNN3g RNN3g 3-gram 近似

LW 潜在変数 モデル 3-gram LWLM

LW3g LW 3-gram 近似

LRN 500 ノヸドヷ 500 クラス RNN 構造 LWRNNLM

LRN3g LRN 3-gram 近似

評価 : ワンパスデコヸデ ング ( ○○ 3g) 比較

評価 : リスコ リングを含 比較

(21)

23

23.5

24

24.5

25

25.5

26

26.5

27

27.5

28

MKN3g RNN3g LW3g LRN3g RNN3g LW3 ALL3g

ワンパスデコヸデ ング 比較

In-Domain け 性能 ~

W E R (%)

LRN3g

単体 性能

LW3g

従来法 提案法 従来法 + 提案法

LRN3g

RNN3g LW3g

改善効果を与え

全 を組 合わ

MKN3g

1.5 ント程度改善

24.74

26.24

24.54 24.66

24.79

24.27

23.42

(22)

29

29.5

30

30.5

31

31.5

32

32.5

33

33.5

34

MKN3g RNN3g LW3g LRN3g RNN3g

+LRN3g

LW3

+LRN3g

ALL3g

ワンパスデコヸデ ング 比較

Out-Of-Domain 性能

W E R (%)

従来手法

高い性能

を実現

従来法 提案法 従来法 + 提案法

RNN3g LW3g

組 合わ

改善

MKN3g

3 ント程度改善

32.31

31.96

30.42

29.95

29.78 29.68

29.32

(23)

22

22.5

23

23.5

24

24.5

25

25.5

26

MKN3g ALL3g ALL3g

+RNN

ALL3g

+LW

ALL3g

+LW

+LRN

ALL3g

+RNN

+LW

28

29

30

31

32

33

34

MKN3g ALL3g ALL3g

+RNN

ALL3g

+LW

ALL3g

+LW

+LRN

ALL3g

+RNN

+LW

リスコ リングを含 比較

In-Domain Out-Of-Domain

リスコ リング

ワンパス ワンパス リスコ リング

W E R (%)

24.79

23.42

23.20 23.24

23.02

32.31

29.32

29.05

28.86

28.60

LRN 改善効果、

潜在変数系列 同時確率

を利用 LW+LRN

Out-Of-Domain 頑健

N-gram 近似

得 い改善効果

を得

29.02

23.34

(24)

ジェンダ

3. 改善 提案手法

1. 概要

2. RNNLM LWLM 概要 課題

4. CSJ 評価実験

5.

(25)

Recurrent Neural Network LM

Latent Words LM 利点を組 合わ

Latent Words Recurrent Neural Network LM を提案

• モデル構造ヷ学習方法ヷ音声認識 適用方法を提案

• LWRNNLM 単体 性能 高く

RNNLM LWLM 合わ

N-gram 近似、 Viterbi 近似 両者 改善効果を得

• Out-Of-Domain 、特 高い改善効果を得

実験結果

概要

(26)

ジェンダ

3. 改善 提案手法

4. Penn Treenbank コヸパス 評価実験

1. 概要

2. RNNLM LWLM 概要 課題

5. CSJ 評価実験

6.

(27)

実験概要

多く ベンチマヸクテスト 利用 い

Penn Treebank コヸパスを用い 基本性能を評価

学習デヸタ Section 0-20 (930K words)

開発デヸタ Section 21-22 (74K words)

テストデヸタ Section 23-24 (82K words)

各デヸタ 語彙数 10K 統一 、未知語

パヸプレキシテ 評価

実験条件

(28)

比較対象

MKN5g Modified Kneser-Ney 5-gram LM

RNN 200 ノヸド RNNLM

RNN5g RNN5g 5-gram 近似

LW 潜在変数 モデル 5-gram LWLM

LW5g LW 5-gram 近似

LRN 200 ノヸド RNN 構造 LWRNNLM

LRN5g LRN 5-gram 近似

評価 : N-gram 構造 ( ○○ 5g) 範囲 比較

評価 : 全体 比較

(29)

N-gram 構造 ( ○○ 5g) 範囲 比較

110

115

120

125

130

135

140

145

150

155

160

MKN5g RNN5g LW5g LRN5g RNN5g LW5g ALL5g

P e rp le x it y

LRN5g

単体 性能

あ 高く い

従来法 提案法 従来法 + 提案法

LRN5g

RNN5g LW5g

改善効果を与え

N-gram 構造

範囲

通常 MKN5g

大 く改善

141.2

148.3

134.3

144.2

138.5

132.5

120.5

(30)

全体 比較

P e rp le x it y

300

350

400

450

500

550

600

650

700

LW LRN LW

+LRN

90

100

110

120

130

140

150

160

MKN5g ALL5g RNN ALL5g

+RNN

ALL5g

+LW

+LRN

ALL5g

+RNN

+LW

+LRN

Viterbi 近似

141.2

120.5

112.5

101.2

112.7

97.7

○○ 5g

LW LRN

組 合わ

改善効果 RNN 強力

ALL5g+ 以外

RNN LW LRN

○○ 5g

特徴を持ち、

改善効果 あ

参照

関連したドキュメント

The connection weights of the trained multilayer neural network are investigated in order to analyze feature extracted by the neural network in the learning process. Magnitude of

[r]

In the present paper, the methods of independent component analysis ICA and principal component analysis PCA are integrated into BP neural network for forecasting financial time

In the previous discussions, we have found necessary and sufficient conditions for the existence of traveling waves with arbitrarily given least spatial periods and least temporal

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察

Since the LM2596 is a switch mode power supply regulator, its output voltage, if left unfiltered, will contain a sawtooth ripple voltage at the switching frequency.. The output

In order to minimize voltage transients and to supply the switching currents needed by the regulator, a suitable input bypass capacitor must be present (C IN in Figure 1).. 8

本稿 は昭和56年度文部省科学研究費 ・奨励