1507【音声研究会】pdf 最近の更新履歴 Ryo Masumura: Web

(1)

TANDEM-MLP ^特徴量 ^言語 ^化

基く音声言語識別検討

NTT ^ン ^ェン ^研究所

増村亮 _, 浅見一 _, 政瀧浩和 _, 阪内澄宇

(2)

1 研究背景

多言語音声プョン音声言語識別必須あ、

高度化求

日本語

音声認識

日本語

自然言語処理

○○語

音声認識

○○語

自然言語処理

音声言語

識別

Bonjour

フン語識別し、フン語

音声認識自然言語処理実施したい

(3)

音声言語識別技術

Deep Learning ^基 ^{く音声言語識別} ^近 ^提案 ^、

枠組比較し高い性能実現

 Deep Neural Network (DNN) ^利用

[Lopez-Moreno+ , ICASSP 14.]

 Long Short Term Memory Recurrent Neural Network

(LSTM-RNN) ^利用 [Gonzalez-Dominguez+, INTERSPEECH 14.]

Deep Learning ^基 ^{く音声言語識別手法}

代表的音声言語識別手法

 ^{音素認識器×言語} (PRLM, PPRLM)[Zismann+, 96.]

 GMM-UBM [Wong+, 02.], i-vector [Dehak, 11.]

(4)

3 本発表概要

Deep Learning ^基 ^{く従来手法} ^注目し、

そ拡張図高精度化検討

従来手法

提案手法

 ^識別 ^し

直接的音声言語識別利用

 ^従来手法 ^{特徴量抽出器}

し間接的利用し、

音声言語識別自体別途化

特徴量

事後確率

DNN

or

LSTM

(5)

ェン

3. ^改善 ^た ^提案手法

4. ^評価実験

1. ^概要

2. ^従来手法 ^事前実験 ^誤 ^分析 ^課題

5.

(6)

5 従来手法

特徴量

事後確率

DNN

or

LSTM

0 0.2 0.4 0.6

日英仏独韓

音声可変長あ考慮し、

短時間音声フ単識別問題化

= arg max

∈� log � |�, , �

言語識別方法

日英仏独韓日英仏独韓日英仏独韓 _日_英_仏_独_韓

k ^番目

事後確率

[Lopez-Moreno+ , ICASSP 14.]

[Gonzalez-Dominguez+, INTERSPEECH 14.]

各フ対数事後確率

総和値識別

※ 識別早期決定実施可能

(7)

短時間音声フ単 _MLP 化

• DNN ^前後 ^特徴量 ^結合し ^入力

• LSTM ^対象フ ^入力

※ 前中間層出力入力

入力特徴量

短時間音声フ単識別うくう学習

出力層

• ^ソフ ^層

※学習時音声全体対し、

^対象言語 ^正解

• DNN ^通常 ^隠 ^層

• LSTM ^セ

中間層

(8)

7 事前実験

従来手法追試び追加実験 ₍ 多層 LSTM BLSTM) ^行い、

従来手法課題明

実験

• ^{多言語音声} Globalphone 12 ^言語識別

• ^各音声 ⁵ ^秒～ ¹⁰ ^秒程度

• ^学習 ^、開発 ^、 ^分割 ^話者オ ^プン

• DNN: ⁵ ^層、 ¹⁰²⁴ ^ノ ^、結合フ ⁽ ^前後 5 10 15 20)

• LSTM: ^セ ⁵¹² ^{次元、中間層数} ⁽¹ ^層 ³ ^層 ⁾

• BLSTM: ^セ ⁵¹² ^{次元、中間層数} ⁽¹ ^層 ³ ^層 ⁾

※ 特徴量 _MFCC38 次元 (Frame size: 20ms, Frame shift: 10ms)

比較 _MLP

(9)

各 _MLP 短時間フ単識別性能

0

10

20

30

40

50

60 DNN _∓5

(5 layer)

DNN _∓10

(5 layer)

DNN _∓15

(5 layer)

DNN _∓20

(5 layer)

LSTM

(1 layer)

LSTM

(3 layer)

BLSTM

(1 layer)

BLSTM

(3 layer)

識

別

誤

率

(%)

短時間音声フ単い、高い識別性能実現可能

46.29

40.76 37.79 _35.31

25.27

22.36

10.90

7.14 各フ識別時

音声全体情報利用

た高性能

(10)

9

0

5

10

15

20 PRLM (En) PRLM (Ja) PPRLM

(En+Ja)

DNN LSTM DNN

&LSTM

BLSTM

識

別

誤

率

(%)

代表的 _PPRLM 比較し、従来手法高い性能実現

各手法音声言語識別性能 ₍ 音声全体 ₎

16.86

11.07

6.70 3.12 _2.55

1.58

2.12 従来手法最高値

DNN LSTM ^両者

事後確率考慮し識別

※ 早期決定可能

※参考値

型動作

(11)

0

5

10

15

20 1s 2s 3s All

早期決定時識別性能

最初 ₃ 秒程度高精度識別可能

識

別

誤

率

(%)

DNN

LSTM

DNN&LSTM

10.73

16.54

11.67

5.70

7.11

5.19 4.19 ^5.22 _4.00

3.12 2.55 _2.17

※ _BLSTM

早期決定不可

最初 _2-3 秒程度、

音声全体使た場合

大差い性能

(12)

11 従来手法誤分析

従来手法一部言語性能く、

似た言語誤しう場合多い

DNN&LSTM ^結果 ^い ^言語 ^性能

識別性能

0.7 0.8 0.9 1

French

German

Korean

Mandarin

Portuguese

Russian

Shanghai

Spanish

Swedish

Thai

Turkish

Vietnamese

ン語誤た音声ほ

ガ語識別いた

上海語誤た音声ほ

中国語識別いた

(13)

0

0.2

0.4

0.6

0.8

1 正解言語事後確率均的高い、

似た言語事後確率同様高い識別誤発生

従来手法誤分析

上海語中国語間えた音声 _DNN 事後確率系列

上海語い

事後確率

中国語い

事後確率

上海語確率高い

部分多くあ、対数

事後確率総和基準

中国語識別しう

(14)

13 改善た？

似た言語事後確率高い

識別誤起問題

う回避？

(15)

ェン

3. ^改善 ^た ^提案手法

4. ^評価実験

1. ^概要

2. ^従来手法 ^事前実験 ^誤 ^分析 ^課題

5.

(16)

15 改善た

フ単 _DNN や _LSTM 特徴量抽出器捉え、

事後確率系列変動捉え識別行えい？

0

1

0

1 フン語音声 ^語 ^音声

見、

い分い

事後確率系列事後確率系列

事後確率系列変動、

誤ン含、

言語ンあ

従来手法出力誤得含化た、

従来手法誤い改善期待

(17)

事後確率系列変動基識別いう、

音素系列変動化識別行う _PRLM 同様

^フ ^ン ^語

音素 _LM: _�

語

音素 _LM: _�

語

音素 _LM: _�

^音素系列 : _�

フ単

DNN LSTM ^対応

音素認識器

0

0.2

0.4

0.6

0.8

1 事後確率系列対応

= arg max

∈� ^{� �|�}

事後確率系列離散化し扱え、

PRLM ^同様 ^枠組 ^言語識別 ^実現可能

(18)

17 提案手法

従来手法枠組出力事後確率系列離散化し、

離散系列言語言語化

0

1 ^{離散系列化}

^フ ^ン ^語

LM: _�

語

LM: _�

語

LM: _�

離散系列 _: _� = arg max

∈� ^{� �|�}

事後確率系列

従来手法部分

K-means ^ン

単純空間分割し、

ン化

(19)

提案手法活た工

DNN LSTM ^両者 ^事後確率 ^利用

- ^両者 ^事後確率 ^結合 ^系列 ^特徴量 ^、

^両者 ^{事後確率系列} ^変動 ^同時 ^{考慮した識別} ^期待

RNN ^言語 ^利用

- ^離散系列 ^長距離 ^わた ^関係 ^精緻 ^捉え ^期待

(20)

19 ェン

3. ^改善 ^た ^提案手法

4. ^評価実験

1. ^概要

2. ^従来手法 ^事前実験 ^誤 ^分析 ^課題

5.

(21)

評価実験

• DNN: ⁵ ^層、 ¹⁰²⁴ ^ノ ^、結合フ ^数前後 ¹⁰

• LSTM: ³ ^層、 ^セ ⁵¹² ^次元

• BLSTM: ³ ^層、 ^セ ⁵¹² ^次元

• HPYLM: ^3-gram ^階層 ^Pitman-yor ^{言語モデル}

• RNNLM: ^{ノード数を} ¹⁰⁰ ^とした ^RNN ^{言語モデル}

従来手法用い _MLP

事後確率系列化た言語

従来手法用いフ単 _MLP

直接提案手法特徴量抽出器し利用形実験

※ _K-means 数、 32, 64, 128, 256 ^{検討し開発} ^最適化

(22)

21

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5 DNN LSTM BLSTM DNN

+HPYLM

LSTM

+HPYLM

DNN

+RNNLM

LSTM

+RNNLM

提案法

従来法

3.12

2.55 1.58 _1.51

1.22 _1.07 _1.14

提案手法有効性評価

言語

n-gram

言語

RNN

提案法性能改善実現言語 _RNN 有用

識

別

誤

率

(%)

(23)

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5 DNN LSTM DNN&LSTM DNN

+RNNLM

LSTM

+RNNLM

DNN&LSTM

+RNNLM

1.07 ^1.14

0.50 提案法

3.12

2.55

2.17 従来法

DNN LSTM ^両者 ^併用時 ^評価

結合事後確率

扱う

個々事後確率

扱う

提案法枠組 _{DNN LSTM} 併用最高性能成

識

別

誤

率

(%)

(24)

23 早期決定時評価

早期決定行う場合提案手法性能改善実現

0

2

4

6

8

10

12

14 1s 2s 3s All

識

別

誤

率

(%)

従来手法 (DNN&LSTM)

提案手法 (DNN&LSTM+RNNLM)

2.17

0.50

1.51

4.00

5.19

2.99

8.94

11.67

(25)

考察

従来手法識別誤起やい言語い、

提案法大く性能改善

0.7 0.8 0.9 1

French

German

Korean

Mandarin

Portuguese

Russian

Shanghai

Spanish

Swedish

Thai

Turkish

Vietnamese

ン語： 84%->96%

上海語： 92%->99%

従来手法性能高い言語

いい

従来手法 (DNN&LSTM)

提案手法 (DNN&LSTM+RNNLM)

期待通、従来手法誤

多い言語い性能改善

(26)

25 ェン

3. ^改善 ^た ^提案手法

4. ^評価実験

1. ^概要

2. ^従来手法 ^事前実験 ^誤 ^分析 ^課題

5.

(27)

 ^従来手法 ^{特徴量抽出器} ^し ^間接的 ^利用し、

音声言語識別自体別途化

 ^従来手法 ^識別誤 ^起 ^や ^い言語 ^い ^性能改善

フ単 _MLP 事後確率系列言語化

基く音声言語識別手法提案

今後予定

MLP ^学習時 ^{対象言語数} ^増や ( ^{特徴抽出器} ^し

MLP ^そ ⁾ ^{、対象言語数} ^増や ^場合 ^評価

(28)

27 ェン

3. ^改善 ^た ^提案手法

4. ^評価実験

1. ^概要

2. ^従来手法 ^事前実験 ^誤 ^分析

5.

1507【音声研究会】pdf 最近の更新履歴 Ryo Masumura: Web

TANDEM-MLP 特徴量 言語 化

基 く音声言語識別 検討

NTT ン ェン 研究所

増村 亮 , 浅見 一 , 政瀧 浩和 , 阪内 澄宇

1

研究背景

多言語音声 プ ョン 音声言語識別 必須 あ 、

高度化 求

日本語

音声認識

日本語

自然言語処理

○○語

音声認識

○○語

自然言語処理

音声言語

識別

Bonjour

フ ン 語 識別し、フ ン 語

音声認識 自然言語処理 実施したい

音声言語識別技術

Deep Learning 基 く音声言語識別 近 提案 、

枠組 比較し 高い性能 実現

 Deep Neural Network (DNN) 利用

[Lopez-Moreno+ , ICASSP 14.]

 Long Short Term Memory Recurrent Neural Network

(LSTM-RNN) 利用 [Gonzalez-Dominguez+, INTERSPEECH 14.]

Deep Learning 基 く音声言語識別手法

代表的 音声言語識別手法

 音素認識器×言語 (PRLM, PPRLM)[Zismann+, 96.]

 GMM-UBM [Wong+, 02.], i-vector [Dehak, 11.]

3

本発表 概要

Deep Learning 基 く従来手法 注目し、

そ 拡張 図 高精度化 検討

従来手法

提案手法

 識別 し

直接的 音声言語識別 利用

 従来手法 特徴量抽出器

し 間接的 利用し、

音声言語識別自体 別途 化

特徴量

事後確率

DNN

or

LSTM

ェン

3. 改善 た 提案手法

4. 評価実験

1. 概要

2. 従来手法 事前実験 誤 分析 課題

5.

5

従来手法

特徴量

事後確率

DNN

or

LSTM

音声 可変長 あ 考慮し 、

短時間音声フ 単 識別問題 化

= arg max

∈� log � |�, , �

言語識別方法

k 番目

事後確率

[Lopez-Moreno+ , ICASSP 14.]

[Gonzalez-Dominguez+, INTERSPEECH 14.]

各フ 対数事後確率

総和 値 識別

※ 識別 早期決定 実施可能

短時間音声フ 単 MLP 化

• DNN 前後 特徴量 結合し 入力

• LSTM 対象フ 入力

※ 前 中間層 出力 入力

入力特徴量

短時間音声フ 単 識別 う く う 学習

TANDEM-MLP ^特徴量 ^言語 ^化

基く音声言語識別検討

NTT ^ン ^ェン ^研究所

増村亮 _, 浅見一 _, 政瀧浩和 _, 阪内澄宇

多言語音声プョン音声言語識別必須あ、

高度化求

フン語識別し、フン語

音声認識自然言語処理実施したい

Deep Learning ^基 ^{く音声言語識別} ^近 ^提案 ^、

枠組比較し高い性能実現

 Deep Neural Network (DNN) ^利用

(LSTM-RNN) ^利用 [Gonzalez-Dominguez+, INTERSPEECH 14.]

Deep Learning ^基 ^{く音声言語識別手法}

代表的音声言語識別手法

 ^{音素認識器×言語} (PRLM, PPRLM)[Zismann+, 96.]

本発表概要

Deep Learning ^基 ^{く従来手法} ^注目し、

そ拡張図高精度化検討

 ^識別 ^し

直接的音声言語識別利用

 ^従来手法 ^{特徴量抽出器}

し間接的利用し、

音声言語識別自体別途化

3. ^改善 ^た ^提案手法

4. ^評価実験

1. ^概要

2. ^従来手法 ^事前実験 ^誤 ^分析 ^課題

音声可変長あ考慮し、

短時間音声フ単識別問題化

k ^番目

各フ対数事後確率

総和値識別

※ 識別早期決定実施可能

短時間音声フ単 _MLP 化

• DNN ^前後 ^特徴量 ^結合し ^入力

• LSTM ^対象フ ^入力

※ 前中間層出力入力

短時間音声フ単識別うくう学習

• ^ソフ ^層

※学習時音声全体対し、

^対象言語 ^正解

• DNN ^通常 ^隠 ^層

• LSTM ^セ

従来手法追試び追加実験 ₍ 多層 LSTM BLSTM) ^行い、

従来手法課題明

• ^{多言語音声} Globalphone 12 ^言語識別

• ^各音声 ⁵ ^秒～ ¹⁰ ^秒程度

• ^学習 ^、開発 ^、 ^分割 ^話者オ ^プン

• DNN: ⁵ ^層、 ¹⁰²⁴ ^ノ ^、結合フ ⁽ ^前後 5 10 15 20)

• LSTM: ^セ ⁵¹² ^{次元、中間層数} ⁽¹ ^層 ³ ^層 ⁾

• BLSTM: ^セ ⁵¹² ^{次元、中間層数} ⁽¹ ^層 ³ ^層 ⁾

※ 特徴量 _MFCC38 次元 (Frame size: 20ms, Frame shift: 10ms)

比較 _MLP

各 _MLP 短時間フ単識別性能

DNN _∓5

DNN _∓10

DNN _∓15

DNN _∓20

短時間音声フ単い、高い識別性能実現可能

37.79 _35.31

各フ識別時

音声全体情報利用

た高性能