• 検索結果がありません。

1507【音声研究会】pdf 最近の更新履歴 Ryo Masumura: Web

N/A
N/A
Protected

Academic year: 2018

シェア "1507【音声研究会】pdf 最近の更新履歴 Ryo Masumura: Web"

Copied!
28
0
0

読み込み中.... (全文を見る)

全文

(1)

TANDEM-MLP 特徴量 言語

基 く音声言語識別 検討

NTT ェン 研究所

増村 亮 , 浅見 一 , 政瀧 浩和 , 阪内 澄宇

(2)

1

Copyright©2015 NTT corp. All Rights Reserved.

研究背景

多言語音声 プ ョン 音声言語識別 必須 あ 、

高度化 求

日本語

音声認識

日本語

自然言語処理

○○語

音声認識

○○語

自然言語処理

音声言語

識別

Bonjour

フ ン 語 識別し、フ ン 語

音声認識 自然言語処理 実施したい

(3)

音声言語識別技術

Deep Learning く音声言語識別 提案

枠組 比較し 高い性能 実現

 Deep Neural Network (DNN) 利用

[Lopez-Moreno+ , ICASSP 14.]

 Long Short Term Memory Recurrent Neural Network

(LSTM-RNN) 利用 [Gonzalez-Dominguez+, INTERSPEECH 14.]

Deep Learning く音声言語識別手法

代表的 音声言語識別手法

音素認識器×言語 (PRLM, PPRLM)[Zismann+, 96.]

 GMM-UBM [Wong+, 02.], i-vector [Dehak, 11.]

(4)

3

Copyright©2015 NTT corp. All Rights Reserved.

本発表 概要

Deep Learning く従来手法 注目し、

そ 拡張 図 高精度化 検討

従来手法

提案手法

識別

直接的 音声言語識別 利用

従来手法 特徴量抽出器

し 間接的 利用し、

音声言語識別自体 別途 化

特徴量

事後確率

DNN

or

LSTM

(5)

ェン

3. 改善 提案手法

4. 評価実験

1. 概要

2. 従来手法 事前実験 分析 課題

5.

(6)

5

Copyright©2015 NTT corp. All Rights Reserved.

従来手法

特徴量

事後確率

DNN

or

LSTM

0 0.2 0.4 0.6

日 英 仏 独 韓

音声 可変長 あ 考慮し 、

短時間音声フ 単 識別問題 化

= arg max

∈� log � |�, , �

言語識別方法

日 英 仏 独 韓 日英仏独韓 日英仏独韓

k 番目

事後確率

[Lopez-Moreno+ , ICASSP 14.]

[Gonzalez-Dominguez+, INTERSPEECH 14.]

各フ 対数事後確率

総和 値 識別

※ 識別 早期決定 実施可能

(7)

短時間音声フ 単 MLP

• DNN 前後 特徴量 結合し 入力

• LSTM 対象フ 入力

※ 前 中間層 出力 入力

入力特徴量

短時間音声フ 単 識別 う く う 学習

出力層

ソフ

※学習時 音声全体 対し、

対象言語 正解

• DNN 通常

• LSTM

中間層

(8)

7

Copyright©2015 NTT corp. All Rights Reserved.

事前実験

従来手法 追試 び追加実験 ( 多層 LSTM BLSTM) 行い、

従来手法 課題 明

実験

多言語音声 Globalphone 12 言語識別

各音声 5 秒~ 10 秒程度

学習 、開発 分割 話者オ プン

• DNN: 5 層、 1024 、結合フ ( 前後 5 10 15 20)

• LSTM: 512 次元、中間層数 (1 3 )

• BLSTM: 512 次元、中間層数 (1 3 )

※ 特徴量 MFCC38 次元 (Frame size: 20ms, Frame shift: 10ms)

比較 MLP

(9)

MLP 短時間フ 単 識別性能

0

10

20

30

40

50

60

DNN ∓5

(5 layer)

DNN ∓10

(5 layer)

DNN ∓15

(5 layer)

DNN ∓20

(5 layer)

LSTM

(1 layer)

LSTM

(3 layer)

BLSTM

(1 layer)

BLSTM

(3 layer)

(%)

短時間音声フ 単 い 、高い識別性能 実現可能

46.29

40.76

37.79 35.31

25.27

22.36

10.90

7.14

各フ 識別時

音声全体 情報 利用

た 高性能

(10)

9

Copyright©2015 NTT corp. All Rights Reserved.

0

5

10

15

20

PRLM (En) PRLM (Ja) PPRLM

(En+Ja)

DNN LSTM DNN

&LSTM

BLSTM

(%)

代表的 PPRLM 比較し 、従来手法 高い性能 実現

各手法 音声言語識別性能 ( 音声全体 )

16.86

11.07

6.70

3.12 2.55

1.58

2.12

従来手法 最高値

DNN LSTM 両者

事後確率 考慮し 識別

※ 早期決定 可能

※参考値

型 動作

(11)

0

5

10

15

20

1s 2s 3s All

早期決定時 識別性能

最初 3 秒程度 高精度 識別可能

(%)

DNN

LSTM

DNN&LSTM

10.73

16.54

11.67

5.70

7.11

5.19

4.19 5.22 4.00

3.12 2.55 2.17

BLSTM

早期決定不可

最初 2-3 秒程度 、

音声全体 使 た場合

大差 い性能

(12)

11

Copyright©2015 NTT corp. All Rights Reserved.

従来手法 誤 分析

従来手法 一部 言語 性能 く、

似た言語 誤 し う場合 多い

DNN&LSTM 結果 言語 性能

識別性能

0.7 0.8 0.9 1

French

German

Korean

Mandarin

Portuguese

Russian

Shanghai

Spanish

Swedish

Thai

Turkish

Vietnamese

ン語 誤 た音声 ほ

ガ 語 識別 いた

上海語 誤 た音声 ほ

中国語 識別 いた

(13)

0

0.2

0.4

0.6

0.8

1

正解言語 事後確率 均的 高い 、

似た言語 事後確率 同様 高い 識別誤 発生

従来手法 誤 分析

上海語 中国語 間 えた音声 DNN 事後確率系列

上海語 い

事後確率

中国語 い

事後確率

上海語 確率 高い

部分 多くあ 、対数

事後確率 総和基準

中国語 識別 し う

(14)

13

Copyright©2015 NTT corp. All Rights Reserved.

改善 た ?

似た言語 事後確率 高い

識別誤 起 問題

う回避 ?

(15)

ェン

3. 改善 提案手法

4. 評価実験

1. 概要

2. 従来手法 事前実験 分析 課題

5.

(16)

15

Copyright©2015 NTT corp. All Rights Reserved.

改善 た

フ 単 DNNLSTM 特徴量抽出器 捉え 、

事後確率系列 変動 捉え 識別 行え い ?

0

1

0

1

フ ン 語 音声 音声

見 、

い 分 い

事後確率系列 事後確率系列

事後確率系列 変動 、

誤 ン 含 、

言語 ン あ

従来手法 出力 誤 得 含 化 た 、

従来手法 誤 い 改善 期待

(17)

関連 技術

事後確率系列 変動 基 識別 いう 、

音素系列 変動 化 識別 行う PRLM 同様

音素 LM:

音素 LM:

音素 LM:

音素系列 :

フ 単

DNN LSTM 対応

音素認識器

0

0.2

0.4

0.6

0.8

1

事後確率系列 対応

= arg max

∈� � �|�

事後確率系列 離散化し 扱え 、

PRLM 同様 枠組 言語識別 実現可能

(18)

17

Copyright©2015 NTT corp. All Rights Reserved.

提案手法

従来手法 枠組 出力 事後確率系列 離散化し、

離散系列 言語 言語 化

0

1

離散系列化

LM:

LM:

LM:

離散系列 : = arg max

∈� � �|�

事後確率系列

従来手法 部分

K-means

単純 空間 分割し、

ン 化

(19)

提案手法 活 た 工

DNN LSTM 両者 事後確率 利用

- 両者 事後確率 結合 系列 特徴量

両者 事後確率系列 変動 同時 考慮した識別 期待

RNN 言語 利用

- 離散系列 長距離 わた 関係 精緻 捉え 期待

(20)

19

Copyright©2015 NTT corp. All Rights Reserved.

ェン

3. 改善 提案手法

4. 評価実験

1. 概要

2. 従来手法 事前実験 分析 課題

5.

(21)

評価実験

• DNN: 5 層、 1024 、結合フ 数前後 10

• LSTM: 3 層、 512 次元

• BLSTM: 3 層、 512 次元

• HPYLM: 3-gram 階層 Pitman-yor 言語モデル

• RNNLM: ノード数を 100 とした RNN 言語モデル

従来手法 用い MLP

事後確率系列 化 た 言語

従来手法 用い フ 単 MLP

直接提案手法 特徴量抽出器 し 利用 形 実験

K-means 数 、 32, 64, 128, 256 検討し開発 最適化

(22)

21

Copyright©2015 NTT corp. All Rights Reserved.

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

DNN LSTM BLSTM DNN

+HPYLM

LSTM

+HPYLM

DNN

+RNNLM

LSTM

+RNNLM

提案法

従来法

3.12

2.55

1.58 1.51

1.22 1.07 1.14

提案手法 有効性 評価

言語

n-gram

言語

RNN

提案法 性能改善 実現 言語 RNN 有用

(%)

(23)

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

DNN LSTM DNN&LSTM DNN

+RNNLM

LSTM

+RNNLM

DNN&LSTM

+RNNLM

1.07 1.14

0.50

提案法

3.12

2.55

2.17

従来法

DNN LSTM 両者 併用時 評価

結合事後確率

扱う

個々 事後確率

扱う

提案法 枠組 DNN LSTM 併用 最高性能 成

(%)

(24)

23

Copyright©2015 NTT corp. All Rights Reserved.

早期決定時 評価

早期決定 行う場合 提案手法 性能改善 実現

0

2

4

6

8

10

12

14

1s 2s 3s All

(%)

従来手法 (DNN&LSTM)

提案手法 (DNN&LSTM+RNNLM)

2.17

0.50

1.51

4.00

5.19

2.99

8.94

11.67

(25)

考察

従来手法 識別誤 起 や い言語 い 、

提案法 大 く性能改善

0.7 0.8 0.9 1

French

German

Korean

Mandarin

Portuguese

Russian

Shanghai

Spanish

Swedish

Thai

Turkish

Vietnamese

ン語: 84%->96%

上海語: 92%->99%

従来手法 性能 高い言語

い い

従来手法 (DNN&LSTM)

提案手法 (DNN&LSTM+RNNLM)

期待通 、従来手法 誤

多い言語 い 性能改善

(26)

25

Copyright©2015 NTT corp. All Rights Reserved.

ェン

3. 改善 提案手法

4. 評価実験

1. 概要

2. 従来手法 事前実験 分析 課題

5.

(27)

従来手法 特徴量抽出器 間接的 利用し、

音声言語識別自体 別途 化

従来手法 識別誤 い言語 性能改善

フ 単 MLP 事後確率系列 言語 化

基 く音声言語識別手法 提案

今後 予定

MLP 学習時 対象言語数 増や ( 特徴抽出器

MLP ) 、対象言語数 増や 場合 評価

(28)

27

Copyright©2015 NTT corp. All Rights Reserved.

ェン

3. 改善 提案手法

4. 評価実験

1. 概要

2. 従来手法 事前実験 分析

5.

参照

関連したドキュメント

©Tokyo Electric Power Company Holdings, Inc.. All

Copyright(C) 2020 JETRO, Nagashima Ohno & Tsunematsu All rights reserved... a)

©Tokyo Electric Power Company Holdings, Inc. All

©Tokyo Electric Power Company Holdings, Inc. All

China consid- ered that "the existing United Nations machinery is adequate to deal with the question of human rights, and there seems to be no urgent need for the

Copyright©2021 ITbook Holdings Co.,Ltd.. All

©Tokyo Electric Power Company Holdings, Inc. All

32.. ©Tokyo Electric Power Company Holdings, Inc. All Rights Reserved. 無断複製・転載禁止