TANDEM-MLP 特徴量 言語 化
基 く音声言語識別 検討
NTT ン ェン 研究所
増村 亮 , 浅見 一 , 政瀧 浩和 , 阪内 澄宇
1
Copyright©2015 NTT corp. All Rights Reserved.
研究背景
多言語音声 プ ョン 音声言語識別 必須 あ 、
高度化 求
日本語
音声認識
日本語
自然言語処理
○○語
音声認識
○○語
自然言語処理
音声言語
識別
Bonjour
フ ン 語 識別し、フ ン 語
音声認識 自然言語処理 実施したい
音声言語識別技術
Deep Learning 基 く音声言語識別 近 提案 、
枠組 比較し 高い性能 実現
Deep Neural Network (DNN) 利用
[Lopez-Moreno+ , ICASSP 14.]
Long Short Term Memory Recurrent Neural Network
(LSTM-RNN) 利用 [Gonzalez-Dominguez+, INTERSPEECH 14.]
Deep Learning 基 く音声言語識別手法
代表的 音声言語識別手法
音素認識器×言語 (PRLM, PPRLM)[Zismann+, 96.]
GMM-UBM [Wong+, 02.], i-vector [Dehak, 11.]
3
Copyright©2015 NTT corp. All Rights Reserved.
本発表 概要
Deep Learning 基 く従来手法 注目し、
そ 拡張 図 高精度化 検討
従来手法
提案手法
識別 し
直接的 音声言語識別 利用
従来手法 特徴量抽出器
し 間接的 利用し、
音声言語識別自体 別途 化
特徴量
事後確率
DNN
or
LSTM
ェン
3. 改善 た 提案手法
4. 評価実験
1. 概要
2. 従来手法 事前実験 誤 分析 課題
5.
5
Copyright©2015 NTT corp. All Rights Reserved.
従来手法
特徴量
事後確率
DNN
or
LSTM
0 0.2 0.4 0.6
日 英 仏 独 韓
音声 可変長 あ 考慮し 、
短時間音声フ 単 識別問題 化
= arg max
∈� log � |�, , �
言語識別方法
日 英 仏 独 韓 日英仏独韓 日英仏独韓 日 英 仏 独 韓
k 番目
事後確率
[Lopez-Moreno+ , ICASSP 14.]
[Gonzalez-Dominguez+, INTERSPEECH 14.]
各フ 対数事後確率
総和 値 識別
※ 識別 早期決定 実施可能
短時間音声フ 単 MLP 化
• DNN 前後 特徴量 結合し 入力
• LSTM 対象フ 入力
※ 前 中間層 出力 入力
入力特徴量
短時間音声フ 単 識別 う く う 学習
出力層
• ソフ 層
※学習時 音声全体 対し、
対象言語 正解
• DNN 通常 隠 層
• LSTM セ
中間層
7
Copyright©2015 NTT corp. All Rights Reserved.
事前実験
従来手法 追試 び追加実験 ( 多層 LSTM BLSTM) 行い、
従来手法 課題 明
実験
• 多言語音声 Globalphone 12 言語識別
• 各音声 5 秒~ 10 秒程度
• 学習 、開発 、 分割 話者オ プン
• DNN: 5 層、 1024 ノ 、結合フ ( 前後 5 10 15 20)
• LSTM: セ 512 次元、中間層数 (1 層 3 層 )
• BLSTM: セ 512 次元、中間層数 (1 層 3 層 )
※ 特徴量 MFCC38 次元 (Frame size: 20ms, Frame shift: 10ms)
比較 MLP
各 MLP 短時間フ 単 識別性能
0
10
20
30
40
50
60
DNN ∓5
(5 layer)
DNN ∓10
(5 layer)
DNN ∓15
(5 layer)
DNN ∓20
(5 layer)
LSTM
(1 layer)
LSTM
(3 layer)
BLSTM
(1 layer)
BLSTM
(3 layer)
識
別
誤
率
(%)
短時間音声フ 単 い 、高い識別性能 実現可能
46.29
40.76
37.79 35.31
25.27
22.36
10.90
7.14
各フ 識別時
音声全体 情報 利用
た 高性能
9
Copyright©2015 NTT corp. All Rights Reserved.
0
5
10
15
20
PRLM (En) PRLM (Ja) PPRLM
(En+Ja)
DNN LSTM DNN
&LSTM
BLSTM
識
別
誤
率
(%)
代表的 PPRLM 比較し 、従来手法 高い性能 実現
各手法 音声言語識別性能 ( 音声全体 )
16.86
11.07
6.70
3.12 2.55
1.58
2.12
従来手法 最高値
DNN LSTM 両者
事後確率 考慮し 識別
※ 早期決定 可能
※参考値
型 動作
0
5
10
15
20
1s 2s 3s All
早期決定時 識別性能
最初 3 秒程度 高精度 識別可能
識
別
誤
率
(%)
DNN
LSTM
DNN&LSTM
10.73
16.54
11.67
5.70
7.11
5.19
4.19 5.22 4.00
3.12 2.55 2.17
※ BLSTM
早期決定不可
最初 2-3 秒程度 、
音声全体 使 た場合
大差 い性能
11
Copyright©2015 NTT corp. All Rights Reserved.
従来手法 誤 分析
従来手法 一部 言語 性能 く、
似た言語 誤 し う場合 多い
DNN&LSTM 結果 い 言語 性能
識別性能
0.7 0.8 0.9 1
French
German
Korean
Mandarin
Portuguese
Russian
Shanghai
Spanish
Swedish
Thai
Turkish
Vietnamese
ン語 誤 た音声 ほ
ガ 語 識別 いた
上海語 誤 た音声 ほ
中国語 識別 いた
0
0.2
0.4
0.6
0.8
1
正解言語 事後確率 均的 高い 、
似た言語 事後確率 同様 高い 識別誤 発生
従来手法 誤 分析
上海語 中国語 間 えた音声 DNN 事後確率系列
上海語 い
事後確率
中国語 い
事後確率
上海語 確率 高い
部分 多くあ 、対数
事後確率 総和基準
中国語 識別 し う
13
Copyright©2015 NTT corp. All Rights Reserved.
改善 た ?
似た言語 事後確率 高い
識別誤 起 問題
う回避 ?
ェン
3. 改善 た 提案手法
4. 評価実験
1. 概要
2. 従来手法 事前実験 誤 分析 課題
5.
15
Copyright©2015 NTT corp. All Rights Reserved.
改善 た
フ 単 DNN や LSTM 特徴量抽出器 捉え 、
事後確率系列 変動 捉え 識別 行え い ?
0
1
0
1
フ ン 語 音声 語 音声
見 、
い 分 い
事後確率系列 事後確率系列
事後確率系列 変動 、
誤 ン 含 、
言語 ン あ
従来手法 出力 誤 得 含 化 た 、
従来手法 誤 い 改善 期待
関連 技術
事後確率系列 変動 基 識別 いう 、
音素系列 変動 化 識別 行う PRLM 同様
フ ン 語
音素 LM: �
語
音素 LM: �
語
音素 LM: �
音素系列 : �
フ 単
DNN LSTM 対応
音素認識器
0
0.2
0.4
0.6
0.8
1
事後確率系列 対応
= arg max
∈� � �|�
事後確率系列 離散化し 扱え 、
PRLM 同様 枠組 言語識別 実現可能
17
Copyright©2015 NTT corp. All Rights Reserved.
提案手法
従来手法 枠組 出力 事後確率系列 離散化し、
離散系列 言語 言語 化
0
1
離散系列化
フ ン 語
LM: �
語
LM: �
語
LM: �
離散系列 : � = arg max
∈� � �|�
事後確率系列
従来手法 部分
K-means ン
単純 空間 分割し、
ン 化
提案手法 活 た 工
DNN LSTM 両者 事後確率 利用
- 両者 事後確率 結合 系列 特徴量 、
両者 事後確率系列 変動 同時 考慮した識別 期待
RNN 言語 利用
- 離散系列 長距離 わた 関係 精緻 捉え 期待
19
Copyright©2015 NTT corp. All Rights Reserved.
ェン
3. 改善 た 提案手法
4. 評価実験
1. 概要
2. 従来手法 事前実験 誤 分析 課題
5.
評価実験
• DNN: 5 層、 1024 ノ 、結合フ 数前後 10
• LSTM: 3 層、 セ 512 次元
• BLSTM: 3 層、 セ 512 次元
• HPYLM: 3-gram 階層 Pitman-yor 言語モデル
• RNNLM: ノード数を 100 とした RNN 言語モデル
従来手法 用い MLP
事後確率系列 化 た 言語
従来手法 用い フ 単 MLP
直接提案手法 特徴量抽出器 し 利用 形 実験
※ K-means 数 、 32, 64, 128, 256 検討し開発 最適化
21
Copyright©2015 NTT corp. All Rights Reserved.
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
DNN LSTM BLSTM DNN
+HPYLM
LSTM
+HPYLM
DNN
+RNNLM
LSTM
+RNNLM
提案法
従来法
3.12
2.55
1.58 1.51
1.22 1.07 1.14
提案手法 有効性 評価
言語
n-gram
言語
RNN
提案法 性能改善 実現 言語 RNN 有用
識
別
誤
率
(%)
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
DNN LSTM DNN&LSTM DNN
+RNNLM
LSTM
+RNNLM
DNN&LSTM
+RNNLM
1.07 1.14
0.50
提案法
3.12
2.55
2.17
従来法
DNN LSTM 両者 併用時 評価
結合事後確率
扱う
個々 事後確率
扱う
提案法 枠組 DNN LSTM 併用 最高性能 成
識
別
誤
率
(%)
23
Copyright©2015 NTT corp. All Rights Reserved.
早期決定時 評価
早期決定 行う場合 提案手法 性能改善 実現
0
2
4
6
8
10
12
14
1s 2s 3s All
識
別
誤
率
(%)
従来手法 (DNN&LSTM)
提案手法 (DNN&LSTM+RNNLM)
2.17
0.50
1.51
4.00
5.19
2.99
8.94
11.67
考察
従来手法 識別誤 起 や い言語 い 、
提案法 大 く性能改善
0.7 0.8 0.9 1
French
German
Korean
Mandarin
Portuguese
Russian
Shanghai
Spanish
Swedish
Thai
Turkish
Vietnamese
ン語: 84%->96%
上海語: 92%->99%
従来手法 性能 高い言語
い い
従来手法 (DNN&LSTM)
提案手法 (DNN&LSTM+RNNLM)
期待通 、従来手法 誤
多い言語 い 性能改善
25
Copyright©2015 NTT corp. All Rights Reserved.
ェン
3. 改善 た 提案手法
4. 評価実験
1. 概要
2. 従来手法 事前実験 誤 分析 課題
5.
従来手法 特徴量抽出器 し 間接的 利用し、
音声言語識別自体 別途 化
従来手法 識別誤 起 や い言語 い 性能改善
フ 単 MLP 事後確率系列 言語 化
基 く音声言語識別手法 提案
今後 予定
MLP 学習時 対象言語数 増や ( 特徴抽出器 し
MLP そ ) 、対象言語数 増や 場合 評価
27
Copyright©2015 NTT corp. All Rights Reserved.