1503【言語処理学会ポスター】pdf 最近の更新履歴 Ryo Masumura: Web

(1)

Copyright©2015 NTT corp. All Rights Reserved.

0 72 144 216 288 360 432

Vietnamese Turkish Thai Swedish Spanish Shanghai Russian Portuguese Mandarin Korean German French

日本電信電話株式会社 NTT ンェン研究所

○増村亮, Sheri Sever, 浅見太一, 政瀧浩和, 阪内澄宇

DNN _{事後確率系列の言語} _{化に基づく言語識別}

手法 ^スータ Equal Error Rate (%)

1s 3s _全体

Conventional: Parallel PR LM

(3-gram LM) ^- ^- ^6.70

Conventional: Deep NN

(5 hidden layers, 2048 nodes, レ20 frames) ^11.01 ^4.47 ^3.12

Conventional: Deep LSTM RNN

(3 hidden layers, 512 nodes) ^16.54 ^5.22 ^2.55

Conventional: Deep Bidirectional LSTM RNN

(3 hidden layers, 512 nodes) ^{早期確定不可} ^{早期確定不可} ^1.58

Proposed: DNN Posterior LM

(3-gram LM, 64 clusters) ^10.45 ^3.09 ^1.51

Proposed: DNN Posterior LM

(RNN LM, 64 clusters) ^10.35 ^2.33 ^1.07

音声言語識別 (Spoken Language Identification)の

高度化手法を提案し、State-of-the-Artの性能を達成

従来手法



音素認識結果系列言語モモ化

- Phoneme Recognition based LM [Zismann, 1996.]

(_例) 音声、無理やハンガー語音素認識器コー

提案手法



フーム単位言語識別行うDNN 事後確率系列離散化し、

Recurrent Neural Network _言語モ _{系列モ} _化

評価実験



Globalphone 用い 12 国語言語識別

- _{各発話 5s} 10s_程度

- 特徴量 MFCC38次元 (Frame size: 20ms, Frame shift: 10ms)



Equal Error Rate _評価

- _{早期確定(先頭} 1s、3s 確定)した場合評価



フーム単位言語識別行うニューネワー

- Deep Neural Network [Gonzalez-Dominguez+, ICASSP 2014.] - LSTM RNN [Gonzalez-Dominguez+, Interspeech 2014.]

提案法：事後確率系列の言語化に基づく言語識別

0 1

提案法

- DNN_{事後確率変動言語} _モ _化

0 1

0 50 100 150 200 250 300 350 400 450 500

あフンス語音声 DNN事後確率系列

あイ語音声 DNN事後確率系列

従来法

音素認識器利用し入力音声音素系列変換

- 複数言語音素認識器用い高精度化

各言語音素系列言語モしモ化し、尤度基準識別

 ^PRLM 基く言語識別

 Neural Network _{基く言語識別}

Phoneme Recognizer Speech

Input

Phoneme Sequence

PRLM based Language Identification

出力層各言語対す事後確率求う構築

フーム対数事後確率全フーム平均化した結果利用

Phoneme LM for _�₁_{… �}_�

��+1

��

��−1

��+1

��

��−1

��+1

��

��−1

Neural Network (LSTM) RNN Bidirectional (LSTM) RNN

Output layer

Output layer Output layer

Input layer

Input layer Input layer

従来手法課題

- PRLM _モ化しい音素系列識別有用情報十分持っいい

- Neural Networkベース手法フーム単位識別モあ、音声全体識別すた適しいい

着眼点

-フーム単位言語識別行うDNN 事後確率系列 _言語 _{変動様子異} _？

Frame DNN for LID Speech

Input

Index

Sequence Posterior LM for _�₁_{… �}_� Posterior

Sequence

Vector quantization

ポイン：事後確率系列言語モ扱うた

K-means _{スタン} _{利用しベ} _量子化事後確率系列記号系列変換

ポイン系列長距離関係捉えた

音声短時間フームベ変動長距離わたっ

捉えた、記号系列 RNN言語モモ化

前記号 1-of-N_表現

直前隠層出力

次入力た保持

記号予測確率分布 hidden(t)

Output(t) input(t)

hidden(t-1)

フーム数が※5ごご 5秒)

1503【言語処理学会 ポスター】pdf 最近の更新履歴 Ryo Masumura: Web

Copyright©2015 NTT corp. All Rights Reserved.

日本電信電話株式会社 NTT ン ェン 研究所

○増村 亮, Sheri Sever, 浅見 太一, 政瀧 浩和, 阪内 澄宇

DNN 事後確率系列の言語 化に基づく言語識別

手法 ス ータ Equal Error Rate (%)

1s 3s 全体

Conventional: Parallel PR LM

(3-gram LM) - - 6.70

Conventional: Deep NN

(5 hidden layers, 2048 nodes, レ20 frames) 11.01 4.47 3.12

Conventional: Deep LSTM RNN

(3 hidden layers, 512 nodes) 16.54 5.22 2.55

Conventional: Deep Bidirectional LSTM RNN

(3 hidden layers, 512 nodes) 早期確定不可 早期確定不可 1.58

Proposed: DNN Posterior LM

(3-gram LM, 64 clusters) 10.45 3.09 1.51

Proposed: DNN Posterior LM

(RNN LM, 64 clusters) 10.35 2.33 1.07

音声言語識別 (Spoken Language Identification)の

高度化手法を提案し、State-of-the-Artの性能を達成

音素認識結果 系列 言語モ モ 化

フ ーム単位 言語識別 行うDNN 事後確率系列 離散化し、

Recurrent Neural Network 言語モ 系列 モ 化

Globalphone 用い 12 国語 言語識別

Equal Error Rate 評価

フ ーム単位 言語識別 行うニュー ネ ワー

提案法：事後確率系列の言語 化に基づく言語識別

従来法

 PRLM 基 く言語識別

 Neural Network 基 く言語識別

1503【言語処理学会ポスター】pdf 最近の更新履歴 Ryo Masumura: Web

日本電信電話株式会社 NTT ンェン研究所

○増村亮, Sheri Sever, 浅見太一, 政瀧浩和, 阪内澄宇

DNN _{事後確率系列の言語} _{化に基づく言語識別}

手法 ^スータ Equal Error Rate (%)

1s 3s _全体

(3-gram LM) ^- ^- ^6.70

(5 hidden layers, 2048 nodes, レ20 frames) ^11.01 ^4.47 ^3.12

(3 hidden layers, 512 nodes) ^16.54 ^5.22 ^2.55

(3 hidden layers, 512 nodes) ^{早期確定不可} ^{早期確定不可} ^1.58

(3-gram LM, 64 clusters) ^10.45 ^3.09 ^1.51

(RNN LM, 64 clusters) ^10.35 ^2.33 ^1.07

音素認識結果系列言語モモ化

フーム単位言語識別行うDNN 事後確率系列離散化し、

Recurrent Neural Network _言語モ _{系列モ} _化

Globalphone 用い 12 国語言語識別

Equal Error Rate _評価

フーム単位言語識別行うニューネワー

提案法：事後確率系列の言語化に基づく言語識別

 ^PRLM 基く言語識別

 Neural Network _{基く言語識別}