Copyright©2015 NTT corp. All Rights Reserved.
0 72 144 216 288 360 432
Vietnamese Turkish Thai Swedish Spanish Shanghai Russian Portuguese Mandarin Korean German French
日本電信電話株式会社 NTT ン ェン 研究所
○増村 亮, Sheri Sever, 浅見 太一, 政瀧 浩和, 阪内 澄宇
DNN 事後確率系列の言語 化に基づく言語識別
手法 ス ータ Equal Error Rate (%)
1s 3s 全体
Conventional: Parallel PR LM
(3-gram LM) - - 6.70
Conventional: Deep NN
(5 hidden layers, 2048 nodes, レ20 frames) 11.01 4.47 3.12
Conventional: Deep LSTM RNN
(3 hidden layers, 512 nodes) 16.54 5.22 2.55
Conventional: Deep Bidirectional LSTM RNN
(3 hidden layers, 512 nodes) 早期確定不可 早期確定不可 1.58
Proposed: DNN Posterior LM
(3-gram LM, 64 clusters) 10.45 3.09 1.51
Proposed: DNN Posterior LM
(RNN LM, 64 clusters) 10.35 2.33 1.07
音声言語識別 (Spoken Language Identification)の
高度化手法を提案し、State-of-the-Artの性能を達成
従来手法
音素認識結果 系列 言語モ モ 化
- Phoneme Recognition based LM [Zismann, 1996.]
(例) 音声 、無理や ハンガ ー語 音素認識器 コー
提案手法
フ ーム単位 言語識別 行うDNN 事後確率系列 離散化し、
Recurrent Neural Network 言語モ 系列 モ 化
評価実験
Globalphone 用い 12 国語 言語識別
- 各発話 5s 10s程度- 特徴量 MFCC38次元 (Frame size: 20ms, Frame shift: 10ms)
Equal Error Rate 評価
- 早期確定(先頭 1s、3s 確定)した場合 評価
フ ーム単位 言語識別 行うニュー ネ ワー
- Deep Neural Network [Gonzalez-Dominguez+, ICASSP 2014.] - LSTM RNN [Gonzalez-Dominguez+, Interspeech 2014.]
提案法:事後確率系列の言語 化に基づく言語識別
0 1
提案法
- DNN事後確率 変動 言語 モ 化
0 1
0 50 100 150 200 250 300 350 400 450 500
あ フ ンス語 音声 DNN事後確率系列
あ イ 語 音声 DNN事後確率系列
従来法
音素認識器 利用し 入力音声 音素系列 変換
- 複数 言語 音素認識器 用い 高精度化
各言語 音素系列 言語モ し モ 化し、尤度基準 識別
PRLM 基 く言語識別
Neural Network 基 く言語識別
Phoneme Recognizer Speech
Input
Phoneme Sequence
PRLM based Language Identification
出力層 各言語 対す 事後確率 求 う 構築
フ ーム 対数事後確率 全フ ーム 平均化した結果 利用
Phoneme LM for �1… ��
��+1
��+1
��+1
��+1
��
��
��
��
��−1
��−1
��−1
��−1
��+1
��+1
��+1
��
��
��
��−1
��−1
��−1
��+1
��
��
��
��−1
Neural Network (LSTM) RNN Bidirectional (LSTM) RNN
Output layer
Output layer Output layer
Input layer
Input layer Input layer
従来手法 課題
- PRLM モ 化し い 音素系列 識別 有用 情報 十分 持っ い い
- Neural Networkベース 手法 フ ーム単位 識別モ あ 、音声全体 識別す た 適し い い
着眼点
-フ ーム単位 言語識別 行うDNN 事後確率系列 言語 変動 様子 異 ?
Frame DNN for LID Speech
Input
Index
Sequence Posterior LM for �1… �� Posterior
Sequence
Vector quantization
ポイン :事後確率系列 言語モ 扱うた
K-means スタ ン 利用し ベ 量子化 事後確率系列 記号系列 変換
ポイン 系列 長距離 関係 捉え た
音声 短時間フ ーム ベ 変動 長距離 わたっ
捉え た 、記号系列 RNN言語モ モ 化
前 記号 1-of-N表現
直前 隠 層 出力
次 入力 た 保持
記号 予測確率分布 hidden(t)
Output(t) input(t)
hidden(t-1)
フ ーム数 が※5ごご 5秒)