• 検索結果がありません。

1503【言語処理学会 ポスター】pdf 最近の更新履歴 Ryo Masumura: Web

N/A
N/A
Protected

Academic year: 2018

シェア "1503【言語処理学会 ポスター】pdf 最近の更新履歴 Ryo Masumura: Web"

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)

Copyright©2015 NTT corp. All Rights Reserved.

0 72 144 216 288 360 432

Vietnamese Turkish Thai Swedish Spanish Shanghai Russian Portuguese Mandarin Korean German French

日本電信電話株式会社 NTT ェン 研究所

○増村 亮, Sheri Sever, 浅見 太一, 政瀧 浩和, 阪内 澄宇

DNN 事後確率系列の言語 化に基づく言語識別

手法 ータ Equal Error Rate (%)

1s 3s 全体

Conventional: Parallel PR LM

(3-gram LM) - - 6.70

Conventional: Deep NN

(5 hidden layers, 2048 nodes, レ20 frames) 11.01 4.47 3.12

Conventional: Deep LSTM RNN

(3 hidden layers, 512 nodes) 16.54 5.22 2.55

Conventional: Deep Bidirectional LSTM RNN

(3 hidden layers, 512 nodes) 早期確定不可 早期確定不可 1.58

Proposed: DNN Posterior LM

(3-gram LM, 64 clusters) 10.45 3.09 1.51

Proposed: DNN Posterior LM

(RNN LM, 64 clusters) 10.35 2.33 1.07

音声言語識別 (Spoken Language Identification)の

高度化手法を提案し、State-of-the-Artの性能を達成

従来手法

音素認識結果 系列 言語モ モ 化

- Phoneme Recognition based LM [Zismann, 1996.]

(例) 音声 、無理や ハンガ ー語 音素認識器 コー

提案手法

フ ーム単位 言語識別 行うDNN 事後確率系列 離散化し、

Recurrent Neural Network 言語モ 系列 モ

評価実験

Globalphone 用い 12 国語 言語識別

- 各発話 5s 10s程度

- 特徴量 MFCC38次元 (Frame size: 20ms, Frame shift: 10ms)

Equal Error Rate 評価

- 早期確定(先頭 1s、3s 確定)した場合 評価

フ ーム単位 言語識別 行うニュー ネ ワー

- Deep Neural Network [Gonzalez-Dominguez+, ICASSP 2014.] - LSTM RNN [Gonzalez-Dominguez+, Interspeech 2014.]

提案法:事後確率系列の言語 化に基づく言語識別

0 1

提案法

- DNN事後確率 変動 言語

0 1

0 50 100 150 200 250 300 350 400 450 500

あ フ ンス語 音声 DNN事後確率系列

あ イ 語 音声 DNN事後確率系列

従来法

音素認識器 利用し 入力音声 音素系列 変換

- 複数 言語 音素認識器 用い 高精度化

各言語 音素系列 言語モ し モ 化し、尤度基準 識別

PRLM 基 く言語識別

 Neural Network 基 く言語識別

Phoneme Recognizer Speech

Input

Phoneme Sequence

PRLM based Language Identification

出力層 各言語 対す 事後確率 求 う 構築

フ ーム 対数事後確率 全フ ーム 平均化した結果 利用

Phoneme LM for 1… �

�+1

�+1

�+1

�+1

�−1

�−1

�−1

�−1

�+1

�+1

�+1

�−1

�−1

�−1

�+1

�−1

Neural Network (LSTM) RNN Bidirectional (LSTM) RNN

Output layer

Output layer Output layer

Input layer

Input layer Input layer

従来手法 課題

- PRLM 化し い 音素系列 識別 有用 情報 十分 持っ い い

- Neural Networkベース 手法 フ ーム単位 識別モ あ 、音声全体 識別す た 適し い い

着眼点

-フ ーム単位 言語識別 行うDNN 事後確率系列 言語 変動 様子 異

Frame DNN for LID Speech

Input

Index

Sequence Posterior LM for 1… � Posterior

Sequence

Vector quantization

ポイン :事後確率系列 言語モ 扱うた

K-means スタ ン 利用し ベ 量子化 事後確率系列 記号系列 変換

ポイン 系列 長距離 関係 捉え た

音声 短時間フ ーム ベ 変動 長距離 わたっ

捉え た 、記号系列 RNN言語モ モ 化

前 記号 1-of-N表現

直前 隠 層 出力

次 入力 た 保持

記号 予測確率分布 hidden(t)

Output(t) input(t)

hidden(t-1)

フ ーム数 が※5ごご 5秒)

参照

関連したドキュメント

[文献] Ballarino, Gabriele and Fabrizio Bernardi, 2016, “The Intergenerational Transmission of Inequality and Education in Fourteen Countries: A Comparison,” Fabrizio Bernardi

Copyright (C) Qoo10 Japan All Rights Reserved... Copyright (C) Qoo10 Japan All

Guasti, Maria Teresa, and Luigi Rizzi (1996) "Null aux and the acquisition of residual V2," In Proceedings of the 20th annual Boston University Conference on Language

サテライトコンパス 表示部.. FURUNO ELECTRIC CO., LTD. All Rights Reserved.. ECS コンソール内に AR ナビゲーション システム用の制御

手話言語研究センター講話会.

司会 森本 郁代(関西学院大学法学部教授/手話言語研究センター副長). 第二部「手話言語に楽しく触れ合ってみましょう」

タッチON/OFF判定 CinX Data Registerの更新 Result Data 1/2 Registerの更新 Error Status Registerの更新 Error Status Channel 1/2 Registerの更新 (X=0,1,…,15).

本研究科は、本学の基本理念のもとに高度な言語コミュニケーション能力を備え、建学