1409【ASJ2014A ポスター】pdf 最近の更新履歴 Ryo Masumura: Web

(1)

Copyright©2014 NTT corp. All Rights Reserved.

○増村亮，浅見太一，大庭隆伸，政瀧浩和，阪内澄宇

( 日本電信電話株式会社，NTT ンン研究所)

2-Q-18: 言語モデリン技術複数同時併用対する日本語講義音声認識タス評価

� � � � �|�

�

適応前 n-gram

��

� �

�_{� � �}

�

推定した unigram 認識仮説

LDA _大域的 _ピッ

を反映したunigramを推定 ^{既存 n-gram}をーン

適応前 n-gram

��

�

� �

+ − � � � �

混合重みを認識仮説最適化し混合

関連文書 n-gram 関連文書

言語資源外部認識仮説

 tfidf 値文書ベ コサン距離基準検索

 Latent Words Language Model

生成型プロー [Masumura+, 2013.]

ℎ�− ℎ�− ℎ_� ℎ�+ ℎ�+

��− ��− �_� �_�+ �_�+ ^単語系列

�

潜在語系列

�

_{生成したー}

サンプンン

ベ分類器( ンロピー差)を利用したー選択

[Moore+, 2010.][Masumura+, 2011.]

In-domain ー

Out-of-Domain _ー

�

�� − �� <

ーみを選択

言語

言語資源外部

 ピッ基く教師し適応 [Tam+, 2006.]

文書検索検索しn-gram混合教師し適応

[Masumura+,2011.]

1パコーン

範囲技術

教師し適応技術

コン適用す技術音声

仮説群

認識結果

前単語 1-of-N_表現

直前隠層出力

次入力た保持

単語予測確率分布 hidden(t)

Output(t) input(t)

hidden(t-1)

 Recurrent Neural Network 基く言語

[Mikolov+, 2010.]

� � + � ^T � �

認識仮説得認識仮説素性ベ

コー時コ

パー

 正しい誤を直接評価す識別的言語

[Roark+, 2004] [Oba+,2012.]

教師し適応技術リスコリン適用する技術

単語誤率低そう文良いコを与えう学習

 Latent Dirichlet Allocation (LDA) を利用

既存学習ー新た学習ーを生成

言語モデリンるこ何もやる、

程度性能改善可能を明らするこ本研究目的

( _こ _何 = _{ン技術、ーを集} 技術、教師し適応技術)

手法ー 1 WER(%) ー 2:WER(%)

(1).HPYLM (Baseline) 22.38 % 43.97 %

(1)+(2).LWLM 21.51 % -0.9 42.40 % -1.6

(1)+(3).WEBLM 19.74 % -2.7 41.85 % -2.1

(1)+(2)+(3) 19.54 % -2.9 41.36 % -2.6

(1)+(4).LDA 21.84 % -0.6 43.50 % -0.5

(1)+(5).RELEVANT 20.31 % -2.1 41.36 % -2.6

(1)+(4)+(5) 20.04 % -2.3 41.06 % -2.9

(1)+(6).RNNLM 21.41 % -1.0 43.41 % -0.6

(1)+(7).DLM 21.17 % -1.2 42.91 % -1.1

(1)+(6)+(7) 20.22 % -2.2 42.63 % -1.3

(1)+(2)+(3)+(4)+(5) 19.17 % -3.1 40.51 % -3.5

(1)+(2)+(3)+(4)+(5)+(6) 19.06 % -3.2 40.45 % -3.6 (1)+(2)+(3)+(4)+(5)+(6)+(7) 18.30 % -4.1 39.78 % -4.2 学習ー ^{CSJ: 2472}講演 (約700万形態素)

識別的言語

学習ー ^{CSJ: 200}^講演

外部言語資源 ^Web ー (約30億文、約500億形態素) 開発ー ^CSJ:学会10講演

ー 1 ^CSJ:学会20講演ー 2 ^{CJLC: 5}講義

コー VoiceRex (WFST-based) 音響 Context dependent DNN-HMM

7 hidden layers of 2048 nodes

1409【ASJ2014A ポスター】pdf 最近の更新履歴 Ryo Masumura: Web

Copyright©2014 NTT corp. All Rights Reserved.

○増村亮，浅見太一，大庭隆伸，政瀧浩和，阪内澄宇

( 日本電信電話株式会社，NTT ンン研究所)

2-Q-18: 言語モデリン技術複数同時併用対する日本語講義音声認識タス評価

��

� �

+ − � � � �

 Latent Words Language Model

生成型プロー [Masumura+, 2013.]

�

�

ベ分類器( ンロピー差)を利用したー選択

[Moore+, 2010.][Masumura+, 2011.]

�

�

�

�

 ピッ基く教師し適応 [Tam+, 2006.]

文書検索検索しn-gram混合教師し適応

[Masumura+,2011.]

 Recurrent Neural Network 基く言語

[Mikolov+, 2010.]

� � + � ^T � �

 正しい誤を直接評価す識別的言語

[Roark+, 2004] [Oba+,2012.]

教師し適応技術リスコリン適用する技術

言語モデリンるこ何もやる、

程度性能改善可能を明らするこ本研究目的

( _こ _何 = _{ン技術、ーを集} 技術、教師し適応技術)

技術を３領域区分け

1パスデコーデン範囲技術

1409【ASJ2014A ポスター】pdf 最近の更新履歴 Ryo Masumura: Web

Copyright©2014 NTT corp. All Rights Reserved.

○増村亮，浅見太一，大庭隆伸，政瀧浩和，阪内澄宇

( 日本電信電話株式会社，NTT ン ン 研究所)

2-Q-18: 言語モデリン 技術 複数同時併用 対する日本語講義音声認識タス 評価

��

� �

+ − � � � �

 Latent Words Language Model

生成型 プロー [Masumura+, 2013.]

�

�

ベ 分類器( ン ロピー 差)を利用した ー 選択

[Moore+, 2010.][Masumura+, 2011.]

�

�

�

�

 ピッ 基 く教師 し適応 [Tam+, 2006.]

文書検索 検索しn-gram混合 教師 し適応

[Masumura+,2011.]

 Recurrent Neural Network 基 く言語

[Mikolov+, 2010.]

� � + � T � �

 正しい 誤 を直接評価す 識別的言語

[Roark+, 2004] [Oba+,2012.]

教師 し適応 技術 リスコ リン 適用する技術

言語モデリン るこ 何 もやる 、

程度性能改善可能 を明ら するこ 本研究 目的

( こ 何 = ン 技術、 ー を集 技術、教師 し適応 技術)

技術を３ 領域 区分け

1パスデコーデ ン 範囲 技術

( 日本電信電話株式会社，NTT ンン研究所)

2-Q-18: 言語モデリン技術複数同時併用対する日本語講義音声認識タス評価

生成型プロー [Masumura+, 2013.]

ベ分類器( ンロピー差)を利用したー選択

 ピッ基く教師し適応 [Tam+, 2006.]

文書検索検索しn-gram混合教師し適応

 Recurrent Neural Network 基く言語

� � + � ^T � �

 正しい誤を直接評価す識別的言語

教師し適応技術リスコリン適用する技術

言語モデリンるこ何もやる、

程度性能改善可能を明らするこ本研究目的

( _こ _何 = _{ン技術、ーを集} 技術、教師し適応技術)

技術を３領域区分け

1パスデコーデン範囲技術