Copyright©2014 NTT corp. All Rights Reserved.
○増村亮,浅見太一,大庭隆伸,政瀧浩和,阪内澄宇
( 日本電信電話株式会社,NTT ン ン 研究所)
2-Q-18: 言語モデリン 技術 複数同時併用 対する日本語講義音声認識タス 評価
� � � � �|�
�
適応前 n-gram
��� �
� �
�� � �
�
推定した unigram 認識仮説
LDA 大域的 ピッ
を反映したunigramを推定 既存 n-gram を ー ン
適応前 n-gram
��
�� �
+ − � � � �
混合重みを認識仮説 最適化し 混合
関連文書 n-gram 関連文書
言語資源 外部 認識仮説
tfidf 値 文書ベ コサ ン距離基準 検索
Latent Words Language Model
生成型 プロー [Masumura+, 2013.]
ℎ�− ℎ�− ℎ� ℎ�+ ℎ�+
��− ��− �� ��+ ��+ 単語系列
�
潜在語系列
�
生成した ーサンプ ン ン
ベ 分類器( ン ロピー 差)を利用した ー 選択
[Moore+, 2010.][Masumura+, 2011.]
In-domain ー
Out-of-Domain ー
�
��
�
��
��� − ��� <
ー みを選択
言語
言語
言語資源 外部
ピッ 基 く教師 し適応 [Tam+, 2006.]
文書検索 検索しn-gram混合 教師 し適応
[Masumura+,2011.]
1パ コー ン
範囲 技術
教師 し適応 技術
コ ン 適用す 技術 音声
仮説群
認識結果
前 単語 1-of-N表現
直前 隠 層 出力
次 入力 た 保持
単語 予測確率分布 hidden(t)
Output(t) input(t)
hidden(t-1)
Recurrent Neural Network 基 く言語
[Mikolov+, 2010.]
� � + � T � �
認識仮説 得 認識仮説 素性ベ
コー 時 コ
パ ー
正しい 誤 を直接評価す 識別的言語
[Roark+, 2004] [Oba+,2012.]
教師 し適応 技術 リスコ リン 適用する技術
単語誤 率 低そう 文 良い コ を与え う学習
Latent Dirichlet Allocation (LDA) を利用
既存 学習 ー 新た 学習 ー を生成
言語モデリン るこ 何 もやる 、
程度性能改善可能 を明ら するこ 本研究 目的
( こ 何 = ン 技術、 ー を集 技術、教師 し適応 技術)
手法 ー 1 WER(%) ー 2:WER(%)
(1).HPYLM (Baseline) 22.38 % 43.97 %
(1)+(2).LWLM 21.51 % -0.9 42.40 % -1.6
(1)+(3).WEBLM 19.74 % -2.7 41.85 % -2.1
(1)+(2)+(3) 19.54 % -2.9 41.36 % -2.6
(1)+(4).LDA 21.84 % -0.6 43.50 % -0.5
(1)+(5).RELEVANT 20.31 % -2.1 41.36 % -2.6
(1)+(4)+(5) 20.04 % -2.3 41.06 % -2.9
(1)+(6).RNNLM 21.41 % -1.0 43.41 % -0.6
(1)+(7).DLM 21.17 % -1.2 42.91 % -1.1
(1)+(6)+(7) 20.22 % -2.2 42.63 % -1.3
(1)+(2)+(3)+(4)+(5) 19.17 % -3.1 40.51 % -3.5
(1)+(2)+(3)+(4)+(5)+(6) 19.06 % -3.2 40.45 % -3.6 (1)+(2)+(3)+(4)+(5)+(6)+(7) 18.30 % -4.1 39.78 % -4.2 学習 ー CSJ: 2472講演 (約700万形態素)
識別的言語
学習 ー CSJ: 200講演
外部言語資源 Web ー (約30億文、約500億形態素) 開発 ー CSJ: 学会10講演
ー 1 CSJ: 学会20講演 ー 2 CJLC: 5講義
コー VoiceRex (WFST-based) 音響 Context dependent DNN-HMM
7 hidden layers of 2048 nodes