生成型 プロヸチ
ㅉaㅱㅢㅫㅱ Wㅬㅯㅡㅰ ㅉaㅫgㅲagㅢ ㅊㅬㅡㅢㅩ ㅋ - gㅯaㅪ近似
NTTメデ ンテリジェンス研究所
◎増村 亮 , 政瀧 浩和 , 大庭 隆伸 , 岡 理 , 高橋 敏
N-gram モデル 実用的 可 存在
大語彙連 音声認識 け 言語モデル
本研究 デヸタスパヸスネス 問題 着眼 、
そ 解決を図 音声認識 高精度化を目指
N-gram モデル 利点
• シンプル 構造 持 、デコヸデ ング 相性 良い
• Weighted Finite State Transducer (WFST) し 表現可能
N-gram モデル 点
• 長距離文脈 反映 い
• パラメヸタ数 膨大 あ 、 デヸタスパヸスネス 問題 あ
スムヸジング 元削減 ㄯ 代表的 解決方法
デヸタスパヸスネス 解決方法 課題
スムヸジング 元削減 高度化を図 、
モデル構造 複雑化を招 音声認識 利用 困難
スムヸジング 基 く方法
• Modefied Kneser-Neyスムヸジング [Chen+ 1999]
• ベ ズ的スムヸジング:階層Pitman-Yor LM [Teh+ 2006]
元削減 基 く方法
• 単語クラスタリング 基 くクラスN-gramモデル [Brown+ 1992]
• 文脈情報 クラスタリング: 決定木 [Potamianos+ 1998] [Xu+ 2004]
• Neural network 言語モデル [Bengio+ 2003] [Mikolov+ 2011]
本研究 方向性
モデル構造 改善を行う く
学習デヸタ 拡張を図 生成型 プロヸチ 着目
言語モデル自体 構造を複雑 く、
デヸタスパヸスネス 解決 期待
限 学習デヸタ 、学習デヸタ自体 新 生成し、
生成し デヸタ 基 単純 N-gram モデル 学習
デヸタ生成時 、様々 観点 ( スムヸジング、 元削減 )
取 込 複雑 モデル 利用し 、音声認識時 影響 い
デヸタ 生成モデル
学習デヸタ 生成デヸタ
N-gram モデル
本研究 位置 け
生成型 プロヸチ 、複雑 モデル構造を持
言語モデルをㅋ - gㅯaㅪ 近似 枠組
本研究 、ㅉaㅱㅢㅫㅱ Wㅬㅯㅡㅰ ㅉaㅫgㅲagㅢ ㅊㅬㅡㅢㅩ
新た 着目 、ㅋ - gㅯaㅪ近似を試
• Neural Network 言語モデル N-gram 近似 [Arisoy+ 2013]
• Recurrent Neural Network 言語モデル N-gram 近似 [Deoras+, 2013]
関連研究
近似し い場 比較 劣化 、 1 パス目 高度化 、
最終的 マルチパスデコヸデ ング 性能改善 実現
• クラス N-gram モデル 単語 N-gram モデル 近似 [Wang+ 2004]
生成型 プロヸチ 、複雑 モデル構造を持
言語モデルをㅋ - gㅯaㅪモデル 近似 枠組
ㅉaㅱㅢㅫㅱ Wㅬㅯㅡㅰ ㅉaㅫgㅲagㅢ ㅊㅬㅡㅢㅩ 詳細
本発表 流
音声認識 利用 課題
生成型 プロヸチ 基 くㅋ - gㅯaㅪ近似
� � = � � �, � � � � � � d�
�
単語 裏 隠 潜在語 を考慮 [Deschacht+ 2012]
ㅉaㅱㅢㅫㅱ Wㅬㅯㅡㅰ ㅉaㅫgㅲagㅢ ㅊㅬㅡㅢㅩ ㄥㅉWㅉㅊㄦ
ソフトクラス構造 クラス N-gram & クラス数 = 学習デヸタ 語彙サ ズ
あのー 明日
ℎ�− ℎ�−
��− ��−
ℎ�
�� 明日 ℎ�+
��+
ℎ�+
��+
階層Pitman-Yor過程 従い生成
デ リクレ事前分布 従い生成
潜在語系列
単語系列
ベ ズ推定 実現
�ℎ
��
パラメヸタ
� �
�
ㅉWㅉㅊ 自然言語処理 応用 い 、
音声認識 適用 た例 い
ㅉWㅉㅊ 特徴
スムヸジング 元削減 両者を
生成モデル 枠組 柔軟 実現
�
�
�
潜在語領域 階層Pitman-Yor Prior 基 くベ ズ的スムヸジング 導入
スムヸジング
�
�
�
語彙空間 潜在語 割 当 う、 元削減 実現
元削減
言語 生成過程を柔軟 捉え い た 、
デヸタスパヸスネス 問題解決 適 い
� ℎ
�|ℎ
�−, ℎ
�−, � � �
�|ℎ
�, �
様々 音声認識タスク 頑健 動作 ?
ㅉWㅉㅊ 音声認識 期待
対象タスク 対 高い音声認識性能 期待
• 潜在語 考慮し 学習基準 識別性能 向上
ㅉWㅉㅊを音声認識 適用 、
従来 術 性能改善 期待
タスク 変わ 高い性能 実現 期待
• ソフトクラス 構造や膨大 クラス数、ベ ジ ン 枠組
基 く柔軟 モデル化 、高い汎化性能
• 通常 N-gram 性質 異 、組 わ 相乗効果
単語予測 た 確率分布 簡単 算出 い
ㅉWㅉㅊ 課題
ㄮパスデコヸデ ング 、
リスコ リング 利用 困難
� �
�|�
�−, �
�−= � � �
� �ℎ
�, �
�� ℎ
�ℎ
�−, ℎ
�−, �
�ℎ� �
ℎ�− ℎ�−
単語予測 確率分布 (3-gram LWLM ヷモンテカルロ近似 )
クラス数 あ 、 学習デヸタ
語彙サ ズ分存在ㄥ例ㄦ50000単語
⇒ 通常 ハヸドクラス クラス N-gram モデル
比 、 5 × 倍 計算量 必要
モンテカルロ近似し 場
サンプル数分存在(例)100サンプル
ハヸドクラス クラスN-gramモデル 計算
ㅉWㅉㅊ 基 くデヸタ生成
単語予測 確率分布を求 困難 、
確率過程 従 単語列を生成 容易
元 学習デヸタ 含 い
ㅉWㅉㅊ 性質を たデヸタ 生成 期待
あのー 明日
ℎ�− ℎ�−
��− ��−
ℎ�
��
��
��
��
明日
ℎ�+
��+
ℎ�+
��
��
��+
�
�
�~� �
�|�
ℎ
�~� ℎ
�|ℎ
�−, ℎ
�−, �
��
�~� �
�|ℎ
�, �
�学習デヸタ パラメヸタ 選択
潜在語 生成
観測語 生成
�
�
ランダムサンプリング 基 ㅉWㅉㅊをㅋ - gㅯaㅪ 近似、
、通常 ㅋ - gㅯaㅪ 線形補間 混合
提案法 全体像 ( ㅉWㅉㅊ ㅋ - gㅯaㅪ近似 )
LWLM
LWLMベヸス N-gram
学習デヸタ 生成デヸタ
LWLM 学習
ランダム
サンプリング N-gram近似
通常 N-gram
提案法 流
混
N-gram 線形補間 モデル混
ㅉWㅉㅊ 性質を たㅋ - gㅯaㅪモデル
構築 期待 、音声認識 簡単 利用可能
実験
生成型 プロヸチ 基 くㅉWㅉㅊ ㅋ - gㅯaㅪ近似
有効性 検証
実験 目的
2 点 期待 い 、
従来 ㅋ - gㅯaㅪモデル 比較実験 検証
⇒ 言語モデルの学習データ 異なるタスク(Out-Of-Domain) の検証
⇒ 言語モデルの学習データ 同一タスク (In-Domain) の検証
対象タスク 対 高い音声認識性能 期待
タスク 変わ 高い性能 実現 期待
日本語話 言葉コヸパス (CSJ) を利用
実験条件
学習デヸタ CSJ2672 講演
開発デヸタ (In-Domain) CSJ10 講演 ( 学会講演 )
テストデヸタ A (In-Domain) CSJ10 講演 ( 学会講演 )
テストデヸタ B (Out-Of-Domain) コンタクトセンタタスク
テストデヸタ C (Out-Of-Domain) ボ スメヸルタスク
デコヸダ Voice Rex (WFST-based)
音響モデル Triphone GMM-HMM
評価指標 、
パヸプレキシテ ヷ単語誤 率 (WER) 観点 行う
4手法 言語モデルを構築 比較
比較手法
MKNLM
Modefied Kneser-Ney SmoothingHPYLM
階層Pitman-Yor言語モデルLWLM(g)
学習し LWLM 単語列 ランダム 生成し 、階層Pitman-Yor言語モデル 近似
LWLM(g)+HPYLM
上記HPYLM LWLM(g) 線形補間 い 語彙サ ズ 83,536 単語 3-gram 言語モデル
ハ パヸパラメヸタや補間係数 開発デヸタ 調整
い ㄮパスデコヸデ ング 利用 、
ARPA フォヸマット 記述可能
生成 デヸタ量 性能 関係を調査
開発デヸタ 対 パヸプレキシテ 結果
70 75 80 85 90 95 100
パ ー プ レ キ シ テ
生成し 単語 量 (M単語)
101 102 103
䐟MKNLM
䐠HPYLM
䐡LWLM(g)
䐢LWLM(g)+HPYLM
LWLM(g)
大量 デヸタ生成 行え 、
HPYLM 同等 性能 実現
LWLM(g)+HPYLM
HPYLM LWLM(g) 相補的
従来 MKNLM HPYLM 、
提案法 パヸプレキシテ を改善可能
単語誤 率 (Word Error Rate) 評価
テストデヸタ 対 認識実験 結果
Test A (ID) Test B (OOD) Test C (OOD)
MKNLM 28.80 % 49.32 % 40.78 %
HPYLM 27.94 % 48.72 % 40.68 %
LWLM(g) 27.85 % 46.86 % 38.71 %
LWLM(g)+HPYLM 26.42 % 46.19 % 37.92 %
学習デヸタ 同一タスク(ID)
• LWLM(g) HPYLM 同等
• LWLM(g)+HPYLM 最高性能
学習デヸタ 異 タスク(OOD)
• LWLM(g) HPYLM 高い性能
LWLM HPYLM 組 合わ 有効
LWLM 学習デヸタ 異 タスク 頑健
• LWLM(g)+HPYLM 最高性能
提案手法 対 考察
、普通 クラスㅋ - gㅯaㅪ 比 ?
ソフトクラスタリング構造 膨大 潜在語空間
汎化性能 向上 寄 い
ㅉWㅉㅊ う 汎化性能 高い
C-HPYLM
単語2-gram素性 単語クラスタリング [Brown+, 1992] 行い 、 5000クラス し クラス系列 階層Pitman-Yor 3-gramモデルTest A (ID) Test B (OOD) Test C (OOD)
HPYLM 27.94 % 48.72 % 40.68 %
C-HPYLM 28.08 % 48.96 % 40.96 %
LWLM(g) 27.85 % 46.86 % 38.71 %
単純 ハヸドクラスタリング クラス化 汎化性能 向上 不十分
WER 評価
あ、Rㅋㅋㅉㅊ 比 ?
ㄮパス目 提案手法を利用 、
ㄯパス目 Rㅋㅋㅉㅊを組合わ 理想的
RNNLM
開発デヸタ 最適化し Recurrent Neural Network 言語モデル、 中間層500、出力層 クラス化1000 [ Mikolov+, 2011]※ 1パスデコヸデ ング 利用 い
Iㅫ -Domain Rㅋㅋㅉㅊ 強い 、
Out-Of-Domain ㅉWㅉㅊ 方 有効
Test A (ID) Test B (OOD) Test C (OOD)
HPYLM 67.50 158.13 175.63
RNNLM 61.28 145.05 158.57
LWLM(g) 66.93 141.34 147.87
LWLM(g)+HPYLM+RNNLM 53.36 120.21 133.09
パヸプレキシテ 評価
結局、提案手法 何 いい ?
ㅉWㅉㅊ 質 高いデヸタを生成 、
ㅋ - gㅯaㅪ 近似 た場合 性能 高い
ㅉWㅉㅊ 実際 起 得 言語現象を多く生成
HPYLM LWLM 用い 、 デヸタ 生成 、
テストデヸタ 3-gram 生成デヸタ内 程度含 い 調査
55 60 65 70 75 80 85
10M 100M 1000M
ト ラ グ ラ ム ヒ ッ ト レ ー
(ト
%)
HPYLM(g) LWLM(g)
45 55 65 75
10M 100M 1000M
ト ラ グ ラ ム ヒ ッ ト レ ー
(ト
)%
HPYLM(g) LWLM(g)
テストデヸタA (In-Domain) テストデヸタ C (Out-Of-Domain)
生成し 単語 量 生成し 単語 量
26 26.5 27 27.5 28
100 1000 10000 100000 W
E
(R
)%
フ ルサ ズ(MB)
37 38 39 40 41
100 1000 10000 100000 W
E
(R
)%
フ ルサ ズ(MB)
モデル縮退 大丈夫!
モデルサ ズ大 く 点 ?
テストデヸタ A (In-Domain) テストデヸタ C (Out-Of-Domain)
元 学習デヸタ 学習 た HPYLM
同程度 縮退 提案法 高い性能を実現
HPYLM
LWLM(g)+HPYLM
HPYLM
LWLM(g)+HPYLM
Entropy Pruning [Stolcke, 1998] モデル縮退 実施し、
スキヸ形式 ARPA フォヸマット フ ルサ ズ 比較
生成型 プロヸチ ㅉWㅉㅊ ㅋ - gㅯaㅪ近似を提案
結果
• 様々 タスク 頑健 動作し 、
通常 N-gram モデル 比較し 高い性能 実現
• 性能改善 、 LWLM 実際 起 得 言語現象
多く生成 起因
• 実用 場面 、モデルサ ズ 問題 場 、
Entropy Pruning モデル縮退 行い利用 い
今後 課題
• 言語モデル適応 枠組 生成型 プロヸチ
清聴あ う い た
単語パヸプレキシテ 評価
テストデヸタ 対 パヸプレキシテ 結果
Test1 (ID) Test2 (OOD) Test3(OOD)
MKNLM 79.32 164.07 189.91
HPYLM 67.50 158.13 175.62
LWLM 66.93 141.34 147.87
HPYPLM+LWLM 62.05 134.64 141.23
学習デヸタ 同一タスク(ID)
• LWLM HPYLM 同等
• HPYLM+LWLM 最高性能
学習デヸタ 異 タスク(OOD)
• LWLM HPYLM 高い性能
• HPYLM+LWLM 最高性能
LWLM HPYLM 組 合わ 有効
LWLM 学習デヸタ 異 タスク 頑健
ㅉWㅉㅊ 確率過程 従い順番 単語を生成
ㅉWㅉㅊ 基 くランダムサンプリング
ℎ�~� ℎ�|ℎ�− , ℎ�− , ��
��~� ��|� = �
��~� ��|ℎ�, ��
� < �
� + +
� =
あのー 明日
ℎ�− ℎ�−
��− ��−
ℎ�
��
あのー 明日
ℎ�− ℎ�−
��− ��−
ℎ�
��
��
メヸジ メヸジ
ㅉWㅉㅊ自体 スムヸジング 元削減 効果 、
元 デヸタ い新た 単語連鎖を生成
� , � , ⋯ , �
�−N-gram 言語モデル 学習
� �
モンテカルロ積分 近似 利用
ㅉWㅉㅊ モデル学習
� � � = � � �, � � � � � � � d�
�
ベ ズ推定 予測分布 直接モデル化
� � � ≅ � � � �,�
� �� � �
�� �
学習デヸタ
⇒ �
�� サンプル得 積分消去
学習デヸタ
�
�
�
生成し得 � 種類 無限 存在
�
�
�
⋯
⋯
� ⋯ ��
モデルパラメヸタ � � 割 当 、
ギブスサンプリングを利用可能
提案法 性能改善 ?
In-Domain デヸタ 対 評価実験
LWLM(g) HPYLM 組 合わ 有効
LWLM(g) HPYLM 性能 同等
パヸプレキシテ WER(%)
MKNLM 73.09 28.80
HPYLM 67.50 27.94
C-HPYLM 69.36 28.08
RNNLM 61.28 -
HPYLM(g) 70.43 28.04
RNNLM(g) 82.23 28.84
LWLM(g) 66.93 27.85
LWLM(g)+HPYLM 62.05
26.42
LWLM(g)+HPYLM +RNNLM 53.36 -
RNNLM 性能 高い 、 音声認識
マルチパス 必要
他 生成型 プロヸチ 有効 あ 、 HPYLM 同等 性能
HPYLM LWLM(g) 異 性質 持 、
組 わ 改善
テストデヸタ (In-Domain)
提案法 マルチドメ ン 頑健 動作 ?
Out-Of-Domain デヸタ 対 評価実験
パヸプレキシテ WER(%)
MKNLM 189.91 40.78
HPYLM 175.62 40.68
C-HPYLM 180.89 40.96
RNNLM 158.57 -
HPYLM(g) 177.61 41.07
RNNLM(g) 163.99 39.44
LWLM(g) 147.87 38.71
LWLM(g)+HPYLM 141.23
37.92
LWLM(g)+HPYLM +RNNLM 133.09 -
単純 クラス化 、 汎化性能 高
い
柔軟 モデル構造
、汎化性能
高 、
RNNLM以上 性能
一般的 MKNLM 比較し
3ポ ント程度改善
LWLM(g) HPYLM 組 合わ 有効
LWLM(g) 学習デヸタ 異 タスク 頑健
テストデヸタ (Out-Of-Domain)
60 65 70 75 80 85 90 95 100
10 100 1000
パ ー プ レ キ シ テ
HPYLM(g) RNNLM(g) LWLM(g)
140 150 160 170 180 190
10 100 1000
パ ー プ レ キ シ
テ HPYLM(g)
RNNLM(g) LWLM(g)
LWLM(g) 高い性能を得 た
大量 デヸタ生成 必要
各生成型 プロヸチ い パヸプレキシテ 変化を調査
生成デヸタ量 性能 関係
テストデヸタ (In-Domain) い テストデヸタ (Out-Of-Domain) い
M M M M M M
生成デヸタ量を変化 、テストデヸタ 3-gram
生成デヸタ内 程度含 い を調査
生成デヸタ量 性能 比較 関 考察
ㅉWㅉㅊ 実際 起 得 事象を多く生成 、
高い性能 N-gram 構築
55 60 65 70 75 80 85
10M 100M 1000M
ト ラ グ ラ ム ヒ ッ ト レ ー
(ト
%)
HPYLM(g) LWLM(g)
45 50 55 60 65 70 75
10M 100M 1000M
ト ラ グ ラ ム ヒ ッ ト レ ー
(ト
)%
HPYLM(g) LWLM(g)
テストデヸタ (In-Domain) い テストデヸタ (Out-Of-Domain) い
言語モデル 比較対象
MKNLM
Modefied Kneser-Ney Smoothing (3-gram)HPYLM
階層Pitman-Yor言語モデル (3-gram)C-HPYLM
単語2gram素性 単語クラスタリング 行い、5000クラス し クラスN-gramモデル (3-gram)