1307【SLP研究会】pdf 最近の更新履歴 Ryo Masumura: Web

(1)

生成型プロヸチ

ㅉａㅱㅢㅫㅱ Ｗㅬㅯㅡㅰ ㅉａㅫｇㅲａｇㅢ ㅊㅬㅡㅢㅩ ㅋ _- ｇㅯａㅪ近似

ＮＴＴメデンテリジェンス研究所

◎増村亮 _, 政瀧浩和 _, 大庭隆伸 _, 岡理 _, 高橋敏

(2)

(3)

N-gram ^モデル ^実用的 ^可 ^存在

大語彙連音声認識け言語モデル

本研究デヸタスパヸスネス問題着眼、

そ解決を図音声認識高精度化を目指

N-gram ^モデル ^利点

• ^シンプル ^構造 ^持 ^{、デコヸデ} ^ング ^相性 ^良い

• Weighted Finite State Transducer (WFST) ^し ^表現可能

N-gram ^モデル ^点

• ^{長距離文脈} ^反映 ^い

• ^{パラメヸタ数} ^膨大 ^あ ^、 ^{デヸタスパヸスネス} ^問題 ^あ

(4)

スムヸジング元削減ㄯ代表的解決方法

デヸタスパヸスネス解決方法課題

スムヸジング元削減高度化を図、

モデル構造複雑化を招音声認識利用困難

スムヸジング基く方法

• Modefied Kneser-Ney^{スムヸジング} [Chen+ 1999]

• ^ベズ的スムヸジング：階層Pitman-Yor LM [Teh+ 2006]

元削減基く方法

• ^{単語クラスタリング} ^基 ^くクラス^N-gram^モデル [Brown+ 1992]

• ^文脈情報 ^{クラスタリング：} ^決定木 [Potamianos+ 1998] [Xu+ 2004]

• Neural network ^{言語モデル} [Bengio+ 2003] [Mikolov+ 2011]

(5)

本研究方向性

モデル構造改善を行うく

学習デヸタ拡張を図生成型プロヸチ着目

言語モデル自体構造を複雑く、

デヸタスパヸスネス解決期待

 ^限 ^{学習デヸタ} ^{、学習デヸタ自体} ^新 ^生成し、

生成しデヸタ基単純 _N-gram モデル学習

デヸタ生成時、様々観点 ₍ スムヸジング、元削減 ₎

取込複雑モデル利用し、音声認識時影響い

デヸタ生成モデル

学習デヸタ _{生成デヸタ}

N-gram モデル

(6)

本研究位置け

生成型プロヸチ、複雑モデル構造を持

言語モデルをㅋ _- ｇㅯａㅪ 近似枠組

本研究、ㅉａㅱㅢㅫㅱ Ｗㅬㅯㅡㅰ ㅉａㅫｇㅲａｇㅢ ㅊㅬㅡㅢㅩ

新た着目、ㅋ _- ｇㅯａㅪ近似を試

• Neural Network ^{言語モデル} ^N-gram ^近似 [Arisoy+ 2013]

• Recurrent Neural Network ^{言語モデル} ^N-gram ^近似 [Deoras+, 2013]

 ^関連研究

近似しい場比較劣化、 ₁ パス目高度化、

最終的マルチパスデコヸデング性能改善実現

• ^クラス ^N-gram ^モデル ^単語 ^N-gram ^モデル ^近似 [Wang+ 2004]

生成型プロヸチ、複雑モデル構造を持

言語モデルをㅋ _- ｇㅯａㅪモデル近似枠組

(7)

ㅉａㅱㅢㅫㅱ Ｗㅬㅯㅡㅰ ㅉａㅫｇㅲａｇㅢ ㅊㅬㅡㅢㅩ 詳細

本発表流

音声認識利用課題

生成型プロヸチ基くㅋ _- ｇㅯａㅪ近似

(8)

� � = � � �, � � � � � � d�

�

単語裏隠潜在語を考慮 [Deschacht+ 2012]

ㅉａㅱㅢㅫㅱ Ｗㅬㅯㅡㅰ ㅉａㅫｇㅲａｇㅢ ㅊㅬㅡㅢㅩ ㄥㅉＷㅉㅊㄦ

 ^{ソフトクラス構造} ^クラス N-gram & ^クラス数 = ^{学習デヸタ} ^語彙サ ^ズ

あのー明日

ℎ_�− ℎ_�−

�_�− �_�−

ℎ_�

�_� ^明日 ℎ_�+

�_�+

ℎ_�+

�_�+

階層_Pitman-Yor過程従い生成

デリクレ事前分布従い生成

潜在語系列

単語系列

ベズ推定実現

�_ℎ

�_�

パラメヸタ

� ^�

�

ㅉＷㅉㅊ 自然言語処理応用い、

音声認識適用た例い

(9)

ㅉＷㅉㅊ 特徴

スムヸジング元削減両者を

生成モデル枠組柔軟実現

�

潜在語領域階層Pitman-Yor Prior 基くベズ的スムヸジング導入

 ^{スムヸジング}

�

語彙空間潜在語割当う、元削減実現

 ^元削減

言語生成過程を柔軟捉えいた、

デヸタスパヸスネス問題解決適い

� ℎ

_�

|ℎ

_�−

, ℎ

_�−

, � � �

_�

|ℎ

_�

, �

(10)

様々音声認識タスク頑健動作？

ㅉＷㅉㅊ 音声認識期待

対象タスク対高い音声認識性能期待

• ^潜在語 ^考慮し ^学習基準 ^識別性能 ^向上

ㅉＷㅉㅊを音声認識適用、

従来術性能改善期待

タスク変わ高い性能実現期待

• ^{ソフトクラス} ^{構造や膨大} ^{クラス数、ベ} ^ジ ^ン ^枠組

基く柔軟モデル化、高い汎化性能

• ^通常 ^N-gram ^性質 ^異 ^、組 ^わ ^相乗効果

(11)

単語予測た確率分布簡単算出い

ㅉＷㅉㅊ 課題

ㄮパスデコヸデング、

リスコリング利用困難

� �

_�

|�

_�−

, �

_�−

= � � �

_� ^�

^ℎ

^�

^{, �}

^�

^{� ℎ}

^�

^ℎ

^�−

^{, ℎ}

^�−

^{, �}

^�

ℎ_� �

ℎ_�− ℎ_�−

単語予測確率分布 (3-gram LWLM ^{ヷモンテカルロ近似} )

クラス数あ、学習デヸタ

語彙サズ分存在ㄥ例ㄦ₅₀₀₀₀単語

⇒ 通常ハヸドクラスクラス _N-gram モデル

^比 ^、 ₅ _× ^倍 ^計算量 ^必要

モンテカルロ近似し場

サンプル数分存在₍例₎₁₀₀サンプル

ハヸドクラスクラス_N-gramモデル計算

(12)

ㅉＷㅉㅊ 基くデヸタ生成

単語予測確率分布を求困難、

確率過程従単語列を生成容易

元学習デヸタ含い

ㅉＷㅉㅊ 性質をたデヸタ生成期待

あのー明日

ℎ_�− ℎ_�−

�_�− �_�−

ℎ_�

�_�

明日

ℎ_�+

�_�+

ℎ_�+

�_�

�_�+

�

_�

~� �

_�

|�

ℎ

_�

~� ℎ

_�

|ℎ

_�−

, ℎ

_�−

, �

_�

�

_�

~� �

_�

|ℎ

_�

, �

_�

学習デヸタ _{パラメヸタ} _選択

潜在語生成

観測語生成

�

(13)

ランダムサンプリング基 ㅉＷㅉㅊをㅋ _- ｇㅯａㅪ 近似、

、通常 ㅋ _- ｇㅯａㅪ 線形補間混合

提案法全体像 ₍ ㅉＷㅉㅊ ㅋ _- ｇㅯａㅪ近似 ₎

LWLM

LWLM^ベヸス N-gram

学習デヸタ生成デヸタ

LWLM ^学習

ランダム

サンプリング N-gram^近似

通常 N-gram

提案法流

混

N-gram ^線形補間 ^モデル混

ㅉＷㅉㅊ 性質をたㅋ _- ｇㅯａㅪモデル

構築期待、音声認識簡単利用可能

(14)

実験

(15)

生成型プロヸチ基くㅉＷㅉㅊ ㅋ _- ｇㅯａㅪ近似

有効性検証

実験目的

2 ^点 ^期待 ^い ^、

従来 ㅋ _- ｇㅯａㅪモデル比較実験検証

⇒ 言語モデルの学習データ異なるタスク(Out-Of-Domain) の検証

⇒ 言語モデルの学習データ同一タスク (In-Domain) ^の検証

対象タスク対高い音声認識性能期待

タスク変わ高い性能実現期待

(16)

日本語話言葉コヸパス _(CSJ) を利用

実験条件

学習デヸタ _CSJ2672 講演

開発デヸタ (In-Domain) CSJ10 ^講演 ( ^学会講演 )

テストデヸタ A (In-Domain) CSJ10 ^講演 ( ^学会講演 )

テストデヸタ B (Out-Of-Domain) コンタクトセンタタスク

テストデヸタ C (Out-Of-Domain) ^ボ ^{スメヸルタスク}

デコヸダ Voice Rex (WFST-based)

音響モデル Triphone GMM-HMM

評価指標、

パヸプレキシテヷ単語誤率 _(WER) 観点行う

(17)

４手法言語モデルを構築比較

比較手法

MKNLM

Modefied Kneser-Ney Smoothing

HPYLM

^階層^Pitman-Yor^{言語モデル}

LWLM(g)

^学習し ^LWLM ^単語列 ^ランダム ^生成し ^、

階層_Pitman-Yor言語モデル近似

LWLM(g)+HPYLM

^上記HPYLM LWLM(g) ^線形補間

 ^い ^語彙サ ^ズ ^83,536 ^単語 ^3-gram ^{言語モデル}

 ^ハパヸパラメヸタや補間係数開発デヸタ調整

いㄮパスデコヸデング利用、

ARPA ^{フォヸマット} ^記述可能

(18)

生成デヸタ量性能関係を調査

開発デヸタ対パヸプレキシテ結果

70 75 80 85 90 95 100

パープレキシテ

生成し単語量_(M単語₎

10¹ ¹⁰² 10³

䐟_MKNLM

䐠_HPYLM

䐡_LWLM(g)

䐢LWLM(g)+HPYLM

LWLM(g)

大量デヸタ生成行え、

HPYLM ^同等 ^性能 ^実現

LWLM(g)+HPYLM

HPYLM LWLM(g) ^相補的

従来 MKNLM HPYLM ^、

提案法パヸプレキシテを改善可能

(19)

単語誤率 (Word Error Rate) ^評価

テストデヸタ対認識実験結果

Test A (ID) Test B (OOD) Test C (OOD)

MKNLM 28.80 % 49.32 % 40.78 %

HPYLM 27.94 % 48.72 % 40.68 %

LWLM(g) 27.85 % 46.86 % 38.71 %

LWLM(g)+HPYLM _{26.42 %} _{46.19 %} _{37.92 %}

学習デヸタ同一タスク_(ID)

• LWLM(g) HPYLM ^同等

• LWLM(g)+HPYLM ^最高性能

学習デヸタ異タスク_(OOD)

• LWLM(g) HPYLM ^高い性能

 LWLM HPYLM ^組 ^合わ ^有効

 LWLM ^{学習デヸタ} ^異 ^タスク ^頑健

• LWLM(g)+HPYLM ^最高性能

(20)

提案手法対考察

(21)

、普通クラスㅋ _- ｇㅯａㅪ 比？

ソフトクラスタリング構造膨大潜在語空間

汎化性能向上寄い

ㅉＷㅉㅊ う汎化性能高い

C-HPYLM

^単語^2-gram^素性 ^{単語クラスタリング} [Brown+, 1992] ^行い ^、 5000^クラス ^し ^{クラス系列} ^階層Pitman-Yor 3-gram^モデル

Test A (ID) Test B (OOD) Test C (OOD)

HPYLM 27.94 % 48.72 % 40.68 %

C-HPYLM 28.08 % 48.96 % 40.96 %

LWLM(g) _{27.85 %} _{46.86 %} _{38.71 %}

 ^単純 ^{ハヸドクラスタリング} ^クラス化 ^汎化性能 ^向上 ^不十分

ＷＥＲ評価

(22)

あ、Ｒㅋㅋㅉㅊ 比？

ㄮパス目提案手法を利用、

ㄯパス目Ｒㅋㅋㅉㅊを組合わ理想的

RNNLM

^{開発デヸタ} ^最適化し Recurrent Neural Network ^{言語モデル、} 中間層₅₀₀、出力層クラス化1000 [ Mikolov+, 2011]

※ １パスデコヸデング利用い

Ｉㅫ _-Domain Ｒㅋㅋㅉㅊ 強い、

Out-Of-Domain ^ㅉＷㅉㅊ ^方 ^有効

Test A (ID) Test B (OOD) Test C (OOD)

HPYLM 67.50 158.13 175.63

RNNLM 61.28 145.05 158.57

LWLM(g) 66.93 141.34 147.87

LWLM(g)+HPYLM+RNNLM 53.36 120.21 133.09

パヸプレキシテ評価

(23)

結局、提案手法何いい？

ㅉＷㅉㅊ 質高いデヸタを生成、

ㅋ _- ｇㅯａㅪ 近似た場合性能高い

ㅉＷㅉㅊ 実際起得言語現象を多く生成

 HPYLM LWLM ^用い ^、 ^デヸタ ^生成 ^、

テストデヸタ _3-gram 生成デヸタ内程度含い調査

55 60 65 70 75 80 85

10M 100M 1000M

トラグラムヒットレー

(ト

％₎

HPYLM(g) LWLM(g)

45 55 65 75

10M 100M 1000M

(ト

)%

HPYLM(g) LWLM(g)

テストデヸタA (In-Domain) テストデヸタ C (Out-Of-Domain)

生成し単語量 _生成し _単語 _量

(24)

26 26.5 27 27.5 28

100 1000 10000 100000 W

E

(R

)%

フルサズ_(MB)

37 38 39 40 41

100 1000 10000 100000 W

E

(R

)%

フルサズ_(MB)

モデル縮退大丈夫！

モデルサズ大く点？

テストデヸタ A (In-Domain) テストデヸタ C (Out-Of-Domain)

元学習デヸタ学習た _HPYLM

同程度縮退提案法高い性能を実現

HPYLM

LWLM(g)+HPYLM

HPYLM

LWLM(g)+HPYLM

 Entropy Pruning [Stolcke, 1998] ^{モデル縮退} ^実施し、

スキヸ形式 _ARPA フォヸマットフルサズ比較

(25)

(26)

生成型プロヸチ ㅉＷㅉㅊ ㅋ _- ｇㅯａㅪ近似を提案

 ^結果

• ^様々 ^タスク ^頑健 ^動作し ^、

通常 _N-gram モデル比較し高い性能実現

• ^性能改善 ^、 ^LWLM ^実際 ^起 ^得 ^言語現象

多く生成起因

• ^実用 ^場面 ^{、モデルサ} ^ズ ^問題 ^場 ^、

Entropy Pruning ^{モデル縮退} ^行い利用 ^い

 ^今後 ^課題

• ^{言語モデル適応} ^枠組 ^生成型 ^プロヸチ

(27)

清聴あういた

(28)

単語パヸプレキシテ評価

テストデヸタ対パヸプレキシテ結果

Test1 (ID) Test2 (OOD) Test3(OOD)

MKNLM 79.32 164.07 189.91

HPYLM 67.50 158.13 175.62

LWLM 66.93 141.34 147.87

HPYPLM+LWLM _62.05 _134.64 _141.23

学習デヸタ同一タスク_(ID)

• LWLM HPYLM ^同等

• HPYLM+LWLM ^最高性能

学習デヸタ異タスク_(OOD)

• LWLM HPYLM ^高い性能

• HPYLM+LWLM ^最高性能

 LWLM HPYLM ^組 ^合わ ^有効

 LWLM ^{学習デヸタ} ^異 ^タスク ^頑健

(29)

ㅉＷㅉㅊ 確率過程従い順番単語を生成

ㅉＷㅉㅊ 基くランダムサンプリング

ℎ_�~� ℎ_�|ℎ_�− , ℎ_�− , �_�

�_�~� �_�|� = _�

�_�~� �_�|ℎ_�, �_�

� < �

� + +

� =

あのー明日

ℎ_�− ℎ_�−

�_�− �_�−

ℎ_�

�_�

あのー明日

ℎ_�− ℎ_�−

�_�− �_�−

ℎ_�

�_�

メヸジ _メヸジ

ㅉＷㅉㅊ自体スムヸジング元削減効果、

元デヸタい新た単語連鎖を生成

� , � , ⋯ , �

_�−

N-gram ^{言語モデル} ^学習

� �

(30)

モンテカルロ積分近似利用

ㅉＷㅉㅊ モデル学習

� � � = � � �, � � � � � � � d�

�

 ^ベ ^ズ推定 ^予測分布 ^{直接モデル化}

� � � ≅ � � � �,�

_� ^�

^{� � �}

^�

� �

学習デヸタ

⇒ _�

_�

_� サンプル得積分消去

学習デヸタ

�

 ^生成し得 � ^種類 ^無限 ^存在

�

⋯

� ⋯ ��

モデルパラメヸタ _� _� 割当、

ギブスサンプリングを利用可能

(31)

提案法性能改善？

In-Domain ^デヸタ ^対 ^評価実験

 LWLM(g) HPYLM ^組 ^合わ ^有効

 LWLM(g) HPYLM ^性能 ^同等

パヸプレキシテ _WER(%)

MKNLM 73.09 28.80

HPYLM 67.50 27.94

C-HPYLM 69.36 28.08

RNNLM 61.28 -

HPYLM(g) 70.43 28.04

RNNLM(g) 82.23 28.84

LWLM(g) 66.93 _27.85

LWLM(g)+HPYLM 62.05

_26.42

LWLM(g)+HPYLM +RNNLM _53.36 -

RNNLM ^性能 ^高い ^、音声認識

マルチパス必要

他生成型プロヸチ有効あ、 HPYLM ^同等 ^性能

HPYLM LWLM(g) 異性質持、

組わ改善

テストデヸタ (In-Domain)

(32)

提案法マルチドメン頑健動作？

Out-Of-Domain ^デヸタ ^対 ^評価実験

パヸプレキシテ _WER(%)

MKNLM 189.91 40.78

HPYLM 175.62 40.68

C-HPYLM 180.89 40.96

RNNLM 158.57 -

HPYLM(g) 177.61 41.07

RNNLM(g) 163.99 39.44

LWLM(g) 147.87 _38.71

LWLM(g)+HPYLM 141.23

_37.92

LWLM(g)+HPYLM +RNNLM _133.09 -

単純クラス化、汎化性能高

い

柔軟モデル構造

、汎化性能

高、

RNNLM^以上 ^性能

一般的 _MKNLM 比較し

3^ポ ^{ント程度改善}

 LWLM(g) HPYLM ^組 ^合わ ^有効

 LWLM(g) ^{学習デヸタ} ^異 ^タスク ^頑健

テストデヸタ (Out-Of-Domain)

(33)

60 65 70 75 80 85 90 95 100

10 100 1000

パープレキシテ

HPYLM(g) RNNLM(g) LWLM(g)

140 150 160 170 180 190

10 100 1000

パープレキシ

テ HPYLM(g)

RNNLM(g) LWLM(g)

LWLM(g) ^{高い性能を得} ^た

大量デヸタ生成必要

各生成型プロヸチいパヸプレキシテ変化を調査

生成デヸタ量性能関係

テストデヸタ (In-Domain) ^いテストデヸタ (Out-Of-Domain) ^い

M M M M M M

(34)

生成デヸタ量を変化、テストデヸタ _3-gram

生成デヸタ内程度含いを調査

生成デヸタ量性能比較関考察

ㅉＷㅉㅊ 実際起得事象を多く生成、

高い性能 _N-gram 構築

55 60 65 70 75 80 85

10M 100M 1000M

(ト

％₎

HPYLM(g) LWLM(g)

45 50 55 60 65 70 75

10M 100M 1000M

(ト

)%

HPYLM(g) LWLM(g)

テストデヸタ (In-Domain) ^いテストデヸタ (Out-Of-Domain) ^い

(35)

言語モデル比較対象

MKNLM

Modefied Kneser-Ney Smoothing (3-gram)

HPYLM

^階層^Pitman-Yor^{言語モデル}^(3-gram)

C-HPYLM

^単語^2gram^素性 ^{単語クラスタリング} ^行い、

5000^クラス ^し ^クラスN-gram^モデル (3-gram)

RNNLM

Recurrent Neural Network ^{言語モデル}

1307【SLP研究会】pdf 最近の更新履歴 Ryo Masumura: Web

生成型 プロヸチ

ㅉａㅱㅢㅫㅱ Ｗㅬㅯㅡㅰ ㅉａㅫｇㅲａｇㅢ ㅊㅬㅡㅢㅩ ㅋ - ｇㅯａㅪ近似

ＮＴＴメデ ンテリジェンス研究所

◎増村 亮 , 政瀧 浩和 , 大庭 隆伸 , 岡 理 , 高橋 敏

N-gram モデル 実用的 可 存在

大語彙連 音声認識 け 言語モデル

本研究 デヸタスパヸスネス 問題 着眼 、

そ 解決を図 音声認識 高精度化を目指

N-gram モデル 利点

• シンプル 構造 持 、デコヸデ ング 相性 良い

• Weighted Finite State Transducer (WFST) し 表現可能

N-gram モデル 点

• 長距離文脈 反映 い

• パラメヸタ数 膨大 あ 、 デヸタスパヸスネス 問題 あ

スムヸジング 元削減 ㄯ 代表的 解決方法

デヸタスパヸスネス 解決方法 課題

スムヸジング 元削減 高度化を図 、

モデル構造 複雑化を招 音声認識 利用 困難

スムヸジング 基 く方法

元削減 基 く方法

本研究 方向性

モデル構造 改善を行う く

学習デヸタ 拡張を図 生成型 プロヸチ 着目

言語モデル自体 構造を複雑 く、

デヸタスパヸスネス 解決 期待

 限 学習デヸタ 、学習デヸタ自体 新 生成し、

生成し デヸタ 基 単純 N-gram モデル 学習

デヸタ生成時 、様々 観点 ( スムヸジング、 元削減 )

取 込 複雑 モデル 利用し 、音声認識時 影響 い

本研究 位置 け

生成型 プロヸチ 、複雑 モデル構造を持

言語モデルをㅋ - ｇㅯａㅪ 近似 枠組

本研究 、ㅉａㅱㅢㅫㅱ Ｗㅬㅯㅡㅰ ㅉａㅫｇㅲａｇㅢ ㅊㅬㅡㅢㅩ

新た 着目 、ㅋ - ｇㅯａㅪ近似を試

• Neural Network 言語モデル N-gram 近似 [Arisoy+ 2013]

• Recurrent Neural Network 言語モデル N-gram 近似 [Deoras+, 2013]

 関連研究

近似し い場 比較 劣化 、 1 パス目 高度化 、

最終的 マルチパスデコヸデ ング 性能改善 実現

• クラス N-gram モデル 単語 N-gram モデル 近似 [Wang+ 2004]

生成型 プロヸチ 、複雑 モデル構造を持

言語モデルをㅋ - ｇㅯａㅪモデル 近似 枠組

ㅉａㅱㅢㅫㅱ Ｗㅬㅯㅡㅰ ㅉａㅫｇㅲａｇㅢ ㅊㅬㅡㅢㅩ 詳細

本発表 流

音声認識 利用 課題

生成型 プロヸチ 基 くㅋ - ｇㅯａㅪ近似

� � = � � �, � � � � � � d�

単語 裏 隠 潜在語 を考慮 [Deschacht+ 2012]

ㅉａㅱㅢㅫㅱ Ｗㅬㅯㅡㅰ ㅉａㅫｇㅲａｇㅢ ㅊㅬㅡㅢㅩ ㄥㅉＷㅉㅊㄦ

 ソフトクラス構造 クラス N-gram & クラス数 = 学習デヸタ 語彙サ ズ

ベ ズ推定 実現

� �

�

ㅉＷㅉㅊ 自然言語処理 応用 い 、

音声認識 適用 た例 い

ㅉＷㅉㅊ 特徴

スムヸジング 元削減 両者を

生成モデル 枠組 柔軟 実現

�

�

�

 スムヸジング

�

�

�

 元削減

言語 生成過程を柔軟 捉え い た 、

デヸタスパヸスネス 問題解決 適 い

� ℎ

|ℎ

, ℎ

, � � �

|ℎ

, �

様々 音声認識タスク 頑健 動作 ？

ㅉＷㅉㅊ 音声認識 期待

対象タスク 対 高い音声認識性能 期待

ㅉＷㅉㅊを音声認識 適用 、

従来 術 性能改善 期待

生成型プロヸチ

ㅉａㅱㅢㅫㅱ Ｗㅬㅯㅡㅰ ㅉａㅫｇㅲａｇㅢ ㅊㅬㅡㅢㅩ ㅋ _- ｇㅯａㅪ近似

ＮＴＴメデンテリジェンス研究所

◎増村亮 _, 政瀧浩和 _, 大庭隆伸 _, 岡理 _, 高橋敏

N-gram ^モデル ^実用的 ^可 ^存在

大語彙連音声認識け言語モデル

本研究デヸタスパヸスネス問題着眼、

そ解決を図音声認識高精度化を目指

N-gram ^モデル ^利点

• ^シンプル ^構造 ^持 ^{、デコヸデ} ^ング ^相性 ^良い

• Weighted Finite State Transducer (WFST) ^し ^表現可能

N-gram ^モデル ^点

• ^{長距離文脈} ^反映 ^い

• ^{パラメヸタ数} ^膨大 ^あ ^、 ^{デヸタスパヸスネス} ^問題 ^あ

スムヸジング元削減ㄯ代表的解決方法

デヸタスパヸスネス解決方法課題

スムヸジング元削減高度化を図、

モデル構造複雑化を招音声認識利用困難

スムヸジング基く方法

元削減基く方法

本研究方向性

モデル構造改善を行うく

学習デヸタ拡張を図生成型プロヸチ着目

言語モデル自体構造を複雑く、

デヸタスパヸスネス解決期待

 ^限 ^{学習デヸタ} ^{、学習デヸタ自体} ^新 ^生成し、

生成しデヸタ基単純 _N-gram モデル学習

デヸタ生成時、様々観点 ₍ スムヸジング、元削減 ₎

取込複雑モデル利用し、音声認識時影響い

本研究位置け

生成型プロヸチ、複雑モデル構造を持

言語モデルをㅋ _- ｇㅯａㅪ 近似枠組

本研究、ㅉａㅱㅢㅫㅱ Ｗㅬㅯㅡㅰ ㅉａㅫｇㅲａｇㅢ ㅊㅬㅡㅢㅩ

新た着目、ㅋ _- ｇㅯａㅪ近似を試

• Neural Network ^{言語モデル} ^N-gram ^近似 [Arisoy+ 2013]

• Recurrent Neural Network ^{言語モデル} ^N-gram ^近似 [Deoras+, 2013]

 ^関連研究

近似しい場比較劣化、 ₁ パス目高度化、

最終的マルチパスデコヸデング性能改善実現

• ^クラス ^N-gram ^モデル ^単語 ^N-gram ^モデル ^近似 [Wang+ 2004]

生成型プロヸチ、複雑モデル構造を持

言語モデルをㅋ _- ｇㅯａㅪモデル近似枠組

本発表流

音声認識利用課題

生成型プロヸチ基くㅋ _- ｇㅯａㅪ近似

単語裏隠潜在語を考慮 [Deschacht+ 2012]

 ^{ソフトクラス構造} ^クラス N-gram & ^クラス数 = ^{学習デヸタ} ^語彙サ ^ズ

ベズ推定実現

� ^�

ㅉＷㅉㅊ 自然言語処理応用い、

音声認識適用た例い

スムヸジング元削減両者を

生成モデル枠組柔軟実現

 ^{スムヸジング}

 ^元削減

言語生成過程を柔軟捉えいた、

デヸタスパヸスネス問題解決適い

様々音声認識タスク頑健動作？

ㅉＷㅉㅊ 音声認識期待

対象タスク対高い音声認識性能期待

ㅉＷㅉㅊを音声認識適用、

従来術性能改善期待

タスク変わ高い性能実現期待

単語予測た確率分布簡単算出い

ㄮパスデコヸデング、

リスコリング利用困難

^ℎ

^{, �}

^{� ℎ}

^ℎ

^{, ℎ}

^{, �}

単語予測確率分布 (3-gram LWLM ^{ヷモンテカルロ近似} )

⇒ 通常ハヸドクラスクラス _N-gram モデル

^比 ^、 ₅ _× ^倍 ^計算量 ^必要

ㅉＷㅉㅊ 基くデヸタ生成

単語予測確率分布を求困難、

確率過程従単語列を生成容易

元学習デヸタ含い

ㅉＷㅉㅊ 性質をたデヸタ生成期待