• 検索結果がありません。

1307【SLP研究会】pdf 最近の更新履歴 Ryo Masumura: Web

N/A
N/A
Protected

Academic year: 2018

シェア "1307【SLP研究会】pdf 最近の更新履歴 Ryo Masumura: Web"

Copied!
35
0
0

読み込み中.... (全文を見る)

全文

(1)

生成型 プロヸチ

ㅉaㅱㅢㅫㅱ Wㅬㅯㅡㅰ ㅉaㅫgㅲagㅢ ㅊㅬㅡㅢㅩ ㅋ - gㅯaㅪ近似

NTTメデ ンテリジェンス研究所

◎増村 亮 , 政瀧 浩和 , 大庭 隆伸 , 岡 理 , 高橋 敏

(2)
(3)

N-gram モデル 実用的 存在

大語彙連 音声認識 け 言語モデル

本研究 デヸタスパヸスネス 問題 着眼 、

そ 解決を図 音声認識 高精度化を目指

N-gram モデル 利点

シンプル 構造 、デコヸデ ング 相性 良い

• Weighted Finite State Transducer (WFST) 表現可能

N-gram モデル

長距離文脈 反映

パラメヸタ数 膨大 デヸタスパヸスネス 問題

(4)

スムヸジング 元削減 ㄯ 代表的 解決方法

デヸタスパヸスネス 解決方法 課題

スムヸジング 元削減 高度化を図 、

モデル構造 複雑化を招 音声認識 利用 困難

スムヸジング 基 く方法

• Modefied Kneser-Neyスムヸジング [Chen+ 1999]

ズ的スムヸジング:階層Pitman-Yor LM [Teh+ 2006]

元削減 基 く方法

単語クラスタリング くクラスN-gramモデル [Brown+ 1992]

文脈情報 クラスタリング: 決定木 [Potamianos+ 1998] [Xu+ 2004]

• Neural network 言語モデル [Bengio+ 2003] [Mikolov+ 2011]

(5)

本研究 方向性

モデル構造 改善を行う く

学習デヸタ 拡張を図 生成型 プロヸチ 着目

言語モデル自体 構造を複雑 く、

デヸタスパヸスネス 解決 期待

学習デヸタ 、学習デヸタ自体 生成し、

生成し デヸタ 基 単純 N-gram モデル 学習

デヸタ生成時 、様々 観点 ( スムヸジング、 元削減 )

取 込 複雑 モデル 利用し 、音声認識時 影響 い

デヸタ 生成モデル

学習デヸタ 生成デヸタ

N-gram モデル

(6)

本研究 位置 け

生成型 プロヸチ 、複雑 モデル構造を持

言語モデルをㅋ - gㅯaㅪ 近似 枠組

本研究 、ㅉaㅱㅢㅫㅱ Wㅬㅯㅡㅰ ㅉaㅫgㅲagㅢ ㅊㅬㅡㅢㅩ

新た 着目 、ㅋ - gㅯaㅪ近似を試

• Neural Network 言語モデル N-gram 近似 [Arisoy+ 2013]

• Recurrent Neural Network 言語モデル N-gram 近似 [Deoras+, 2013]

関連研究

近似し い場 比較 劣化 、 1 パス目 高度化 、

最終的 マルチパスデコヸデ ング 性能改善 実現

クラス N-gram モデル 単語 N-gram モデル 近似 [Wang+ 2004]

生成型 プロヸチ 、複雑 モデル構造を持

言語モデルをㅋ - gㅯaㅪモデル 近似 枠組

(7)

ㅉaㅱㅢㅫㅱ Wㅬㅯㅡㅰ ㅉaㅫgㅲagㅢ ㅊㅬㅡㅢㅩ 詳細

本発表 流

音声認識 利用 課題

生成型 プロヸチ 基 くㅋ - gㅯaㅪ近似

(8)

� � = � � �, � � � � � � d�

単語 裏 隠 潜在語 を考慮 [Deschacht+ 2012]

ㅉaㅱㅢㅫㅱ Wㅬㅯㅡㅰ ㅉaㅫgㅲagㅢ ㅊㅬㅡㅢㅩ ㄥㅉWㅉㅊㄦ

ソフトクラス構造 クラス N-gram & クラス数 = 学習デヸタ 語彙サ

あのー 明日

�−�−

�−�−

明日�+

�+

�+

�+

階層Pitman-Yor過程 従い生成

リクレ事前分布 従い生成

潜在語系列

単語系列

ベ ズ推定 実現

パラメヸタ

ㅉWㅉㅊ 自然言語処理 応用 い 、

音声認識 適用 た例 い

(9)

ㅉWㅉㅊ 特徴

スムヸジング 元削減 両者を

生成モデル 枠組 柔軟 実現

潜在語領域 階層Pitman-Yor Prior 基 くベ ズ的スムヸジング 導入

スムヸジング

語彙空間 潜在語 割 当 う、 元削減 実現

元削減

言語 生成過程を柔軟 捉え い た 、

デヸタスパヸスネス 問題解決 適 い

� ℎ

|ℎ

�−

, ℎ

�−

, � � �

|ℎ

, �

(10)

様々 音声認識タスク 頑健 動作 ?

ㅉWㅉㅊ 音声認識 期待

対象タスク 対 高い音声認識性能 期待

潜在語 考慮し 学習基準 識別性能 向上

ㅉWㅉㅊを音声認識 適用 、

従来 術 性能改善 期待

タスク 変わ 高い性能 実現 期待

ソフトクラス 構造や膨大 クラス数、ベ 枠組

基 く柔軟 モデル化 、高い汎化性能

通常 N-gram 性質 、組 相乗効果

(11)

単語予測 た 確率分布 簡単 算出 い

ㅉWㅉㅊ 課題

ㄮパスデコヸデ ング 、

リスコ リング 利用 困難

� �

|�

�−

, �

�−

= � � �

, �

� ℎ

�−

, ℎ

�−

, �

�− �−

単語予測 確率分布 (3-gram LWLM ヷモンテカルロ近似 )

クラス数 あ 、 学習デヸタ

語彙サ ズ分存在ㄥ例ㄦ50000単語

⇒ 通常 ハヸドクラス クラス N-gram モデル

5 × 計算量 必要

モンテカルロ近似し 場

サンプル数分存在()100サンプル

ハヸドクラス クラスN-gramモデル 計算

(12)

ㅉWㅉㅊ 基 くデヸタ生成

単語予測 確率分布を求 困難 、

確率過程 従 単語列を生成 容易

元 学習デヸタ 含 い

ㅉWㅉㅊ 性質を たデヸタ 生成 期待

あのー 明日

�−�−

�−�−

明日

�+

�+

�+

�+

~� �

|�

~� ℎ

|ℎ

�−

, ℎ

�−

, �

~� �

|ℎ

, �

学習デヸタ パラメヸタ 選択

潜在語 生成

観測語 生成

(13)

ランダムサンプリング 基 ㅉWㅉㅊをㅋ - gㅯaㅪ 近似、

、通常 ㅋ - gㅯaㅪ 線形補間 混合

提案法 全体像 ( ㅉWㅉㅊ ㅋ - gㅯaㅪ近似 )

LWLM

LWLMベヸス N-gram

学習デヸタ 生成デヸタ

LWLM 学習

ランダム

サンプリング N-gram近似

通常 N-gram

提案法 流

N-gram 線形補間 モデル混

ㅉWㅉㅊ 性質を たㅋ - gㅯaㅪモデル

構築 期待 、音声認識 簡単 利用可能

(14)

実験

(15)

生成型 プロヸチ 基 くㅉWㅉㅊ ㅋ - gㅯaㅪ近似

有効性 検証

実験 目的

2 期待

従来 ㅋ - gㅯaㅪモデル 比較実験 検証

⇒ 言語モデルの学習データ 異なるタスク(Out-Of-Domain) の検証

⇒ 言語モデルの学習データ 同一タスク (In-Domain) の検証

対象タスク 対 高い音声認識性能 期待

タスク 変わ 高い性能 実現 期待

(16)

日本語話 言葉コヸパス (CSJ) を利用

実験条件

学習デヸタ CSJ2672 講演

開発デヸタ (In-Domain) CSJ10 講演 ( 学会講演 )

テストデヸタ A (In-Domain) CSJ10 講演 ( 学会講演 )

テストデヸタ B (Out-Of-Domain) コンタクトセンタタスク

テストデヸタ C (Out-Of-Domain) スメヸルタスク

デコヸダ Voice Rex (WFST-based)

音響モデル Triphone GMM-HMM

評価指標 、

パヸプレキシテ ヷ単語誤 率 (WER) 観点 行う

(17)

4手法 言語モデルを構築 比較

比較手法

MKNLM

Modefied Kneser-Ney Smoothing

HPYLM

階層Pitman-Yor言語モデル

LWLM(g)

学習し LWLM 単語列 ランダム 生成し

階層Pitman-Yor言語モデル 近似

LWLM(g)+HPYLM

上記HPYLM LWLM(g) 線形補間

語彙サ 83,536 単語 3-gram 言語モデル

パヸパラメヸタや補間係数 開発デヸタ 調整

い ㄮパスデコヸデ ング 利用 、

ARPA フォヸマット 記述可能

(18)

生成 デヸタ量 性能 関係を調査

開発デヸタ 対 パヸプレキシテ 結果

70 75 80 85 90 95 100

生成し 単語 (M単語)

101 102 103

MKNLM

HPYLM

LWLM(g)

䐢LWLM(g)+HPYLM

LWLM(g)

大量 デヸタ生成 行え 、

HPYLM 同等 性能 実現

LWLM(g)+HPYLM

HPYLM LWLM(g) 相補的

従来 MKNLM HPYLM

提案法 パヸプレキシテ を改善可能

(19)

単語誤 率 (Word Error Rate) 評価

テストデヸタ 対 認識実験 結果

Test A (ID) Test B (OOD) Test C (OOD)

MKNLM 28.80 % 49.32 % 40.78 %

HPYLM 27.94 % 48.72 % 40.68 %

LWLM(g) 27.85 % 46.86 % 38.71 %

LWLM(g)+HPYLM 26.42 % 46.19 % 37.92 %

学習デヸタ 同一タスク(ID)

• LWLM(g) HPYLM 同等

• LWLM(g)+HPYLM 最高性能

学習デヸタ 異 タスク(OOD)

• LWLM(g) HPYLM 高い性能

 LWLM HPYLM 合わ 有効

 LWLM 学習デヸタ タスク 頑健

• LWLM(g)+HPYLM 最高性能

(20)

提案手法 対 考察

(21)

、普通 クラスㅋ - gㅯaㅪ 比 ?

ソフトクラスタリング構造 膨大 潜在語空間

汎化性能 向上 寄 い

ㅉWㅉㅊ う 汎化性能 高い

C-HPYLM

単語2-gram素性 単語クラスタリング [Brown+, 1992] 行い 5000クラス クラス系列 階層Pitman-Yor 3-gramモデル

Test A (ID) Test B (OOD) Test C (OOD)

HPYLM 27.94 % 48.72 % 40.68 %

C-HPYLM 28.08 % 48.96 % 40.96 %

LWLM(g) 27.85 % 46.86 % 38.71 %

単純 ハヸドクラスタリング クラス化 汎化性能 向上 不十分

WER 評価

(22)

あ、Rㅋㅋㅉㅊ 比 ?

ㄮパス目 提案手法を利用 、

ㄯパス目 Rㅋㅋㅉㅊを組合わ 理想的

RNNLM

開発デヸタ 最適化し Recurrent Neural Network 言語モデル、 中間層500、出力層 クラス化1000 [ Mikolov+, 2011]

※ 1パスデコヸデ ング 利用 い

Iㅫ -Domain Rㅋㅋㅉㅊ 強い 、

Out-Of-Domain ㅉWㅉㅊ 有効

Test A (ID) Test B (OOD) Test C (OOD)

HPYLM 67.50 158.13 175.63

RNNLM 61.28 145.05 158.57

LWLM(g) 66.93 141.34 147.87

LWLM(g)+HPYLM+RNNLM 53.36 120.21 133.09

パヸプレキシテ 評価

(23)

結局、提案手法 何 いい ?

ㅉWㅉㅊ 質 高いデヸタを生成 、

- gㅯaㅪ 近似 た場合 性能 高い

ㅉWㅉㅊ 実際 起 得 言語現象を多く生成

 HPYLM LWLM 用い デヸタ 生成

テストデヸタ 3-gram 生成デヸタ内 程度含 い 調査

55 60 65 70 75 80 85

10M 100M 1000M

(

)

HPYLM(g) LWLM(g)

45 55 65 75

10M 100M 1000M

(

)%

HPYLM(g) LWLM(g)

テストデヸタA (In-Domain) テストデヸタ C (Out-Of-Domain)

生成し 単語 生成し 単語

(24)

26 26.5 27 27.5 28

100 1000 10000 100000 W

E

(R

)%

ルサ (MB)

37 38 39 40 41

100 1000 10000 100000 W

E

(R

)%

ルサ (MB)

モデル縮退 大丈夫!

モデルサ ズ大 く 点 ?

テストデヸタ A (In-Domain) テストデヸタ C (Out-Of-Domain)

元 学習デヸタ 学習 た HPYLM

同程度 縮退 提案法 高い性能を実現

HPYLM

LWLM(g)+HPYLM

HPYLM

LWLM(g)+HPYLM

 Entropy Pruning [Stolcke, 1998] モデル縮退 実施し、

スキヸ形式 ARPA フォヸマット フ ルサ ズ 比較

(25)
(26)

生成型 プロヸチ ㅉWㅉㅊ ㅋ - gㅯaㅪ近似を提案

結果

様々 タスク 頑健 動作し

通常 N-gram モデル 比較し 高い性能 実現

性能改善 LWLM 実際 言語現象

多く生成 起因

実用 場面 、モデルサ 問題

Entropy Pruning モデル縮退 行い利用

今後 課題

言語モデル適応 枠組 生成型 プロヸチ

(27)

清聴あ う い た

(28)

単語パヸプレキシテ 評価

テストデヸタ 対 パヸプレキシテ 結果

Test1 (ID) Test2 (OOD) Test3(OOD)

MKNLM 79.32 164.07 189.91

HPYLM 67.50 158.13 175.62

LWLM 66.93 141.34 147.87

HPYPLM+LWLM 62.05 134.64 141.23

学習デヸタ 同一タスク(ID)

• LWLM HPYLM 同等

• HPYLM+LWLM 最高性能

学習デヸタ 異 タスク(OOD)

• LWLM HPYLM 高い性能

• HPYLM+LWLM 最高性能

 LWLM HPYLM 合わ 有効

 LWLM 学習デヸタ タスク 頑健

(29)

ㅉWㅉㅊ 確率過程 従い順番 単語を生成

ㅉWㅉㅊ 基 くランダムサンプリング

~� ℎ|ℎ�− , ℎ�− , �

~� �|� =

~� �|ℎ, �

� < �

� + +

� =

あのー 明日

�−�−

�−�−

あのー 明日

�−�−

�−�−

メヸジ メヸジ

ㅉWㅉㅊ自体 スムヸジング 元削減 効果 、

元 デヸタ い新た 単語連鎖を生成

� , � , ⋯ , �

�−

N-gram 言語モデル 学習

� �

(30)

モンテカルロ積分 近似 利用

ㅉWㅉㅊ モデル学習

� � � = � � �, � � � � � � � d�

ズ推定 予測分布 直接モデル化

� � � ≅ � � � �,�

� � �

学習デヸタ

サンプル得 積分消去

学習デヸタ

生成し得種類 無限 存在

� ⋯ �

モデルパラメヸタ 割 当 、

ギブスサンプリングを利用可能

(31)

提案法 性能改善 ?

In-Domain デヸタ 評価実験

 LWLM(g) HPYLM 合わ 有効

 LWLM(g) HPYLM 性能 同等

パヸプレキシテ WER(%)

MKNLM 73.09 28.80

HPYLM 67.50 27.94

C-HPYLM 69.36 28.08

RNNLM 61.28 -

HPYLM(g) 70.43 28.04

RNNLM(g) 82.23 28.84

LWLM(g) 66.93 27.85

LWLM(g)+HPYLM 62.05

26.42

LWLM(g)+HPYLM +RNNLM 53.36 -

RNNLM 性能 高い 音声認識

マルチパス 必要

他 生成型 プロヸチ 有効 あ 、 HPYLM 同等 性能

HPYLM LWLM(g) 異 性質 持 、

組 わ 改善

テストデヸタ (In-Domain)

(32)

提案法 マルチドメ ン 頑健 動作 ?

Out-Of-Domain デヸタ 評価実験

パヸプレキシテ WER(%)

MKNLM 189.91 40.78

HPYLM 175.62 40.68

C-HPYLM 180.89 40.96

RNNLM 158.57 -

HPYLM(g) 177.61 41.07

RNNLM(g) 163.99 39.44

LWLM(g) 147.87 38.71

LWLM(g)+HPYLM 141.23

37.92

LWLM(g)+HPYLM +RNNLM 133.09 -

単純 クラス化 、 汎化性能 高

柔軟 モデル構造

、汎化性能

高 、

RNNLM以上 性能

一般的 MKNLM 比較し

3 ント程度改善

 LWLM(g) HPYLM 合わ 有効

 LWLM(g) 学習デヸタ タスク 頑健

テストデヸタ (Out-Of-Domain)

(33)

60 65 70 75 80 85 90 95 100

10 100 1000

HPYLM(g) RNNLM(g) LWLM(g)

140 150 160 170 180 190

10 100 1000

HPYLM(g)

RNNLM(g) LWLM(g)

LWLM(g) 高い性能を得

大量 デヸタ生成 必要

各生成型 プロヸチ い パヸプレキシテ 変化を調査

生成デヸタ量 性能 関係

テストデヸタ (In-Domain) テストデヸタ (Out-Of-Domain)

M M M M M M

(34)

生成デヸタ量を変化 、テストデヸタ 3-gram

生成デヸタ内 程度含 い を調査

生成デヸタ量 性能 比較 関 考察

ㅉWㅉㅊ 実際 起 得 事象を多く生成 、

高い性能 N-gram 構築

55 60 65 70 75 80 85

10M 100M 1000M

(

)

HPYLM(g) LWLM(g)

45 50 55 60 65 70 75

10M 100M 1000M

(

)%

HPYLM(g) LWLM(g)

テストデヸタ (In-Domain) テストデヸタ (Out-Of-Domain)

(35)

言語モデル 比較対象

MKNLM

Modefied Kneser-Ney Smoothing (3-gram)

HPYLM

階層Pitman-Yor言語モデル (3-gram)

C-HPYLM

単語2gram素性 単語クラスタリング 行い、

5000クラス クラスN-gramモデル (3-gram)

RNNLM

Recurrent Neural Network 言語モデル

7 手法 モデルを準備、 たモデル間 線形補間 実施

HPYLM(g)

上記HPYLM 生成型 プロヸチ 構築 (3-gram)

RNNLM(g)

上記RNNLM 生成型 プロヸチ 構築 (3-gram)

LWLM(g)

提案法:LWLM 生成型 プロヸチ 構築 (3-gram)

RNNLM 以外 ㄮパスデコヸデ ング 利用

ARPA フォヸマット 記述可能

参照

関連したドキュメント

It was shown clearly that an investigation candidate had a difference in an adaptation tendency according to a student's affiliation environment with the results at the time of

○本時のねらい これまでの学習を基に、ユニットテーマについて話し合い、自分の考えをまとめる 学習活動 時間 主な発問、予想される生徒の姿

波部忠重 監修 学研生物図鑑 貝Ⅱ(1981) 株式会社 学習研究社 内海富士夫 監修 学研生物図鑑 水生動物(1981) 株式会社 学習研究社. 岡田要 他

支援級在籍、または学習への支援が必要な中学 1 年〜 3

具体的な取組の 状況とその効果 に対する評価.

具体的な取組の 状況とその効果 に対する評価.

学年 海洋教育充当科目・配分時数 学習内容 一年 生活科 8 時間 海辺の季節変化 二年 生活科 35 時間 海の生き物の飼育.. 水族館をつくろう 三年

国際地域理解入門B 国際学入門 日本経済基礎 Japanese Economy 基礎演習A 基礎演習B 国際移民論 研究演習Ⅰ 研究演習Ⅱ 卒業論文