LM masumura 最近の更新履歴 Ryo Masumura: Web

(1)

国際会議 INTERSPEECH2015 ^報告

言語モデルヷ音声言語理解

NTT Media Intelligence Laboratories

増村亮

(2)

1 注目べ文献

 ^{音声言語理解}

• ^{音声認識結果} ^ラテ ^{スを直接扱う} [Svec+, IS2015]

 ^{音声言語処理} ^しい拡張

 マルチタスクラヸニング ₍ そ中工夫 ₎

• ^単語系列 ^予測 ^ラベル ^予測 [Tam+, IS2015]

• ^意図決定 ^{スロットフ} ^{ルタリング} [Liu+, IS2015]

 ^{言語モデル}

• ^単語系列 ^{サブワヸド系列を同時} ^利用 [Arisoy+, IS2015]

時間関係上、深層学習関連絞 ₄ 文献を紹

(3)

簡単３基本モデルをい

※ 後段文献紹必要

そ前

(4)

3 基本モデル

 ^単語系列生成モデルㄥ言語モデルㄦ

� � � �

Output Layer

(softmax layer)

Word embedding

Recurrent Layer

� � � </s>

RNN or LSTM ^例

� � , … , � _� ^{をモデル化}

<s>

�

(5)

基本モデル

 ^{系列ラべリングモデル}

 ^{スロットフ} ^{ルタリング}

� � � �

Output Layer

(softmax layer)

Word embedding

Recurrent Layer

� _� _� _�

RNN or LSTM ^例

� � , … , � _� |� , … , � _� ^{をモデル化}

(6)

5 基本モデル

 ^文 ^意図推定

� � � �

 ^文 ⁽ ^{可変長単語系列} ⁾ ^{分類モデル}

� =

RNN or LSTM ^例 _CNN ^例

� � � �

Pooling

Convolution

(window size:2)

�

� =

�

Word

embedding

Word

embedding

Recurrent

Layer

Output Layer

Output

Layer

� �|� , … , � _� ^{をモデル化}

(7)

文献紹

 ^{音声言語理解}

• ^{音声認識結果} ^ラテ ^{スを直接扱う} [Svec+ IS2015]

 ^{音声言語処理} ^しい拡張

 マルチタスクラヸニング ₍ そ中工夫 ₎

• ^単語系列 ^予測 ^ラベル ^予測 [Tam+ IS2015]

• ^意図決定 ^{スロットフ} ^{ルタリング} [Liu+ IS2015]

 ^{言語モデル}

• ^単語系列 ^{サブワヸド系列を同時} ^利用 [Arisoy+ IS2015]

(8)

7 [Arisoy+, IS2015] ^概要

� � _� �

� � _� </s>

<s>

�

<s> � � � � � � � �

単語

系列

文

系列

日 ₊ キョウ ₊ ハ晴 ₊ ハレ ₊ デスをメヸジ

サブワヸドや品詞情報を使う研究

あ、非同期扱う点新しい

※基本モデル拡張

○モチベヸション：言語モデル性能を高い

(9)

[Arisoy+, IS2015] ^概要

(3-gram LM)

キヸワヸド検索

性能

性能的ンパクトあい、

初期的検討後発展期待

○実験：音声認識性能評価

(10)

9 文献紹

 ^{音声言語理解}

• ^{音声認識結果} ^ラテ ^{スを直接扱う} [Svec+ IS2015]

 ^{音声言語処理} ^しい拡張

 マルチタスクラヸニング ₍ そ中工夫 ₎

• ^単語系列 ^予測 ^ラベル ^予測 [Tam+ IS2015]

• ^意図決定 ^{スロットフ} ^{ルタリング} [Liu+ IS2015]

 ^{言語モデル}

• ^単語系列 ^{サブワヸド系列を同時} ^利用 [Arisoy+ IS2015]

(11)

� _� _� _�

Output Layer

(softmax layer)

Word embedding

Recurrent Layer

� � _� _� _� _� _� </s>

[Tam+, IS2015] ^概要

単語系列ラベル系列同時分布

� � , … , � _� , � , … , � _� ^{をモデル化} ^試 ^新しい

※ 基本モデル融合

○モチベヸション：

単語ラベル付い学習デヸタを増やしい

(12)

11 [Tam+, IS2015] ^概要

ヷ _CRF ベヸス分類器 _RNN ベヸス分類器

性質を組込可能

ヷ既 _CRF ベヸス分類器をシステム的変え済

○利用方法：ランダムサンプリング疑似的

^ラベル付テキストデヸタを水増し

○実験：スロットフルタリング評価

CRF with ^元デヸタ

CRF with

元デヸタ ₊ 生成デヸタ

RNN with ^元デヸタ

(13)

文献紹

 ^{音声言語理解}

• ^{音声認識結果} ^ラテ ^{スを直接扱う} [Svec+ IS2015]

 ^{音声言語処理} ^しい拡張

 マルチタスクラヸニング ₍ そ中工夫 ₎

• ^単語系列 ^予測 ^ラベル ^予測 [Tam+ IS2015]

• ^意図決定 ^{スロットフ} ^{ルタリング} [Liu+ IS2015]

 ^{言語モデル}

• ^単語系列 ^{サブワヸド系列を同時} ^利用 [Arisoy+ IS2015]

(14)

13 � _� _� �

� _� _� _�

pooling

�

系列個々ラベル文ラベルを同時予測

� �, � , … , � _� � , … , � _� ^{をモデル化}

※基本モデル融合

[Liu+, IS2015] ^概要

Recurrent

convolution layer

(window size:3)

○モチベヸション：意図決定スロットフルタリング

^を同時 ^学習 ^{相乗効果を出し} ^い

(15)

[Liu+, IS2015] ^概要

SVM ^ベヸス ^{意図推定や}

CRF ^ベヸス ^{スロットフ} ^{ルタリング} ^比較し ^有効

※ マルチタスク学習自体有効性従来研究記述

○実験：

^意図推定 ^{スロットフ} ^{ルタリング} ^評価

SVM Intent Accuracy 94.34

Multi-task

Recurrent Convolution NN Intent Accuracy ^94.49

CRF Slot F1 88.38

Multi-task

Recurrent Convolution NN F1 ^89.29

(16)

15 文献紹

 ^{音声言語理解}

• ^{音声認識結果} ^ラテ ^{スを直接扱う} [Svec+ IS2015]

 ^{音声言語処理} ^しい拡張

 マルチタスクラヸニング ₍ そ中工夫 ₎

• ^単語系列 ^予測 ^ラベル ^予測 [Tam+ IS2015]

• ^意図決定 ^{スロットフ} ^{ルタリング} [Liu+ IS2015]

 ^{言語モデル}

• ^単語系列 ^{サブワヸド系列を同時} ^利用 [Arisoy+ IS2015]

(17)

[Svec+, IS2015] ^概要

� /0.4 � /1.0

� /0.6

� /1.0

� � � � ^Prob

� ¹ ⁰ ⁰ ⁰ ^0.6

� ⁰ ¹ ⁰ ⁰ ^0.6

� ⁰ ⁰ ¹ ⁰ ^0.4

� ⁰ ⁰ ⁰ ¹ ^1.0

� ¹ ¹ ⁰ ⁰ ^0.6

� ⁰ ¹ ⁰ ¹ ^0.6

� ⁰ ⁰ ¹ ¹ ^0.4

○モチベヸション：認識結果複数仮説ㄥラテスㄦ

^を利用 ^文分類 ^性能を上 ^い

� � � � � � � �

�

pooling

ラテス様々窓を実施し

ベクトル (Bag-Of-Words ^表現 ⁾ ^を作 ^、

そを _CNN ベヸス扱う

ラテス

(18)

17 [Svec+, IS2015] ^概要

正解文

1-best

ラテス

ラテスを直接利用しモデル化、

従来 _1-best を使う場合性能改善

○実験：文分類タスク評価

^※ _1-best ^{単語正解精度} _63%

LM masumura 最近の更新履歴 Ryo Masumura: Web

国際会議 INTERSPEECH2015 報告

言語モデルヷ音声言語理解

NTT Media Intelligence Laboratories

増村 亮

1

注目 べ 文献

 音声言語理解

• 音声認識結果 ラテ スを直接扱う [Svec+, IS2015]

 音声言語処理 しい拡張

 マルチタスクラヸニング ( そ 中 工夫 )

• 単語系列 予測 ラベル 予測 [Tam+, IS2015]

• 意図決定 スロットフ ルタリング [Liu+, IS2015]

 言語モデル

• 単語系列 サブワヸド系列を同時 利用 [Arisoy+, IS2015]

時間 関係上、深層学習関連 絞 4 文献を紹

簡単 ３ 基本モデルを い

※ 後段 文献紹 必要

そ 前

3

基本モデル

 単語系列 生成モデルㄥ言語モデルㄦ

� � � �

Output Layer

(softmax layer)

Word embedding

Recurrent Layer

� � � </s>

RNN or LSTM 例

� � , … , � � をモデル化

<s>

�

基本モデル

 系列ラべリングモデル

 スロットフ ルタリング

� � � �

Output Layer

(softmax layer)

Word embedding

Recurrent Layer

� � � �

RNN or LSTM 例

� � , … , � � |� , … , � � をモデル化

5

基本モデル

 文 意図推定

� � � �

 文 ( 可変長単語系列 ) 分類モデル

� =

RNN or LSTM 例 CNN 例

� � � �

Pooling

Convolution

(window size:2)

�

� =

�

Word

embedding

Word

embedding

Recurrent

Layer

Output Layer

Output

Layer

� �|� , … , � � をモデル化

文献紹

 音声言語理解

• 音声認識結果 ラテ スを直接扱う [Svec+ IS2015]

 音声言語処理 しい拡張

 マルチタスクラヸニング ( そ 中 工夫 )

• 単語系列 予測 ラベル 予測 [Tam+ IS2015]

• 意図決定 スロットフ ルタリング [Liu+ IS2015]

 言語モデル

• 単語系列 サブワヸド系列を同時 利用 [Arisoy+ IS2015]

7

[Arisoy+, IS2015] 概要

� � � �

� � � </s>

国際会議 INTERSPEECH2015 ^報告

増村亮

注目べ文献

 ^{音声言語理解}

• ^{音声認識結果} ^ラテ ^{スを直接扱う} [Svec+, IS2015]

 ^{音声言語処理} ^しい拡張

 マルチタスクラヸニング ₍ そ中工夫 ₎

• ^単語系列 ^予測 ^ラベル ^予測 [Tam+, IS2015]

• ^意図決定 ^{スロットフ} ^{ルタリング} [Liu+, IS2015]

 ^{言語モデル}

• ^単語系列 ^{サブワヸド系列を同時} ^利用 [Arisoy+, IS2015]

時間関係上、深層学習関連絞 ₄ 文献を紹

簡単３基本モデルをい

※ 後段文献紹必要

そ前

 ^単語系列生成モデルㄥ言語モデルㄦ

RNN or LSTM ^例

� � , … , � _� ^{をモデル化}

 ^{系列ラべリングモデル}

 ^{スロットフ} ^{ルタリング}

� _� _� _�

RNN or LSTM ^例

� � , … , � _� |� , … , � _� ^{をモデル化}

 ^文 ^意図推定

 ^文 ⁽ ^{可変長単語系列} ⁾ ^{分類モデル}

RNN or LSTM ^例 _CNN ^例

� �|� , … , � _� ^{をモデル化}

 ^{音声言語理解}

• ^{音声認識結果} ^ラテ ^{スを直接扱う} [Svec+ IS2015]

 ^{音声言語処理} ^しい拡張

 マルチタスクラヸニング ₍ そ中工夫 ₎

• ^単語系列 ^予測 ^ラベル ^予測 [Tam+ IS2015]

• ^意図決定 ^{スロットフ} ^{ルタリング} [Liu+ IS2015]

 ^{言語モデル}

• ^単語系列 ^{サブワヸド系列を同時} ^利用 [Arisoy+ IS2015]

[Arisoy+, IS2015] ^概要

� � _� �

� � _� </s>

日 ₊ キョウ ₊ ハ晴 ₊ ハレ ₊ デスをメヸジ

あ、非同期扱う点新しい

※基本モデル拡張

○モチベヸション：言語モデル性能を高い

[Arisoy+, IS2015] ^概要

性能的ンパクトあい、

初期的検討後発展期待

○実験：音声認識性能評価

 ^{音声言語理解}

• ^{音声認識結果} ^ラテ ^{スを直接扱う} [Svec+ IS2015]

 ^{音声言語処理} ^しい拡張

 マルチタスクラヸニング ₍ そ中工夫 ₎

• ^単語系列 ^予測 ^ラベル ^予測 [Tam+ IS2015]

• ^意図決定 ^{スロットフ} ^{ルタリング} [Liu+ IS2015]

 ^{言語モデル}

• ^単語系列 ^{サブワヸド系列を同時} ^利用 [Arisoy+ IS2015]

� _� _� _�

� � _� _� _� _� _� </s>

[Tam+, IS2015] ^概要

単語系列ラベル系列同時分布

� � , … , � _� , � , … , � _� ^{をモデル化} ^試 ^新しい

※ 基本モデル融合

単語ラベル付い学習デヸタを増やしい

[Tam+, IS2015] ^概要

ヷ _CRF ベヸス分類器 _RNN ベヸス分類器

性質を組込可能

ヷ既 _CRF ベヸス分類器をシステム的変え済

○利用方法：ランダムサンプリング疑似的

^ラベル付テキストデヸタを水増し

○実験：スロットフルタリング評価

CRF with ^元デヸタ

元デヸタ ₊ 生成デヸタ

RNN with ^元デヸタ

 ^{音声言語理解}

• ^{音声認識結果} ^ラテ ^{スを直接扱う} [Svec+ IS2015]

 ^{音声言語処理} ^しい拡張

 マルチタスクラヸニング ₍ そ中工夫 ₎

• ^単語系列 ^予測 ^ラベル ^予測 [Tam+ IS2015]

• ^意図決定 ^{スロットフ} ^{ルタリング} [Liu+ IS2015]

 ^{言語モデル}

• ^単語系列 ^{サブワヸド系列を同時} ^利用 [Arisoy+ IS2015]

� _� _� �