dbdc2 01 higashinaka

(1)

対話破綻検出チレンジ2

オーガイザ：

東中竜一郎 NTT ，船越孝太郎 HRI-JP ，稲葉通将広島

市大，荒瀬由紀阪大，角森唯子 NTT コ

2016.10.5 _{第7回対話} _{ムン} _ウム

(2)

2 背景

• _{現状：対話} _{ム身近} _いえ，

対話続く言い難く対話破綻現象頻発

• 対話破綻検出チン

– _{対話破綻回避} _{，対話破綻認識}

う技術培う場

– _{雑談対象} _世界初 _評価型ワ _ップ

• 対話破綻検出チン 2 今回

– _{複数対話} _{ム対象} _{対話破綻検出}

– 汎用的対話破綻検出技術目指

(3)

タスク設定

対話文脈

直後ム発話

入力

対話破綻

検出器

○ △ _×

出力

対話破綻ラベル

の確率分布

×

＜条件＞

ム発話後

情報反応

検出使わ

い

(4)

4 対話破綻検出器評価

• _{種類評価尺度}

一致系統分布距離系統

複数ノタ多数決基

正解一決，そ正解一

致基く評価尺度

複数ノタ ○△× 実際

分布け正確推定

基く評価尺度

Accuracy

破綻 × 正解率

Precision, Recall, F-measure ( _×)

破綻検出関性能

Precision, Recall, F-measure ( _△+×)

△ × 同時性能

JS Divergence ( _{○, △, ×)}

JS Divergence ( _{○, △+×)}

JS Divergence ( _{○+△, ×)}

Mean Squared Error ( _{○, △, ×)}

Mean Squared Error ( _{○, △+×)}

Mean Squared Error ( _{○+△, ×)}

(5)

ータセッ構築

ム用い対話タ収集，各ム発話い

対話破綻 ³⁰ 人ノタ付与

DCM DIT NEW! IRS NEW!

コ雑談対話API ンソ

雑談対話ム

(Tsukahara et.al

2015, _{塚原 2016)}

用例雑談対話

• IR-STATUS (Ritter ム

et.al 2011)

• 26972 _{個用例}

(6)

6 ータセッ＆配布ータ＇

雑談対話コーパス _DBDC1 _DBDC2

init100 rest1046 dev/test DCM(d/t) DIT(d/t) IRS(d/t)

対話数 ₁₀₀ _1,046 _20/80 _50/50 _50/50 _50/50

アノータ数 ₂₄ _{2 or 3} ₃₀ ₃₀ ₃₀ ₃₀

○ _(O) _59.2% _58.3% _37.1% _39.8% _33.0% _37.4%

△ _(T) _22.2% _25.3% _32.2% _30.2% _27.4% _24.3%

☓ _(X) _18.6% _16.4% _30.6% _29.9% _39.5% _38.3%

Fleiss’ κ _0.28 _0.28 _0.20 _0.31 _0.24 _0.36

κ _{(T = X} ₎ _0.40 _0.40 _0.27 _0.44 _0.38 _0.48

DCM DIT ^＆ NEW! ^＇ IRS ^＆ NEW! ^＇

スムユースムユースムユー

対話あ

単語数

82.7 80.5 319.4 103.3 152.9 98.4

(7)

参加チーム＆８チーム＇手法概要

チーム手法特徴

HCU

広島市大 ^{RNN, MLP} ^RNN タ学習利用． ^{特徴量生成多層} ^{セプン} ^{ン．独自}

Mktn _未

来大 ^Doc2Vec, ^RF ^Doc2Vec 用い特徴量作成，Random Forest ン．

smap

TIS ^{NCM, SVM}

Neural Conversational Model 出力特徴量，SVM

ン．

RSL16BD

早大 ^Word2Vec

Word2Vec _{用い作成} _特徴 _開発 _{タ類似度測定，}

開発タ破綻確率算出用い．発話タン分け，

タン破綻確率算出．

NTTCS

NTT

破綻評価分

布分析，ETR ^破綻タン抽出，タン特徴量設計．Extra Trees

Regression _{分布推定．}

KIT16

京都工繊大 MLP, LSTM,

RCNN

Project Next NLP _策定 _破綻類型 _{破綻検出器学}

習，多層セプンン．Google N-gram 利用．

OKSAT

大教大 ^破綻 ^{観察，} ^作成

kanolab

静大 Word2Vec,

Word2Vec 単語間距離利用，疑問文対疑問文返

検出．BCCWJ 学習利用．

(8)

8 結果一部＆ J S D iv er g enc e ＇

0 0.1 0.2 0.3 0.4 0.5 0.6

NTTCS_2 NTTCS_3 NTTCS_1 RSL16BD_3 RSL16BD_2 HCU_3 HCU_1 KIT16_1 HCU_2 KIT16_2 KIT16_3 RSL16BD_1 majority random smap_1 smap_2 baseline2 OKSAT_1 baseline1 kanolab_1 OKSAT_2 kanolab_2 Mtkn kanolab_3 OKSAT_3

JS (O ,△ ,X )

0 0.1 0.2 0.3 0.4 0.5 0.6

NTTCS_2 NTTCS_1 NTTCS_3 HCU_3 RSL16BD_3 RSL16BD_2 HCU_1 KIT16_2 KIT16_3 KIT16_1 HCU_2 smap_1 RSL16BD_1 majority random smap_2 OKSAT_1 baseline kanolab_1 OKSAT_2 kanolab_2 kanolab_3 OKSAT_3 Mtkn

JS (O ,△ ,X )

0 0.1 0.2 0.3 0.4 0.5 0.6

NTTCS_1 NTTCS_3 NTTCS_2 RSL16BD_2 RSL16BD_3 KIT16_1 HCU_1 HCU_3 KIT16_2 KIT16_3 smap_1 HCU_2 majority RSL16BD_1 random smap_2 baseline OKSAT_1 kanolab_2 kanolab_1 OKSAT_3 kanolab_3 OKSAT_2 Mtkn

JS (O ,△ ,X ) D C M

D IT IR S べ結果予稿集載いン

※ 予稿集訂正表５ M S E 右列目誤 ( O + T, X ) 正 ( O ,T + X )

(9)

9 結果一部＆ラベル一致系統＇

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0

.9 1

NTTCS_2 NTTCS_3 NTTCS_1 RSL16BD_2 RSL16BD_3 HCU_1 HCU_3 OKSAT_1 baseline1 KIT16_2 HCU_2 KIT16_1 kanolab_1 KIT16_3 kanolab_2 OKSAT_2 smap_2 smap_1 kanolab_3 RSL16BD_1 majority OKSAT_3 Mtkn random

A cc u ra cy

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0

.9 1

NTTCS_2 NTTCS_3 NTTCS_1 OKSAT_1 baseline1 OKSAT_3 RSL16BD_3 RSL16BD_2 kanolab_1 KIT16_2 KIT16_1 kanolab_2 HCU_1 HCU_3 smap_1 HCU_2 kanolab_3 smap_2 KIT16_3 OKSAT_2 majority random Mtkn RSL16BD_1

F -m e a su re (X )

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0

.9 1

smap_1 KIT16_2 baseline1 NTTCS_3 NTTCS_1 OKSAT_3 kanolab_1 OKSAT_1 NTTCS_2 HCU_2 kanolab_2 RSL16BD_3 RSL16BD_2 KIT16_1 kanolab_3 KIT16_3 smap_2 HCU_3 random HCU_1 majority OKSAT_2

dbdc2 01 higashinaka

対話破綻検出チ レンジ2

オーガ イザ：

東中竜一郎 NTT ，船越孝太郎 HRI-JP ，稲葉通将 広島

市大 ，荒瀬由紀 阪大 ，角森唯子 NTT コ

2016.10.5 第7回対話 ム ン ウム

2

背景

• 現状：対話 ム 身近 いえ，

対話 続く 言い難く 対話破綻 現象 頻発

• 対話破綻検出チ ン

– 対話破綻 回避 ，対話破綻 認識

う 技術 培う場

– 雑談 対象 世界初 評価型ワ ップ

• 対話破綻検出チ ン 2 今回

– 複数 対話 ム 対象 対話破綻検出

– 汎用的 対話破綻検出技術 目指

タスク設定

対話文脈

直後 ム発話

入力

対話破綻

検出器

○ △ ×

出力

対話破綻ラベル

対話破綻ラベル

の確率分布

×

＜条件＞

ム発話 後

情報 反応

検出 使わ

い

4

対話破綻検出器 評価

• 種類 評価尺度

一致系統 分布距離系統

複数 ノ タ 多数決 基

正解 一 決 ，そ 正解 一

致 基 く評価尺度

複数 ノ タ ○△× 実際

分布 け正確 推定

基 く評価尺度

Accuracy

破綻 × 正解率

Precision, Recall, F-measure ( ×)

破綻 検出 関 性能

Precision, Recall, F-measure ( △+×)

△ × 同 時 性能

JS Divergence ( ○, △, ×)

JS Divergence ( ○, △+×)

JS Divergence ( ○+△, ×)

Mean Squared Error ( ○, △, ×)

Mean Squared Error ( ○, △+×)

Mean Squared Error ( ○+△, ×)

ータセッ 構築

ム 用い 対話 タ 収集 ，各 ム発話 い

対話破綻 30 人 ノ タ 付与

DCM DIT NEW! IRS NEW!

コ 雑談対話API ンソ

雑談対話 ム

(Tsukahara et.al

2015, 塚原 2016)

用例 雑談対話

• IR-STATUS (Ritter ム

et.al 2011)

• 26972 個 用例

6

ータセッ ＆配布 ータ＇

雑談対話コーパス DBDC1 DBDC2

init100 rest1046 dev/test DCM(d/t) DIT(d/t) IRS(d/t)

対話数 100 1,046 20/80 50/50 50/50 50/50

アノ ータ数 24 2 or 3 30 30 30 30

○ (O) 59.2% 58.3% 37.1% 39.8% 33.0% 37.4%

△ (T) 22.2% 25.3% 32.2% 30.2% 27.4% 24.3%

☓ (X) 18.6% 16.4% 30.6% 29.9% 39.5% 38.3%

Fleiss’ κ 0.28 0.28 0.20 0.31 0.24 0.36

κ (T = X ) 0.40 0.40 0.27 0.44 0.38 0.48

DCM DIT ＆ NEW! ＇ IRS ＆ NEW! ＇

対話破綻検出チレンジ2

オーガイザ：

東中竜一郎 NTT ，船越孝太郎 HRI-JP ，稲葉通将広島

市大，荒瀬由紀阪大，角森唯子 NTT コ

2016.10.5 _{第7回対話} _{ムン} _ウム

• _{現状：対話} _{ム身近} _いえ，

対話続く言い難く対話破綻現象頻発

• 対話破綻検出チン

– _{対話破綻回避} _{，対話破綻認識}

う技術培う場

– _{雑談対象} _世界初 _評価型ワ _ップ

• 対話破綻検出チン 2 今回

– _{複数対話} _{ム対象} _{対話破綻検出}

– 汎用的対話破綻検出技術目指

直後ム発話

○ △ _×

ム発話後

情報反応

検出使わ

対話破綻検出器評価

• _{種類評価尺度}

一致系統分布距離系統

複数ノタ多数決基

正解一決，そ正解一

致基く評価尺度

複数ノタ ○△× 実際

分布け正確推定

基く評価尺度

Precision, Recall, F-measure ( _×)

破綻検出関性能

Precision, Recall, F-measure ( _△+×)

△ × 同時性能

JS Divergence ( _{○, △, ×)}

JS Divergence ( _{○, △+×)}

JS Divergence ( _{○+△, ×)}

Mean Squared Error ( _{○, △, ×)}

Mean Squared Error ( _{○, △+×)}

Mean Squared Error ( _{○+△, ×)}

ータセッ構築

ム用い対話タ収集，各ム発話い

対話破綻 ³⁰ 人ノタ付与

コ雑談対話API ンソ

雑談対話ム

2015, _{塚原 2016)}

用例雑談対話

• 26972 _{個用例}

ータセッ＆配布ータ＇

雑談対話コーパス _DBDC1 _DBDC2

対話数 ₁₀₀ _1,046 _20/80 _50/50 _50/50 _50/50

アノータ数 ₂₄ _{2 or 3} ₃₀ ₃₀ ₃₀ ₃₀

○ _(O) _59.2% _58.3% _37.1% _39.8% _33.0% _37.4%

△ _(T) _22.2% _25.3% _32.2% _30.2% _27.4% _24.3%

☓ _(X) _18.6% _16.4% _30.6% _29.9% _39.5% _38.3%

Fleiss’ κ _0.28 _0.28 _0.20 _0.31 _0.24 _0.36

κ _{(T = X} ₎ _0.40 _0.40 _0.27 _0.44 _0.38 _0.48

DCM DIT ^＆ NEW! ^＇ IRS ^＆ NEW! ^＇

スムユースムユースムユー

参加チーム＆８チーム＇手法概要

チーム手法特徴

広島市大 ^{RNN, MLP} ^RNN タ学習利用． ^{特徴量生成多層} ^{セプン} ^{ン．独自}

Mktn _未

来大 ^Doc2Vec, ^RF ^Doc2Vec 用い特徴量作成，Random Forest ン．

TIS ^{NCM, SVM}

Neural Conversational Model 出力特徴量，SVM

ン．

早大 ^Word2Vec

Word2Vec _{用い作成} _特徴 _開発 _{タ類似度測定，}

開発タ破綻確率算出用い．発話タン分け，

タン破綻確率算出．

破綻評価分

布分析，ETR ^破綻タン抽出，タン特徴量設計．Extra Trees

Regression _{分布推定．}

Project Next NLP _策定 _破綻類型 _{破綻検出器学}

習，多層セプンン．Google N-gram 利用．

大教大 ^破綻 ^{観察，} ^作成

Word2Vec 単語間距離利用，疑問文対疑問文返

検出．BCCWJ 学習利用．

D IT IR S べ結果予稿集載いン

※ 予稿集訂正表５ M S E 右列目誤 ( O + T, X ) 正 ( O ,T + X )

結果一部＆ラベル一致系統＇