対話破綻検出チ レンジ2
オーガ イザ:
東中竜一郎 NTT ,船越孝太郎 HRI-JP ,稲葉通将 広島
市大 ,荒瀬由紀 阪大 ,角森唯子 NTT コ
2016.10.5 第7回対話 ム ン ウム
2
Copyright©2016 NTT corp. All Rights Reserved.
背景
• 現状:対話 ム 身近 いえ,
対話 続く 言い難く 対話破綻 現象 頻発
• 対話破綻検出チ ン
– 対話破綻 回避 ,対話破綻 認識
う 技術 培う場
– 雑談 対象 世界初 評価型ワ ップ
• 対話破綻検出チ ン 2 今回
– 複数 対話 ム 対象 対話破綻検出
– 汎用的 対話破綻検出技術 目指
タスク設定
対話文脈
直後 ム発話
入力
対話破綻
検出器
○ △ ×
出力
対話破綻ラベル
対話破綻ラベル
の確率分布
×
<条件>
ム発話 後
情報 反応
検出 使わ
い
4
Copyright©2016 NTT corp. All Rights Reserved.
対話破綻検出器 評価
• 種類 評価尺度
一致系統 分布距離系統
複数 ノ タ 多数決 基
正解 一 決 ,そ 正解 一
致 基 く評価尺度
複数 ノ タ ○△× 実際
分布 け正確 推定
基 く評価尺度
Accuracy
破綻 × 正解率
Precision, Recall, F-measure ( ×)
破綻 検出 関 性能
Precision, Recall, F-measure ( △+×)
△ × 同 時 性能
JS Divergence ( ○, △, ×)
JS Divergence ( ○, △+×)
JS Divergence ( ○+△, ×)
Mean Squared Error ( ○, △, ×)
Mean Squared Error ( ○, △+×)
Mean Squared Error ( ○+△, ×)
ータセッ 構築
ム 用い 対話 タ 収集 ,各 ム発話 い
対話破綻 30 人 ノ タ 付与
DCM DIT NEW! IRS NEW!
コ 雑談対話API ンソ
雑談対話 ム
(Tsukahara et.al
2015, 塚原 2016)
用例 雑談対話
• IR-STATUS (Ritter ム
et.al 2011)
• 26972 個 用例
6
Copyright©2016 NTT corp. All Rights Reserved.
ータセッ &配布 ータ'
雑談対話コーパス DBDC1 DBDC2
init100 rest1046 dev/test DCM(d/t) DIT(d/t) IRS(d/t)
対話数 100 1,046 20/80 50/50 50/50 50/50
アノ ータ数 24 2 or 3 30 30 30 30
○ (O) 59.2% 58.3% 37.1% 39.8% 33.0% 37.4%
△ (T) 22.2% 25.3% 32.2% 30.2% 27.4% 24.3%
☓ (X) 18.6% 16.4% 30.6% 29.9% 39.5% 38.3%
Fleiss’ κ 0.28 0.28 0.20 0.31 0.24 0.36
κ (T = X ) 0.40 0.40 0.27 0.44 0.38 0.48
DCM DIT & NEW! ' IRS & NEW! '
ス ム ユー ス ム ユー ス ム ユー
対話あ
単語数
82.7 80.5 319.4 103.3 152.9 98.4
参加チーム&8チーム' 手法概要
チーム 手法 特徴
HCU
広島市大 RNN, MLP RNN タ 学習 利用. 特徴量生成 多層 セプ ン ン .独自
Mktn 未
来大 Doc2Vec, RF Doc2Vec 用い 特徴量作成,Random Forest ン .
smap
TIS NCM, SVM
Neural Conversational Model 出力 特徴量 ,SVM
ン .
RSL16BD
早大 Word2Vec
Word2Vec 用い 作成 特徴 開発 タ 類似度 測定,
開発 タ 破綻確率 算出 用い . 発話 タ ン分け ,
タ ン 破綻確率 算出.
NTTCS
NTT
破綻 評価分
布分析,ETR 破綻 タ ン 抽出, タ ン 特徴量 設計.Extra Trees
Regression 分布推定.
KIT16
京都工繊大 MLP, LSTM,
RCNN
Project Next NLP 策定 破綻類型 破綻検出器 学
習,多層 セプ ン ン .Google N-gram 利用.
OKSAT
大教大 破綻 観察 , 作成
kanolab
静大 Word2Vec,
Word2Vec 単語間距離 利用,疑問文 対 疑問文 返
検出.BCCWJ 学習 利用.
8
Copyright©2016 NTT corp. All Rights Reserved.結果一部& J S D iv er g enc e '
0 0.1 0.2 0.3 0.4 0.5 0.6
NTTCS_2 NTTCS_3 NTTCS_1 RSL16BD_3 RSL16BD_2 HCU_3 HCU_1 KIT16_1 HCU_2 KIT16_2 KIT16_3 RSL16BD_1 majority random smap_1 smap_2 baseline2 OKSAT_1 baseline1 kanolab_1 OKSAT_2 kanolab_2 Mtkn kanolab_3 OKSAT_3
JS (O ,△ ,X )
0 0.1 0.2 0.3 0.4 0.5 0.6
NTTCS_2 NTTCS_1 NTTCS_3 HCU_3 RSL16BD_3 RSL16BD_2 HCU_1 KIT16_2 KIT16_3 KIT16_1 HCU_2 smap_1 RSL16BD_1 majority random smap_2 OKSAT_1 baseline kanolab_1 OKSAT_2 kanolab_2 kanolab_3 OKSAT_3 Mtkn
JS (O ,△ ,X )
0 0.1 0.2 0.3 0.4 0.5 0.6
NTTCS_1 NTTCS_3 NTTCS_2 RSL16BD_2 RSL16BD_3 KIT16_1 HCU_1 HCU_3 KIT16_2 KIT16_3 smap_1 HCU_2 majority RSL16BD_1 random smap_2 baseline OKSAT_1 kanolab_2 kanolab_1 OKSAT_3 kanolab_3 OKSAT_2 Mtkn
JS (O ,△ ,X ) D C M
D IT IR S べ 結果 予稿集 載 い ン
※ 予稿集訂正 表5 M S E 右 列 目 誤 ( O + T, X ) 正 ( O ,T + X )
9
Copyright©2016 NTT corp. All Rights Reserved.結果一部&ラ ベ ル一致 系統'
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0
.9 1
NTTCS_2 NTTCS_3 NTTCS_1 RSL16BD_2 RSL16BD_3 HCU_1 HCU_3 OKSAT_1 baseline1 KIT16_2 HCU_2 KIT16_1 kanolab_1 KIT16_3 kanolab_2 OKSAT_2 smap_2 smap_1 kanolab_3 RSL16BD_1 majority OKSAT_3 Mtkn random
A cc u ra cy
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0
.9 1
NTTCS_2 NTTCS_3 NTTCS_1 OKSAT_1 baseline1 OKSAT_3 RSL16BD_3 RSL16BD_2 kanolab_1 KIT16_2 KIT16_1 kanolab_2 HCU_1 HCU_3 smap_1 HCU_2 kanolab_3 smap_2 KIT16_3 OKSAT_2 majority random Mtkn RSL16BD_1
F -m e a su re (X )
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0
.9 1
smap_1 KIT16_2 baseline1 NTTCS_3 NTTCS_1 OKSAT_3 kanolab_1 OKSAT_1 NTTCS_2 HCU_2 kanolab_2 RSL16BD_3 RSL16BD_2 KIT16_1 kanolab_3 KIT16_3 smap_2 HCU_3 random HCU_1 majority OKSAT_2
F -m e a su re (T + X ) 3 つ ス ム に
対す 結果
マ ク ロ 平均 C R F ベ ー ス ラ イ ン
10
Copyright©2016 NTT corp. All Rights Reserved.
詳しく 各チーム 発表を
お聞きく さい!
本日 進行
• 各チ ム 口頭発表 80分
– 各発表 0 分 厳守
– 時間 関係 質疑 あ せ
– 質問 総合討論 時間 願い
• 総合討論 20分
– 参加者, ,会場 全員 ,今回 結
果や今後 課題 い 議論
• 謝辞 次
12
Copyright©2016 NTT corp. All Rights Reserved.