事態の一貫性推定に基づく雑談対話応答選択モデル
田中 翔平
1,吉野幸一郎
12,須藤克仁
1,中村哲
11 奈良先端科学技術大学院大学,2 科学技術振興機構 さきがけ
Abstract |
事態の一貫性に基づき一貫した対話継続性の高い応答を選択する手法の提案対話履歴と応答候補に含まれる事態の一貫性に基づき,ニューラル対話モデル (NCM) が生成した応答候補をリランキングする手法を提案 事態の一貫性を考慮する方法として、因果関係ペアを用いるリランキング、Coherence Model を用いるリランキングを比較
自動評価,人手評価の結果,因果関係ペアを用いるリランキングが最も高い一貫性、対話継続性を持つことを確認
3 Experiments |
自動評価,人手評価による比較 自動評価• RFTM によりリランキングされる応答の割合が大幅に向上
• dist-n, Pointwise Mutual Information (PMI) も RFTM が最も高い 人手評価
• 単語の一貫性は Pairs において向上し,RFTM において低下 事態分散表現が事態を過汎化しているため,因果関係と認め づらい応答も選択されてしまった可能性
• 対話継続性は RFTM において最も向上 Dull response の割合が低下したため
提案手法により応答の一貫性,対話継続性が向上
2 Method |
事態の一貫性に基づく応答のリランキング① NCM を用いて対話履歴から応答候補を生成
② 応答候補を事態の一貫性に基づいてリランキング
事態の一貫性を考慮する方法として異なる2種類を比較 因果関係*ペア [Shibata et al., 2014] を用いるリランキング
因果関係ペアに含まれる事態ペアを一貫していると認定 (Pairs)
事態分散表現 (RFTM [Weber et al., 2018]) を用いることで因果関係ペアに 含まれる事態ペアに類似した事態ペアも一貫していると認定
Coherence Model** [Xu et al., 2019] を用いるリランキング
事態ペアの一貫性のみではなく、応答全体の一貫性を考慮した リランキングが行えることを期待 (Coherence)
1 Introduction |
対話モデルにおける dull response 問題近年 NCM [Vinyals et al., 2015] を用いた対話モデルの研究が盛ん
これらのモデルは柔軟に応答を生成可能な一方,単純でつまらない 応答 (dull response) を生成する傾向にある
提案:事態の一貫性に基づく応答候補のリランキング
リランキングにより一貫した,対話継続性(対話を継続する働き)
の高い応答が選択されることを期待
なるほど 分かりません
「ストレスが溜まる,発散する」という事態ペアの一貫性を考慮した応答の選択 最近ストレス溜まってるんだよね
ユーザ
それは発散した方が 良いですね
×
なるほどシステム
*2つの事態間に原因と結果の関係が成立する関係
自動評価結果
4 Discussion |
リランキング結果の例e.g. 1:適切なリランキング
ユーザ:新年早々体調崩すとは
システム (1-best):大丈夫ですか
システム (Re-ranked (Pairs)):大丈夫ですか無理しないでくださいね
「ストレスが溜まる → 無理をする」という因果関係により適切な応答を選択
下記のような不適切なリランキングが多い
e.g. 2:不適切なリランキング
ユーザ:かれこれ3週間くらい風邪引いてる システム (1-best):お大事に
システム (Re-ranked (Coherence)):風邪治ってきたから 自分(システム)についての発話になっている
今後は生成的アプローチについても検討していく
Re-ranking Re-ranked (%) dist-1 dist-2 PMI
1-best - 0.08 0.19 1.60
Pairs 7.56 0.08 0.19 1.63
RFTM 32.59 0.08 0.20 1.75
Coherence 9.40 0.08 0.19 1.64
AB テスト; 1-best v.s. Re-ranking (Pairs); 評価者: 10; 対話数: 100 32.50
27.50
36.00 40.70
31.50 31.80
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
対話継続性 単語の一貫性
1-best neither Re-ranking (Pairs)
AB テスト; 1-best v.s. Re-ranking (RFTM); 評価者: 10; 対話数: 100 26.10
25.70
44.00 50.40
29.90 23.90
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
対話継続性 単語の一貫性
1-best neither Re-ranking (RFTM)
AB テスト; 1-best v.s. Re-ranking (Coherence); 評価者: 10; 対話数: 100 32.10
27.40
33.10 46.20
34.80
26.40
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
対話継続性 単語の一貫性
1-best neither Re-ranking (Coherence) 対話履歴
ちょっと疲れ ちゃった
…
1. リラックス したら?
2. なるほど
3. 分かりません…
リランキングされた 応答候補
Re-ranker NCM
1 2
1. なるほど
2. 分かりません 3. リラックス
したら?…
応答候補
“疲れる”, “リラックスする” という事態ペアは一貫している
**文書の一貫性推定に用いられるモデル 因果関係ペア
対話履歴中の事態
…
… 疲れる
応答候補中の事態
…
…
リラックスする
ストレスが溜まる
…
…
発散対話履歴
ちょっと疲れちゃった
…
リラックスしたら?
応答候補
対話履歴中の事態 疲れる
リラックスする 応答候補中の事態
一貫性 スコア eh
h r
er RFTM
[Delvin et al., 2019]BERT
MLP