雑談対話システムをどう評価すべきか- TripiaBot のライブコンペ予選通過から考える-

(1)

雑談対話システムをどう評価すべきか

- TripiaBot

のライブコンペ予選通過から考える

-How should We Evaluate Chat-oriented Dialogue Systems?

稲葉通将

1∗

1

_{電気通信大学}

1

_{The University of Electro-Cummunications}

Abstract: TripiaBot is a chat-oriented system that outputs 16 pre-defined utterances in a predetermined order, and it does not change these utterances and output order at all regardless of users’ responses. Nevertheless, TripiaBot got through the qualifying round at the Dialogue System Live Competition 2. It demonstrates the diﬃculty of evaluating chat-oriented dialogue systems. This paper describes the design of TripiaBot and an overview of evaluation scales used in the studies of chat-oriented dialogue systems. This paper also discusses how we should evaluate chat-oriented dialogue systems appropriately.

1 はじめに

雑談対話システムをどう評価するべきか，というのは重要な課題である．著者が構築したはあらかじめ用意した 16 個の発話を決められた順番通りに出力するだけのシステムであり，ユーザがどのような発話を行おうとも，システムが出力する発話は一切変化しない．にもかかわらず，第 10 回対話システムシンポジウム内で開催された対話システムライブコンペティション 2[1] において，TripiaBot は予選を 1 位タイで通過した．このことは，雑談対話システムの評価の難しさを端的に示している．本稿では，TripiaBot の設計方針について述べるとともに，雑談対話システム研究で使われているシステムの評価尺度について概観し，雑談対話システムをどうすれば適切に評価できるかについて考察する．

2 TripiaBot

TripiaBot は，表 1 に示す発話を上から順に出力するシステムである．本システムでは，入力されたユーザの発話がどのようなものであっても，発話の内容や出力の順番は一切変化しない．本システムで最も重要な点は，スクリプトをいかに作成するかということである．以下では，このスクリプトの設計方針について述べる． ∗_{連絡先：電気通信大学} 〒 182-8585 東京都調布市調布ケ丘１丁目５−１ Email: [email protected] まず，全体的な方針は，システム側が対話の主導権を握る内容とすることである．具体的には，ユーザに質問する発話や同意を求める発話を多用することで，ユーザの応答の幅を狭め，主導権を奪われにくくしている．また，1 つ前の発話に対し，ユーザの行う応答を予測した上で次の発話を作成することで，ユーザの話をあたかも聞いているような応答になるようにした．話題は多くのユーザが興味を持つと思われる「旅行」とした．さらに，旅行に関する雑学を次々に語ることで，最後までユーザの興味を引き続けることを目指した．対話システムライブコンペティション 2 の予選では，「どれくらいまた話したいと思うか」という評価軸にて 5 段階評価 (1:全くそう思わない∼5:とてもそう思う) が行われた．評価は 50 人のクラウドワーカーにより行われ，TripiaBot は平均評価 4.20，全 9 システム中 1 位タイであり，スクリプトの設計方針は概ね適切であったと思われる．表 2 に予選の際の実際の対話例の一部を示す．この対話例からも，TripiaBot が主導権を握り，ユーザの応答の幅を狭めつつ，ユーザの応答を予測したスクリプトの設計が有効であったことがわかる．

3 雑談対話システムの評価尺度

ユーザと「対話」しているとは言い難い TripiaBot がクラウドワーカーから高い評価を得たのは，ライブコンペティションにおいて用いられた評価尺度の限界を示唆している．そこでここからは，雑談対話システム研究で用いられている評価尺度を紹介し，それぞれの人工知能学会研究会資料 SIG-SLUD-B902-11 － 54 －

(2)

表 1: TripiaBot のスクリプトこんにちは！私はシンといいます。あなたのお名前を教えていただけますか？では、短い間ですがよろしくおねがいします。実は私、旅行が好きでよく行くのですが、あなたはよく旅行には行きますか？そうなんですね。実は旅行って、健康にも良いってことご存知ですか？旅行に行くとストレスが解消されて健康になる、っていうのもあるんですが、旅行に行くと心臓病になりにくいという研究結果があるんですよ。その研究によると、半年に 1 回以上旅行に行くと、心臓病のリスクが低下するんだそうですよ。旅行に行って、楽しくて、さらに健康になるなんて最高だと思いません？さらに、アメリカのアーカンソー大学の研究によると、高齢者になってからも定期的に旅行に行くことで、寿命も伸びるらしいですよ。これは、旅行先でいろいろな刺激を受けて脳が活性化したり、あとは夫婦で旅行に行くことで一層仲が良くなったりするってことが要因のようですよ。ところで、あなたが旅行で一番楽しいと思う時ってどんな時ですか？私は旅行先で新しい文化に触れるときが一番楽しみなのですが、科学的には旅行で一番幸福度が高くなるのは、実は旅行の前らしいですよ！旅行中よりも、旅行の前のほうが幸せって結構驚きですよね。人間は未来のことを考えると幸せになるっていう性質があることが関係しているみたいです。例えば、なにか欲しい物があった時、実際に手に入れた後よりも手に入る前のほうが楽しい感じってなんとなくわかりますよね。なので、旅行は出発の何週間か前にしっかり予定を立てることが楽しい旅行をする秘訣らしいです！そういった意味では、ガイド付きのツアー旅行よりも、自分でいろいろ計画して行くのが良いみたいですね。おっと、残念ですがそろそろ時間ですね。あなたとお話していて、なんだか旅行に行きたくなってきました！それでは、また機会がありましたらお話しましょう。ありがとうございました！特徴について述べるとともに，対話システムを適切に評価するためにはどうすべきかについても議論する．

表 2: TripiaBot の対話例 (T:TripiaBot, U:ユーザ) T では、短い間ですがよろしくおねがいします。実は私、旅行が好きでよく行くのですが、あなたはよく旅行には行きますか？ U 殆ど国内旅行ですがよく行くほうだと思います。 T そうなんですね。実は旅行って、健康にも良いってことご存知ですか？ U 知ってます。日頃のストレスから解放されるからですかね。 T 旅行に行くとストレスが解消されて健康になる、っていうのもあるんですが、旅行に行くと心臓病になりにくいという研究結果があるんですよ。 U それは知りませんでした。

3.1 人手評価

雑談対話システムの評価は現状，人手によって行うのが妥当だとされており，ライブコンペティションでも人手による評価を採用している．人手による評価は評価を対話ごとに行うか，発話ごとに行うかで大きく 2 つに分けることができる． 3.1.1 対話ごとの評価対話ごとの評価は，システムとユーザが対話を行い，対話終了時に対話を行ったユーザ本人がシステムの評価を行う方法である．評価尺度としては「もう一度話したいか」(対話システムライブコンペティション [1]， Amazon Alexa Prize[2])，「流暢性 (fluency)，興味を引いたか (engageness), 一貫性 (consistency)」(ConvAI[3]) などがある．対話ごとの評価は実際にユーザと対話を行った上で評価を行うため，実際に対話システムを運用する場合に近い評価が可能である．しかし，対話のどこに着目して評価するかという点は個人差が大きく，評価のばらつきは大きくなりがちである．よって，性能が拮抗しているシステム間の性能差の検出力は小さい．また，ほとんどの場合，同じユーザとは 1 回，多くても数回しか対話を行わないため，システムが多様な対話が可能かという評価には適さない．したがって，TripiaBot のように作り込まれたシステムを過剰に高く評価してしまう危険性がある． 3.1.2 発話ごとの評価発話ごとの評価は，評価者に文脈とそれに対する発話が与えられ，その発話を人手で評価する方法である．－ 55 －

(3)

発話評価に関しては絶対評価と相対評価に大きく分けることができる．

絶対評価は，発話に対して点数やラベルを付与することで行う．具体例としては，「文脈との関係と一貫性 (context relevance and coherence)」[4]「論理性 (logic)」 [5]，対話破綻ラベル [6] などがある．絶対評価による発話ごとの評価は，対話ごとの評価と比べ，評価する観点がより具体的であることから，システム間の性能差の検出力が比較的大きいことがメリットである．また，実際にユーザと対話したログを用いることができるため，対話ごとの評価と同様，対話システムを運用する場合に近い評価が可能である．一方で，発話単位では問題なくとも，対話単位で見ると問題のあるシステム，例えば高頻度で質問を行い，ユーザが詰問されているような印象を受けるようなシステムに対して高い評価を与える可能性がある．また，対話ごとの評価と同じく，作り込まれたシステムを過剰に高く評価してしまう可能性がある点は共通している．他方，相対評価は，同一の文脈に対し，2 つ以上のシステムが発話を生成し，どの発話が優れているかを順位付けすることにより行う．評価基準としては「発話の質 (quality)」[7]，「適切さ (appropriateness)」[8]，「有益さ (informativeness)」[9] などがある．相対評価による発話ごとの評価は，システム間の性能差の検出力が大きい点がメリットである．ただし，相対評価の場合，複数のシステムに同一の文脈を与える必要があることから，実際にユーザと対話して得られた文脈は使用せず，人間同士の対話ログの一部を文脈として用いることが広く行われている．この場合，人間同士の対話中に突如として一方の人間とシステムが入れ替わって対話を行うという特殊な状況設定で評価を行うことになるため，実際に対話システムを運用した場合の性能と乖離する危険性がある．

3.2 自動評価

人手による評価はコストが高いため，自動で評価を行うことも多い．以下では，そのいくつかを紹介する． 3.2.1 他タスクにおける自動評価尺度を用いた評価最近では，対話システムとは別の自然言語処理のタスクにおける自動評価尺度を用いてシステムの評価を行うことも多い．人間同士の対話ログから抽出した文脈をシステムに与えることで発話を生成し，その発話が実際のログ中の発話をどの程度再現できたかにより評価する．評価尺度としては，機械翻訳の評価尺度である BLEU や Word Error Rate，自動要約の評価尺度である ROUGE，言語モデルの評価尺度である Perplexity などが使用される．しかし，これらの評価尺度による評価は人手評価との相関が低いことが指摘されている．これは，生成した発話が実際に使われた発話と全く違うものであったとしても，適切な発話は無数に存在するためである．この欠点を補うため，1 つの文脈に対して複数の正解発話を作成し，それらを用いて BLEU や ROUGE を計算することで，人手評価との相関を高めることができたという研究もある [10]． 3.2.2 機械学習を用いた評価機械学習により人手による評価を代替することを目指したものである．機械学習を用いた自動評価手法としては，隠れマルコフモデルを用いた手法 [11]，回帰モデルを用いた手法 [12]，ニューラルネットワークベースの手法などが提案されている [13]．しかし，機械学習に基づく手法は敵対的なシステムに対する頑健性の欠如が指摘されており [14]，人手による評価を代替するには至っていないのが現状である． 3.2.3 発話中の語彙による評価単純なニューラル対話モデルは簡潔で単純な応答を頻繁に出力する傾向があるため，応答の多様性を評価する場合も多い．頻繁に用いられるのは，システムの出力した全発話から計算した n-gram の Type Token Ratio である (distinct-n とも呼ばれる)．n-gram の Type Token Ratio は，異なり n-gram 数を総語数で正規化した値である．応答の多様性に関しては，人手による主観評価は不向きであり，客観的な自動評価によって行う必要があると思われる．

4 考察

以上，TripiaBot の設計方針と雑談対話システムの評価に用いられる評価尺度について見てきた．人手評価は対話や発話の質や内容を適切に評価することが可能であるが，同一システムによる複数の対話間の多様性の評価は困難である．一方で，自動評価については，質や内容の評価は人手との相関の低さや頑健性の点で課題があるが，多様性に関しては人手よりも適切に評価可能である．よって，雑談対話システムを評価する際は，人手による評価と自動評価による多様性の評価を組み合わせることが望ましいと思われる．対話システムライブコンペティション 2 の予選において TripiaBot が 1 位タイの得点を獲得したのは，評価尺度が人手による評価のみであったことが要因の 1 つである．－ 56 －

(4)

人手評価については，「対話ごとの評価」，「発話ごとの絶対評価」，「発話ごとの相対評価」の 3 つに大きく分けられるが，実際にシステムを運用する場合に近い評価が可能であることから，「対話ごとの評価」と「発話ごとの絶対評価」による評価が望ましいと考える．特に，対話ごとの評価のために取得した対話ログは，発話ごとの絶対評価でも使用可能であるため，2 つを同時に行うと効率的である．同様の理由で，発話ごとの相対評価は，比較システムとの性能差が小さい場合にのみ使用するのが望ましい．その際，人間同士の対話ログからではなく，人とそれぞれの評価対象システムとの対話ログから同数ずつ文脈を取得し，その文脈に対して発話を生成することで，より実運用に近い評価ができる可能性がある．

5 まとめ

本稿では，TripiaBot の設計方針と雑談対話システムの評価のために用いられている指標を概観するとともに，TripiaBot が第 2 回対話システムライブコンペティションの予選を通過した要因と，雑談対話システムをどのように評価すべきかについて考察を行った．

参考文献

[1] 東中竜一郎, 船越孝太郎, 稲葉通将, 角森唯子, 高橋哲朗, 赤間怜奈, 宇佐美まゆみ, 川端良子, 水上雅博. 対話システムライブコンペティション 2. 人工知能学会言語・音声理解と対話処理研究会第 87 回 (第 10 回対話システムシンポジウム), 2019.

[2] Ashwin Ram, Rohit Prasad, Chandra Khatri, Anu Venkatesh, Raefer Gabriel, Qing Liu, Jeﬀ Nunn, Behnam Hedayatnia, Ming Cheng, Ashish Nagar, et al. Conversational ai: The sci-ence behind the alexa prize. arXiv preprint arXiv:1801.03604, 2018.

[3] Emily Dinan, Varvara Logacheva, Valentin Ma-lykh, Alexander Miller, Kurt Shuster, Jack Ur-banek, Douwe Kiela, Arthur Szlam, Iulian Ser-ban, Ryan Lowe, et al. The second conversational intelligence challenge (convai2). arXiv preprint

arXiv:1902.00098, 2019.

[4] Tong Niu and Mohit Bansal. Polite dialogue generation without parallel data. Transactions

of the Association for Computational Linguistics,

Vol. 6, pp. 373–389, 2018.

[5] Qiao Qian, Minlie Huang, Haizhou Zhao, Jing-fang Xu, and Xiaoyan Zhu. Assigning person-ality/profile to a chatting machine for coherent

conversation generation. In Proceedings of

IJ-CAI, pp. 4279–4285, 2018.

[6] 東中竜一郎, 船越孝太郎, 稲葉通将, 荒瀬由紀, 角森 唯子ほか. 対話破綻検出チャレンジ 2. SIG-SLUD, Vol. 5, No. 02, pp. 64–69, 2016.

[7] Jiwei Li, Michel Galley, Chris Brockett, Jian-feng Gao, and Bill Dolan. A diversity-promoting objective function for neural conversation mod-els. In Proceedings of NAACL-HLT, pp. 110–119, 2016.

[8] Marjan Ghazvininejad, Chris Brockett, Ming-Wei Chang, Bill Dolan, Jianfeng Gao, Wen-tau Yih, and Michel Galley. A knowledge-grounded neural conversation model. In Proceedings of

AAAI, 2018.

[9] Deng Cai, Yan Wang, Wei Bi, Zhaopeng Tu, Xiaojiang Liu, Wai Lam, and Shuming Shi. Skeleton-to-response: Dialogue generation guided by retrieval memory. In Proceedings of

NAACL-HLT, pp. 1219–1228, 2019.

[10] Prakhar Gupta, Shikib Mehri, Tiancheng Zhao, Amy Pavel, Maxine Eskenazi, and Jeﬀrey P Bigham. Investigating evaluation of open-domain dialogue systems with human generated multiple references. In Proceedings of SIGDIAL, pp. 379– 391, 2019.

[11] 磯村直樹, 鳥海不二夫, 石井健一郎. HMM による非タスク指向型対話システムの評価. 電子情報通信学会論文誌 D, Vol. 92, No. 4, pp. 542–551, 2009.

[12] Hiroaki Sugiyama, Toyomi Meguro, and Ryuichiro Higashinaka. Automatic evaluation of chat-oriented dialogue systems using large-scale multi-references. In Advanced Social Interaction

with Agents, pp. 15–25. Springer, 2019.

[13] Ryan Lowe, Michael Noseworthy, Iulian Vlad Serban, Nicolas Angelard-Gontier, Yoshua Ben-gio, and Joelle Pineau. Towards an automatic turing test: Learning to evaluate dialogue re-sponses. In Proceedings of ACL, pp. 1116–1126, 2017.

[14] Ananya Sai, Mithun Das Gupta, Mitesh Khapra, and Mukundhan Srinivasan. Re-evaluating adem: A deeper look at scoring dialogue re-sponses. Proceedings of AAAI, Vol. 33, pp. 6220– 6227, 07 2019.

雑談対話システムをどう評価すべきか- TripiaBot のライブコンペ予選通過から考える-