• 検索結果がありません。

雑談対話システムをどう評価すべきか- TripiaBot のライブコンペ予選通過から考える-

N/A
N/A
Protected

Academic year: 2021

シェア "雑談対話システムをどう評価すべきか- TripiaBot のライブコンペ予選通過から考える-"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

雑談対話システムをどう評価すべきか

- TripiaBot

のライブコンペ予選通過から考える

-How should We Evaluate Chat-oriented Dialogue Systems?

稲葉 通将

1

1

電気通信大学

1

The University of Electro-Cummunications

Abstract: TripiaBot is a chat-oriented system that outputs 16 pre-defined utterances in a predetermined order, and it does not change these utterances and output order at all regardless of users’ responses. Nevertheless, TripiaBot got through the qualifying round at the Dialogue System Live Competition 2. It demonstrates the difficulty of evaluating chat-oriented dialogue systems. This paper describes the design of TripiaBot and an overview of evaluation scales used in the studies of chat-oriented dialogue systems. This paper also discusses how we should evaluate chat-oriented dialogue systems appropriately.

1

はじめに

雑談対話システムをどう評価するべきか,というの は重要な課題である.著者が構築した はあらかじめ用 意した 16 個の発話を決められた順番通りに出力するだ けのシステムであり,ユーザがどのような発話を行お うとも,システムが出力する発話は一切変化しない.に もかかわらず,第 10 回対話システムシンポジウム内で 開催された対話システムライブコンペティション 2[1] において,TripiaBot は予選を 1 位タイで通過した.こ のことは,雑談対話システムの評価の難しさを端的に 示している. 本稿では,TripiaBot の設計方針について述べるとと もに,雑談対話システム研究で使われているシステム の評価尺度について概観し,雑談対話システムをどう すれば適切に評価できるかについて考察する.

2

TripiaBot

TripiaBot は,表 1 に示す発話を上から順に出力する システムである.本システムでは,入力されたユーザ の発話がどのようなものであっても,発話の内容や出 力の順番は一切変化しない. 本システムで最も重要な点は,スクリプトをいかに 作成するかということである.以下では,このスクリ プトの設計方針について述べる. 連絡先: 電気通信大学 〒 182-8585 東京都調布市調布ケ丘1丁目5−1 Email: [email protected] まず,全体的な方針は,システム側が対話の主導権を 握る内容とすることである.具体的には,ユーザに質問 する発話や同意を求める発話を多用することで,ユー ザの応答の幅を狭め,主導権を奪われにくくしている. また,1 つ前の発話に対し,ユーザの行う応答を予測し た上で次の発話を作成することで,ユーザの話をあた かも聞いているような応答になるようにした.話題は 多くのユーザが興味を持つと思われる「旅行」とした. さらに,旅行に関する雑学を次々に語ることで,最後 までユーザの興味を引き続けることを目指した. 対話システムライブコンペティション 2 の予選では, 「どれくらいまた話したいと思うか」という評価軸にて 5 段階評価 (1:全くそう思わない∼5:とてもそう思う) が 行われた.評価は 50 人のクラウドワーカーにより行わ れ,TripiaBot は平均評価 4.20,全 9 システム中 1 位タ イであり,スクリプトの設計方針は概ね適切であった と思われる.表 2 に予選の際の実際の対話例の一部を 示す.この対話例からも,TripiaBot が主導権を握り, ユーザの応答の幅を狭めつつ,ユーザの応答を予測し たスクリプトの設計が有効であったことがわかる.

3

雑談対話システムの評価尺度

ユーザと「対話」しているとは言い難い TripiaBot が クラウドワーカーから高い評価を得たのは,ライブコ ンペティションにおいて用いられた評価尺度の限界を 示唆している.そこでここからは,雑談対話システム 研究で用いられている評価尺度を紹介し,それぞれの 人工知能学会研究会資料 SIG-SLUD-B902-11 - 54 -

(2)

表 1: TripiaBot のスクリプト こんにちは!私はシンといいます。あなたのお名前 を教えていただけますか? では、短い間ですがよろしくおねがいします。実は 私、旅行が好きでよく行くのですが、あなたはよく 旅行には行きますか? そうなんですね。実は旅行って、健康にも良いって ことご存知ですか? 旅行に行くとストレスが解消されて健康になる、っ ていうのもあるんですが、旅行に行くと心臓病にな りにくいという研究結果があるんですよ。 その研究によると、半年に 1 回以上旅行に行くと、 心臓病のリスクが低下するんだそうですよ。旅行に 行って、楽しくて、さらに健康になるなんて最高だ と思いません? さらに、アメリカのアーカンソー大学の研究による と、高齢者になってからも定期的に旅行に行くこと で、寿命も伸びるらしいですよ。 これは、旅行先でいろいろな刺激を受けて脳が活性 化したり、あとは夫婦で旅行に行くことで一層仲が 良くなったりするってことが要因のようですよ。 ところで、あなたが旅行で一番楽しいと思う時って どんな時ですか? 私は旅行先で新しい文化に触れるときが一番楽しみ なのですが、科学的には旅行で一番幸福度が高くな るのは、実は旅行の前らしいですよ! 旅行中よりも、旅行の前のほうが幸せって結構驚き ですよね。 人間は未来のことを考えると幸せになるっていう性 質があることが関係しているみたいです。例えば、 なにか欲しい物があった時、実際に手に入れた後よ りも手に入る前のほうが楽しい感じってなんとなく わかりますよね。 なので、旅行は出発の何週間か前にしっかり予定を 立てることが楽しい旅行をする秘訣らしいです! そういった意味では、ガイド付きのツアー旅行より も、自分でいろいろ計画して行くのが良いみたいで すね。 おっと、残念ですがそろそろ時間ですね。あなたと お話していて、なんだか旅行に行きたくなってきま した! それでは、また機会がありましたらお話しましょう。 ありがとうございました! 特徴について述べるとともに,対話システムを適切に 評価するためにはどうすべきかについても議論する.

表 2: TripiaBot の対話例 (T:TripiaBot, U:ユーザ) T では、短い間ですがよろしくおねがいします。 実は私、旅行が好きでよく行くのですが、あな たはよく旅行には行きますか? U 殆ど国内旅行ですがよく行くほうだと思います。 T そうなんですね。実は旅行って、健康にも良いっ てことご存知ですか? U 知ってます。日頃のストレスから解放されるか らですかね。 T 旅行に行くとストレスが解消されて健康にな る、っていうのもあるんですが、旅行に行くと 心臓病になりにくいという研究結果があるんで すよ。 U それは知りませんでした。

3.1

人手評価

雑談対話システムの評価は現状,人手によって行う のが妥当だとされており,ライブコンペティションで も人手による評価を採用している.人手による評価は 評価を対話ごとに行うか,発話ごとに行うかで大きく 2 つに分けることができる. 3.1.1 対話ごとの評価 対話ごとの評価は,システムとユーザが対話を行い, 対話終了時に対話を行ったユーザ本人がシステムの評 価を行う方法である.評価尺度としては「もう一度話 したいか」(対話システムライブコンペティション [1], Amazon Alexa Prize[2]),「流暢性 (fluency),興味を引い たか (engageness), 一貫性 (consistency)」(ConvAI[3]) などがある. 対話ごとの評価は実際にユーザと対話を行った上で 評価を行うため,実際に対話システムを運用する場合 に近い評価が可能である.しかし,対話のどこに着目 して評価するかという点は個人差が大きく,評価のば らつきは大きくなりがちである.よって,性能が拮抗 しているシステム間の性能差の検出力は小さい.また, ほとんどの場合,同じユーザとは 1 回,多くても数回 しか対話を行わないため,システムが多様な対話が可 能かという評価には適さない.したがって,TripiaBot のように作り込まれたシステムを過剰に高く評価して しまう危険性がある. 3.1.2 発話ごとの評価 発話ごとの評価は,評価者に文脈とそれに対する発 話が与えられ,その発話を人手で評価する方法である. - 55 -

(3)

発話評価に関しては絶対評価と相対評価に大きく分け ることができる.

絶対評価は,発話に対して点数やラベルを付与する ことで行う.具体例としては,「文脈との関係と一貫性 (context relevance and coherence)」[4]「論理性 (logic)」 [5],対話破綻ラベル [6] などがある. 絶対評価による発話ごとの評価は,対話ごとの評価 と比べ,評価する観点がより具体的であることから,シ ステム間の性能差の検出力が比較的大きいことがメリッ トである.また,実際にユーザと対話したログを用い ることができるため,対話ごとの評価と同様,対話シ ステムを運用する場合に近い評価が可能である.一方 で,発話単位では問題なくとも,対話単位で見ると問 題のあるシステム,例えば高頻度で質問を行い,ユー ザが詰問されているような印象を受けるようなシステ ムに対して高い評価を与える可能性がある.また,対 話ごとの評価と同じく,作り込まれたシステムを過剰 に高く評価してしまう可能性がある点は共通している. 他方,相対評価は,同一の文脈に対し,2 つ以上の システムが発話を生成し,どの発話が優れているかを 順位付けすることにより行う.評価基準としては「発 話の質 (quality)」[7],「適切さ (appropriateness)」[8], 「有益さ (informativeness)」[9] などがある. 相対評価による発話ごとの評価は,システム間の性 能差の検出力が大きい点がメリットである.ただし,相 対評価の場合,複数のシステムに同一の文脈を与える 必要があることから,実際にユーザと対話して得られ た文脈は使用せず,人間同士の対話ログの一部を文脈 として用いることが広く行われている.この場合,人 間同士の対話中に突如として一方の人間とシステムが 入れ替わって対話を行うという特殊な状況設定で評価 を行うことになるため,実際に対話システムを運用し た場合の性能と乖離する危険性がある.

3.2

自動評価

人手による評価はコストが高いため,自動で評価を 行うことも多い.以下では,そのいくつかを紹介する. 3.2.1 他タスクにおける自動評価尺度を用いた評価 最近では,対話システムとは別の自然言語処理のタ スクにおける自動評価尺度を用いてシステムの評価を 行うことも多い.人間同士の対話ログから抽出した文 脈をシステムに与えることで発話を生成し,その発話が 実際のログ中の発話をどの程度再現できたかにより評 価する.評価尺度としては,機械翻訳の評価尺度である BLEU や Word Error Rate,自動要約の評価尺度であ る ROUGE,言語モデルの評価尺度である Perplexity などが使用される.しかし,これらの評価尺度による 評価は人手評価との相関が低いことが指摘されている. これは,生成した発話が実際に使われた発話と全く違 うものであったとしても,適切な発話は無数に存在す るためである.この欠点を補うため,1 つの文脈に対 して複数の正解発話を作成し,それらを用いて BLEU や ROUGE を計算することで,人手評価との相関を高 めることができたという研究もある [10]. 3.2.2 機械学習を用いた評価 機械学習により人手による評価を代替することを目 指したものである.機械学習を用いた自動評価手法と しては,隠れマルコフモデルを用いた手法 [11],回帰 モデルを用いた手法 [12],ニューラルネットワークベー スの手法などが提案されている [13].しかし,機械学 習に基づく手法は敵対的なシステムに対する頑健性の 欠如が指摘されており [14],人手による評価を代替す るには至っていないのが現状である. 3.2.3 発話中の語彙による評価 単純なニューラル対話モデルは簡潔で単純な応答を頻 繁に出力する傾向があるため,応答の多様性を評価する 場合も多い.頻繁に用いられるのは,システムの出力し た全発話から計算した n-gram の Type Token Ratio で ある (distinct-n とも呼ばれる).n-gram の Type Token Ratio は,異なり n-gram 数を総語数で正規化した値で ある.応答の多様性に関しては,人手による主観評価 は不向きであり,客観的な自動評価によって行う必要 があると思われる.

4

考察

以上,TripiaBot の設計方針と雑談対話システムの評 価に用いられる評価尺度について見てきた. 人手評価は対話や発話の質や内容を適切に評価する ことが可能であるが,同一システムによる複数の対話 間の多様性の評価は困難である.一方で,自動評価に ついては,質や内容の評価は人手との相関の低さや頑 健性の点で課題があるが,多様性に関しては人手より も適切に評価可能である.よって,雑談対話システム を評価する際は,人手による評価と自動評価による多 様性の評価を組み合わせることが望ましいと思われる. 対話システムライブコンペティション 2 の予選におい て TripiaBot が 1 位タイの得点を獲得したのは,評価 尺度が人手による評価のみであったことが要因の 1 つ である. - 56 -

(4)

人手評価については,「対話ごとの評価」,「発話ごと の絶対評価」,「発話ごとの相対評価」の 3 つに大きく分 けられるが,実際にシステムを運用する場合に近い評 価が可能であることから,「対話ごとの評価」と「発話 ごとの絶対評価」による評価が望ましいと考える.特 に,対話ごとの評価のために取得した対話ログは,発 話ごとの絶対評価でも使用可能であるため,2 つを同 時に行うと効率的である.同様の理由で,発話ごとの 相対評価は,比較システムとの性能差が小さい場合に のみ使用するのが望ましい.その際,人間同士の対話 ログからではなく,人とそれぞれの評価対象システム との対話ログから同数ずつ文脈を取得し,その文脈に 対して発話を生成することで,より実運用に近い評価 ができる可能性がある.

5

まとめ

本稿では,TripiaBot の設計方針と雑談対話システム の評価のために用いられている指標を概観するととも に,TripiaBot が第 2 回対話システムライブコンペティ ションの予選を通過した要因と,雑談対話システムを どのように評価すべきかについて考察を行った.

参考文献

[1] 東中竜一郎, 船越孝太郎, 稲葉通将, 角森唯子, 高 橋哲朗, 赤間怜奈, 宇佐美まゆみ, 川端良子, 水上 雅博. 対話システムライブコンペティション 2. 人 工知能学会 言語・音声理解と対話処理研究会第 87 回 (第 10 回対話システムシンポジウム), 2019.

[2] Ashwin Ram, Rohit Prasad, Chandra Khatri, Anu Venkatesh, Raefer Gabriel, Qing Liu, Jeff Nunn, Behnam Hedayatnia, Ming Cheng, Ashish Nagar, et al. Conversational ai: The sci-ence behind the alexa prize. arXiv preprint arXiv:1801.03604, 2018.

[3] Emily Dinan, Varvara Logacheva, Valentin Ma-lykh, Alexander Miller, Kurt Shuster, Jack Ur-banek, Douwe Kiela, Arthur Szlam, Iulian Ser-ban, Ryan Lowe, et al. The second conversational intelligence challenge (convai2). arXiv preprint

arXiv:1902.00098, 2019.

[4] Tong Niu and Mohit Bansal. Polite dialogue generation without parallel data. Transactions

of the Association for Computational Linguistics,

Vol. 6, pp. 373–389, 2018.

[5] Qiao Qian, Minlie Huang, Haizhou Zhao, Jing-fang Xu, and Xiaoyan Zhu. Assigning person-ality/profile to a chatting machine for coherent

conversation generation. In Proceedings of

IJ-CAI, pp. 4279–4285, 2018.

[6] 東中竜一郎, 船越孝太郎, 稲葉通将, 荒瀬由紀, 角森 唯子ほか. 対話破綻検出チャレンジ 2. SIG-SLUD, Vol. 5, No. 02, pp. 64–69, 2016.

[7] Jiwei Li, Michel Galley, Chris Brockett, Jian-feng Gao, and Bill Dolan. A diversity-promoting objective function for neural conversation mod-els. In Proceedings of NAACL-HLT, pp. 110–119, 2016.

[8] Marjan Ghazvininejad, Chris Brockett, Ming-Wei Chang, Bill Dolan, Jianfeng Gao, Wen-tau Yih, and Michel Galley. A knowledge-grounded neural conversation model. In Proceedings of

AAAI, 2018.

[9] Deng Cai, Yan Wang, Wei Bi, Zhaopeng Tu, Xiaojiang Liu, Wai Lam, and Shuming Shi. Skeleton-to-response: Dialogue generation guided by retrieval memory. In Proceedings of

NAACL-HLT, pp. 1219–1228, 2019.

[10] Prakhar Gupta, Shikib Mehri, Tiancheng Zhao, Amy Pavel, Maxine Eskenazi, and Jeffrey P Bigham. Investigating evaluation of open-domain dialogue systems with human generated multiple references. In Proceedings of SIGDIAL, pp. 379– 391, 2019.

[11] 磯村直樹, 鳥海不二夫, 石井健一郎. HMM による 非タスク指向型対話システムの評価. 電子情報通信 学会論文誌 D, Vol. 92, No. 4, pp. 542–551, 2009.

[12] Hiroaki Sugiyama, Toyomi Meguro, and Ryuichiro Higashinaka. Automatic evaluation of chat-oriented dialogue systems using large-scale multi-references. In Advanced Social Interaction

with Agents, pp. 15–25. Springer, 2019.

[13] Ryan Lowe, Michael Noseworthy, Iulian Vlad Serban, Nicolas Angelard-Gontier, Yoshua Ben-gio, and Joelle Pineau. Towards an automatic turing test: Learning to evaluate dialogue re-sponses. In Proceedings of ACL, pp. 1116–1126, 2017.

[14] Ananya Sai, Mithun Das Gupta, Mitesh Khapra, and Mukundhan Srinivasan. Re-evaluating adem: A deeper look at scoring dialogue re-sponses. Proceedings of AAAI, Vol. 33, pp. 6220– 6227, 07 2019.

表 2: TripiaBot の対話例 (T:TripiaBot, U:ユーザ) T では、短い間ですがよろしくおねがいします。 実は私、旅行が好きでよく行くのですが、あな たはよく旅行には行きますか? U 殆ど国内旅行ですがよく行くほうだと思います。 T そうなんですね。実は旅行って、健康にも良いっ てことご存知ですか? U 知ってます。日頃のストレスから解放されるか らですかね。 T 旅行に行くとストレスが解消されて健康にな る、っていうのもあるんですが、旅行に行くと 心臓病になりにくいという研究結果が

参照

関連したドキュメント

究機関で関係者の予想を遙かに上回るスピー ドで各大学で評価が行われ,それなりの成果

前章 / 節からの流れで、計算可能な関数のもつ性質を抽象的に捉えることから始めよう。話を 単純にするために、以下では次のような型のプログラム を考える。 は部分関数 (

このように、このWの姿を捉えることを通して、「子どもが生き、自ら願いを形成し実現しよう

点から見たときに、 債務者に、 複数債権者の有する債権額を考慮することなく弁済することを可能にしているものとしては、

学生は、関連する様々な課題に対してグローバルな視点から考え、実行可能な対策を立案・実践できる専門力と総合

検討対象は、 RCCV とする。比較する応答結果については、応力に与える影響を概略的 に評価するために適していると考えられる変位とする。

具体的な取組の 状況とその効果 に対する評価.

具体的な取組の 状況とその効果