ユーザに上手に説得される人狼知能対話システムの構築

(1)

ユーザに上手に説得される人狼知能対話システムの構築

Constructing an AI Wolf Dialogue System that is Persuaded by

Users

稲葉通将

1∗

1

_{電気通信大学}

1

_{The University of Electro-Cummunications}

Abstract: This paper proposes a novel category of a dialogue system for entertainment, referred to as the “dialogue system to be persuaded,” which is to be persuaded by users to amuse them and suggests a construction method of the system. The construction method requires a relatively small amount of data and introduces a data-driven dialogue management method for naturally accepting user’s persuasion. Our experimental results indicate that the proposed system can interact with users more naturally compared to baseline systems.

1 はじめに

対話システムが扱う対話は雑談，カウンセリング，面接，交渉など多種多様であり，近年ますます広がりを見せている．本論文では人狼ゲーム中の対話を対象とし，ユーザに上手に説得されることでユーザを楽しませる対話システムの構築手法を提案する．これまで，システムがユーザを説得するという説得対話システムに関する研究は行われてきた [1]．しかし，被説得対話システムは説得対話システムとドメインが類似しているが，その本質は大きく異なる．ユーザを説得することで，その人の行動や考え方を変えることを目的とする説得対話システムは，対話相手を説得できればその対話は成功となる．一方，被説得対話システムの場合，ユーザが何を言おうとも即座に説得されるというシステムの作成は容易であり，最終的に説得されるか否かは対話の成否にはあまり関係がない．ユーザにとってはシステムがどのように説得されるか (もしくは説得されないか) という過程が重要であり，システムの性能はユーザの満足度により評価される．本研究では，対話を行う状況設定として，プレイヤ同士の議論によりゲームが進行する人狼ゲームに着目した．人狼ゲームでは，情報が限られる中でいかに他のプレイヤを説得し，自分の陣営を勝利に導くかという点がゲームの醍醐味の一つである．本研究では，人狼ゲームにおける説得対話をシミュレートできる対話システムを構築する．具体的には，システムは最初ユーザを追放する意思を持っており，ユーザは自分を追放 ∗_{連絡先：電気通信大学} 〒 182-8585 東京都調布市調布ケ丘１丁目５−１ Email: [email protected] しないようにシステムを説得するという状況の下，対話を行う．本研究で構築する対話システムは用例ベースのシステムである．すなわち，対話ログから現在の状況と文脈に適した発話を選択し，応答として用いる．本研究では，その際の適切な応答の選択，特にユーザからの説得を自然に受け入れるための応答選択のため，対話ログ中における発話の位置を用いたシンプルな対話管理手法を提案する．

2

5 人制人狼ゲーム

人狼ゲームでは様々なルールのバリエーションが存在するが，以下では本研究が対象とする 5 人制人狼ゲームについて説明する． 5 名のプレイヤはゲーム開始時に村人，占い師，裏切り者，人狼のいずれかの役職が与えられる．村人のみ 2 名であり，その他の役職は 1 名ずつである．村人は特別な能力は持たない役職である．占い師は，毎昼フェーズの開始前にプレイヤの中から 1 名を指名して占い，そのプレイヤが人狼か否かを知ることができる (人狼以外のプレイヤを指名した場合，その具体的な役職までは知ることはできず，人狼では無いことがわかるのみである)．裏切り者は占い師により占われても人狼ではないと判定されるが，人狼側の勝利を目指す役職である．つまり，(裏切り者のプレイヤが除外されても) 人狼側の勝利が裏切り者プレイヤの勝利となる．人狼は後述する夜フェーズにプレイヤ 1 名を指名し，襲撃することができる役職である．なお，プレイヤは自分以外のプレイヤの役職を知ることはできない．人工知能学会研究会資料 SIG-SLUD-B902-02

(2)

ゲームは昼と夜のフェーズからなる．昼フェーズには全プレイヤーが議論し，誰が人狼であるかを推理する．昼フェーズの最後には各プレイヤーが人狼だと思うプレイヤに投票し，多数決で選ばれたプレイヤはゲームから除外される．夜フェーズでは人狼のプレイヤが人間側のプレイヤー 1 名を指名し，襲撃する．襲撃されたプレイヤもまたゲームから除外される．この昼フェーズと夜フェーズを最大 2 回繰り返し，最終的に人狼のプレイヤを除外した場合は人間側の勝利，人狼のプレイヤが最後の 1 名になるまで除外されなければ人狼側の勝利となる．

3 使用データ

3.1 説得対話

本研究で対象とする対話は，5 人制人狼ゲームにおける 2 回目の昼フェーズをベースとした 2 者間の説得対話である．本来，2 回目の昼フェーズには，1 回目の昼フェーズの投票と夜フェーズの襲撃により 5 名中 2 名のプレイヤが除外され，3 名のプレイヤが議論する．ただし本研究では，問題を簡単にするため，1 名はゲームに参加しているが発言しないプレイヤ (沈黙プレイヤ) とし，1 名 (説得プレイヤ) が別の 1 名 (被説得プレイヤ) を説得するという状況を対象とする．説得対話の状況の詳細は以下の通りである． • 説得プレイヤ，被説得プレイヤ，沈黙プレイヤの 3 名が 2 回目の昼フェーズに参加している • 被説得プレイヤは説得プレイヤに投票する意思を 表明している．ただし，説得プレイヤに投票したとしても自分が勝利できるという確定的な根拠は持っていない． • 説得プレイヤは被説得プレイヤと一緒に沈黙プレ イヤに投票することで自分が勝利できるという確定的な根拠を持っている (例：説得プレイヤが人狼である場合) このような状況の例を以下に示す．プレイヤ A，B， C，D，E の 5 名がゲームに参加し，最初の昼フェーズで A と C の 2 名が自分が占い師であると主張．両名ともプレイヤ E を占い，人間であったと報告した．昼フェーズ最後の投票によりプレイヤ D が追放され，夜フェーズには E が襲撃された．2 日目の昼フェーズには A と C がお互いを占い，共に相手は人狼だったと主張．このような状況で，真の役職はそれぞれ A は占い師，B は村人，C は人狼だったとする．A の立場では，自分の占い結果から C が人狼であることは明らかであり，B とともに C に投票することで勝利となる．C の立場では，自分は人狼であることから，A と B のどちらかを追放すれば勝利となるが，A は C を人狼と主張していることから C に投票することが明らかである．よって，C は B とともに A に投票することが最善である．一方，B の立場では，A と C のどちらが人狼であるかを論理的に導き出すことは不可能である．それでもなお，人狼である可能性の高いプレイヤーを推定し，投票することが必要である．この例では，A が説得プレイヤ，C が沈黙プレイヤ (もしくは C が説得プレイヤ，A が沈黙プレイヤでもよい)，B が被説得プレイヤとなる．説得プレイヤは自分が本物の占い師であり，沈黙プレイヤが人狼であるという主張を行い，被説得プレイヤを沈黙プレイヤに投票するよう説得することになる．

3.2 データ収集

対話システム構築に用いるデータとするため，前節で述べた状況における説得対話データの収集を行った．対話データの作成のためクラウドソーシングを用いて作業者を募集した．作業者はゲームの状況とその状況における説得対話シナリオを作成した．ゲーム状況は以下の 4 点により構成される． • 全プレイヤの役職一覧：プレイヤ A(説得プレイ ヤ)，B(被説得プレイヤ)，C(沈黙プレイヤ)，D(1 日目の投票の結果，追放されるプレイヤ), E(1 日目の夜フェーズに襲撃されるプレイヤ) の 5 名のプレイヤの役職 • 占い師の占い対象：役職一覧で設定した占い師が 1 日目および 2 日目に占ったプレイヤを指定 • 投票：1 日目の夜フェーズにおける各プレイヤの 投票先を指定．プレイヤ D が最多得票になるようにする．投票は記名式で同時投票・同時開票 • 役職 CO と占い結果報告：1 日目および 2 日目の 昼フェーズにおけるプレイヤの役職 CO・CO 撤回と占い結果報告・占い結果報告撤回の内容，および発言順を指定作業者は説得対話として，作成したゲーム状況において，A(説得プレイヤ) が B(被説得プレイヤ) を最終的に説得する対話シナリオも作成した．作成時に作業者に示したルールは以下の通りである． • 対話は B の発話から開始し，B の最初の発話に は B が A に投票する旨とその理由を含める • A と B は交互に発話を行う

(3)

• 対話は B の発話で終了し，B の最後の発話には B が説得に応じ，C に投票する旨を含める • 説得対話に含まれる総発話数は 13 個以上とする • 1 発話はおおよそ 60 文字以内とする • 説得対話中において役職 CO・CO 撤回，および 占い結果報告・占い結果報告撤回は行わない

3.3 データ収集結果

表 1 に収集したデータを「説得プレイヤの最終的な CO 役職」と「沈黙プレイヤの最終的な CO 役職」によって分類した場合のデータ数，および対話シナリオにおける平均発話数と 1 発話あたりの単語数を示した．最終 CO 役職別としたのは，収集したデータを分析したところ，説得対話シナリオにおけるプレイヤの発言は「説得プレイヤの最終的な CO 役職」と「沈黙プレイヤの最終的な CO 役職」が何であるかに大きく依存していたためである．例えば，A(説得プレイヤ) と C(沈黙プレイヤ) の最終的な CO 役職が人狼であった場合，説得対話において説得プレイヤは「自分が人狼であり，沈黙プレイヤは人狼ではない」という主張を被説得プレイヤ (B) に認めさせるよう説得を行うことになる．他方，A と C の最終的な CO 役職が占い師だった場合には，「自分が占い師であり，沈黙プレイヤは占い師ではなく人狼である」という主張をすることになり，説得対話の内容も大きく異なる．したがって，本データを用いて対話システムを構築するにあたっては，最終 CO 役職による対話内容の違いを考慮する必要がある．

4 人狼知能対話システム

本章では，収集したデータ，およびそのデータの分析結果を用いて被説得対話システムを構築する方法について述べる．本研究における被説得対話システムとユーザには，対話開始前に前章で収集したデータにおけるゲーム状況と同一の形式の状況 (自分の役職，占い師の占い対象 (ユーザが占い師の場合)，投票結果，1 日目と 2 日目の役職 CO と占い結果報告) が与えられる．すなわち，A∼E の 5 名でゲームが開始した設定で，2 日目の役職 CO と占い結果報告が終了した時点が対話のスタートであり，A(説得プレイヤ) がユーザ，B(被説得プレイヤ) が対話システムとして対話を行う．提案する対話システムの概要を図 1 に示す．提案システムは状況に応じて適切な発話を対話データ中から選択し，それをシステムの応答として用いるという用例ベースの対話システムである．本システムは，まず図 1: 提案システムの概要前章で述べた説得対話データから，与えられたゲーム状況に照らして応答として使用可能な発話を応答候補として抽出する．その際，直前の発話を行った時点のシステムの説得受諾度，およびデータ中の発話の意味を推定し，その情報も応答候補抽出のために用いる．次に，抽出された応答候補の中から，次のシステムの応答として適切な応答を現在までの対話履歴，およびシステムの説得受諾度をもとに決定する．説得受諾度は応答候補のデータ中における出現位置により決定され，応答候補に紐付けられている．システムとユーザは順番に発話し，システムの説得受諾度が最大になる (システムが説得を受け入れる) か，システムの応答回数が規定数に達する (システムが説得の受け入れを拒絶する) ことで対話は終了する．以下では，提案システムの詳細について述べる．システムの構築にあたっては，対象とする対話の内容が５人制人狼に関するものであるため，公開されている大規模テキストデータや対話データの利用は困難である．したがって，近年活発に研究が進められているニューラルネットワークを用いた生成ベースの応答手法を採用することは難しい．また，収集したデータ数は比較的少量であることから，本研究ではシステムの構築にあたり，用例 (検索) ベース応答手法を採用する．用例ベース応答手法とは，対話ログ中の発話から現在の状況に応じて適切な発話を選択し，それをシステムの応答として使用するという手法である．さらに，前章のデータ分析の結果，最終 CO 役職により説得内容が大きく異なること，また，説得と反論のための根拠はゲーム状況に依存することが確認された．そこで，提案システムは対話開始前，システムの置かれたゲーム状況と収集した対話データのゲーム状況を用い，その対話において応答として使用可能な発話を応答候補としてデータから抽出する．対話開始以降は，ユーザの発話と現在の説得受諾度に応じて応答候補から適切な応答を選択し，システムの応答として出力する．以下では，提案システムの詳細について述

(4)

表 1: 収集したデータの統計情報 CO 役職 CO 役職データ数平均発話数 1 発話あたり単語数 (説得プレイヤ) (被説得プレイヤ) 占い師占い師 37 14.19 20.00 占い師村人 (CO 無し) 30 13.60 19.17 人狼人狼 23 14.57 18.03 村人 (CO 無し) 占い師 16 18.38 19.16 村人 (CO 無し) 村人 (CO 無し) 12 15.00 17.85 べる．

4.1 応答候補抽出

提案システムの応答候補はデータ中から抽出するが，与えられたゲーム状況に反する内容を含むものも多く存在する．したがって，現在の状況に応じて応答として使用可能なものだけをデータから抽出する必要がある．本研究では，対話開始前，システムにゲーム状況が与えられた時点で (1) 説得プレイヤと沈黙プレイヤの最終的な CO 役職，(2) 発話の内容，の 2 つの観点から応答候補を絞り込み，抽出する．システムは抽出された応答候補の中から適切な応答を選択することで，ユーザと対話を進めることになる． 4.1.1 最終的な CO 役職 3.3 節において，「説得プレイヤと沈黙プレイヤの発言は，各プレイヤそれぞれの最終的な CO 役職が何であるかに大きく依存している」という分析結果を述べた．そこで，システムに与えられたゲーム状況における説得プレイヤと沈黙プレイヤの最終的な CO 役職が完全に一致したゲームデータのみを応答候補抽出対象のデータとする．このようにすることで，システムは一貫した主張が可能となる． 4.1.2 発話意味内容推定発話の内容は CO 役職だけではなく，ゲームの状況にも大きく依存している．しかし，ゲームの状況が与えられた状況と完全に一致しているデータのみを使う場合，使用できる応答候補の数が非常に少なくなる．そこで，データ内の発話の意味と与えられたゲーム状況を照合し，ゲーム状況に適合した場合はその発話を応答候補として獲得する．本研究では推定する意味内容として以下の 4 種類を用いる． 1. 役職 CO [CO プレイヤー名，CO 役職] 発話例：「C は人狼だと CO してました」 → 推定例：役職 CO[C, 人狼] 2. 占い結果報告 [報告したプレイヤー名，占ったプレイヤー名，占い結果] 発話例：「C は D を人間だと占いました」 → 推定例：占い結果報告 [C, D, 人間] 3. 投票先 [投票したプレイヤー名，投票先] 発話例：「E は D に投票していました」 → 推定例：投票先 [E, D] 4. 役職推定 [推定したプレイヤー名，推定対象プレイヤー名，推定役職] 発話例：「私は D が裏切り者だったと考えています」 → 獲得根拠例：役職推定 [私, D, 裏切り者] 発話の意味内容の認識はルールベースにより行った． KNP を用いて発話を解析し，格解析結果と動詞および格に対して事前に定義したキーワードパターンを照合することで，発話に含まれる意味内容を推定した．取得した発話の意味内容をもとに，その発話が応答候補として使用可能かを発話ごとに判定する．例えば，意味内容が「投票先 [C, D]」だった場合，与えられたゲーム状況において C が D に投票していた場合，その発話は応答候補となる．

4.2 説得受諾度

提案システムでは，ユーザの説得を自然な形で受け入れる対話を実現するため，システムが現在どの程度説得を受け入れているかを意味する内部パラメータ (説得受諾度) を用意し，そのパラメータの値に応じて応答内容を変化させる．しかし，どのようなユーザの応答に対し，どの程度説得受諾度を上下させればいいかについては自明ではなく，どの応答候補がどの程度の説得受諾度に対応しているかについても同じく自明ではない．

(5)

そこで本研究では，応答候補の元データにおける対話中の位置により説得受諾度を決定するとともに，応答候補に説得受諾度を紐付けることで応答を制御する手法を提案する．本研究で収集した説得対話データは，一方の話者が全く説得されていない状態から開始し，最終的に説得されることで対話が終了する．つまり，対話開始時の説得受諾度は最低であり，対話終了時は最大であるとみなすことができる．ここで，データ中の被説得者の説得受諾度は線形に上昇すると仮定を導入する．つまり，被説得者の最初の発話を受諾度 0，最後の発話を受諾度 1.0 とし，それ以外の発話は各発話の位置により説得受諾度を均等に割り振る．例えば，データ中で被説得者が 11 回発話を行っていた場合，最初の発話の説得受諾度は 0.0，2 番目の発話は 0.1，3 番目は 0.2，10 番目は 0.9，11 番目 (最後) の発話は 1.0 となる．また，説得プレイヤにより使用される説得の根拠も序盤，中盤，終盤で異なる．話題に合わせた応答を行うという面からも有効であると思われる．対話システムの説得受諾度は，応答として使用された発話に紐付けられた説得受諾度を現在の受諾度として設定する．さらに，システムの次の応答は，現在の説得受諾度から一定範囲内の受諾度を持つ応答候補から決定する．ここでは，説得受諾度が上昇する応答候補だけではなく，低下する応答候補も含める．このようにすることで，急激な説得受諾度の変化を抑え，自然な説得対話が実現できる．

4.3 発話選択

システムは，抽出された応答候補から，対話履歴と現在のシステムの説得受諾度もとに，次の応答を決定する．応答決定には，BERT[2] を用いる．BERT は事前学習を行った後，説得対話データにおける隣接する 2 発話を正解データ，ランダムに選択した 2 発話を不正解データとした隣接発話予測でファインチューニングを行ったものを用いる．ユーザとの対話時には，ユーザの直前の発話と応答候補をペアにして BERT に入力し，隣接確率の最も高い応答候補を応答とする．

5 評価実験

5.1 実験設定

提案手法を評価するため，実際に被験者と対話を行い，対話後のアンケートによる主観評価を行う．本実験では，比較手法として，発話意味内容推定に基づく応答候補の抽出を行わない「説得受諾度+BERT」，説得受諾度による応答候補のフィルタリングを行わない「発話意味内容+BERT」，発話意味内容推定と説得受諾度の両方を用いず，BERT のみで応答を決定する「BERT」の 3 つを用いる．また，説得受諾度による応答候補のフィルタリングの範囲については，現在のシステムの説得受諾度から-0.15∼+.025 の範囲の発話を応答候補とし，それ以外は除外する． BERT は日本語 Wikipedia の 4800 万文と人狼 BBS から抽出した 1800 万文を事前学習に使用した．BERT のパラメータは BERT-base[2] と同一のものを用いた．ファインチューニングには収集した説得対話から抽出した隣接発話ペアに加え，著者が収集したテキストチャットデータから抽出した約 4 万発話ペアを用いた．これは，説得対話のみのデータでは，データが少なすぎて適切に学習が進まなかったためである．各システムと対話を行う際のゲーム状況は，収集したデータから 1 つをランダムで選択し，被験者に提示する．システムの最初の発話は選択したデータの最初の被説得プレイヤの発話とし，対話は開始する．対話はシステムが説得受諾度 1.0 の発話 (各データ中の対話における最後の発話) がシステムの応答として使用されるか，一定回数システムが応答した時点で終了とする．前者の場合システムが説得に応じ，被験者の勝利となり，後者の場合は時間切れによる説得の失敗となり，被験者の敗北となる．本実験では，システムの最大応答回数は 14 回とし，14 回目の応答 (最初の発話を含まず) を行った時点で対話は終了とした．なお，14 回は，収集したデータのシステムの平均応答回数の倍の数である．ただし，このままだと比較手法のうち，「発話意味内容+BERT」と「BERT」については，説得受諾度 1.0 の発話が対話開始後すぐに選択され，対話が終了する可能性がある．これはその 2 手法について主観評価を行う際，著しく不利であることから，システムが一定回数応答を行った以降のみ説得受諾度 1.0 の発話を応答候補に含むこととした．本実験では，最大応答回数である 14 回の半分の 7 回目以降とした．対話は Telegram を用いて実施した．被験者は提案手法と 3 つの比較手法に基づく合計 4 体のシステムと 1 回ずつ対話し，その後アンケートに回答した．対話するシステムの順番は被験者ごとにランダムとした．アンケートの項目は「システムは自分の話を理解している」「システムの応答は一貫性がある」「システムとの対話の流れは自然だ」「システムと対話して楽しい」の 4 つであり，7 段階のリッカート尺度で評価した．

5.2 結果

クラウドワークスで被験者を募集したところ，22 名の被験者が実験に参加した．結果を図 2 に示す．エラーバーは標準誤差である．有意差検定には Wilcoxon の

(6)

図 2: 実験結果順位和検定を用い，その結果も表に示した．「*」は有意水準 5%で有意，「**」は 10%で有意であったことを意味する． 4 つのアンケート結果全てにおいて，提案システムが高い評価を得たことが確認できた．ただし，提案システム以外の 3 つのシステムの間には有意差，有意傾向はいずれも確認できなかった．このことは，Semantics によるゲーム状況と矛盾した発言を抑えること，そして DPA による説得の受容度に即した応答を行うことのいずれかが欠けても性能が高くならず，同時に行う提案システムが有効であることが示唆された．統計的有意差についても，提案手法とその他の手法については多く確認されている．とくに (b) の一貫性と (c) 対話の流れの自然さはすべての手法との間に有意差が確認されていることから，提案手法の有効性が確認できた．表 2 に実際の対話例を示した．

6 むすび

本論文では，人狼ゲームにおける説得対話を対象とし，ユーザに説得されることでユーザを楽しませる対話システムの構築手法を提案した．提案システムは，収集した対話ログ中における発話の位置を用いて説得受諾度を管理するとともに，ログ中の発話の意味内容を推定し，ゲーム状況とのマッチングを行うことで，適切な応答選択を実現した．実験の結果，提案システムは説得受諾度，および推定した意味内容を使用しない場合と比べ，有意に性能が高いことを確認した．今後表 2: 実際の対話例 (A:ユーザ，B:システム) B 私は A に投票します。C が本物の占い師であり、A は人狼であると思います。 A 私が人狼ならなぜ D に投票したのですか。 B いやもう無理ですよ。C が真占いで私は狂人の偽装をした村人です。以上。 A 私は村人です。 B しかし C に人狼側と占われてますよね。 A C が占い師を偽っているかもしれないじゃないですか。 B 可能性はありますが、確率的には低いと思います。は，本研究の設定では発言しなかったプレイや (沈黙プレイヤ) を含めた 3 人対話への拡張を検討していく．

参考文献

[1] 石川葉子, 水上雅博, 吉野幸一郎, 鈴木優, 中村哲. 感情表現を用いた説得対話システム. 人工知能学会論文誌, Vol. 33, No. 1, pp. DSH–B 1, 2018. [2] Jacob Devlin, Ming-Wei Chang, Kenton Lee,

and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language un-derstanding. In Proceedings of NAACL-HLT 2019, pp. 4171–4186, 2019.

ユーザに上手に説得される人狼知能対話システムの構築