人狼ゲームにおける深層学習を用いたエージェント

(1)

- 1 -

人狼ゲームにおける深層強化学習を用いたエージェント

Human-Like Artificial Intelligence Using Deep

Reinforcement Learning for the Werewolf Game

福田宗理

*1

_{穴田一}

*1

Munemichi Fukuda Hajime Anada

*1

_{東京都市大学大学院総合理工学研究科}

Graduate School of Integrative Science and Engineering, Tokyo City University #1

Recently, the artificial-intelligence-based Werewolf Project has been attracting attention. As the

Werewolf Game requires human-like artificial intelligence, it is important for researchers to construct

an artificial intelligence that has the abilities to beguile and detect a lie. Therefore, we construct an

artificial intelligence that can deduce players’ roles and communicate adequately with other players.

1. はじめに

近年，人工知能による将棋や囲碁などのゲームの大会が開催されている．その 1 つに人狼ゲームを行う人狼知能大会[1]がある．人狼ゲームで勝つためには嘘をつく能力や，情報の真偽を見極める能力が要求される．これらの能力が向上することで，人工知能がより高度な判断が可能となり，人間の知能に近づくと考えられる．そのため，この人狼知能大会が注目され，人狼知能の研究[2][3][4][5][6]が勢力的に行われている．それらの研究の中にニューラルネットワーク（以下， NN）を用いて，役職推定を行う大川らの研究[2]がある．しかしそのモデルには人狼の推定精度を向上できる余地があると考えられる．何故なら，NN に入力する特徴として，役職推定者の役職や占いの対象となっているプレイヤとそのプレイヤの発言など，用いていない情報があるからである．そこで本研究では，役職推定者の役職や全会話情報を用いた役職推定モデルを構築し，その有効性を確認した．そして，この役職推定モデルと Deep Q Network（以下，DQN）を用いて相手から自分への発言内容を状態として入力し，勝利に貢献する為の発言や行動を行うエージェントを構築し，性能評価を行った．

2. 既存研究

2.1 人狼大会のルール人狼ゲームは村陣営と狼陣営に分かれて，勝ちを競うゲームである．村陣営は人狼を全てゲームから除外する(以下，追放する)こと，狼陣営は，人間の数を人狼の数以下にすることが勝利条件である．人狼知能大会では 5 人人狼ゲームと 15 人人狼ゲームが行われていて，本研究では 15 人人狼を取り扱う．15 人人狼の場合，各プレイヤは役職(村人，占師，霊媒師，狩人，人狼，裏切り者)，種族(人間，狼)，陣営(村，狼)の属性を持つ．またプレイヤの役職と種族，陣営は人狼同士を除き，他のプレイヤに非公開である．村陣営は全て種族が人間の村人 6 人，占師 1 人，霊媒師 1 人，狩人 1 人である．村人は能力を持たない．占師は 1 日 1 人のプレイヤの種族を調べること(以下，占い)ができる．霊媒師は死んだプレイヤの種族を調べること(以下，交霊)ができる．狩人は 1 日 1 人のプレイヤを人狼の襲撃から守ることができる．狼陣営は人狼 3 匹で種族は狼，裏切り者 1 人で種族は人間である．人狼は人狼同士で会話を行える．また，全員で 1 日 1 人のプレイヤをゲームから除外できる(以下，襲撃)．裏切り者は狼陣営が勝った時に共に勝利する特殊な役職である．人狼ゲームには，昼と夜のフェイズが存在する．昼はプレイヤ同士で会話し，最後に追放投票を行う．狼陣営は時折嘘の発言をしてプレイヤを騙し，都合の良い展開に持ち込もうとする．村陣営は狼陣営の嘘を見抜き，逆に人狼を見つけようとする．追放投票は全員で投票を行い，最多票のプレイヤが追放される．夜は占師が１人の種族を占う，霊媒師が死者と交霊して種族を調べる，狩人が 1 人を守り，人狼が人狼同士で会話をした後に 1 人を襲撃する．また人狼ゲームはゲーム開始前に占師が一度占いを行い，ゲームを開始する．プレイヤ同士の会話はターン制である．発言は定型文で 1 日に 10 回まで可能で，発言をしないことも可能である．全員が 1 回ずつ定型文を発言することを 1 ラウンドとし，これを複数ラウンド繰り返す．発言する順番はラウンド毎に無作為に決定する．発言に用いる定型文の種類の一例を表 1 に示す．表 1:発言の定型文発言意味 ESTIMATE P R P は R だと思う COMINGOUT P R P は R であると宣言する DIVINATION P P を占う GUARD P P を守る VOTE P P に投票する ATTACK P P を攻撃する DIVINED P S P の占い結果は S である IDENTIFIED P S P の交霊結果は S である GUARDED P P を守った連絡先：福田宗理，東京都市大学，〒158-8557 東京都世田谷区玉堤 1-28-1

(2)

- 2 - VOTED P P に投票した ATTACKED P P を襲撃した AGREE T T に賛成する DISAGREE T T に反対する REQUEST P T P に T をして欲しい INQUIRE P T P に T の内容を質問 BECAUSE T1 T2 T1 だから T2 だと主張 DAY X T X 日に T だった NOT T T では無い AND T T… 複数の T が正しいと主張する OR T T… 複数の T のうち，少なくとも 1 つは正しい XOR T1 T2 T1 か T2 である SKIP パス OVER 今日はもう喋らない P はプレイヤ，R は役職，S は種族，T は定形文， X は数字を表している．以下の 3 つの内どれかの条件を満たすと会話が終了し，追放投票に移行する． ● 全てのプレイヤが OVER をする ● 全てのプレイヤが SKIP をするラウンドが 3 回連続する ● 20 ラウンドが経過する 2.2 大川らの役職推定モデル人狼ゲームに強い人工知能を作る為には，プレイヤの会話や占い結果の情報から誰が人狼かを精度よく推定する事が重要である．大川らの研究では，NN を用いてプレイヤの役職が村人，占師，人狼，裏切り者である確率をそれぞれ出力する役職推定モデルと各プレイヤの人狼である確率を出力する人狼推定モデルを構築した． 2.3 大川らの役職推定モデル大川らの研究では，NN に入力するプレイヤの特徴の中に，役職推定者の役職や占いの対象となっているプレイヤとそのプレイヤの発言など，用いていない情報がある．このことが，推定精度が良くない主要な要因であると考えられる．

3. 提案手法

本研究では，15 人人狼で勝つために，役職推定モデルとそのモデルを搭載したエージェントを提案する． 3.1 役職推定モデル役職推定モデルでは，NN を用いて，経過日数と役職推定者の役職，発言情報のうち，全ての COMINGOUT の発言と他の新しい発言の計 100 個，各プレイヤの生死をプレイヤの特徴として入力し，推定対象であるプレイヤの役職を推定するモデルを提案する．発言情報は１つの発言について，日にちとターン数，誰が，誰に，発言の種類，役職（発言の種類が ESTIMATE，COMINGOUT の場合のみ），種族（発言の種類が DIVINED，IDENTIFIED の場合のみ）の情報を記録している． 3.2 人狼エージェント本研究で提案した役職推定モデルと DQN を用いて勝利に貢献する為の発言や行動を行うエージェントを構築する．本研究の DQN では報酬としてゲームに勝利した場合に+1，敗北した場合は-1 を与える．状態として他のエージェントから自分に対する発言とその発言者の特徴を入力する．また行動としてゲームのフェイズに合わせて発言の方向性または追放投票の対象選択や夜の行動（占い，護衛，襲撃の対象選択）を決める．ここで発言の方向性とは，ニュアンスが似ている発言を集約したものである．最終的な発言内容は方向性に沿ってルールベースで決める．このように 2 段階で発言を決定する理由は，発言の種類を保ったまま，状況と行動の組み合わせを減らすためである．DQN の欠点の一つに状況と行動の組み合わせが多いと学習が進まない点がある．そのため組み合わせを減らす為に，発言の種類を減らす必要がある．しかし単純に発言の種類を制限すると発言がワンパターンになり，発言からどの役職のエージェントかを推定することが容易になる．その為ニュアンスが似ている発言を集約し方向性と定義する事で行動の種類を減らし，発言の方向性に従って最終的な発言内容をルールベースで決めることで様々な発言が可能となる．入力内容（状態）は下記の 4 種類である． ● 日にち ● ターン数 ● 直近に自分に言われた発言内容 ● その発言者の特徴発言の特徴の詳細を下記の表 2 に示す．表 2:発言者の特徴の詳細推定モデルで推定した役職自分と意見が合う数発言者の発言数出力する発言の方向性と行動（これらが DQN の行動）は下記の 22 種類である． ● 人狼を排除する発言 ● 無口のプレイヤを排除する発言 ● 自分が占師であると主張する発言 ● 自分が霊媒師であると主張する発言 ● 他プレイヤが村人であると信じる発言 ● 他プレイヤが占師であると信じる発言 ● パス発言 ● 村人を襲撃する発言 ● 占師を襲撃する発言 ● 霊媒師を襲撃する発言 ● 多弁のプレイヤを襲撃する発言 ● 村の意見に合わせて投票 ● 自分の推定モデルの結果で投票 ● 無口なプレイヤに投票 ● 自分の推定モデルの結果で襲撃 ● 狼の意見に合わせて襲撃 ● 村の要望に合わせて占う ● 人狼だと推定したプレイヤを占う ● 村人だと推定したプレイヤを占う ● 占師 CO しているプレイヤを占う ● 占師だと推定したプレイヤを守る ● 霊媒師だと推定したプレイヤを守るこれらの行動のうち，ゲームのフェイズに合う行動を選択する．下記の表 3 に具体的な発言の例を載せる．

(3)

- 3 - 表 3:具体的な発言の例発言の方向性具体的な発言人狼を排除する発言人狼だと推定する人狼への投票発言人狼への投票占いを希望するあなたは人狼ですか？と質問する自分が占い師であると主張する発言占い師 CO 占い結果を報告する自分以外に占師 CO している人を人狼だと推定する自分が村人だと占った人を信用する次回占う人を予告する

4. 結果

人狼知能大会決勝戦のログデータを用いて，提案手法の役職推定モデルの性能を評価する．GAT2017 人狼知能大会のログデータの半分を学習データに，もう半分をテストデータとした．また他にも CEDEC2018 人狼知能大会のログデータをテストデータとして用いた．役職推定モデルをゲーム中の一日の終わりに用いて，日にち毎の正答率の変化を調べて考察する．パラメータは以下の表 4 の通りである．表 4:パラメータ入力次元 7765 出力次元 6 中間層の数 2 中間層のノード数 5000 活性化関数 ReLU GAT2017 と CEDEC2018 の人狼知能大会のログデータをテストデータとして学習済みの提案手法で推定し，経過日数別の役職推定結果の正答率を表 5 に示す．表 5:正答率 1 日目 2 日目 3 日目 GAT2017 99.1 98.6 99.1 CEDEC2018 99.6 99.3 99.5 GAT2017 の 2 日目は 98.6％，それ以外でも 99%以上の正答率がある．正答率がとても高いので，過学習を疑うが，訓練データは GAT2017 人狼知能大会のログデータの半分であり，別の年である CEDEC2018 人狼知能大会のログデータでテストをしても正答率が 99％以上なので過学習はしていないと考えられる．情報の少ない初日から正答率が高い理由は，役職推定モデルが大会で決勝に出場したエージェントと役職の組み合わせ毎に異なる発言パターンの特徴を抽出し学習している為，発言のパターンが少ない初日から正答率が高くなっていることをログデータで調べて確認した．エージェントの初日の発言の事例を以下の表 6 で紹介する．表 6:エージェント〈AITKN〉が村人の場合の初日の発言ターン数詳細１占い師 CO のリクエスト２霊媒師 CO のリクエスト７占い希望９投票発言このようにエージェントと役職の組み合わせで初日の発言パターンがある事が分かり，役職推定モデルはその特徴を抽出し，高い正答率を出すことが出来ていると考える．そしてこの役職推定モデルを搭載した人狼エージェントを過去の人狼大会に出場したエージェント 5 種類とサンプルエージェント 1 種類 9 体と 2000 回対戦して学習を行い， 500 試合してテストした結果，勝率は 39.6％，生存率は 37.0％であった．また役職別の勝率は以下の表 7 の通りである．表 7:役職毎の勝率役職勝率勝利数/役職回数村人 27.3％ 72/264 占い師 25.8% 8/31 霊媒師 34.2% 13/38 狩人 27.6% 8/29 人狼 73.3% 74/101 狂人 62.2% 23/27 人狼陣営の勝率が良く，村人陣営の勝率が低い理由は，村陣営のエージェントが人狼を探す能力が低く，逆に人狼は仲間の人狼を知っているので，村人を襲撃する事が容易である．その為，人狼陣営の方が圧倒的有利である事が考えられる．

5. 今後の課題

現在のモデルでは相手から質問を受けた際に適切に返事を返すことが出来ない為，学習によって返事を返すような報酬の与え方を検討したい．参考文献 [1] 人狼知能プロジェクト http://aiwolf．org/ [2] 大川貴聖，吉仲亮，篠原歩：“深層学習を用いて役職推定を行う人狼エージェントの開発”第 22 回ゲームプログラミングワークショップ (2017) [3] 萩原誠，伊藤孝行，アーメッドムスタファ：“Q 学習と役職推定に基づく人狼知能エージェントの作成” 情報処理学会論文誌 vol.60 No.10 (2019) [4] 梶原健吾，鳥海不二夫，稲葉通将：“人狼知能大会における統計分析と SVM を用いた人狼推定を行うエージェントの設計” 第 30 回人工知能学会 (2016) [5] 家原瞭，廣田敦士，田中一晶，荒木雅弘，岡夏樹： “Diﬀerentiable Neural Computer を用いた人狼知能の開発” 第 32 回人工知能学会 (2018)

[6] 木村優里絵，尾崎知伸：“単語埋め込み技術を用いて人狼BBS における役職推定”第 32 回人工知能学会 (2018)