• 検索結果がありません。

人狼ゲームにおける深層学習を用いたエージェント

N/A
N/A
Protected

Academic year: 2021

シェア "人狼ゲームにおける深層学習を用いたエージェント"

Copied!
3
0
0

読み込み中.... (全文を見る)

全文

(1)

- 1 -

人狼ゲームにおける深層強化学習を用いたエージェント

Human-Like Artificial Intelligence Using Deep

Reinforcement Learning for the Werewolf Game

福田 宗理

*1

穴田 一

*1

Munemichi Fukuda Hajime Anada

*1

東京都市大学大学院 総合理工学研究科

Graduate School of Integrative Science and Engineering, Tokyo City University #1

Recently, the artificial-intelligence-based Werewolf Project has been attracting attention. As the

Werewolf Game requires human-like artificial intelligence, it is important for researchers to construct

an artificial intelligence that has the abilities to beguile and detect a lie. Therefore, we construct an

artificial intelligence that can deduce players’ roles and communicate adequately with other players.

1. はじめに

近年,人工知能による将棋や囲碁などのゲームの大会が 開催されている.その 1 つに人狼ゲームを行う人狼知能大 会[1]がある.人狼ゲームで勝つためには嘘をつく能力や, 情報の真偽を見極める能力が要求される.これらの能力が 向上することで,人工知能がより高度な判断が可能となり, 人間の知能に近づくと考えられる.そのため,この人狼知 能大会が注目され,人狼知能の研究[2][3][4][5][6]が勢力的 に行われている. それらの研究の中にニューラルネットワーク(以下, NN)を用いて,役職推定を行う大川らの研究[2]がある. しかしそのモデルには人狼の推定精度を向上できる余地が あると考えられる.何故なら,NN に入力する特徴として, 役職推定者の役職や占いの対象となっているプレイヤとそ のプレイヤの発言など,用いていない情報があるからであ る. そこで本研究では,役職推定者の役職や全会話情報を用 いた役職推定モデルを構築し,その有効性を確認した.そ して,この役職推定モデルと Deep Q Network(以下,DQN) を用いて相手から自分への発言内容を状態として入力し, 勝利に貢献する為の発言や行動を行うエージェントを構築 し,性能評価を行った.

2. 既存研究

2.1 人狼大会のルール 人狼ゲームは村陣営と狼陣営に分かれて,勝ちを競うゲ ームである.村陣営は人狼を全てゲームから除外する(以 下,追放する)こと,狼陣営は,人間の数を人狼の数以下 にすることが勝利条件である. 人狼知能大会では 5 人人狼ゲームと 15 人人狼ゲームが行 われていて,本研究では 15 人人狼を取り扱う.15 人人狼 の場合,各プレイヤは役職(村人,占師,霊媒師,狩人, 人狼,裏切り者),種族(人間,狼),陣営(村,狼)の属性 を持つ.またプレイヤの役職と種族,陣営は人狼同士を除 き,他のプレイヤに非公開である. 村陣営は全て種族が人間の村人 6 人,占師 1 人,霊媒師 1 人,狩人 1 人である.村人は能力を持たない.占師は 1 日 1 人のプレイヤの種族を調べること(以下,占い)ができ る.霊媒師は死んだプレイヤの種族を調べること(以下, 交霊)ができる.狩人は 1 日 1 人のプレイヤを人狼の襲撃か ら守ることができる.狼陣営は人狼 3 匹で種族は狼,裏切 り者 1 人で種族は人間である.人狼は人狼同士で会話を行 える.また,全員で 1 日 1 人のプレイヤをゲームから除外 できる(以下,襲撃).裏切り者は狼陣営が勝った時に共に 勝利する特殊な役職である. 人狼ゲームには,昼と夜のフェイズが存在する.昼はプ レイヤ同士で会話し,最後に追放投票を行う.狼陣営は時 折嘘の発言をしてプレイヤを騙し,都合の良い展開に持ち 込もうとする.村陣営は狼陣営の嘘を見抜き,逆に人狼を 見つけようとする.追放投票は全員で投票を行い,最多票 のプレイヤが追放される.夜は占師が1人の種族を占う, 霊媒師が死者と交霊して種族を調べる,狩人が 1 人を守り, 人狼が人狼同士で会話をした後に 1 人を襲撃する.また人 狼ゲームはゲーム開始前に占師が一度占いを行い,ゲーム を開始する. プレイヤ同士の会話はターン制である.発言は定型文で 1 日に 10 回まで可能で,発言をしないことも可能である. 全員が 1 回ずつ定型文を発言することを 1 ラウンドとし, これを複数ラウンド繰り返す.発言する順番はラウンド毎 に無作為に決定する.発言に用いる定型文の種類の一例を 表 1 に示す. 表 1:発言の定型文 発言 意味 ESTIMATE P R P は R だと思う COMINGOUT P R P は R であると宣言する DIVINATION P P を占う GUARD P P を守る VOTE P P に投票する ATTACK P P を攻撃する DIVINED P S P の占い結果は S である IDENTIFIED P S P の交霊結果は S である GUARDED P P を守った 連絡先:福田宗理,東京都市大学, 〒158-8557 東京都世田谷区玉堤 1-28-1

(2)

- 2 - VOTED P P に投票した ATTACKED P P を襲撃した AGREE T T に賛成する DISAGREE T T に反対する REQUEST P T P に T をして欲しい INQUIRE P T P に T の内容を質問 BECAUSE T1 T2 T1 だから T2 だと主張 DAY X T X 日に T だった NOT T T では無い AND T T… 複数の T が正しいと主張する OR T T… 複数の T のうち, 少なくとも 1 つは正しい XOR T1 T2 T1 か T2 である SKIP パス OVER 今日はもう喋らない P はプレイヤ,R は役職,S は種族,T は定形文, X は数字を表している. 以下の 3 つの内どれかの条件を満たすと会話が終了し, 追放投票に移行する. ● 全てのプレイヤが OVER をする ● 全てのプレイヤが SKIP をするラウンドが 3 回連続する ● 20 ラウンドが経過する 2.2 大川らの役職推定モデル 人狼ゲームに強い人工知能を作る為には,プレイヤの会 話や占い結果の情報から誰が人狼かを精度よく推定する事 が重要である.大川らの研究では,NN を用いてプレイヤの 役職が村人,占師,人狼,裏切り者である確率をそれぞれ 出力する役職推定モデルと各プレイヤの人狼である確率を 出力する人狼推定モデルを構築した. 2.3 大川らの役職推定モデル 大川らの研究では,NN に入力するプレイヤの特徴の中に, 役職推定者の役職や占いの対象となっているプレイヤとそ のプレイヤの発言など,用いていない情報がある.このこ とが,推定精度が良くない主要な要因であると考えられる.

3. 提案手法

本研究では,15 人人狼で勝つために,役職推定モデルと そのモデルを搭載したエージェントを提案する. 3.1 役職推定モデル 役職推定モデルでは,NN を用いて,経過日数と役職推定 者の役職,発言情報のうち,全ての COMINGOUT の発言と他 の新しい発言の計 100 個,各プレイヤの生死をプレイヤの 特徴として入力し,推定対象であるプレイヤの役職を推定 するモデルを提案する.発言情報は1つの発言について, 日にちとターン数,誰が,誰に,発言の種類,役職(発言 の種類が ESTIMATE,COMINGOUT の場合のみ),種族(発言 の種類が DIVINED,IDENTIFIED の場合のみ)の情報を記録 している. 3.2 人狼エージェント 本研究で提案した役職推定モデルと DQN を用いて勝利に 貢献する為の発言や行動を行うエージェントを構築する. 本研究の DQN では報酬としてゲームに勝利した場合に+1, 敗北した場合は-1 を与える.状態として他のエージェント から自分に対する発言とその発言者の特徴を入力する. また行動としてゲームのフェイズに合わせて発言の方向 性または追放投票の対象選択や夜の行動(占い,護衛,襲 撃の対象選択)を決める. ここで発言の方向性とは,ニュアンスが似ている発言を 集約したものである.最終的な発言内容は方向性に沿って ルールベースで決める. このように 2 段階で発言を決定する理由は,発言の種類 を保ったまま,状況と行動の組み合わせを減らすためであ る.DQN の欠点の一つに状況と行動の組み合わせが多いと 学習が進まない点がある.そのため組み合わせを減らす為 に,発言の種類を減らす必要がある.しかし単純に発言の 種類を制限すると発言がワンパターンになり,発言からど の役職のエージェントかを推定することが容易になる.そ の為ニュアンスが似ている発言を集約し方向性と定義する 事で行動の種類を減らし,発言の方向性に従って最終的な 発言内容をルールベースで決めることで様々な発言が可能 となる. 入力内容(状態)は下記の 4 種類である. ● 日にち ● ターン数 ● 直近に自分に言われた発言内容 ● その発言者の特徴 発言の特徴の詳細を下記の表 2 に示す. 表 2:発言者の特徴の詳細 推定モデルで推定した役職 自分と意見が合う数 発言者の発言数 出力する発言の方向性と行動(これらが DQN の行動)は 下記の 22 種類である. ● 人狼を排除する発言 ● 無口のプレイヤを排除する発言 ● 自分が占師であると主張する発言 ● 自分が霊媒師であると主張する発言 ● 他プレイヤが村人であると信じる発言 ● 他プレイヤが占師であると信じる発言 ● パス発言 ● 村人を襲撃する発言 ● 占師を襲撃する発言 ● 霊媒師を襲撃する発言 ● 多弁のプレイヤを襲撃する発言 ● 村の意見に合わせて投票 ● 自分の推定モデルの結果で投票 ● 無口なプレイヤに投票 ● 自分の推定モデルの結果で襲撃 ● 狼の意見に合わせて襲撃 ● 村の要望に合わせて占う ● 人狼だと推定したプレイヤを占う ● 村人だと推定したプレイヤを占う ● 占師 CO しているプレイヤを占う ● 占師だと推定したプレイヤを守る ● 霊媒師だと推定したプレイヤを守る これらの行動のうち,ゲームのフェイズに合う行動を選択 する.下記の表 3 に具体的な発言の例を載せる.

(3)

- 3 - 表 3:具体的な発言の例 発言の方向性 具体的な発言 人狼を排除す る発言 人狼だと推定する 人狼への投票発言 人狼への投票 占いを希望する あなたは人狼ですか?と質問する 自分が占い師 であると主張 する発言 占い師 CO 占い結果を報告する 自分以外に占師 CO している人を人狼 だと推定する 自分が村人だと占った人を信用する 次回占う人を予告する

4. 結果

人狼知能大会決勝戦のログデータを用いて,提案手法の 役職推定モデルの性能を評価する.GAT2017 人狼知能大会 のログデータの半分を学習データに,もう半分をテストデ ータとした.また他にも CEDEC2018 人狼知能大会のログデ ータをテストデータとして用いた.役職推定モデルをゲー ム中の一日の終わりに用いて,日にち毎の正答率の変化を 調べて考察する.パラメータは以下の表 4 の通りである. 表 4:パラメータ 入力次元 7765 出力次元 6 中間層の数 2 中間層のノード数 5000 活性化関数 ReLU GAT2017 と CEDEC2018 の人狼知能大会のログデータをテス トデータとして学習済みの提案手法で推定し,経過日数別 の役職推定結果の正答率を表 5 に示す. 表 5:正答率 1 日目 2 日目 3 日目 GAT2017 99.1 98.6 99.1 CEDEC2018 99.6 99.3 99.5 GAT2017 の 2 日目は 98.6%,それ以外でも 99%以上の正答 率がある.正答率がとても高いので,過学習を疑うが,訓練デー タは GAT2017 人狼知能大会のログデータの半分であり,別の 年である CEDEC2018 人狼知能大会のログデータ でテストをし ても正答率が 99%以上なので過学習はしていないと考えられる. 情報の少ない初日から正答率が高い理由は,役職推定モ デ ルが大会で決勝に出場したエージェントと役職の組み合わせ毎 に異なる発言パターンの特徴を抽出し学習している為,発言の パターンが少ない初日から正答率が高くなっていることをログデ ータで調べて確認した.エージェントの初日の発言の事例を以 下の表 6 で紹介する. 表 6:エージェント〈AITKN〉が村人の場合の初日の発言 ターン数 詳細 1 占い師 CO のリクエスト 2 霊媒師 CO のリクエスト 7 占い希望 9 投票発言 このようにエージェントと役職の組み合わせで初日の発言 パターンがある事が分かり,役職推定モデルはその特徴を 抽出し,高い正答率を出すことが出来ていると考える. そしてこの役職推定モデルを搭載した人狼エージェント を過去の人狼大会に出場したエージェント 5 種類とサンプ ルエージェント 1 種類 9 体と 2000 回対戦して学習を行い, 500 試合してテストした結果,勝率は 39.6%,生存率は 37.0%であった.また役職別の勝率は以下の表 7 の通りで ある. 表 7:役職毎の勝率 役職 勝率 勝利数/役職回数 村人 27.3% 72/264 占い師 25.8% 8/31 霊媒師 34.2% 13/38 狩人 27.6% 8/29 人狼 73.3% 74/101 狂人 62.2% 23/27 人狼陣営の勝率が良く,村人陣営の勝率が低い理由は,村陣 営のエージェントが人狼を探す能力が低く,逆に人狼は仲間の 人狼を知っているので,村人を襲撃する事が容易である. その為,人狼陣営の方が圧倒的有利である事が考えられる.

5. 今後の課題

現在のモデルでは相手から質問を受けた際に適切に返事 を 返すことが出来ない為,学習によって返事を返すような 報酬の 与え方を検討したい. 参考文献 [1] 人狼知能プロジェクト http://aiwolf.org/ [2] 大川貴聖,吉仲亮,篠原歩:“深層学習を用いて役 職推定を行う人狼エージェントの開発”第 22 回ゲー ムプログラミングワークショップ (2017) [3] 萩原誠,伊藤孝行,アーメッドムスタファ:“Q 学習と役 職推定に基づく人狼知能エージェントの作成” 情報 処理学会論文誌 vol.60 No.10 (2019) [4] 梶原健吾,鳥海不二夫,稲葉通将:“人狼知能大会 における統計分析と SVM を用いた人狼推定を行うエ ージェントの設計” 第 30 回人工知能学会 (2016) [5] 家原瞭,廣田敦士,田中一晶,荒木雅弘,岡夏樹: “Differentiable Neural Computer を用いた人狼知能の開 発” 第 32 回人工知能学会 (2018)

[6] 木村優里絵,尾崎知伸:“単語埋め込み技術を用いて 人狼BBS における役職推定”第 32 回人工知能学会 (2018)

参照

関連したドキュメント

ロボットは「心」を持つことができるのか 、 という問いに対する柴 しば 田 た 先生の考え方を

大学は職能人の育成と知の創成を責務とし ている。即ち,教育と研究が大学の両輪であ

このため、都は2021年度に「都政とICTをつなぎ、課題解決を 図る人材」として新たに ICT職

ビッグデータや人工知能(Artificial

森 狙仙は猿を描かせれば右に出るものが ないといわれ、当時大人気のアーティス トでした。母猿は滝の姿を見ながら、顔に

自分は超能力を持っていて他人の行動を左右で きると信じている。そして、例えば、たまたま

 このようなパヤタスゴミ処分場の歴史について説明を受けた後,パヤタスに 住む人の家庭を訪問した。そこでは 3 畳あるかないかほどの部屋に

近年は人がサルを追い払うこと は少なく、次第に個体数が増える と同時に、分裂によって群れの数