提案システム

第 5 章リカレントネットワークと

Q- learning

5.3 提案システム

複雑なデータ構造でワンホット出力に適していないニューラルネットワークの出力段を適切な分割をすることで扱いやすくし，さらに各出力の関連性をRNNを採用することで高めたシステム提案を行う．さらに，TUBSTAPにおいて強化学習を行うには使用できるマップの数やデータ量に限りがあり，何が価値のある行動であるか判断するのが困難な場合が多いためProfit Sharingによる少ないサンプル数による効率的な学習を試みる．そして，経験を重視するのがProfit Sharingであるが深層学習による汎化能力による未知のマップへの対応能力の向上を図る．

5.3.1 ニューラルネットワークの出力段の設計の課題

TUBSTAPのようなターン制戦略ゲームでは1ターンで複数の駒が動作すること

を想定した行動の表現が必要となる．具体的にはユニット１個分の行動について

• 移動元：どの駒についての行動であるかを示す

• 移動先：どの位置への移動であるかを示す

• 攻撃先：どの駒を攻撃するかを示すかまたは攻撃しないのような情報を含んでいなければならない．

ニューラルネットワークにこれらの情報を出力させる設計を考える際に必要なニューロン数を検討する．この場合，8×8マスのマップをそのままエンコードするとすると移動元で64個，移動先で64個，攻撃先で攻撃しないフラグを含めて65個のニューロンが必要となる．これをそのまま通常のクラス分類問題としての出力段と考えると64

×64×65 = 266240 ものニューロンを用意しなければならない．これはAlphaZero Shogiの11259やAlphaZero Chessの4672 と比較しても非常に多い．ここでは1ユニット分についての計算なのでもし仮に，多ユニットを同時に表現しようとする際にはもっと増加することになる．これだけの数の設計では通常GPUのメモリにはのらないので動作しないか，動作しても学習がきわめて遅くなってしまう．本章の取り組みでは出力段を移動元，移動先，攻撃先として三つに分割することで必要なニューロン数を低減させる．

図5.2 にこの場合の行動出力の構造でデータ表現について摸式的に示す．ここではマップは8×8マスであって，移動元のマスが決定して，しかるのちに移動先のマス

移動元位置 移動先位置 攻撃先位置

図 5.2: 行動出力の構造とデータ表現

を決定し，最終的に攻撃する先のマスを決定するという手順を表現している．攻撃するマスでは攻撃しない，という選択した場合を考えると5つの選択肢があることになる．各行動が合法手となるかどうかは，各ユニットの配置やマップの状況と各行動との組み合わせによって変化する．例えば，移動元の行動表現はマス目にユニットが配置されていなければならない．また移動先のマスは移動元からユニットがルールにてらして移動可能なマスでなければならない．このように移動先が合法手であるか確定するのは移動元の行動が決定してからなので，この行動の列には時間関係が存在する．そして，攻撃先が合法手かどうか確定するのは移動元と移動先が合法手であって，ルールにてらして合法な行動であった時に決定するため，同様に時間関係が存在する．

この移動元と移動先と攻撃先のデータ表現は一つのデータの中に次のデータが影響を受ける階層的または入れ子のような構造となっている．これを単純化して表現することを考えた場合にはRNNのように時分割できるニューラルネットワークが適している．１つの行動につき１ステップごとの出力を割り当てることで単純な表現となる．他にも可能な入出力の形式はさまざまありうる．例えば，３つのネットワークを用いて，１つ目が状態を入力として移動元を出力し，２つ目が移動元と状態を入力として移動先を出力し，３つ目が移動先も入力とするようなものなどである．しかしながら，これは性能はともかくとして３つの異なるネットワークを持つ必要があり，

標準的な実装ではGPUが3つ必要になるため，広い活用を考えたときには利便性が悪いと思われる．

5.3.2 RNN の TUBSTAP への適用

出力段のニューロン数を抑えることだけを考えるのであれば，出力を上記の項目ごとに分割してニューラルネットワークを多出力の構成にすることで実現できる．しかしながら，多出力のニューラルネットワークの構成では学習において特定の出力段の学習のみ改善されてしまうことで学習が偏ったり相互の出力の関連性を持たせるのが難しくなったりする問題がある．このような各出力の相関を取り学習の偏りを防止するために図 5.3 のようにリカレントネットワークを使用することができると考えて提案する．ここではt=1で駒の移動元の出力z¹がRNNのフィードバックによっ

z¹ y¹ 移動元

z² z³

t=1 t=2 t=3

y² 移動先

y³

5.3.3 使用したニューラルネットワーク

今回使用したニューラルネットワークの内部構造を図5.4に示す．入力データはマップ情報の地形情報７種類と駒情報（兵種6種類＋移動済みフラグ）をREDとBLUE で７×２，これに加えて手番情報が１で，トータルで 7＋7 × 2 + 1= 22の情報を 8 × 8 のマス目状に変換してエンコードした22チャンネルのニューラルネットワーク入力用データである．駒のHPは[0,１] の範囲に正規化され駒情報層に浮動小数点の形式で入力される．入力層には通常の自然言語処理用のものはEmbedding層が採用されるが今回は畳み込み層を採用して三層積層している．ついでリカレントネットワーク層が積層されて三層あり，各層のニューロン数が800となっている．入力データはt=1, t=2, t= 3で同一データを入力する．出力は駒の行動情報を時分割(t=1移動元, t=2 移動先, t= 3 攻撃先)で出力している．

Experience Memory

Deep Q-network

Profit sharing Q-learning

Environment

reward r action a

state s

図 5.5: ブロック図

A B C E

f4(r) f3(r) f2(r)

a b c e

Rule: Aa Rule: Bb Rule: Cc

Episode

Reward r

f1(r)

Rule: Dd

図 5.6: Profit Sharingの報酬の分配

5.3.4 Profit Sharing の TUBSTAP への適用

提案手法では図5.5 のようにDQNシステムについて報酬の与え方をProfit Sharing 法を用いてDQNに適用するためにDQNwithPS [69] の考え方に基づいたものを

TUBSTAPに応用できるように変更し報酬が与えられた時点で報酬を１としそのエ

ピソードをExperience Replayのリプレイメモリへと格納する．TUBSTAPの1つのマップのゲーム開始から終了までを１エピソードとみなすことができる．エピソードが終了した際にProfit Sharing の強化関数に基づいて報酬を分配する（図 5.6）．

TUBSTAPの各ターンにおける局面と駒の特性が状態であり，各状態におけるルール

が行動となる．ニューラルネットワークのQ-network には局面と駒の情報が与えられ行動を出力しているものとみなす．したがってQ-network は各局面におけるルールを経験に応じて個別に学習していくことになる．

採用した強化関数

TUBSTAPにおける各ステップはどの局面においても価値はほぼ同じであると今

回は仮定して次式のように設定した．

fi(r) = 1 (5.5)

この強化関数の設定による報酬の与え方では，対象問題によっては無効ルールが獲

得されるといった不都合な学習が為される可能性があるが，本実験では用いるマップの特性を考慮し，深層学習の汎化能力に期待してこのような設定とした．

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 56-60)

第 5 章 リカレントネットワークと