攻撃側プレイヤの作成 - TD 2048 TD 1 N N 2048 N TD N N N N N N 2048 N 2048 TD 2048 TD TD TD 2048 TD 2048 m

5.1.1 学習相手の準備

攻撃側プレイヤの学習にあたり，1^人ゲーム“2048”において強いプレイヤを防御側プレイヤとして学習することが有用であると考えた．そこで，既存手法 [12, 4]にならって，TD 学習によりN タプルネットワークを用いる防御側プレイヤを作成した．

TD 学習に用いる N タプルには，第二著者が求めた [9] 6 タプルの列 (図 5.1) から

m = 1· · ·8 ^個の 6 タプルを選んで用いた．また，Wu ^{らが用いた} 4 ^個の 6 ^{タプル（図}

2.4）を用いたN タプルネットワークでも学習させた．学習は，各N タプルの組について

5,000,000ゲームの対戦により行った．

表5.1に，TD学習によって得られたプレイヤの“2048”における平均得点を示す．タプル数m = 5 まではおおよそ線形に得点が向上しており，それ以降もゆるやかに得点向上が見られる．

5.1 ^{攻撃側プレイヤの作成}

(1) (2) (3) (4) (5) (6) (7) (8)

図5.1 松崎が示した[9]6タプルの列．左端の (1) から順にとり，N タプルネットワークに用いる．

表5.1 1人プレイ2048におけるTD学習プレイヤの得点．

学習したタプル平均得点

m= 1 51,506

m= 2 113,313

m= 3 138,365

m= 4 169,649

m= 5 214,526

m= 6 212,384

m= 7 222,639

m= 8 230,513

m= 4 (Wuら) 178,386

5.1.2 攻撃側プレイヤの学習

続けて，第5.1.1章で作成した防御側プレイヤを用いて，攻撃側プレイヤのN タプルネットワークを学習させた．

学習は前局面と現局面との評価値の差をもとに行い，この基本的な考え方は防御側プレイヤの学習の場合とほぼ同じである．異なる点は，攻撃側プレイヤが手を選択する際に有効手のうち盤面評価値と得点の和が最小となるものを選ぶ点と，攻撃側プレイヤが一定の割合でランダムな手を選択することである．1^{人ゲームの}“2048”^と異なり“^対戦型2048”^では，攻撃側・防御側ともに決定的に手を選択すると出現する局面が偏ってしまう．出現局面の偏りはN タプルネットワークの学習によくないため，何らかの方法で出現局面の種類を

5.1 ^{攻撃側プレイヤの作成}

増やすことが必要である．予備実験として攻撃側と防御側のそれぞれについて，一定割合でランダムに手を選択するようにさせたところ，防御側では効果が小さく攻撃側では効果が大きかったため，以下の実験では攻撃側が一定割合でランダムな手を選択するようにした．また，攻撃側がランダムな手を選択した場合には，その手についてはTD学習による評価値の更新は行わない．

攻撃側プレイヤの学習では以下のパラメータの各組み合わせについて実験を行った．

攻撃側のタプル攻撃側が用いるタプルには，図5.1の6タプルから m= 1· · ·8 個のタプル，または図2.4の4つの6タプルを用いた．(9通り)

防御側プレイヤ防御側プレイヤには，第 5.1.1 ^{節で作成した} 9 つのプレイヤに加えて，

m = 1· · ·8 個のタプルを用いて選ばれる手のうちからランダムに選択するプレイヤ，

単純にランダムに手を選択するプレイヤを用いた．(11通り)

ランダムな手選択の割合攻撃側プレイヤがランダムに手を選択する割合は，0%，25%， 50%^，75%^{のいずれかとした．}(4^通り)

N タプルネットワークにおける重みの初期値は0とした．各パラメータの組み合わせについて，それぞれ500万ゲームの学習を行った．

学習によって得られた攻撃側プレイヤを評価するため，第5.1.1節の防御側プレイヤとの対戦結果を，上記の3つの観点で集計したものを表5.2, 5.3, 5.4に示す．評価のための対戦では，攻撃側は最初の50手はランダムな位置にタイルを置き，対戦結果がゲームごとに異なるようにした．各組み合わせについて，1000ゲームの対戦を行い，その平均得点と最高得点を記録した．

表5.2より，平均得点は，タプル数m = 1を除いて攻撃側の学習に用いたタプル数に大きく影響されていない．一方，最大得点は，タプル数を増やすとより小さく抑えることができている．学習に用いる防御側プレイヤについては，表5.3より，特定の相手を固定するのではなく複数のプレイヤを用いるほうが良いことが分かる．また，防御側がランダムに手を選ぶ場合には，それによる学習は効果が小さい．また，出現局面の多様性のために導入する

ドキュメント内 TD 2048 TD 1 N N 2048 N TD N N N N N N 2048 N 2048 TD 2048 TD TD TD 2048 TD 2048 minimax 2048, 2048, TD, N i (ページ 35-38)