• 検索結果がありません。

5.1.1 学習相手の準備

攻撃側プレイヤの学習にあたり,1人ゲーム“2048”において強いプレイヤを防御側プレ イヤとして学習することが有用であると考えた.そこで,既存手法 [12, 4]にならって,TD 学習によりN タプルネットワークを用いる防御側プレイヤを作成した.

TD 学習に用いる N タプルには,第二著者が求めた [9] 6 タプルの列 (図 5.1) から

m = 1· · ·8 個の 6 タプルを選んで用いた.また,Wu らが用いた 4 個の 6 タプル(図

2.4)を用いたN タプルネットワークでも学習させた.学習は,各N タプルの組について

5,000,000ゲームの対戦により行った.

表5.1に,TD学習によって得られたプレイヤの“2048”における平均得点を示す.タプ ル数m = 5 まではおおよそ線形に得点が向上しており,それ以降もゆるやかに得点向上が 見られる.

5.1 攻撃側プレイヤの作成

(1) (2) (3) (4) (5) (6) (7) (8)

5.1 松崎が示した[9]6タプルの列.左端の (1) から順にとり,N タプルネットワークに用いる.

5.1 1人プレイ2048におけるTD学習プレイヤの得点.

学習したタプル 平均得点

m= 1 51,506

m= 2 113,313

m= 3 138,365

m= 4 169,649

m= 5 214,526

m= 6 212,384

m= 7 222,639

m= 8 230,513

m= 4 (Wuら) 178,386

5.1.2 攻撃側プレイヤの学習

続けて,第5.1.1章で作成した防御側プレイヤを用いて,攻撃側プレイヤのN タプルネッ トワークを学習させた.

学習は前局面と現局面との評価値の差をもとに行い,この基本的な考え方は防御側プレイ ヤの学習の場合とほぼ同じである.異なる点は,攻撃側プレイヤが手を選択する際に有効 手のうち盤面評価値と得点の和が最小となるものを選ぶ点と,攻撃側プレイヤが一定の割 合でランダムな手を選択することである.1人ゲームの“2048”と異なり対戦型2048” は,攻撃側・防御側ともに決定的に手を選択すると出現する局面が偏ってしまう.出現局面 の偏りはN タプルネットワークの学習によくないため,何らかの方法で出現局面の種類を

5.1 攻撃側プレイヤの作成

増やすことが必要である.予備実験として攻撃側と防御側のそれぞれについて,一定割合で ランダムに手を選択するようにさせたところ,防御側では効果が小さく攻撃側では効果が大 きかったため,以下の実験では攻撃側が一定割合でランダムな手を選択するようにした.ま た,攻撃側がランダムな手を選択した場合には,その手についてはTD学習による評価値の 更新は行わない.

攻撃側プレイヤの学習では以下のパラメータの各組み合わせについて実験を行った.

攻撃側のタプル 攻撃側が用いるタプルには,図5.1の6タプルから m= 1· · ·8 個のタプ ル,または図2.4の4つの6タプルを用いた.(9通り)

防御側プレイヤ 防御側プレイヤには,第 5.1.1 節で作成した 9 つのプレイヤに加えて,

m = 1· · ·8 個のタプルを用いて選ばれる手のうちからランダムに選択するプレイヤ,

単純にランダムに手を選択するプレイヤを用いた.(11通り)

ランダムな手選択の割合 攻撃側プレイヤがランダムに手を選択する割合は,0%,25%, 50%75%のいずれかとした.(4通り)

N タプルネットワークにおける重みの初期値は0とした.各パラメータの組み合わせにつ いて,それぞれ500万ゲームの学習を行った.

学習によって得られた攻撃側プレイヤを評価するため,第5.1.1節の防御側プレイヤとの 対戦結果を,上記の3つの観点で集計したものを表5.2, 5.3, 5.4に示す.評価のための対戦 では,攻撃側は最初の50手はランダムな位置にタイルを置き,対戦結果がゲームごとに異 なるようにした.各組み合わせについて,1000ゲームの対戦を行い,その平均得点と最高 得点を記録した.

表5.2より,平均得点は,タプル数m = 1を除いて攻撃側の学習に用いたタプル数に大 きく影響されていない.一方,最大得点は,タプル数を増やすとより小さく抑えることがで きている.学習に用いる防御側プレイヤについては,表5.3より,特定の相手を固定するの ではなく複数のプレイヤを用いるほうが良いことが分かる.また,防御側がランダムに手を 選ぶ場合には,それによる学習は効果が小さい.また,出現局面の多様性のために導入する

関連したドキュメント