• 検索結果がありません。

1200375 山崎 蓮太 【 ゲーム情報学研究室 】

N/A
N/A
Protected

Academic year: 2021

シェア "1200375 山崎 蓮太 【 ゲーム情報学研究室 】 "

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)

令和元年度 学士学位論文梗概 高知工科大学 情報学群

平均悪手を適応度とした遺伝的アルゴリズムによる探索パラメータの調整

1200375 山崎 蓮太 【 ゲーム情報学研究室 】

1 はじめに

強いゲーム

AI

の実現には最新のゲーム木探索の実装 が重要な要素になっている。ゲーム木探索の効果を最大 化するためには、探索内部のパラメータを適切に調整す る必要がある。調整に遺伝的アルゴリズム

(GA)

を用い る際には、目的関数(適応度)に強さと相関があるもの を設定することが望ましい。単純な方法は対戦を行い、

勝率で強さを測る手法であるが、時間がかかりすぎるた めに実用的ではない。一方で、従来手法は早いが強さと の関連性が薄いものが使われてきた

[1]。適応度には強

さとの関連が強く、対戦よりも時間がかからないものを 利用したい。そこで本調査では、平均悪手を適応度に設 定して

GA

によるパラメータ調整を行う。平均悪手は 山下らによりレーティングを推定できることが明らか になっており、対戦よりも時間がかからない

[2]。この

平均悪手が探索パラメータ調整に有効であるかを調査 する。

2 関連研究

2.1

遺伝的アルゴリズム

遺伝的アルゴリズムは、生物の進化の過程を模したア ルゴリズムであり、最適化問題によく用いられる。

ある適応度を最大化するように調整する際には、その 適応度が適応度関数となる。その適応度が高いほど生き 残りやすく、次の世代に子孫を残しやすくなる。次世代 の個体は親のペアの遺伝子同士を交叉させ、確率に応 じて突然変異を起こし、生成される。交叉や突然変異、

遺伝子のデータ構造については様々な手法がある。

世代ごとに

N

個体あるとし、M世代まで繰り返すと した場合、具体的な手順は以下の通りになる。

1.

個体を

N

個生成

2.

個体ごとに適応度を計算

3.

適応度が十分に大きいか、M世代に達しているな らば終了。終了しない場合、以下の手順で子孫を 作成

(a)

現在の世代から、親となるペアを適応度に応 じて選択

(b)

ペアの遺伝子を確率

P

cで交叉、確率

P

mで 突然変異させる

4.

古い世代を新しい世代で置き換えて

2.

へ戻る

2.2

平均悪手

平均悪手とは、プレイヤが悪手をどれだけ指してい るかの指標である。悪手とは、「教師に設定したプレイ ヤと別な指し手」かつ「盤面の評価値が下がった場合」

の指し手のことである。この悪手と教師の最善手の評価

値の差を足し合わせて、悪手を調べた局面数で割った値 が平均悪手になる。この平均悪手で、山下らがレーティ ングを推測できることを明らかにしている

[2]。

3 提案手法

1.

で述べたように、本研究では提案手法として、GA による探索パラメータ調整を行う際の適応度を平均悪 手に設定することを提案する。

平均悪手を提案した理由は、

2.2

で述べたように、強 さとの相関があり、対戦よりもレーティングの推測に時 間がかからないためである。

4 調査と実験

調査と実験は次の手順で行う。まず、平均悪手が適応 度として有用であるかを調べるために、平均悪手を適応 度とした探索パラメータの調整を行う。そして調整され たプレイヤに対して、対戦や適応度、探索パラメータの 計測、教師との一致率の比較を行うことで性能評価を 行う。

4.1

実験設定

GA

については竹内らの実験に従い、10個体

50

世代 として、変異率

0.05、交叉率 0.75

として調整を行った

[1]。また GA

には

Python

の遺伝的アルゴリズムライ

ブラリである

DEAP

を利用する。実験用のオセロプロ グラムは、探索パラメータの調整に用いるテストプログ ラムとして、モンテカルロ木探索を実装したプレイヤを 利用した。

調整するパラメータの詳細は卒業論文に記載する。

調整に用いる適応度に設定する平均悪手については、

教師としてオセロプログラムである

Zebra

を採用した。

局面数は

500

局面とした。

5 まとめ

本研究では、平均悪手を適応度とした遺伝的アルゴリ ズムによる探索パラメータの調整を行った。卒業論文で は、実験結果から平均悪手が有効であるかを考察する。

参考文献

[1]

竹内聖悟, 金子知適. 探索パラメータの調整に適し た目的関数の調査

:

モンテカルロ木探索将棋の探 索パラメータの調整. ゲームプログラミングワーク ショップ

2012

論文集, pp. 84–91, 2012.

[2]

山下宏. 将棋名人のレーティングと棋譜分析. ゲー ムプログラミングワークショップ

2014

論文集, pp.

9–16, 2014.

参照

関連したドキュメント

中村   その一方で︑日本人学生がな かなか海外に行きたがらない現実があります︒本学から派遣する留学生は 2 0 1 1 年 で 2

などから, 従来から用いられてきた診断基準 (表 3) にて診断は容易である.一方,非典型例の臨 床像は多様である(表 2)

それでは,従来一般的であった見方はどのように正されるべきか。焦点を

 毒性の強いC1. tetaniは生物状試験でグルコース 分解陰性となるのがつねであるが,一面グルコース分

実際, クラス C の多様体については, ここでは 詳細には述べないが, 代数 reduction をはじめ類似のいくつかの方法を 組み合わせてその構造を組織的に研究することができる

世界的流行である以上、何をもって感染終息と判断するのか、現時点では予測がつかないと思われます。時限的、特例的措置とされても、かなりの長期間にわたり

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

最も偏相関が高い要因は年齢である。生活の 中で健康を大切とする意識は、 3 0 歳代までは強 くないが、 40 歳代になると強まり始め、