• 検索結果がありません。

46 機械学習を用いた AI 開発

N/A
N/A
Protected

Academic year: 2021

シェア "46 機械学習を用いた AI 開発"

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)

46 機械学習を用いたAI開発

情報論理工学研究室 新堀 穂高

1 . 序 論

京都将棋は縦横5マスの将棋盤で(香・と),(銀・角),(金・

),(飛・歩),王の5種類の駒を利用して対戦するミニ将棋 である.1に京都将棋の初期配置を示す. 通常の将棋の ルールと異なり,王以外の4種類の駒は一手ごとに必ず裏 返さなければならず,持ち駒は裏表どちらでも打つ事が出来 .また通常の将棋で禁止されている二歩や,行く場所のな くなる駒を打つことも出来る.京都将棋はこのような独特 なルールも相まってAIに関する研究が少なく,学習データ も少ない.そこで本研究では機械学習を用いて京都将棋の AIを開発する.AI開発にはAlpha Zeroを参考に開発を行 .Alpha ZeroとはDeepMind社によって2017年に開発 され,プロ棋士の棋譜データを用いることなく,自己対戦に より囲碁・チェス・将棋の学習が出来るAIである.

1 京都将棋の初期配置

2 . 研究内容

本研究では,python言語を用いてAlpha Zeroを参考に京 都将棋AIを作成する.

本研究では,学習データの作成方法として,まずランダム に次の一手を選択するAI同士を対戦させ,500回分の対戦 における学習データを作成する.この学習データを価値と方 策を出力するデュアルネットワークにおいて学習を行う. に学習によって作成されたモデルと最新のモデルの対戦を 20回行い,最新モデルの勝率が5割を超えた場合,モデル の更新を行う.最終的に学習データの作成,デュアルネット ワークの学習,モデル同士の対戦を繰り返すことで強いモデ ルが作成される.モデル同士の対戦を行う際,探索方法とし てモンテカルロ木探索を利用する. 探索を行う際,各ノード は情報として累計価値と試行回数を持つ.これらを評価関数 に代入し評価の高いノードを選択し,AI同士の対戦を繰り 返すことにより,ノードの価値と試行回数を更新する.

3 . 結果・考察

前 章 で 述 べ た 学 習 サ イ ク ル を 30 回 行 い, 学 習 さ せ た

bestAIとランダムに次の手を選択する RandomAIの対

戦を100回行った.結果を以下の表1に示す. 1が示すと おりランダムに手を選択するAI相手には必ず勝てる強さの AIを作成することが出来たと考えられる.

次に人間とbestAIの対戦における局面の一部を図2 3に示す.2の局面で人間側が持ち駒の角で,1三角 と王手をかけたが,bestAIは図3のように△2四と成と王 手を回避しない手を選択した.このような手が選択される理 由として学習回数が足らず特定の局面における学習が不十 分であると考えられる.

1 RandomAIとの対戦結果(試行回数100)

bestAI先手 bestAI後手 100 100

0 0

2 人間とAIの盤面1 3 人間とAIの盤面2

4 . 結 論

本研究ではAlpha Zeroを参考に京都将棋の AI作成を 行ったが,人間との対戦では王手を回避しないなど脆弱な部 分が確認された.今回の学習はGoogle Colabを利用したた ,12時間制限やGPUの利用上限などにより十分な学習時 間が得られず,次の手を探索する際に適切な評価が出来な かったことが原因であると考えられる.

今後の課題として王手を回避しない脆弱性の対策に,合法 手から王手放置の手を含めないプログラムを作成する必要 があると考えられる。また学習回数を重ね,RandomAI 人間ではなくアルファベータ法や他のAIと対戦させ,強さ と脆弱性を検証する必要があると考えられる.

参考文献

1) 布留川 英一:Alpha Zero深層学習・強化学習・探索 人 工知能プログラミング実践入門, 株式会社ボーンデジタ (2019)

図 1 京都将棋の初期配置

参照

関連したドキュメント

し,提供する Standard Assets Package に実装されてい る StandardAssets/Vehicles/Car を利用した.再現動画

• compressed bucket size • k • bucket size • bucket length 上の 4

行画面が表示される。

「二次元電気泳動画像を教師データに用いた機械学習による AI プロテオミクス診断法の開発」 東京工業大学生命理工学院 林 宣宏

3.1 学習モデル 教師データを準備するコスト、特に人手によ るラベル付け作業を軽減することを狙い、学習 モデルには

Machine Learning Driven Compiler Tuning (機械学習を用いたコンパイラ最適化技術)..

タ点 にとって exemplar として適切である度合いを表す. availability は,exemplar 候補 から.. データ点 が exemplar として

学習データの規模 • 将棋の評価関数に用いられている学習データの規模 ⇒ 見た目以上にずっと大きい 数万局 の棋譜から学習 一般的な認識