<4D F736F F F696E74202D2091E F B835E B C >

(1)

情報技術論第13回

情報技術論第

機械学習とコンピュータ

機械学習とコンピュタ

ゲームプレイヤへの応用

工学部電子情報工学科

近山隆

(2)

講義概要

講義の概要



機械学習（前回）

 コンピュータ将棋プレイヤと機械学習（今回）コンピタゲムプレイヤ研究の状況  コンピュータゲームプレイヤ研究の状況  コンピュータゲームプレイヤ激指  ゲーム木の探索手法  機械学習のゲーム木探索への応用機械学習のゲム木探索の応用  モンテカルロ法と機械学習

(3)

ピ

ゲ

コンピュータゲームプレイヤとは

 コンピュータの誕生当初から研究されてきた  人間の知性の象徴  もともとゲームは現実世界の縮図  もともとゲムは現実世界の縮図  組合せ探索問題の一種多数選択肢中最適選択  多数の選択肢の中から最適なものを選択  初期局面から必勝手を選べれば最高だが無理  与えられた時間内に、できるだけ良い手を選択

(4)

種々ゲ

種々のゲームのプレイヤ

 オセロ: 1990年代に人間を凌ぐ

 6x6のオセロは完全に解かれている（必勝手順が既知）

 チェス: 人間のトップを破る

 IBM Deep Blue vs 世界チャンピオンカスパロフ（1997）  将棋: アマチュアトップクラス将棋: アマチュアトップクラス

 現在コンピュータに確実に勝ち越せる人は100人はいない

 囲碁: 初級者レベル ⇒ 近年急激に実力向上

(5)

ピ

将棋

「激指

コンピュータ将棋プレイヤ「激指」

 現時点でトップのプレイヤのひとつ  近山研究室の大学院生が開発  世界コンピュータ将棋選手権で  世界コンピュータ将棋選手権で活躍し、商品化も開発者の修了就職後も  開発者の修了・就職後も開発チームは継続研究室後輩関連研究  研究室の後輩による関連研究

(6)

「激指

歴史（誕生

成長）

「激指」の歴史（誕生⇒成長）

1999.秋大学院生4人、将棋でもやってみようか「速い実装をすれば勝てるんじゃないの?」 2000.3 世界コンピュータ将棋選手権（WCSC）挑戦二次予選 9 位決勝進出ならず二次予選 9 位決勝進出ならず 2000秋実現確率打切りを提案、実装（鶴岡） 2001.3 WCSC二度目の出場決勝進出 4位他ソフトと違う特徴的棋風に注目集める他違う特徴的棋風注目集め 2001.12 商品版毎日コミュニケーションズより発売

(7)

「激指

歴史（円熟期）

「激指」の歴史（円熟期）

2002 5 WCSC初優勝 2002.5 WCSC初優勝 2003.5 WCSC 3位 2004.5 WCSC 2位 2005 5 WCSC 全勝で全勝優勝 2005.5 WCSC 全勝で全勝優勝勝又プロ五段との記念角落ち戦にも勝利 2005 6 ア竜王戦全国大会出場スト16 2005.6 アマ竜王戦全国大会出場ベスト16 2005.7 「将棋世界」企画トッププロとの角落ち戦 2005.7 将棋世界」企画トッププロとの角落ち戦渡辺竜王に敗れるも、木村一基7段に勝利

(8)

「激指

歴史（停滞

復活）

「激指」の歴史（停滞 ⇒ 復活）

2006.5 WCSC 5位 2007 5 WCSC 4位 2007.5 WCSC 4位 2008.5 WCSC 3度目の優勝優エクシビションで清水上アマ名人に勝利 2009 5 WCSC 6位 2009.5 WCSC 6位 2010.5 WCSC 4度目の優勝この間にどの強豪ソフトも確実に強くなってきている

(9)

「激指

歴史（

数年）

「激指」の歴史（ここ数年）

2006.5 WCSC 4位 2007 5 WCSC 2位（YSS ISと三すくみ状態） 2007.5 WCSC 2位（YSS、ISと三すくみ状態） 2008.5 WCSC 3度目の優勝

(10)

決定的完全情報零和ゲーム

決定的完全情報零和ゲム

 決定的: 偶然性なし（⇔ backgammon）  完全情報: 全情報は開示（⇔ contract  完全情報: 全情報は開示（⇔ contract bridge） ⇒ 互いに最善を尽くした場合の勝負は原理的には決まっている原理的には決まっている (たとえば、○×ゲームで賭けられる?) ゼサム自分勝ちは相手負け  ゼロサム: 自分の勝ちは相手の負け

(11)

AND O 木探索

AND-OR 木探索

局面自分の手番: ひとつ勝つ手が OR 指し手あればいい相手の手番: AND 相手の手番: ひとつでも負ける手があると困る AND あると困る

(12)

最後

読

最後までは読みきれない

ある局面で可能な手は60種ぐらい 6手先 1秒  ある局面で可能な手は60種ぐらい ∴1手深く読むには約60倍の時間 6手先: 1秒 7手先: 1分 8手先: 1時間 9手先 2 5日  ゲームの終了まで探索するのは事実上不可能 9手先: 2.5日 10手先: 半年 11手先: 30年事実上不可能 ⇒ 最後まで読むのはあきらめて、読める範囲なるく有利になる手を探索 12手先: 1800年 … 読める範囲でなるべく有利になる手を探索  勝ち負けの二値 ⇒ 有利不利の度合いの多値  勝ち負けの二値 ⇒ 有利不利の度合いの多値局面の評価が重要に

(13)

Mi i M

探索

Mini-Max探索

先もとも後手有利選択手先手番後もっとも後手有利の手を選択 Mi 節 2 1 1 選択手後手番 Min 節 -2 7 6 1 -2 1 -5 -2 3 7 6 -4 -8 1 先手番もっとも先手有利の手を選択 2 7 6 1 5 2 3 7 6 4 8 1 Max 節

(14)

探索省略

枝刈

探索の省略： α枝刈り

先手は左の枝をとれるので？先手先手は左の枝をとれるのでこの局面の評価は 2以上 2 2 手番後手後手が左の枝をとれるのでこの局面の評価は-3以下 2 7 -3 ？手番先手 _{ここがどうだろうと、} 手番ここがどうだろうと、この手は選ばない

(15)

β枝刈

枝刈

先後逆

β枝刈り: α枝刈りと先後逆

後手は左の枝をとれるので？先手後手は左の枝をとれるのでこの局面の評価は 2以下手番後手？？先手が左の枝をとれば_{この局面は} _7以上 2 ？手番先手？ここがどうだろうと、 -5 2 7 ？？手番？？？ここがどうだろうと、この手は選ばない

(16)

探索窓

値 β値範囲

探索窓：α値とβ値の範囲

各局面で考慮すべき評価値の下界・上界先各局面で考慮すべき評価値の下界上界ここは最低でも評価値 2 2 ？先手番後ここは最低でも評価値 2 最高は不明（∞） [2,∞] [2 -3] 2 7 -3 ？ 2 後手番ここは最高でも評価値 -3 親から2 以下は不要とわかる [2,-3] 先手番 _親から₂ _{以下は不要とわかる} ⇒ これ以上の探索不要

(17)

β枝刈

効率向上

αβ枝刈りの効率向上

有望な手を先に探索するのが大事  有望な手を先に探索するのが大事 ⇒ 早く大きく枝刈りできる  理想的探索順なら約倍の深さ読める  反復深化 iterative deepening  反復深化 iterative deepening  繰返し段々深く読んでいく  浅い読みの結果で深い読みの際の順序を決める  浅い読みは何度も行なうので冗長だが…  浅い読みは何度も行なうので冗長だが  深さ優先の探索がメモリコスト上で有利探索コストは深さの指数関数⇒浅い探索は安価  探索コストは深さの指数関数⇒浅い探索は安価

(18)

探索窓縮小

探索

探索窓を縮小した探索

 探索窓をあらかじめ縮小して探索  結果が窓の外だとどちら側かしかわからない  結果が窓の外だと、どちら側かしかわからない  結果が窓の内なら、探索が効率的 ∵ 悪い着手を早くあきらめられる ∵ 悪い着手を早くあきらめられる  探索窓の決め方  以前の着手決定の際の結果から推定  反復深化の際浅い読みの結果から推定  反復深化の際、浅い読みの結果から推定幅0の探索を繰り返す手法も

(19)

水平線効果 H

i

t

水平線効果 Horizon Effect

限られた深さの mini-max 探索の本質的問題  読める深さは限られている読める範囲内で最適なものを探す  読める範囲内で最適なものを探す  読める範囲のちょっと先の不利に気づかないどうやっても先が不利になりそうな局面で小さな不利の手伸ばし（歩の打捨てなど）で小さな不利の手伸ばし（歩の打捨てなど）で、大きな不利を視界の外に追いやる振舞い

(20)

深く読

どこまで深く読むか

 単純には最大「

n

手」先まで n  最後の一手がはんぱだったら? 駒の交換で駒の交換で  取ったところまで（大きく有利?）  取られたところまで（大きく不利?）  「ほんのちょっと先まで読むと全然違う」  ほんのちょっと先まで読むと全然違う」という局面は、少し先まで読みたい

(21)

選択深化

l

ti

d

i

選択深化 selective deepening

枝によって先読みの深さを変える  少し読めば精度が大きく高まるなら、より深く

i e

限界効用の高いところに資源投入

i.e.

限界効用の高いところに資源投入  従来からゲームプレイヤで広く採用広採用  連続王手が終わるまで  駒の取り合いが一段落するまで…  駒の取り合いが一段落するまで… ⇒ アドホックに人手で設定するのでは将棋の知識が必要考え落ちが生じやすい将棋の知識が必要、考え落ちが生じやすい

(22)

実現確率打切

実現確率打切り

選択深化の一手法方針: 実現しそうな局面は深く読む現局面から始めて各局面の実現確率を推定  現局面から始めて、各局面の実現確率を推定  実現確率は棋譜から得た統計データから推定  打切り閾値以上の実現確率の部分木のみ探索

(23)

局面実現確率算定手法

局面の実現確率の算定手法

指し手の実現確率を求める  指し手の実現確率を求める  指し手を表す特徴を適宜設定  約600局のプロ棋士の棋譜から各特徴を持つ手について、指せるときに実際に指した率を計算ついて、指せるときに実際に指した率を計算  現在の局面からある局面に至る指し手の確率の積がその局面の実現確率積が、その局面の実現確率

e.g.,

大駒の交換は、たいがい取り返す ⇒ 取った局面、取り返した局面はほぼ同確率

(24)

実現確率打切

実現確率打切り

局面の実現確率 p p₁₁ 局面の実現確率_p ₌_p 1×p2×p3 p p₂₂ 実現確率 q₁ 以上 p p₃₃ _実現確率 _q₂ _以上実装は対数で管理実装は対数で管理

(25)

実現確率打切

ぜ有効？

実現確率打切りは、なぜ有効？

 強いプレイヤが実際に指すことが多い手は良い手である可能性が高い  良い手は有利な局面をもたらしやすい  良い手は有利な局面をもたらしやすい  有利な局面に至る手は詳しく調べる価値あり注：「強いプレイヤが指しそうな手を選ぶ」のではない「強いプレイヤが指しそうな手は詳しく調べる」すなわち、資源投入量の制御にあたる

(26)

ピ

将棋機械学習

コンピュータ将棋と機械学習

 コンピュータ将棋の黎明期: 職人芸局面のどこに注目どの局面を探索  局面のどこに注目、どの局面を探索、…  計算機が遅いときには、これしかなかった  激指の実現確率: データからの学習の導入  職人芸的プログラミングからの解放  職人芸的プログラミングからの解放  近年では機械学習の適用が当然に  コンピュータが十分速くなった

(27)

実現確率算定改良

実現確率算定の改良

 指し手の確率＝指し手を生成する尤度を学習特徴として盤面パタンなどを追加  特徴として盤面パターンなどを追加  手の移動先・移動元の3x3のパターンなど  約4000局のプロ棋士の棋譜(約50万局面)で、指された手を正例、指されなかった手を負例とし、 Maximum Entropy 法で学習  「ひと目」で「この手は65%指しそう」とわかるひと目」でこの手は65 指しそう」とわかる

(28)

局面評価関数機械学習

局面評価関数の機械学習

 かつてはなかなかうまくいかなかった  コンピュータ将棋プレイヤ Bonanzaの登場  コンピュタ将棋プレイヤ Bonanzaの登場  比較学習を導入して初出場で優勝 (2006) 大きなインパクトを与えた大きなインパクトを与えた  評価要素: 玉と他の2個の駒の位置関係すべて  100万におよぶ次元の重みを調整する学習  今日では多くのコンピュータプレイヤが  今日では多くのコンピュータプレイヤが同様の方法を採用

(29)

比較学習：

局面評価パラメタの学習法 Deep Thought: IBMによるチェス専用機世界チンピオン K を破た  世界チャンピオン Kasparov を破った Deep Blue (1997) の前身  評価関数の重みを自動学習 (1988)  強いプレイヤが指したと同じ手を指すように調整  強いプレイヤが指したと同じ手を指すように調整  指した手/指さなかった手の評価値の相対値が問題指した直後の局面の評価を高くするのではダメ  指した直後の局面の評価を高くするのではダメ  先まで読んだ結果、その手を指すように調整

(30)

詰将棋指将棋関係

詰将棋と指将棋の関係

 詰将棋は読み切る ⇒ 指将棋とは異なる発展  証明数・反証数に基づく選択深化による探索  プロ棋士を大きく上回る実力  それでも殊に「不詰」の判定には時間がかかる  指将棋でも詰の判定は重要  指将棋でも詰の判定は重要  終盤はもちろん、序盤でも「頓死」の可能性あり激指では全体の30%の時間が詰み探索  激指では全体の30%の時間が詰み探索

(31)

証明数と反証数

proof number/disproof number

 AND-OR 木全体の真偽を決める問題  AND OR 木全体の真偽を決める問題たとえば詰将棋木をあまり展開せずに真偽を決めたい  木をあまり展開せずに真偽を決めたい  証明数：あと明数 pp ノード展開するだけで真とわかるかも展開だ真  反証数：あと d ノード展開するだけで偽とわかるかも証明数反証数の小さなノドを優先して展開  証明数・反証数の小さなノードを優先して展開 ∵ 最小限のコストで結論を得られそうな戦略

(32)

「直感

重要性

「直感」の重要性

 強い将棋指しは先読みで手を探さない?  「よい手は直感的に思いつく」  「時間をかけて読むのは直感を確かめるだけ」  時間をかけて読むのは直感を確かめるだけ」  「実はよくない手だった」とわかる場合も ⇒ 「直感」は「どの手をよく読むべきか」の資源配分制御に使っている! 資源配分制御に使っている ⇒ 詰み判定への資源配分を「直感」で制御

(33)

詰不詰予測

詰・不詰の予測

（三輪2004）

 将棋の局面をいくつか特  将棋の局面をいくつかの特徴量で表現多くの局面について特徴量２  多くの局面について詰将棋プログラムで詰・不詰を決定  詰・不詰と特徴量との  詰不詰と特徴量との関係を SVM で学習特徴量１

(34)

ソフトマージンの SVM

ソフトマジンの SVM

線形分離不能の場合線形では誤分類  線形では誤分類  誤分類の程度を数値化  誤分類コスト最小となる分離超平面を選択分離超平面を選択

(35)

局面特徴129種人手選択

局面の特徴129種を人手で選択

 玉将について: 絶対位置、玉間の距離  玉周辺の状況:  周辺の各位置は盤端/空/味方/敵  周辺の各位置は盤端/空/味方/敵  玉の可能な動きの数守駒攻駒合駒状態駒数  守り駒、攻め駒、合い駒状態の駒の数  手駒の種類と数手駒の種類と数  可能な王手の種類

(36)

学習用

学習に用いたデータ

 終局に近い四万局面を生成  プロ棋士の四千局の棋譜を用意  終局近くからランダムに進めて各十局面を生成  終局近くからランダムに進めて各十局面を生成  詰将棋プログラムで判定（最長３０秒で判定）  全四万局面中10,159局面が詰み棋譜進行判定詰み

(37)

C

V lid ti

Cross Validation

 限られた数のデータを学習と評価に使いまわし

 ３-fold cross validation では:

学習評価データ全体学習評価学習評価学習学習評価学習評価学習評価学習

(38)

実験結果(4

ld

lid )

実験の結果(4-fold cross valid.)

実際は詰不詰計詰と判定 6,414 1,865 8,279 不詰と判定 3 745 27 976 31 721 不詰と判定 3,745 27,976 31,721 計 10,159 29,841 40,000 正解率再現率 F値この精度の判定が数マイクロ秒で可能詰み判定_としては信用できない詰 0.775 0.631 0.696 信用できない

(39)

詰判定時間

価値

詰判定に時間をかける価値

 詰み判定超平面との特いかにも詰みそう  詰み判定超平面との距離に注目大きく離れていれば特徴量２  大きく離れていれば判定は信頼できそうなんともいえない  距離にしたがって詰み判定にかける詰み判定にかける時間を調節いかにも詰まなさそう特徴量１

(40)

詰判定

資源投入量制御

詰判定への資源投入量制御

 局面と分離超平面との距離で詰判定ルーチンへの時間配分を制御（Sigmoid関数）詰み判定詰みそうなら時間をかけて定にかける時間をかけて詰みを読む詰まなそうなら詰みを読むのに時間をかけないる時間時間をかけない

(41)

資源投入量制御効果

資源投入量制御の効果

 この制御を行わない版と千局対戦させたら…  平均計算時間を 65.6% に削減して、勝率 53.4%  3/4 の計算時間だと、勝率55 3%（3 26σ）  3/4 の計算時間だと、勝率55.3%（3.26σ） ⇒ 強さを保って 2/3 の計算時間 ⇒ 少ない計算時間で有意に強くなった

(42)

特徴量自動生成

特徴量の自動生成

（三輪2005）

局面を表す特徴量は人間が選ぶのが普通  問題領域の知識が必要見落としが生じる可能性  見落としが生じる可能性多数の事例から自動生成できないか？  単純で自明な特徴の組合せを特徴量に有利不利との関係が強い組合せを自動選択  有利不利との関係が強い組合せを自動選択

(43)

特徴パ

生成手順

特徴パターンの生成手順

単頻 _有単純な特徴パ _頻出する組合せ頻出飽和選択有用な特徴要パターン頻出するもの抽出組合せ和パタ選択なパター要素ンターンーン棋譜＋ラベル付けこれだけは人手で

(44)

パ

選択評価関数構築

パターン選択と評価関数構築

頻出するパタンの中から 1. 頻出するパターンの中から、独立して意味を持つ（飽和）パターンのみ選択 2. 有用なパターンを選択 ① 条件付相互情報量の大きいものを選択 ① 条件付相互情報量の大きいものを選択 ② 各訓練局面の持つ頻出飽和パターンのうち、ラベル付けとの相互情報量上位のもののみ考慮ラベル付けとの相互情報量上位のもののみ考慮 ∵ すべて考えるとメモリに載りきらない

(45)

詰将棋問題

実験

詰将棋問題での実験

 基本特徴要素：駒の位置、効きの 41,224 種  組合せは論理積のみ考慮  訓練用 80 000局面（← オンライン将棋対局サイト）  訓練用 80,000局面（← オンライン将棋対局サイト）  2%以上の局面で出現するもの 38,173,197 種事前選択上位100 200 00 1000 種試行  事前選択を上位100, 200, 500, 1000 種で試行  評価関数に用いる評価要素数 100～10,000  9,768 局面を用いて評価

(46)

処理要

時間

処理に要した時間

 2種類のシステムを利用  Xeon 3.06 GHz ×2, メモリ 2GB  Opteron 250 2 4 GHz ×2 メモリ 8GB  Opteron 250 2.4 GHz ×2, メモリ 8GB  頻出飽和パターン抽出: Xeon で 38分  有用なパターンの抽出: Opteron で5日間実用的な時間でできる範囲内に設定実用的な時間でできる範囲内に設定

(47)

詰将棋問題

適用結果

詰将棋問題への適用結果

(48)

詰将棋のための評価関数

自動構築実験のまとめ

 上位200, 評価要素数 2,000 で最良の結果正解率約74％  計算量膨大: さまざまな工夫をして計算量を  計算量膨大: さまざまな工夫をして計算量を削減して、なんとか実現可能に人手で評価要素を選択 SVM で評価関数を  人手で評価要素を選択、SVM で評価関数を作った場合の 84% にはまだ及ばない  ゲーム以外の問題への適用も十分考えられる

(49)

局面評価見直

局面評価の見直し

（構想段階）

局面の評価値 ≒ その局面から勝てる確率？強い棋士は：不利な局面では紛れを求める  不利な局面では紛れを求める  実力差があるときの駒落ち将棋は最初から不利  上手はわかりにくい局面に持ち込もうとする  有利な局面からは紛れにくい手を選ぶ  有利な局面からは紛れにくい手を選ぶ紛れを定式化・数量化したい ⇒

(50)

局面評価勝率関係

局面評価と勝率の関係

 局面評価関数は優勢度の推定値  所詮は推定値 ― 実際の値は広がりがある勝敗勝敗ラインの右側部形勢不利なら推定右側部分の面積が問題推定が不正確な方が高い可能性不正確な評価

(51)

局面評価誤差推定

局面評価の誤差の推定

 局面評価値は「真の優劣」の期待値を表現  分散までわかれば「勝率」を表現できる機械学習で分散を推定機械学習で分散を推定  局面評価値と深い読みの結果を大量に比較  評価要素ごとに誤差を推定 ⇒ 分散がわかれば「勝率を計算可能 ⇒ 分散がわかれば「勝率」を計算可能

(52)

戦

コンピュータ将棋がプロ棋士に挑戦

2010年10月11日

東京大学本郷で開催

(53)

対局当日様子

対局当日の様子

清水市代女流王将清水市代女流王将「激指」開発者「激指」開発者鶴岡慶雅鶴岡慶雅市代市代流流将将鶴岡慶雅鶴岡慶雅大盤解説会場大盤解説会場大盤解説会場大盤解説会場工学部工学部22号館号館213213号室号室工学部工学部22号館号館213213号室号室

(54)

コンピタ将棋４システムの合議制合議制

コンピュータ将棋システム「あから2010」

 コンピュータ将棋４システムの合議制合議制  「激指」「GPS将棋」「Bonanza」「YSS」  いずれも過去に世界コンピュータ将棋選手権世界コンピュータ将棋選手権優勝  多数決が基本；票が割れたら少し長考  多数決が基本；票が割れたら少し長考  それでも割れたら「激指」が優先ハドウア分散配置した計約600CPUコア  ハードウェア：分散配置した計約600CPUコア

(55)

対局結果

86 86手で清水女流王将が投了手で清水女流王将が投了 86 86手で清水女流王将が投了、手で清水女流王将が投了、あからあから20102010の勝利の勝利

(56)

将棋強

尺度

在強

将棋の強さの尺度

 段位は現在の強さを表すものではない   レーティングレーティング：チェスなどのゲームで使われる指標  対局成績からの相対尺度相対尺度  敗者から勝者に得点を移動 ⇒ 合計は一定  敗者から勝者に得点を移動 ⇒ 合計は定  レーティングが高い相手に勝てば大きくプラスレーティングが低い相手に勝てば小さくプラスレティングが低い相手に勝てば小さくプラス  勝敗が３：１の割合なら２００点差  レーティングが１０００点違えば千勝一敗の差  レティングが１０００点違えば千勝敗の差コンピュータは時間を3倍使うと約200点強くなる

(57)

勝

コンピュータ将棋は名人に勝てる？

 コンピュータは22年ごとに倍程度速く年ごとに倍程度速くなっている  10年では25＝32倍 ⇒ 3倍が3回程度（∵33＝27）  レーティングで200×3＝600レティングで200 3 600点ぐらい強くなる計算600600点ぐらい強くなる計算点ぐらい強くなる計算点ぐらい強くなる計算現状で女流トップやアマチュアトップより少し強いトッププロ棋士との差は差は600600点ぐらい点ぐらいか  トッププロ棋士との差は差は600600点ぐらい点ぐらいか  ソフトが現状でも、コンピュータが速くなるので、 10 10年後には勝てる？年後には勝てる？ 10 10年後には勝てる？年後には勝てる？ ⇒ という単純な考えは成り立ちそうにないという単純な考えは成り立ちそうにない

(58)

そ単純

理由

そう単純ではない理由

そんなに早くは勝てないかもそんなに早くは勝てないかも  CPU単体はもうあまり速くできず、並列化が必須将棋のような最適化探索は並列処理が難しい並列処理が難しい（現状は並列処理に何台使っても実質数倍程度）  日本将棋連盟が日本将棋連盟が対局を承知しないかも対局を承知しないかも対局を承知しないかも対局を承知しないかももっと早く勝てるかももっと早く勝てるかも画期的な並列処理手法画期的な並列処理手法が出てくるかも   画期的な並列処理手法画期的な並列処理手法が出てくるかも

(59)

異なるアプローチ

：

モンテカルロ法

 ランダム試行を何度も繰り返し、それらの平均で真の値を推定する確率的手法それらの平均で真の値を推定する確率的手法例）円周率の計算 ① 正方形中に一様にランダムに点をバラ撒く ② 内接円内の割合を計算 ③ 点の数を増やしていけば ③ 点の数を増やしていけば割合は π/4 に近づくはず

(60)

ゲ

法適用

ゲームへのモンテカルロ法適用

モンテカルロ法の最適探索への適用候補手を指した局面から開始 ① 候補手を指した局面から開始 ② その後は合法手中からランダムに着手していく ② その後は合法手中からランダムに着手していく ③ その結果の勝敗数を記録これを繰り返し、勝ちが多かった候補手を選ぶ ○ 簡単に並列処理できて高速化可能 ○ 簡単に並列処理できて高速化可能 × ランダムプレイに対して勝率が高くても…

(61)

M lti A

d B

dit 問題

Multi-Armed Bandit 問題

One-Armed Bandit（片腕の盗賊＝スロットマシン）  何本もレバーがあるスロットマシン  何本もレバーがあるスロットマシン  それぞれ当たり確率が違う（かもしれない）  何回か試した後、次はどのレバーがいい？  今まで当たりが多かったもの？  今まで当たりが多かったもの？ ⇒ 高確率だが運が悪かっただけのがあるかもランダムに選ぶ？  ランダムに選ぶ？ ⇒ よいレバーの見当が少しはついてるのに…

(62)

M lti A

d B

dit

最適解

Multi-Armed Bandit の最適解

 レバーを引いてみることによって得られるのは  当たりが出ることによって得る当たりが出ることによって得る直接の利得直接の利得  試してみることによって得る情報 ⇒ 将来の利得両者の適切なミクスが最適  両者の適切なミックスが最適  理論上は、試行回数理論上は、試行回数

n

のうち最適でないものをのうち最適でないものを選ぶ回数を（確率1で）

O

（log

n

)回以内にできる最適な選択方法は複雑で非実用的  最適な選択方法は複雑で非実用的

(63)

CB

C

id

B

d

UCB: Upper Confidence Bound

 以下のUCB値最大の選択肢を試す（UCB１）全体の試行回数選択肢 i のUCB値選択肢 i の勝率選択肢 i の試行回数全体の試行回数  最適手以外を試す回数は

O

（log

n

)回に漸近理論上最適な手法との違いは定数倍程度選択肢 i の勝率理論上最適な手法との違いは定数倍程度  他にも近似方式はいくつかある他にも近似方式はいくつかある

(64)

C

B

UCT:

UC

B for

T

ree

UCB に基づく選択を探索木のノドごとに適用  UCB に基づく選択を探索木のノードごとに適用 ⇒ 見込みの高い手、試行の少ない手を優先  コンピュータ囲碁では大成功  単純な UCT 探索ではなく知識との組合せ  単純な UCT 探索ではなく、知識との組合せ  大規模な並列処理が比較的容易局価難  将棋などより局面評価が難しい ⇒ ランダムに近くてもいいから終局打方結果終局まで打ってみた方が確かな結果

(65)

機械学習視点

C

見

機械学習の視点でUCTを見ると…

 どの手を多く試すか＝どこに資源を投入  資源投入をそれまで得られた結果で制御 ⇒ 自ら作たデタからの学習による ⇒ 自ら作ったデータからの学習による資源投入制御

(66)

計算重要性

メタ計算の重要性

 メタ計算：計算の進め方についての計算  コンピュータが速くなっても計算量は有限 ⇒ 「どの計算をすべきか」が重要 ⇒ どの計算をすべきか」が重要  賢い人は何を考えればよいかわかる人  賢いコンピュータは何を計算すればよいかわかっているコンピュータわかっているコンピュタ

(67)

成長

ピ

成長するコンピュータ

 コンピュータは学べる  機械学習が有利な領域は急速に拡大中  入手可能な電子データはますます大量に入手可能な電子デタはますます大量に  解析のための処理能力も向上していく  コンピュータは経験を積める  コンピュータは経験を積める  コンピュータ自身が熟考して結果を蓄積  蓄積した結果（経験）から知識を抽出して利用  人間の場合より経験の共有はずっと容易人間場合経験共有容易

(68)

め

まとめ

 コンピュータゲームプレイヤの構成法  いろいろなアプローチ探索機械学習確率的手法 … 探索、機械学習、確率的手法、  完全に計算しきれない場合の対処法  問題が複雑であるほどメタ計算が重要情報処理技術の進展のひとつの重要な方向情報処理技術の進展のひとつの重要な方向

(69)

成績評価

 出席回数  出席回数  学期末レポートの提出  全6担当教員のうち3教員の課題について提出  課題は担当教員ごとに出題  課題は担当教員ごとに出題  どの教員の課題を選んで提出するかは自由調査は大事だが引用は引用と明示すること  調査は大事だが引用は引用と明示すること  コピペをオリジナルかのように偽るのは絶対ダメ  締切： 7月21日（木）  提出先：教務課  提出先：教務課

(70)

近山担当分

ポ

課題

近山担当分のレポート課題

 十年後を見据えて、機械学習の適用が有効と思われる領域をあげ、その根拠を述べよ  考慮すべき点  考慮すべき点  コンピュータの能力は百倍に ← Moore 則機械学習には大量デタの利用が不可欠  機械学習には大量データの利用が不可欠  需要がないところに技術の発展はない  期待する分量：ワープロなら2～3ページ

<4D F736F F F696E74202D2091E F B835E B C >

情報技術論 第13回

情報技術論 第

機械学習 と コンピュータ

機械学習 と コンピュ タ

ゲームプレイヤへの応用

工学部 電子情報工学科

工学部 電子情報工学科

近山 隆

講義 概要

講義の概要

機械学習（前回）

ピ

ゲ

コンピュータゲームプレイヤとは

種々 ゲ

種々のゲームのプレイヤ

ピ

将棋

「激指

コンピュータ将棋プレイヤ「激指」

「激指

歴史（誕生

成長）

「激指」の歴史（誕生⇒成長）

「激指

歴史（円熟期）

「激指」の歴史（円熟期）

「激指

歴史（停滞

復活）

「激指」の歴史（停滞 ⇒ 復活）

「激指

歴史（

数年）

「激指」の歴史（ここ数年）

決定的完全情報零和ゲーム

決定的完全情報零和ゲ ム

AND O 木探索

AND-OR 木探索

最後

読

最後までは読みきれない

Mi i M

探索

Mini-Max探索

探索 省略

枝刈

探索の省略： α枝刈り

β枝刈

枝刈

先後逆

β枝刈り: α枝刈りと先後逆

探索窓

値 β値 範囲

探索窓：α値とβ値の範囲

β枝刈

効率向上

αβ枝刈りの効率向上

探索窓 縮小

探索

探索窓を縮小した探索

水平線効果 H

i

t

水平線効果 Horizon Effect

深く読

どこまで深く読むか

n

選択深化

l

ti

d

i

選択深化 selective deepening

i e

i.e.

実現確率打切

実現確率打切り

局面 実現確率 算定手法

情報技術論第13回

情報技術論第

機械学習とコンピュータ

機械学習とコンピュタ

工学部電子情報工学科

工学部電子情報工学科

近山隆

講義概要

種々ゲ

決定的完全情報零和ゲム

探索省略

値 β値範囲

探索窓縮小

局面実現確率算定手法

将棋機械学習

実現確率算定改良

局面評価関数機械学習

詰将棋指将棋関係

詰不詰予測

ソフトマジンの SVM

局面特徴129種人手選択

学習用

実験結果(4

詰判定時間

資源投入量制御効果

特徴量自動生成

選択評価関数構築

処理要

局面評価見直