PDFファイル 2N5OS03b オーガナイズドセッション「OS3 内部観測と探索」

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

抽象的

木探索

対

因果的価値関数

有効性

Effectiveness of Causal Value Function for Game Tree Search

大用

庫智

*

１

川

翔

郎

*

2

高橋

遉

*

2

Kuratomo Oyo Shoutarou Ogawa Tatsuji Takahashi

*1

東京電機大学大学院

*2

東京電機大学

Graduate School of Tokyo Denki University Tokyo Denki University

Classical search methods on game trees are based on an evaluation function that enables quantitative treatment of the state and a strategy that utilizes the function such as Mini-Max method. Construction of the evaluation can be quite hard, especially for a game with huge search space like the game of Go. Recently, UCT, a Monte Carlo tree search method with bandit-like sampling allocation, has been shown to be very effective. We propose LST that utilizes an action value function implementing causal intuition of human. With tuning of an intuitive parameter, it enables faster search of the optimal actions with a kind of satisficing behavior.

1. はじめ

1950 前碁将棋等人ゼ和確定情

報研究人間強い AI 作一

目標研究進 [人工知能学会 08] 研究

当初有益探索方法研究あ現在効率的

探索方法強い AI 作要要因い

1990 代 2014 現在ッバ

将棋等 AI 人間プ遥強い

AI 研究商業的有益あッ善

手引 [Schaeffer 07] Science 掲載さ

い学問的要研究あ

AI 着手探索法局面点数

評価関数評価活戦略 Mini-Max 法基

本い人工知能研究歴史中

功収探索法碁 AI 全役

立碁比較評価関

数作困あ探索空間膨大あ主

要因あ汎用的効率的探索方法

場望い

問題点解決 [Bruegmann 93] ン

着手初期局面ノ子ノ終局

繰返ンプン行う原始ン法提案

方法評価関数必要終局勝 1 負

0 情報計算さ価値実際着手行動価値

い当初終局差得点差等用いい

勝率追求方遥強い AI 知

い [美添 2012]

方法ンプン無駄多強い碁

AI 作困あ方法木探索ン

ンプン工バンッ問題

組合わン木探索場特着手行動

価値関数部バンッ問題標準的あ

UCB 組合わ方法 UCT (UCB applied to trees)

[Kocsis 06] 呼い 40 以進展

碁研究 UCT 劇的進展 [美添 2012]

UCT 着手行動価値関数 UCB 要あ

本研究 UCT 代案 LST (loosely symmetric

model applied to trees) 提案本研究 UCT

行動価値関数部人間因果的直感正確記述

価値関数緩い対称性 LS 用いあ本研究

碁や将棋等固有知識利用い

抽象的木用い木利用 [Kocsis 06]

行わ様ョン通適解収束速さ

振舞い方両方観点 LST UCT 比較

2. 抽象的

ゲーマ木

Kocsis Szepesv 抽象的木[Smith 94] 利用

UCT 善手収束理論ョン観点

示 [Kocsis 06] 本研究 [Kocsis 06] 同様 1 う

木用い木 MAX MIN 人

プ交互進 MAX 自身

有望着手選択逆 MIN MAX

利選択う戦略 Mini-Max法あ

終局意味葉ノ終局評価値一定

範一定確率え評価値一定基準

高 MAX 勝利 1 赤い部基準

以あ MAX 敗 1 青い部

人プ着手行動価値葉ノ到遉

得勝 1 負 0 情報計算さ

現在局面直接子ノ行動価値高い方選

択葉ノ交互着手繰返注意点人

プ Mini-Max 値行動価値出来い

行動勝負情報ンプン本来ン

終局着手繰返プ呼ぶ

本研究記ンプンプ呼ぶプ

実際着手選択 UCT バンッ問

連絡先：大用庫智、e ai: rao ooyo[a]g ai co

2N5-OS-03b-3

図 1:深さが2 子ノード数が 2 ゲーム木 . 赤青点線 MAX プレイヤー勝ち負けを意味しい

(2)

- 2 -

題利用さ

2.1 バンヅァッテ問題逐次的意思決定

バンッ問題当確率明複数

腕持一ッン一度一腕選択

続目的累積獲得報酬大あ問題

探索知識利用ン速さ正確さ

表現強学習基本的問題見さい

[Sutton 98] 探索良い結果得即時結

果結び限い情報収集あ知識利用

得情報局所的適主観的ベ選択

肢選ぶ報酬獲得あバンッ問題強学習

問題比較単純あ探索知識利用ッ

ンバンン行う研究盛行わ

い [e.g. Auer 02] バンッ問題専門用語あ腕

木い着手子ノ対応ン有無勝

負対応勝負 1 0 対応付

探索知識利用バン取

碁 AI 研究劇的進展遂

(1) UCB (upper confidence bound) ゠ラゴヨズマ

バンッ問題現在標準的 UCB1

あ [Auer 02] 価値関数い

十選択回数許さ高い績示期待損失

界保証即適解収束保証い UCB1

初全子ノ選択い

価値関数UCB1 _� 値高い子ノ選択

UCB1_� ₌_�_!+ ₂_ln�_/�_!

_,

(1).

�! 子ノ � 期待値条件付確率 P(1|j) 一

あ �_! 子ノ � 選択回数 � � 限各深さ

到遉選択回数意味 UCB MoGo 等

碁AI ン木探索応用さい [Gelly 06]

(2) 因果的価値関数緩い対称性モヅラ

知心理学や行動経済学確率規則や論理法則

規範逸脱知バ研究行わ々人間ヒ

来考え知バ強

持知 [e.g., Tversky 81] 本研究着手行動価値関数人間因果的直感再現緩い対称

性 loosely symmetric：LS 呼条件付確率的

関数注目 LS 篠原知バ特幼児

語彙獲得必要さい対称性相互排性バ

定的扱う経験的見さ [篠原

07] LS [Takahashi10, Takahashi 11a, 11b] 析さ

い LS 条件付確率含いい特

(�_!₌��_/₍�+�₎_and�_!₌��_/₍�+�₎₎ 用い知バ

調整

�� ₁_� ₌

�+�_!

�+�+�_!+�_!=

�(�,₁)+�_!_′

�(�)+�_!_′+�_!_′ , (2).

�� ₁_� ₌

�+�_!

�+�+�_!+�_!=

�(_�,₁)+�_!′

�(_�)+�_!′+�_!′ , (3). �_!! ₌_�

!/(�+�+�+�) �!! =�!/(�+�+�+�) あ

� � 1 様子ノ A B 対応共変動情報

� ₁ _� 共生頻度意味 �(�,1) あ同様

�,�,� _�₍_�,0₎ _�₍_�,₁), �(�,0₎ 意味

原因結果共変動情報 �,�,�,� 帰納

的因果関推論因果帰納実験析い

人間因果的直感高い相関関 �=0.96 持示さい [Oyo 13] 因果関学習結果意思決

定一貫い調査実験い LS 高い相関

関 �=0.98 持示さ因果帰納意

思決定課題使う正当性示さい [大用 14]

因果的価値行動価値関数バンッ問題用い

従来方法 �-greedy法やSoftmax法 UCB 高績示い [Oyo 13, 14, 大用 14]

々人間持一定基準満足選択肢探

満足原理[Simon 56] や振舞い心理的決

定参照点[Tversky 81] 複数選択肢付容

易相対評価[Kahneman 79] ヒ

人間的特性実装い [大用 14] 満足基準� 持

LS 計算 �, � 対 2(1−�) 乗算 �,� 対 2�

乗算良い基準 0.5 あ LS 満

足基準従い振舞い変 [大用 14]

ン木探索 LS 実装方法容易あ

UCT 行動価値UCB1 _� _LS 置換え UCB1 初期方

策削あ UCT 疑似 [Kocsis 06] 参照 LS 計算共通含見目簡単あ

3. シポュリーション

[Kocsis 06] 同様設定用い適解収束速

さ振舞い方観点 LST UCT 比較

3.1 設定と指標

抽象的木深さ一親ノ持子ノ

数 20 2 終局意味葉ノ

確率�

! 設定さい葉ノ確率�

! [128, 254] 1−�! [0, 127] 評価値割振終局

評価値 128 以あ MAX 勝敗勝利 1

様子ノ A以降葉ノ �

! 子ノ B以降葉

ノ �

! 確率設定さい即 �

! 高

MAX 有利局面意味設定従い 100 種

類木生木対 1000 プ

100回実行均結果

指標正解率え率用い正解率

Mini-max 的適ノ選択割合あ体例 1

参照え率前回選択選択肢変え割合あ

指標各プ回数計算さ

初期設定 UCB1 先頭打着緊急度[Gelly 06] 考

え方用い UCB1 初期方策実現 LS 共変動情報

初期値 1 代入さい設定 LS UCB1

方法比較相対的利設定あ

LS 性能示本論文設定あ [Oyo 13]

3.2 結果1

高確率環境単高確率環境確率環境種類

確率設定毎結果示高確率環境 �

! �! 0.8 0.6

単高確率環境 �

! �! 0.6 0.4 確率環境 �

! �!

0.4 0.2 高確率環境 MAX 常勝利

う有利局面想定設定あ確率環境

常敗うう利局面想定設定あ

単高確率環境一選択肢唯一勝利能局面

想定設定あ確率設定 LS 基準あ

0.5 基準い

記様環境毎 LS UCB1 結果 2 示 2

結果 UCB1 環境毎殆え率変え正解

率殆同あ一方 LS 環境毎え率変さ

(3)

- 3 -

確率環境え率極端高いう特徴

あ LS 正解率高確率環境 UCB1 劣単

高確率確率環境 UCB1 高い

LS UCB1 探索方法差異あ差異焦点

あ同一 Mini-Max値持木用い両者視覚的

比較木深さ3 子ノ数2 あ訪問回数毎ノ

内色白赤へ濃淡設定プ 1000

回差異例 3 示 2同様 3 UCB1

振舞い変あ見い 2 結果踏え

3 LS 満足基準従い探索空間広さ調整

い視覚的 LS 基準良い局面高確率

単高確率瞬時勝利着手執着同様

LS 基準い局面活路基準良い局面

探続い

3.3 結果2

2 3 LS UCB1 振舞い方大遊

いあ単高確率環境様満足基準適あ

UCB1 遥高い績 LS 示

1 同設定高確率確率環境い LS

満足基準 min �

!,�! +|�!−�!|×0.5 設定結果

4 示 �

! 子ノ X 以降葉ノ

得勝負情報計算勝率あ

4 結果 LS 正解率え率 2 単高確率

環境同様い UCB1 高績あ

LS 行満足木探索

善手見いう適一考え

4. 議論

図 2:LS U（B1 正解率左切え率右

図 3：環境毎 LS U（B1 木探索方法違い

(4)

- 4 -

本研究碁 AI 等多用さいン木探

索人間知触さ LS 実装 LST 提案

UCT 提案論文[Kocsis 06] 同様ョン

通 LST UCT 比較結果 LST UCT 速

適解収束 2, 4 参照 LS

木探索い人間知見満足基準従い

特徴的振舞い 3 参照本論文

残ン木探索用い方法勝率向

方法振舞い方紹内容

本研究提案手法う場合有効あ議論

ン木探索場以前 AI 効率的探

索強さ向さ優秀評価関数必要

あ作込膨大時間費や

い強い AI 作ン木探

索い優秀評価関数作込同様方向プ

強進い [e.g., Gelly 06] 言うプ

本来意味あン着手終局行う

いう意味あ現在多碁 AI 等ン

部依存知識利用良質プ用い

一回プ長い処理時間費やプ

回数自体減方向進い

UCB1 膨大ンプン数前提高性能示いう

考え逆方向あ LS う速

正確方法必要考え

ン木探索用い AI 勝率大目

標振舞うう振舞い従来虱潰的

初ン木探索実装 Crazy

Stone [Coulom 06] 場時振舞い方注目集

[美添 2012] 本研究結果 UCB1 局面優劣毎

各指標変現いいン木探索自

体ン特徴的振舞生要因あ考え

一方 LS 満足基準従い自的振舞い変

さい LS 満足基準現在局面良い断

場合勝利着手楽観的素早選択執着

行動中満足基準高い勝利着手一

場合適行動 2 単高確率環境 4

参照逆 LS 現在局面状況勝利見込薄い

断場合一定基準満足基準超え着手

探続良探索空間広広大探索

う LS 振舞い現在 AI い稀少

あ考え単一満足基準 R 直感的調整

良い強い弱い AI 作容易あ

本研究提案 LST 体的う場合有

効あ議論善手善手評価値著

種類あ例え等う状況い

4 示う満足基準高い選択肢瞬時見

LS 性質有効働考え記逆善手

善手評価値差あい種類あ例え

碁等ン木探索敗状況

中数少い活路あ場合収束遅点あ

LS 選択肢評価値差著さいバンッ問

題 UCB 速適解収束示さ

準適解抜出適解得示さい

[Oyo 13, 14] LS 性質本研究示探索

能力碁等や収束遅延問題有効働考え

LS 選択肢数多 UCB 高績

示 [大用 14] 選択肢多い状況特碁様

種類高い果期待

5. 結語

人間知触さ LS 用い LST 提案方

法 UCT 速適解収束人間見う満

足基準特徴的振舞い示 LST 知

識利用作込碁AI 有効働満足基

準変さ多例有効働能性議論

本研究結果実際 AI LST 実装有

益あ考え強い AI ン

ン用 AI LST 体例実装

参考文献

[Auer 02] Auer, P., Cesa-Bianchi, N., and Fischer, P.: Finite-time Analysis of the Multiarmed Bandit Problem, Machine learning, 47, 23–256 (2002).

[人工知能学会08] 人工知能学会：人工知能学，

共立出版(2008).

[Bruegmann 93] Bruegmann, B.: Monte carlo go (1993). [Coulom 06] Coulom, R.: Efficient selectivity and backup

operators in monte carlo tree search. In P. Ciancarini and H. J. van den Herik, editors, Proceedings of the 5th International Conference on Computers and Games, Turin, Italy (2006). [Gelly 06] Gelly, S., Wang, Y., Munos, R., and Teytaud, O.:

Modification of UCT with Patterns in Monte-Carlo Go, Technical Report 6062, INRIA (2006).

[Oyo 13] Oyo, K. and Takahashi, T.: A Cognitively Inspired Heuristic for Two-Armed Bandit Problems: The Loosely Symmetric (LS) Model, Procedia Computer Science, 24, 194–204 (2013).

[Oyo 14] Oyo, K. and Takahashi, T.: A Human Causal Value Function and Its Optimality under Greedy Method for Two-Armed Bandit Problems, (AROB 19th 2014), 113−118

(2014).

[大用 14] 大用庫智, 高橋遉：緩い対称性持因果的価値関数妥当性バンッ問題対有効性. (準備中)

[Simon 56] Simon, H. A.: Rational choice and the structure of the environment, Psychological Review, 63(2), 129–138 (1956).

[Schaeffer 07] Schaeffer, J., Burch, N., Björnsson, Y., Kishimoto, A., Müller, M., Lake, R., Lu, P. and Sutphen, S.: Checkers Is Solved, Science, 317(5844), 1518–1522 (2007).

[Sutton 98] Sutton, R. S., and Barto, A. G.: Reinforcement Learning: An Introduction, Cambridge, MIT Press (1998).

[篠原 07] 篠原修，口亮，桂浩一，新恒雄：因果性

基信念形 N 本腕バンッ問題へ適用，

人工知能学会論文，22(1)，58–68 (2007).

[Smith 94] Smith, S.J.J., and Nau, D.S.: An analysis of forward pruning, AAAI, 1386–1391, 1994.

[Kahneman 79] Kahneman, D. and Tversky, A.: Prospect theory: An analysis of decision under risk, Econometrica, 47, 263– 291 (1979).

[Kocsis 06] Kocsis, L. and Szepesv, C.: Bandit based Monte-Carlo Planning, Machine Learning: ECML 2006 In Proceedings of the 17th European conference on Machine Learning, 4212, 282–293 (2006).

[Takahashi 10] Takahashi, T., Nakano, M., and Shinohara, S.: Cognitive symmetry: Illogical but rational biases, Symmetry, Culture and Science, 21(1-3), 275–294 (2010).

[Takahashi 11a] Takahashi, T., Shinohara, S., Oyo, K., and Nishikawa, A.: Cognitive symmetries as bases for anticipation: A model of Vygotskyan development applied to word learning, International Journal of Computing Anticipatory Systems, 24, 95–106 (2011).

[Takahashi 11b] Takahashi, T., Oyo, K., and Shinohara, S.: A loosely symmetric model of cognition, Lecture Notes in Computer Science, 5778, 234–241 (2011).

[Tversky 81] Tversky, A. and Kahneman, D.: The framing of decisions and the psychology of choice, Science, 211, 453– 458 (1981).

PDFファイル 2N5OS03b オーガナイズドセッション「OS3 内部観測と探索 」

抽象的

木探索

対