• 検索結果がありません。

平成20年度論文賞の受賞論文紹介:ジャーナル:情報処理学会論文賞:棋譜から学ぶ将棋プログラム

N/A
N/A
Protected

Academic year: 2021

シェア "平成20年度論文賞の受賞論文紹介:ジャーナル:情報処理学会論文賞:棋譜から学ぶ将棋プログラム"

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)棋譜から学ぶ将棋プログラム 金子 知適 東京大学大学院総合文化研究科 〔受賞論文〕 • 駒の関係を利用した将棋の評価関数の学習 • 金子知適(東京大学大学院総合文化研究科),田中哲朗(東京大学情報基盤センター),山口和紀(東京大学大学院総合文化研究 科),川合 (放送大学) • 情報処理学会論文誌,Vol.48, No.11, pp.3438-3445 (2007). ▶将棋の記憶. 多くのプログラムで広く利用されている..  小学生のころ,父に連れられて将棋会館に行ったこと. ▶棋譜を利用した学習. がある.しかし特に強かったわけではなく 8 級程度であ.  この研究のもう 1 つの軸が,いわゆる学習である.当. 私は格別に弱い.棋力はともかく,将棋の本を読むこと. が作られていたものの,将棋のようなゲームにおいても. とプログラミングは好きだった.コンピュータに将棋の. 学習が有効であると信じている人はほとんどいなかっ. 本を読ませて自分の代わりに強くしたいとも思ったかも. た.ゲームプログラミングの学会で学習の発表が増えて. しれない.ともあれ,対象論文では,将棋の評価関数と. いる今では信じられない話ではある.当時としては比較. して駒のペアを評価するモデルと棋譜を使った自動的な. 的大規模な計算を我々は行い,その結果,プログラマが. 調整方法を提案した.. 何も教えていないにもかかわらず,定跡に頼らず自然な. ▶コンピュータによるゲームのプレイ. 序盤を指すプログラムを生むことができた.その学習の.  ご存知のようにコンピュータ将棋やチェスのプログラ. アイデアは,棋譜において「指した手により実現した局. ムは,自分と相手のたくさんの指手を網羅的に探索し,. 面」は「指さなかった手により実現する局面」よりもきっ. 自分が悪くならないように指手を決める.そして良い悪. と良い局面という考え方である.これを我々は兄弟モデ. いを判断するためには,局面を評価関数によって数値化. ルと呼んだ.チェス等で主流の 1(あるいは n)手先の. った.コンピュータ将棋開発者には有段者が多い中で,. で優劣を決められるというのは,大胆な仮定であるが,. 比較対象が親子と兄弟である部分が異なっている.その. この方法が現在まで広く採用され効果をあげている.脱. 後,コンピュータ将棋での学習の有効性を広く知らしめ. 線だが,たとえば数値に代えて確率分布を割り当てると. た Bonanza においても,最善応手手順の導入等の大きな. いうような試みは,少なくとも強いプログラムでは採用. 拡張とともに兄弟局面の比較も行われているため,この. されていない.また,探索の枝刈に関する研究は充実し. 考え方は有効のようである.コンピュータ囲碁をはじめ. ている一方で,評価関数の良さを評価する研究が少ない. 他の分野への応用を期待したい.. ことも不満である.. ▶コンピュータ将棋の進歩. ▶評価関数.  世界コンピュータ将棋選手権の優勝ソフトウェアと人.  さて,将棋において評価関数の基本は駒割である.駒. 間の対局がほぼ毎年行われており,結果が報道されるこ. 割のみを使ったプログラムは,駒得するように指す.そ. とも多い.勝ち負けやプロ棋士への挑戦といったニュー. れだけでは人間プレイヤよりずっと弱いが,しかしラン. スだけでなく将棋の内容もご覧になると,進歩を肌で感. ダムプレイヤにはまず負けない.分野によってはランダ. じることができることだろう.コンピュータは何々がで. ムの場合からの改善が研究成果となる場合もあるが,ゲ. きないと言われていたことを次々と実現してきた歴史や. ームプログラミングの世界ではランダムプレイヤに勝っ. 棋風の多様さは,きっと観賞に値すると期待している.. てもあまり情報にならないと考えられている.そのよう な事情で,将棋の評価関数で研究するからには駒割より. (平成 21 年 5 月 1 日受付). 強くするための何かを必要としていた.また,この研究 に初めて取り組んだ 2003 年の時点では,機械的な取扱. いが容易な特徴量は知られていなかった.そのような中, 共著者らの閃きで生まれたのが,2 つの駒を評価するア. イディアである.この特徴量は,学習が広まった今では. 金子 知適(正会員) [email protected] 1997 年東京大学教養学部卒業.2002 年東京大学院総合文化研究科 博士課程修了.博士(学術).2002 年同大学院総合文化研究科助手. 2007 年助教.. 情報処理 Vol.50 No.7 July 2009. 675. 20. 年度論文賞の受賞論文紹介. 局面と今の局面の評価値は近いという考え方と比べると,. 平成. して値を比較する.さまざまな局面に対して 1 つの尺度. 時,重みの自動調整によってオセロでは強いプログラム.

(2)

参照

関連したドキュメント

東京大学 大学院情報理工学系研究科 数理情報学専攻. [email protected]

 当図書室は、専門図書館として数学、応用数学、計算機科学、理論物理学の分野の文

敢闘賞 北海道 北海道 砂川錬心舘 中学2年 石坂隆真 僕を支えた数々の言葉 敢闘賞 関東 山梨県 山城剣友会 中学2年 野村将聖 今だからこそ大切なもの 敢闘賞 中部

日本の伝統文化 (総合学習、 道徳、 図工) … 10件 環境 (総合学習、 家庭科) ……… 8件 昔の道具 (3年生社会科) ……… 5件.

内閣総理大臣賞、総務大臣賞、文部科学大臣賞を 目指して全国 36 都道府県 ( 予選実施 34 支部 400 チー ム 4,114 名、支部推薦6チーム ) から選抜された 52

そこで本研究ではまず、乗合バス市場の変遷や事業者の経営状況などを考察し、運転手不

Photo Library キャンパスの夏 ひと 人 ひと 私たちの先生 文学部  米山直樹ゼミ SKY SEMINAR 文学部総合心理科学科教授・博士(心理学). 中島定彦

内閣総理大臣賞、総務大臣賞、文部科学大臣賞を 目指して全国 38 都道府県 ( 予選実施 34 支部 415 チー ム 4,349 名、支部推薦8チーム ) から選抜された 53