• 検索結果がありません。

囲碁における強化学習とは?

RIETI - 中小企業における輸出と企業力の強化:工業統計ミクロデータを用いた輸出の学習効果の検証

RIETI - 中小企業における輸出と企業力の強化:工業統計ミクロデータを用いた輸出の学習効果の検証

... ネスを中心したわが国の中小企業の生産活動、そのビジネスモデルの変更を余儀なくされている いってよい。こうした状況下で本研究、中小企業の海外展開、具体的に輸出を通じて、例えば TFP(全要素生産性)で見た生産性の向上といった当該輸出企業の企業力強化が達成されてきたのか どうかを、2002 年から 2008 年までの 7 ...

32

IPSJ SIG Technicl Repor に相当し 探索木の前向きの枝刈り処理に用いることも可能である. 本論文では このシミュレーション方策中のパラメータと局面評価関数中の特徴量パラメータの両方を同時に学習できる強化学習則を導出する. さらに 強化学習ではなく その局面での正解手を与える教師

IPSJ SIG Technicl Repor に相当し 探索木の前向きの枝刈り処理に用いることも可能である. 本論文では このシミュレーション方策中のパラメータと局面評価関数中の特徴量パラメータの両方を同時に学習できる強化学習則を導出する. さらに 強化学習ではなく その局面での正解手を与える教師

... 究 し て , Policy-gradient simulation balancing法が囲碁の場合に提案されている[20].そこで, 訓練局面 sに対して正解なる局面評価値V*(s)が必要な り,かつ,着手決定方策として局面評価関数を利用してい ...

8

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014 4H1-1 強化学習における効率的な転移学習適用に関する一考察 A Study on the Efficient Application of Transfer Learning to Reinforcement ...

3

2L1-1 満足化とその基準の動的な更新による強化学習の促進

2L1-1 満足化とその基準の動的な更新による強化学習の促進

... し,それが学習の速さに関係する事も明らかになった.満足化 における基準値ある種のエネルギーコストに対する目標値 見なす事が出来る.即ち,満足化が実装可能になる事により, より動物的なエージェントとして強化学習エージェントを自身 の消費カロリーに釣り合う行動を見つけて,生存し続ける事を ...

4

囲碁AI AlphaGo が 世界最強のプロ棋士に勝利 Google DeepMindが開発したAI囲碁プログラム AlphaGo ア ルファ碁 は 2017年5月 世界最強とも言われる中国のプロ棋士 柯潔 か けつ と対戦 3番勝負で3連勝し 中国囲碁協会から名誉 九段を贈呈された 写真提供 Go

囲碁AI AlphaGo が 世界最強のプロ棋士に勝利 Google DeepMindが開発したAI囲碁プログラム AlphaGo ア ルファ碁 は 2017年5月 世界最強とも言われる中国のプロ棋士 柯潔 か けつ と対戦 3番勝負で3連勝し 中国囲碁協会から名誉 九段を贈呈された 写真提供 Go

... 制度的課題への対応動向 第 章 3 3.1 総論 人工知能(AI)、将来に向けて高い機能を有するもの期待されることから、その普及による社会へ のインパクトや対応について、学会等により議論がされてきた。昨今、現実社会への実装が本格化しつつ あることを背景に、政府や民間企業等、社会政策や実ビジネスの実行機関による検討が本格化している。 ...

11

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... PG ⟨A, C, r⟩ で定義される。こ こ で 、 A = {a 1 , a 2 , · · · , a N } エ ー ジェン ト 集 合 、 C = {c 1 , c 2 , · · · , c K } エージェントの行動集合、 r = {r a |a ∈ A} 各 エ ー ジェン ト に 対 す る 報 酬 関 数 で あ る 。こ の 報 酬 関 数 r ...

4

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... 一方,相手の行動履歴を参照しない学習の枠組みとして,報 酬にもとづき自身の行動を重みづける強化学習があげられる [Roth 95] .強化学習 [Sutton & Barto 98] の枠組みで,相 手の行動に関する情報をえられる仮定されておらず,した ...

4

1F2-2 人狼における強化学習を用いたエージェントの設計

1F2-2 人狼における強化学習を用いたエージェントの設計

... 1. はじめに 近年,完全情報ゲームにおける人工知能の技術の進歩目 覚ましく,オセロやチェスに続き,将棋においても人工知能が人 間のプロを相手に勝利するようになった.一方で,不完全情報 ゲームの人工知能についての研究少なく発展の余地があり, 人工知能が目指すべき新たな目標の一つである考えられる. 鳥海ら,[鳥海 14]にて不完全情報ゲームである“人狼”[稲 葉 ...

3

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... 10 種の 2 人 2 行動非零和行列ゲームを 30 万回繰り返す実験 を 50 回行った.ゲームのプレイヤーによって非対称なゲーム が存在するので,行プレイヤーと列プレイヤーを入れ替えて再 度ゲームを 30 万回繰り返す実験を 50 回行い,平均獲得報酬 を比較した.表 3 に 10 種のゲームでのそれぞれのアルゴリズ ムを搭載したエージェントが総当り戦を行った時の平均獲得報 酬を各ゲームの最大利得和で割り正規化した値を示す. 1 ...

4

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

... 1. はじめに マルコフ決定過程における最適意思決定問題の解法である 直接方策探索法,方策をパラトリックモデルで特徴づけ,与 えられたパラメータ空間から適切なパラメータを探索すること により,方策の最適化を実現する [Deisenroth 13] .よって,古 典的な動的計画法規範の方法―価値関数の同定により方策の最 適化を実現する方法異なり,知りたい関数である方策に対す ...

4

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

... で戦略の配分の決定や学習に時間が掛かり,相手プレイヤー の協調行動により唯一つの状態が最適解なるゲームにおいて, 平均獲得報酬が少なくなることが挙げられる.一方, S’-alg の 問題点として,相手プレイヤーがグリーディな戦略を行うアル ゴリズムだった場合,アルゴリズム内の満足度が減少し,低い 報酬に満足してしまい一方的に搾取されてしまうことが挙げら れる. ...

4

強化学習における認知バイアスと固執性―選択行動を決めているのは過去の“選択の結果”か“選択そのもの”か?―

強化学習における認知バイアスと固執性―選択行動を決めているのは過去の“選択の結果”か“選択そのもの”か?―

... に生じる 学習率の非対称性固執性でも説明できるが,選択して いない結果を利用可能にする (counterfactual learning) こ で固執性で説明不可能な非対称性が生じるのなぜ か。選択していない結果を利用することで,選択行動に ど の よ う な 影 響 が 与 え ら れ る の か。Palminteri et ...(2017) ...

8

長遅延報酬対象向け強化学習手法

長遅延報酬対象向け強化学習手法

... 強化学習手法外乱に強く,教師データが不要な機械学習手法の一つ である.そのため強化学習手法不確実性が高い実用的問題に適してい る考えられる.実用的問題において強化学習手法を適用させることを 考える,制御に対し報酬大きな時間遅れを持って与えられ,また制 ...

77

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

... ス を A t で 表 す . ま た , 戦 略 A に よ り , t 回 試 行 を 行った き に ア ー ム i を 選 択 し た 回 数 を T i,t (A) す る . す な わ ち , T i,t (A) := P t s=1 I{i = A s } である ( 文脈から戦略 A が明ら かである場合 , 単に T i,t 書く ). 多腕バンディ ット問題におけ ...

4

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

... 12] 、この逆強化学習を一般化し、 報酬関数だけでなく、環境モデルのパラメータ、すなわち遷移 行列・観測行列の値に関しても推定しようするものである。 特に、部分観測問題において、完全観測問題異なり、環 境に多くの未知の要素が含まれるため、環境のモデルに適切な パラメータを設定することが困難である。しかし、エキスパー ...

3

[14: :10] 囲碁 (2 件 ) (3) 棋力認定問題によるコンピュータ囲碁の評価 ( その4) 鎌田真人 豊間根衣吹 ( 岩手県立大学宮古短期大学部 ) 松原仁 ( 公立はこだて未来大学 ) モンテカルロ法前後と最新バージョンの市販囲碁ソフト 4 シリーズ 12 ソフトについて

[14: :10] 囲碁 (2 件 ) (3) 棋力認定問題によるコンピュータ囲碁の評価 ( その4) 鎌田真人 豊間根衣吹 ( 岩手県立大学宮古短期大学部 ) 松原仁 ( 公立はこだて未来大学 ) モンテカルロ法前後と最新バージョンの市販囲碁ソフト 4 シリーズ 12 ソフトについて

... 複数のラベルを付けることができるようなフォーマット し,これを利用して学習する工夫を行った. 学習,着手の周囲の配石パターン以外に,呼吸点の変化や石 が何線にあるかなど囲碁特有の特徴量を用いることで性能向上を図った. 人間同士であっても単語の一致率約 85%にすぎないが,比較的単純な機械学習でもこれに近い値を出すことに成功した. ...

6

ん ( 宮前支部 ) O さん ( 中原支部 ) T さん ( 高津支部 ) に感謝します 囲碁を覚えて半世紀にもなります 当時は 若者がたくさん囲碁を打っていましたが 今ではなかなか見かけません 子供に対する囲碁普及活動は喫緊の課題ですが 小生も地元で AFIC ( 麻生ファミリー囲碁クラブ ホー

ん ( 宮前支部 ) O さん ( 中原支部 ) T さん ( 高津支部 ) に感謝します 囲碁を覚えて半世紀にもなります 当時は 若者がたくさん囲碁を打っていましたが 今ではなかなか見かけません 子供に対する囲碁普及活動は喫緊の課題ですが 小生も地元で AFIC ( 麻生ファミリー囲碁クラブ ホー

... 2012 年(平成 24 年)から始まった小学生への囲碁ボランティア活動 5 年目を終え、初 めの頃の教育囲碁体験学習(1 クラス約 30 名の生徒全員を対象に、90 分の囲碁授業)が減 少傾向にあり、ボードゲームクラブ(オセロ、将棋、囲碁・・等)のゲーム好きな子供への ...

5

深層学習とプレイアウトに基づく囲碁アルゴリズム

深層学習とプレイアウトに基づく囲碁アルゴリズム

... きていないため、Ray の対局でプレイアウト数のみで 公平性を確保することした。Cygo が Cython を使って 高速化を図っているいえ、Python ベースでの開発の ため、C++で実装された Ray に実行速度で及ばない。 ...

8

囲碁盤面の状況の可視化による囲碁盤面の理解に対する学習支援の提案

囲碁盤面の状況の可視化による囲碁盤面の理解に対する学習支援の提案

... から,囲碁他の完全情報ゲームに比べ,一人での学習 が困難な完全情報ゲームであり,初学者が一人で囲碁を学 習するにあたっていくつかの問題が生じる.それらの問題 のうち,次打つ手の場所に関する決定方法が難しいという 問題に着目した.原因として,囲碁初学者実践の経験が 乏しいため,盤面の状況を判断することが難しいことが挙 ...

8

目 次 概説 Ⅰ 囲碁普及事業 ( 公益目的事業 1) 1 棋戦事業 2 棋士育成事業 3 囲碁普及と囲碁指導 3-1 青少年等への囲碁普及 3-2 国内における囲碁普及および囲碁愛好者への指導 3-3 海外への囲碁普及 4 囲碁対局環境の提供 5 段級位認定 6 囲碁大会の開催 6-1 青少年対象

目 次 概説 Ⅰ 囲碁普及事業 ( 公益目的事業 1) 1 棋戦事業 2 棋士育成事業 3 囲碁普及と囲碁指導 3-1 青少年等への囲碁普及 3-2 国内における囲碁普及および囲碁愛好者への指導 3-3 海外への囲碁普及 4 囲碁対局環境の提供 5 段級位認定 6 囲碁大会の開催 6-1 青少年対象

... ・中日新聞社主催「第 58 期王冠戦」(中部総本部プロ棋戦) (3)指導碁・囲碁学校・イベント 指導碁、平日1名、土・日曜日1、2名の棋士を配し、充実に努めました。入門から有段者までの 一貫したステップアップ講座、講習会を全 13 講座開設し、囲碁ファンの底辺拡大に努めました。「はじめて の囲碁講座~よく分かる囲碁講座」(834 ...

26

Show all 10000 documents...

関連した話題