• 検索結果がありません。

強化学習アルゴリズム

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

... 5. 結論 人々の意思決定が互いに影響し合う状況をモデル化した「ゲー ム」において,意思決定主体が学習を行う場合に,自己の利益 を最大化する戦略を獲得するアルゴリズムが広く研究されてい る.しかしながら,既存の強化学習アルゴリズムは様々なゲー ムにおいて高い報酬を獲得することができるが,最適な戦略を ...

4

2L1-1 満足化とその基準の動的な更新による強化学習の促進

2L1-1 満足化とその基準の動的な更新による強化学習の促進

... TD 学習 (Q 学習, Sarsa 等 ) は,獲得した報酬を Q 値と呼ばれる任意の 状態においてある行動を取る事 ( 状態行動対 ) に対する価値と して格納する. TD 学習では Q 値と選択方策を参照して次に 取るべき行動を選択し,それが現時点での Q 値に照らして合 理的であった場合は利益追求行動,そうでない場合を探索行 動と定義される.最も目的に沿った行動系列を発見するため ...

4

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... 5. 結論 人々が相互に影響しあう関係をモデル化した「ゲーム」にお いて,個々が学習を行うことで自己の利益を最大にする戦略 を獲得する強化学習アルゴリズムが研究されている.しかし, 既存の強化学習アルゴリズムにはゲームの状況によって得意な ゲームと不得意なゲームがあるという問題点があった.本研究 ...

4

深層学習とプレイアウトに基づく囲碁アルゴリズム

深層学習とプレイアウトに基づく囲碁アルゴリズム

... の学習推移 強化学習の RL Policy Network のネットワーク構造は SL Policy Network と同じである。使用したパラメータは、 save-every=10, game-batch=10, iterations=6000, record- every=1 である。自己対戦の初期重みには、SL Policy Net- work を使って得られた最終エポック後の HDF5 ...

8

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

... で得られる.ここで (∂/∂θ)s(w, θ) = s(w, θ)(∂/∂θ) ln s(w, θ) の関 係を利用した. s(w, θ) に関する期待値は以前として解析的に は計算できないが,ガウス分布はサンプリングが容易であるた め,数値積分により近似的に評価することができる.したがっ て,この近似した微分を勾配ベースの数値最適化に組み込み, KLPE 解の e 射影によるガウス近似を計算することができる. 以降,全てのステップでの ...

4

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

... 特徴の第 1 は、新規に開発した方策反復型の POMDP ソル バーを搭載していることである。徒弟学習において、方策反復 型の POMDP ソルバーを利用することのメリットには、次の 2 点がある [Makino 13]: (1) 尤度値の劣勾配が計算できるこ とから、最急降下法等の効率的な最適化手法を適用可能とな り、必要な評価回数が削減できること。 (2) パラメータ値を変 ...

3

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014 4H1-5 オンライン学習アルゴリズムのファジィ識別器への応用と性能比較 Application of Online Learning Algorithms to Fuzzy Classifiers and its Performance ...

2

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... 1. はじめに 社会における利害対立や協力関係を,合理的な推論をおこ なう複数のプレイヤ間のゲームとして数理的に扱う枠組みとし てゲーム理論がある [Neumann & Morgenstern 44] .その代 表例である囚人のジレンマは,複数のプレイヤのもっとも望ま しい行動が協調行動であるにもかかわらず,裏切り行動が選ば れてしまう現象を捉えたゲームである.こうした基礎的なジレ ...

4

長遅延報酬対象向け強化学習手法

長遅延報酬対象向け強化学習手法

... 的は,状態の時間推移を独立して考慮し,適応させることのできる強化 学習手法を考え,その対象として植物の育成制御を行う.具体的な対象 としては,工学的に制御を行うことができる植物工場システムを対象と する.自然を対象とした制御においては,報酬の時間遅れが極めて大き い対象が多く見られる.そのため,この研究では,試行回数をなるべく 少なくし,早期に有効な制御方策を見出すことのできるような,状態価 ...

77

決定木学習アルゴリズムを利用したシナリオ型土地利用予測に関する研究 −福岡県糸島地域を対象として− [ PDF

決定木学習アルゴリズムを利用したシナリオ型土地利用予測に関する研究 −福岡県糸島地域を対象として− [ PDF

... である。選択される街路は、広幅員の街路に面して両 側に大型施設が立地する「①大型施設広幅員型」、15m 程度の中幅員の街路に面して片側に大型施設が立地す る「②片側大型施設中幅員型」 、学生女性のみの特殊解 として、低層部にオープンカフェが立地する「③カフェ 占有型」 。また、選択されない空間タイプは、行き止ま り感を与える「① T・L 字裏型」 、スケールのギャップが[r] ...

4

1L5-2 exploration率の共有範囲によるマルチエージェント強化学習の考察

1L5-2 exploration率の共有範囲によるマルチエージェント強化学習の考察

... コピーと見做す。エージェント間の情報共有としては、経験や 学習結果の共有がまず考えられるが、その結果、前エージェン トが同じ行動をとることになり、以下での取り上げる資源共有 問題などでは有効に働かない。一方、学習パラメータの共有は そのような問題を生じない。現実社会のアナロジーで言えば、 行動そのものを真似るのではなく、行動学習の方策を真似るこ ...

4

アルゴリズム入門

アルゴリズム入門

... 応用例: 系統樹の作成  旧来の系統樹: 見た目や 行動様式から近さを推定  DNAを用いた系統樹: 塩基配列の似てる度を計算 → 分化した年代を推定  似てる度: 塩基の欠落や 置き換えを考慮した一致数. Kerstin Lindblad-Toh, et al., Genome sequence, comparative analysis and.[r] ...

37

強化学習を用いた共同注視点に基づく合意形成: University of the Ryukyus Repository

強化学習を用いた共同注視点に基づく合意形成: University of the Ryukyus Repository

... イヤ(エージェント)が以下のタスクを達成することを目 的とする。 LPasserはReceiverへパスを成功させる。 2.ReceiverはPasserからのパスを受けとり敵ゴールへ のシュートを成功させる。 5.2.2基本行動アルゴリズム I敦鹸側エージェントC学習主体) 攻撃側エージェントにはPasserとReceiverの2種類エ ージェントが不誼:する。これら[r] ...

8

強化学習を用いた自律多脚車輪型ロボットの脱出行動の環境適応

強化学習を用いた自律多脚車輪型ロボットの脱出行動の環境適応

... Keywords: Reinforcement Learning, Wheel-Legged Robot, Escaping Actions, Adaptation to Environment, Autonomous System 概 要: 探査ロボットやレスキューロボットなどの,未知環境で作業を行うロボットの研究が多 数行われている.それらのロボットは環境に応じて適切な行動を選択する必要がある.そこで本研 ...

38

1F3-1 エネルギベースドモデルを用いた強化学習のための多層パーセプトロン構造

1F3-1 エネルギベースドモデルを用いた強化学習のための多層パーセプトロン構造

... はじめに 強化学習は環境に関する事前知識無しに試行錯誤を通して 最適行動系列を学習する枠組みであり,強化学習における主要 な問題は高次元の状態・行動空間をもつ環境中での効率良い行 動選択・学習であることが知られている.このような問題に対 して,Actor-Critic アルゴリズム強化学習における価値関数 ...

4

2F4-OS-01a-7 多層マルチモーダルLDAと強化学習による意味理解に基づく行動決定

2F4-OS-01a-7 多層マルチモーダルLDAと強化学習による意味理解に基づく行動決定

... 皮質と大脳基底核のループ回路が強化学習の基盤となっている ことを明らかにしている [ 花川 08, 久保田 07] .皮質と大脳基 底核のループは並列的に複数の回路が存在し,運動学習から高 次のプランニング,言語や社会性に関する学習など,その影響 は非常に広範に及んでいる.このことは,前頭前野が階層的に 上位の中枢としてカテゴリ化やプランニング,意思決定など高 ...

4

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

... 図 1 は実験 1A の結果であり 、 学習データ における 適合度と テスト データ におけ る 誤差を 目的関数と し た pareto-optimial な回帰モデル群である こ と を 示し ている 。 図 2 は、 こ れら のモ デル群がどのよ う に定義さ れている かを 表し ている 。 図 3 は実 ...

2

ルゴリズム ( 青 ) どちらも平均すれば同程度の性能となることに注意 NFL 定理に関係して AI 分野におけるアルゴリズムの重要性は 最強囲碁 AI アルファ碁解体新書深層学習 モンテカルロ木探索 強化学習から見たその仕組み 5) ではアルゴリズムの特徴を生かして組み合わせておりその考え方が参考

ルゴリズム ( 青 ) どちらも平均すれば同程度の性能となることに注意 NFL 定理に関係して AI 分野におけるアルゴリズムの重要性は 最強囲碁 AI アルファ碁解体新書深層学習 モンテカルロ木探索 強化学習から見たその仕組み 5) ではアルゴリズムの特徴を生かして組み合わせておりその考え方が参考

... 7 word2vec による類似語抽出 word2vec を使用すると単語の分散表現ベクトルが 得られる。歴史的には word2vec の方が doc2vec よ り先に開発されている。単語の分散表現ベクトルから指 定した単語の類似語が簡単に得られる。word2vec は gensim を用いて Python より実行した。3 節のデー タセットに図 13 の doc2vwc による文書のベクトル 化処理の概要に準じて Janome ...

12

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

... 図 4 に実験結果を示す.同図は試行数に対する平均最短経 路 長 の 変 化 を 示 す.た だ し 提 案 手 法 で は GA を 用 い る た め , HQ-Learning の試行数に対応した世代数を付記した.提案手 法では十分に学習が進み,経路長が最適解である 28 ステップ に収束した.一方で, HQ-Learning(100) の平均最短経路長が 約 70 , HQ-Learning(1000) が約 50 ...

4

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

... 1. はじめに 個人の感性を反映した楽曲の自動生成に関する研究が進め られている.帰納論理プログラミング (Inductive Logic Pro- gramming; ILP) を用いて個人の感性モデルを獲得し,進化計 算アルゴリズムにより感性モデルに即した楽曲を生成する手法 が提案されており,個人の感性を反映した楽曲生成がある程度 可能であることが報告されている [Legaspi 07] .より質の高い ...

4

Show all 5304 documents...

関連した話題