Top PDF 強化学習アルゴリズム

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

... 5. 結論人々の意思決定が互いに影響し合う状況をモデル化した「ゲーム」において，意思決定主体が学習を行う場合に，自己の利益を最大化する戦略を獲得するアルゴリズムが広く研究されている．しかしながら，既存の強化学習アルゴリズムは様々なゲームにおいて高い報酬を獲得することができるが，最適な戦略を ...

4

2L1-1 満足化とその基準の動的な更新による強化学習の促進

... TD 学習 (Q 学習， Sarsa 等 ) は，獲得した報酬を Q 値と呼ばれる任意の状態においてある行動を取る事 ( 状態行動対 ) に対する価値として格納する． TD 学習では Q 値と選択方策を参照して次に取るべき行動を選択し，それが現時点での Q 値に照らして合理的であった場合は利益追求行動，そうでない場合を探索行動と定義される．最も目的に沿った行動系列を発見するため ...

4

PDFファイル 4H1 「強化学習とエージェント」

... 5. 結論人々が相互に影響しあう関係をモデル化した「ゲーム」において，個々が学習を行うことで自己の利益を最大にする戦略を獲得する強化学習アルゴリズムが研究されている．しかし，既存の強化学習アルゴリズムにはゲームの状況によって得意なゲームと不得意なゲームがあるという問題点があった．本研究 ...

4

... の学習推移強化学習の RL Policy Network のネットワーク構造は SL Policy Network と同じである。使用したパラメータは、 save-every=10, game-batch=10, iterations=6000, record- every=1 である。自己対戦の初期重みには、SL Policy Net- work を使って得られた最終エポック後の HDF5 ...

8

PDFファイル 2H1 「強化学習の基礎」

... で得られる．ここで (∂/∂θ)s(w, θ) = s(w, θ)(∂/∂θ) ln s(w, θ) の関係を利用した． s(w, θ) に関する期待値は以前として解析的には計算できないが，ガウス分布はサンプリングが容易であるため，数値積分により近似的に評価することができる．したがって，この近似した微分を勾配ベースの数値最適化に組み込み， KLPE 解の e 射影によるガウス近似を計算することができる．以降，全てのステップでの ...

4

PDFファイル 2H1 「強化学習の基礎」

... 特徴の第 1 は、新規に開発した方策反復型の POMDP ソルバーを搭載していることである。徒弟学習において、方策反復型の POMDP ソルバーを利用することのメリットには、次の 2 点がある [Makino 13]: (1) 尤度値の劣勾配が計算できることから、最急降下法等の効率的な最適化手法を適用可能となり、必要な評価回数が削減できること。 (2) パラメータ値を変 ...

3

PDFファイル 4H1 「強化学習とエージェント」

... The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014 4H1-5 オンライン学習アルゴリズムのファジィ識別器への応用と性能比較 Application of Online Learning Algorithms to Fuzzy Classifiers and its Performance ...

2

PDFファイル 4H1 「強化学習とエージェント」

... 1. はじめに社会における利害対立や協力関係を，合理的な推論をおこなう複数のプレイヤ間のゲームとして数理的に扱う枠組みとしてゲーム理論がある [Neumann & Morgenstern 44] ．その代表例である囚人のジレンマは，複数のプレイヤのもっとも望ましい行動が協調行動であるにもかかわらず，裏切り行動が選ばれてしまう現象を捉えたゲームである．こうした基礎的なジレ ...

4

長遅延報酬対象向け強化学習手法

... 的は，状態の時間推移を独立して考慮し，適応させることのできる強化学習手法を考え，その対象として植物の育成制御を行う．具体的な対象としては，工学的に制御を行うことができる植物工場システムを対象とする．自然を対象とした制御においては，報酬の時間遅れが極めて大きい対象が多く見られる．そのため，この研究では，試行回数をなるべく少なくし，早期に有効な制御方策を見出すことのできるような，状態価 ...

77

決定木学習アルゴリズムを利用したシナリオ型土地利用予測に関する研究 −福岡県糸島地域を対象として− [ PDF

... である。選択される街路は、広幅員の街路に面して両側に大型施設が立地する「①大型施設広幅員型」、15m 程度の中幅員の街路に面して片側に大型施設が立地する「②片側大型施設中幅員型」、学生女性のみの特殊解として、低層部にオープンカフェが立地する「③カフェ占有型」。また、選択されない空間タイプは、行き止まり感を与える「① T・L 字裏型」、スケールのギャップが[r] ...

4

1L5-2 exploration率の共有範囲によるマルチエージェント強化学習の考察

... コピーと見做す。エージェント間の情報共有としては、経験や学習結果の共有がまず考えられるが、その結果、前エージェントが同じ行動をとることになり、以下での取り上げる資源共有問題などでは有効に働かない。一方、学習パラメータの共有はそのような問題を生じない。現実社会のアナロジーで言えば、行動そのものを真似るのではなく、行動学習の方策を真似るこ ...

4

アルゴリズム入門

... 応用例: 系統樹の作成  旧来の系統樹: 見た目や行動様式から近さを推定  DNAを用いた系統樹: 塩基配列の似てる度を計算 → 分化した年代を推定  似てる度: 塩基の欠落や置き換えを考慮した一致数. Kerstin Lindblad-Toh, et al., Genome sequence, comparative analysis and.[r] ...

37

強化学習を用いた共同注視点に基づく合意形成: University of the Ryukyus Repository

... イヤ(エージェント)が以下のタスクを達成することを目的とする。 LPasserはReceiverへパスを成功させる。 2.ReceiverはPasserからのパスを受けとり敵ゴールへのシュートを成功させる。 5.2.2基本行動アルゴリズムＩ敦鹸側エージェントC学習主体）攻撃側エージェントにはPasserとReceiverの２種類エージェントが不誼：する。これら[r] ...

8

強化学習を用いた自律多脚車輪型ロボットの脱出行動の環境適応

... Keywords: Reinforcement Learning, Wheel-Legged Robot, Escaping Actions, Adaptation to Environment, Autonomous System 概要: 探査ロボットやレスキューロボットなどの，未知環境で作業を行うロボットの研究が多数行われている．それらのロボットは環境に応じて適切な行動を選択する必要がある．そこで本研 ...

38

1F3-1 エネルギベースドモデルを用いた強化学習のための多層パーセプトロン構造

... はじめに強化学習は環境に関する事前知識無しに試行錯誤を通して最適行動系列を学習する枠組みであり，強化学習における主要な問題は高次元の状態・行動空間をもつ環境中での効率良い行動選択・学習であることが知られている．このような問題に対して，Actor-Critic アルゴリズムは強化学習における価値関数 ...

4

2F4-OS-01a-7 多層マルチモーダルLDAと強化学習による意味理解に基づく行動決定

... 皮質と大脳基底核のループ回路が強化学習の基盤となっていることを明らかにしている [ 花川 08, 久保田 07] ．皮質と大脳基底核のループは並列的に複数の回路が存在し，運動学習から高次のプランニング，言語や社会性に関する学習など，その影響は非常に広範に及んでいる．このことは，前頭前野が階層的に上位の中枢としてカテゴリ化やプランニング，意思決定など高 ...

4

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

... 図 1 は実験 1A の結果であり、学習データにおける適合度とテストデータにおける誤差を目的関数とした pareto-optimial な回帰モデル群であることを示している。図 2 は、これらのモデル群がどのように定義されているかを表している。図 3 は実 ...

2

ルゴリズム ( 青 ) どちらも平均すれば同程度の性能となることに注意 NFL 定理に関係して AI 分野におけるアルゴリズムの重要性は最強囲碁 AI アルファ碁解体新書深層学習モンテカルロ木探索強化学習から見たその仕組み 5) ではアルゴリズムの特徴を生かして組み合わせておりその考え方が参考

... 7 word2vec による類似語抽出 word2vec を使用すると単語の分散表現ベクトルが得られる。歴史的には word2vec の方が doc2vec より先に開発されている。単語の分散表現ベクトルから指定した単語の類似語が簡単に得られる。word2vec は gensim を用いて Python より実行した。3 節のデータセットに図 13 の doc2vwc による文書のベクトル化処理の概要に準じて Janome ...

12

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

... 図 4 に実験結果を示す．同図は試行数に対する平均最短経路長の変化を示す．ただし提案手法では GA を用いるため， HQ-Learning の試行数に対応した世代数を付記した．提案手法では十分に学習が進み，経路長が最適解である 28 ステップに収束した．一方で， HQ-Learning(100) の平均最短経路長が約 70 ， HQ-Learning(1000) が約 50 ...

4

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

... 1. はじめに個人の感性を反映した楽曲の自動生成に関する研究が進められている．帰納論理プログラミング (Inductive Logic Pro- gramming; ILP) を用いて個人の感性モデルを獲得し，進化計算アルゴリズムにより感性モデルに即した楽曲を生成する手法が提案されており，個人の感性を反映した楽曲生成がある程度可能であることが報告されている [Legaspi 07] ．より質の高い ...

4

強化学習アルゴリズム

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

2L1-1 満足化とその基準の動的な更新による強化学習の促進

PDFファイル 4H1 「強化学習とエージェント」

深層学習とプレイアウトに基づく囲碁アルゴリズム

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

長遅延報酬対象向け強化学習手法

決定木学習アルゴリズムを利用したシナリオ型土地利用予測に関する研究 −福岡県糸島地域を対象として− [ PDF

1L5-2 exploration率の共有範囲によるマルチエージェント強化学習の考察

アルゴリズム入門

強化学習を用いた共同注視点に基づく合意形成: University of the Ryukyus Repository

強化学習を用いた自律多脚車輪型ロボットの脱出行動の環境適応

1F3-1 エネルギベースドモデルを用いた強化学習のための多層パーセプトロン構造

2F4-OS-01a-7 多層マルチモーダルLDAと強化学習による意味理解に基づく行動決定

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

関連した話題