• 検索結果がありません。

強化学習モデルにおける報酬予測

長遅延報酬対象向け強化学習手法

長遅延報酬対象向け強化学習手法

... 交通流にどのような影響を及ぼすのかをシミュレータ実験により検証を 行った. シミュレータは図??で表される右折レーンをもつ 4 差路交差点 2 つで 構成される.制御を行うのは右側の交差点で,水平方向の青時間,黄時 間のスプリット比を学習により獲得する分岐率を用いて簡単なフィード バックにより行う.フィードバック制御が行われない信号時間について ...

77

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

... は、この逆強化学習を一般化し、 報酬関数だけでなく、環境モデルのパラメータ、すなわち遷移 行列・観測行列の値に関しても推定しようとするものである。 特に、部分観測問題においては、完全観測問題とは異なり、環 境に多くの未知の要素が含まれるため、環境のモデルに適切な パラメータを設定することが困難である。しかし、エキスパー ...

3

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... ϵ をできるだけ小さくすれば、全体の誤差を最小化できる事が 読み取れる。ただ、これは万能ではなく、 exploration 以外 の外乱が報酬に入る場合、 α をある程度小さく保つ必要が出 てくる。その場合には epsilon をある程度大きくすべきこと ...

4

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... 一方,相手の行動履歴を参照しない学習の枠組みとして,報 酬にもとづき自身の行動を重みづける強化学習があげられる [Roth 95] .強化学習 [Sutton & Barto 98] の枠組みでは,相 手の行動に関する情報をえられると仮定されておらず,した がって各プレイヤは自身のとりうる行動とそれに対する報酬の ...

4

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... 10 種の 2 人 2 行動非零和行列ゲームを 30 万回繰り返す実験 を 50 回行った.ゲームのプレイヤーによって非対称なゲーム が存在するので,行プレイヤーと列プレイヤーを入れ替えて再 度ゲームを 30 万回繰り返す実験を 50 回行い,平均獲得報酬 を比較した.表 3 に 10 種のゲームでのそれぞれのアルゴリズ ムを搭載したエージェントが総当り戦を行った時の平均獲得報 ...

4

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

... 1. はじめに マルコフ決定過程における最適意思決定問題の解法である 直接方策探索法は,方策をパラトリックモデルで特徴づけ,与 えられたパラメータ空間から適切なパラメータを探索すること により,方策の最適化を実現する [Deisenroth 13] .よって,古 典的な動的計画法規範の方法―価値関数の同定により方策の最 適化を実現する方法と異なり,知りたい関数である方策に対す ...

4

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... 予め転移させておくことで,少ない探索回数で学習を行うこと を目標とする.しかし,元タスクと目標タスクが似ていない場 合,負の転移が発生してしまう可能性がある.そこで,どの元 タスクを転移させるかを判別するために,目標タスクとのタス ク間類似度を測る必要がある.また,転移学習には,タスクの 状態数や行動数が多い場合には,類似度計算量も相応して増え てしまうという問題点もある.このような問題を解決するため ...

3

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

... が少ない時によりリスク回避的な戦略をとることで , 報酬の期 待値を最大化するのみならず , 報酬の安定化も図るためである . 最後に , 人工データに対し p-UCB (p = 0.5) は g-UCB より も試行回数が少ない時に得られる効用がより多く , かつ , 探索 ...

4

全球非静力学モデルを用いた準実時間予測計算システムの構築とJAMSTEC集中観測における実利用

全球非静力学モデルを用いた準実時間予測計算システムの構築とJAMSTEC集中観測における実利用

... 図 5. 北極集中観測プロジェクトとの連携. (a) (左)北極海航海中のみらいラジオゾンデ観測. (右) 2017 年 9 月 13 日にみらいレーダーで観測された降水域. (b) 同日の NCEP 解析データによる 10m 高度風速と風ベクトル. (c) NICAM の予測結果[上から, 1 日予測, 2 日予測, 3 日予測] . (左) 10m 高度の風速(色) ...

12

3C3-4 モデルのライフサイクルを考慮した大量予測モデル管理手法の検討

3C3-4 モデルのライフサイクルを考慮した大量予測モデル管理手法の検討

... また,今回の実験は個別の商品に対して予測を行ったが,デー タの SN 比の問題から,より広い予測対象の予測値を利用する 方が結果的に予測性能が高まる場合も考えられる.例えば,小 売りのような予測対象となる商品の入れ替えが頻繁に発生する 場合,新商品については学習データが不足することから,分類 ...

4

RIETI - 中小企業における輸出と企業力の強化:工業統計ミクロデータを用いた輸出の学習効果の検証

RIETI - 中小企業における輸出と企業力の強化:工業統計ミクロデータを用いた輸出の学習効果の検証

... 輸出による学習効果は、雇用の改善にもよい影響を与えていることがわかるが、それほど 大きな効果とは呼べず、より大きな雇用創出効果をもたらすための制度設計が求められる べきであろう。貿易財部門における雇用創出が難しいことは先進諸国に共通した課題では あるが、日本全国の雇用の 6 割を占める中小企業におけるイノベーションや生産性の改善 ...

32

1F2-2 人狼における強化学習を用いたエージェントの設計

1F2-2 人狼における強化学習を用いたエージェントの設計

... [稲葉 12] 稲葉通将, 鳥海不二夫, and 高橋健一:“人狼ゲーム データの統計的分析,” in ゲームプログラミングワークショッ プ 2012 論文集, 2012, 144-147. [大澤 00] 大澤博隆:“コミュニケーションゲーム「人狼」におけ るエージェント同士の会話プロトコルのモデル化,” in HAI シ ンポジウム 2013, 2013, 122-130. ...

3

RIETI - 機械学習手法を用いた不正会計の検知と予測

RIETI - 機械学習手法を用いた不正会計の検知と予測

... このように、理論的検討と整合的な結果を報告する実証研究が蓄積されている一方で、実 証分析の観点からは少なくとも二つの課題を指摘することができる。まず、第一の課題とし て、現時点における不正会計の検知を目的とした取り組みにおいて、検知に際して参照する 変数として活用されていない膨大な変数が存在する。例えば、Song et al. (2016)では、理論 ...

35

強化学習における認知バイアスと固執性―選択行動を決めているのは過去の“選択の結果”か“選択そのもの”か?―

強化学習における認知バイアスと固執性―選択行動を決めているのは過去の“選択の結果”か“選択そのもの”か?―

... 実験 1におけるモデル間の対数周辺尤度の比較か ら,同じ選択肢を選び続ける固執性を反映したQ–Pモ デルが最もデータを説明するモデルであることが示唆さ れた。注目すべきはVQモデルとVQ–Pモデルに差が認 められなかったという点である。この結果は,固執性を 反映したモデル学習率の非対称性を反映したモデルと ...

8

自然災害対策行動を予測する行動モデルに関する研究動向と課題

自然災害対策行動を予測する行動モデルに関する研究動向と課題

... さて,相互協調的な自己観が強い文化では図 11 にも示 されるとおり,地域としての連帯感 p が大きな自然災害 対策行動に対して大きな影響をもたらすことがうかがえ る(なお,同じモデルは Paton, Houghton, Gregg, Ritchie, McIvor, Larin, Meinhold, Horan, and Johnston 43) でも豪 ...

13

行動活性化パラダイムに基づいた行動選択に対する脳機能予測モデル

行動活性化パラダイムに基づいた行動選択に対する脳機能予測モデル

... 日本認知・行動療法学会 第44回大会 一般演題 P1-20 - 161 - 有することが示された。本研究は行動活性化における 行動モデルの生物学的根拠を補完し,価値に沿った行 動を選択するためには単に報酬感受性を増加させるの ではなく,行動プランを立て即時的な報酬反応を制御 ...

2

RIETI - スポット価格予測に基づくJEPX先渡価格付けモデルの構築

RIETI - スポット価格予測に基づくJEPX先渡価格付けモデルの構築

... 本論文では, JEPX スポット価格の対数系列をトレンドと残差に分解し,金融工学分野に おけるデリバティブ価格付け手法の一つである測度変換を適用することで先渡価格を導出 する.具体的な手順は以下の通りである.まず, JEPX スポット価格系列を確定的なカレン ダーパラメータのトレンド関数とそれ以外の残差項を用いて表現し,残差項を状態空間モデ ルとして記述する.つぎに,残差に対して時系列モデルを当てはめ,残差の条件付期待値か ...

22

ディーゼル乗用車における実路走行時NOx排出予測モデルに関する研究

ディーゼル乗用車における実路走行時NOx排出予測モデルに関する研究

... - モデル化を行うのは非常に難しい.そこでシャシダイナモを用いた認証試験モードにおける NOx 浄化率を活用する手法を考案した.認証試験モードでは当然ながら NSC も含めた排出ガス低減 装置が適切に作動していると考えられる.実路走行でも同様の制御が行われている範囲では,触 媒が同じ浄化性能を有すると仮定した.この仮定の上で考慮すべきこととして,実走行ではモード ...

136

初級フランス語学習者の読解における語彙知識の予測

初級フランス語学習者の読解における語彙知識の予測

... テクストから構成されている。杉山(2018)の調査に基づき、 学習者が一人でも未知語であると判断した単語をすべてリスト化した。ただし、 成句や熟語表現は頻度情報を得られないため、リストから除外する。また、杉 山(2019)の結果から、動詞の活用形は動詞自体の語彙の頻度が高くても習得 されにくいことが明らかになったため、リストから除外することとした。同様 に、代名動詞も他動詞からの類推に失敗し、既知の形態素を組み合わせて誤っ ...

15

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

... で戦略の配分の決定や学習に時間が掛かり,相手プレイヤーと の協調行動により唯一つの状態が最適解となるゲームにおいて, 平均獲得報酬が少なくなることが挙げられる.一方, S’-alg の 問題点として,相手プレイヤーがグリーディな戦略を行うアル ゴリズムだった場合,アルゴリズム内の満足度が減少し,低い 報酬に満足してしまい一方的に搾取されてしまうことが挙げら れる. ...

4

Show all 10000 documents...

関連した話題