Top PDF 強化学習モデルにおける報酬予測

長遅延報酬対象向け強化学習手法

... 交通流にどのような影響を及ぼすのかをシミュレータ実験により検証を行った．シミュレータは図??で表される右折レーンをもつ 4 差路交差点 2 つで構成される．制御を行うのは右側の交差点で，水平方向の青時間，黄時間のスプリット比を学習により獲得する分岐率を用いて簡単なフィードバックにより行う．フィードバック制御が行われない信号時間について ...

77

PDFファイル 2H1 「強化学習の基礎」

... は、この逆強化学習を一般化し、報酬関数だけでなく、環境モデルのパラメータ、すなわち遷移行列・観測行列の値に関しても推定しようとするものである。特に、部分観測問題においては、完全観測問題とは異なり、環境に多くの未知の要素が含まれるため、環境のモデルに適切なパラメータを設定することが困難である。しかし、エキスパー ...

3

PDFファイル 4H1 「強化学習とエージェント」

... ϵ をできるだけ小さくすれば、全体の誤差を最小化できる事が読み取れる。ただ、これは万能ではなく、 exploration 以外の外乱が報酬に入る場合、 α をある程度小さく保つ必要が出てくる。その場合には epsilon をある程度大きくすべきこと ...

4

PDFファイル 4H1 「強化学習とエージェント」

... 一方，相手の行動履歴を参照しない学習の枠組みとして，報酬にもとづき自身の行動を重みづける強化学習があげられる [Roth 95] ．強化学習 [Sutton & Barto 98] の枠組みでは，相手の行動に関する情報をえられると仮定されておらず，したがって各プレイヤは自身のとりうる行動とそれに対する報酬の ...

4

PDFファイル 4H1 「強化学習とエージェント」

... 10 種の 2 人 2 行動非零和行列ゲームを 30 万回繰り返す実験を 50 回行った．ゲームのプレイヤーによって非対称なゲームが存在するので，行プレイヤーと列プレイヤーを入れ替えて再度ゲームを 30 万回繰り返す実験を 50 回行い，平均獲得報酬を比較した．表 3 に 10 種のゲームでのそれぞれのアルゴリズムを搭載したエージェントが総当り戦を行った時の平均獲得報 ...

4

PDFファイル 2H1 「強化学習の基礎」

... 1. はじめにマルコフ決定過程における最適意思決定問題の解法である直接方策探索法は，方策をパラトリックモデルで特徴づけ，与えられたパラメータ空間から適切なパラメータを探索することにより，方策の最適化を実現する [Deisenroth 13] ．よって，古典的な動的計画法規範の方法―価値関数の同定により方策の最適化を実現する方法と異なり，知りたい関数である方策に対す ...

4

... 予め転移させておくことで，少ない探索回数で学習を行うことを目標とする．しかし，元タスクと目標タスクが似ていない場合，負の転移が発生してしまう可能性がある．そこで，どの元タスクを転移させるかを判別するために，目標タスクとのタスク間類似度を測る必要がある．また，転移学習には，タスクの状態数や行動数が多い場合には，類似度計算量も相応して増えてしまうという問題点もある．このような問題を解決するため ...

3

PDFファイル 2H1 「強化学習の基礎」

... が少ない時によりリスク回避的な戦略をとることで , 報酬の期待値を最大化するのみならず , 報酬の安定化も図るためである . 最後に , 人工データに対し p-UCB (p = 0.5) は g-UCB よりも試行回数が少ない時に得られる効用がより多く , かつ , 探索 ...

4

全球非静力学モデルを用いた準実時間予測計算システムの構築とJAMSTEC集中観測における実利用

... 図 5. 北極集中観測プロジェクトとの連携． (a) （左）北極海航海中のみらいラジオゾンデ観測．（右） 2017 年 9 月 13 日にみらいレーダーで観測された降水域． (b) 同日の NCEP 解析データによる 10m 高度風速と風ベクトル． (c) NICAM の予測結果［上から， 1 日予測， 2 日予測， 3 日予測］．（左） 10m 高度の風速（色） ...

12

3C3-4 モデルのライフサイクルを考慮した大量予測モデル管理手法の検討

... また，今回の実験は個別の商品に対して予測を行ったが，データの SN 比の問題から，より広い予測対象の予測値を利用する方が結果的に予測性能が高まる場合も考えられる．例えば，小売りのような予測対象となる商品の入れ替えが頻繁に発生する場合，新商品については学習データが不足することから，分類 ...

4

RIETI - 中小企業における輸出と企業力の強化：工業統計ミクロデータを用いた輸出の学習効果の検証

... 輸出による学習効果は、雇用の改善にもよい影響を与えていることがわかるが、それほど大きな効果とは呼べず、より大きな雇用創出効果をもたらすための制度設計が求められるべきであろう。貿易財部門における雇用創出が難しいことは先進諸国に共通した課題ではあるが、日本全国の雇用の 6 割を占める中小企業におけるイノベーションや生産性の改善 ...

32

1F2-2 人狼における強化学習を用いたエージェントの設計

... [稲葉 12] 稲葉通将, 鳥海不二夫, and 高橋健一：“人狼ゲームデータの統計的分析,” in ゲームプログラミングワークショップ 2012 論文集, 2012, 144-147. [大澤 00] 大澤博隆：“コミュニケーションゲーム「人狼」におけるエージェント同士の会話プロトコルのモデル化,” in HAI シンポジウム 2013, 2013, 122-130. ...

3

RIETI - 機械学習手法を用いた不正会計の検知と予測

... このように、理論的検討と整合的な結果を報告する実証研究が蓄積されている一方で、実証分析の観点からは少なくとも二つの課題を指摘することができる。まず、第一の課題として、現時点における不正会計の検知を目的とした取り組みにおいて、検知に際して参照する変数として活用されていない膨大な変数が存在する。例えば、Song et al. (2016)では、理論 ...

35

強化学習における認知バイアスと固執性―選択行動を決めているのは過去の“選択の結果”か“選択そのもの”か？―

... 実験 1における各モデル間の対数周辺尤度の比較から，同じ選択肢を選び続ける固執性を反映したQ–Pモデルが最もデータを説明するモデルであることが示唆された。注目すべきはVQモデルとVQ–Pモデルに差が認められなかったという点である。この結果は，固執性を反映したモデルも学習率の非対称性を反映したモデルと ...

8

自然災害対策行動を予測する行動モデルに関する研究動向と課題

... さて，相互協調的な自己観が強い文化では図 11 にも示されるとおり，地域としての連帯感 p が大きな自然災害対策行動に対して大きな影響をもたらすことがうかがえる（なお，同じモデルは Paton, Houghton, Gregg, Ritchie, McIvor, Larin, Meinhold, Horan, and Johnston 43）でも豪 ...

13

行動活性化パラダイムに基づいた行動選択に対する脳機能予測モデル

... 日本認知・行動療法学会　第44回大会一般演題 P1-20 - 161 - 有することが示された。本研究は行動活性化における 行動モデルの生物学的根拠を補完し，価値に沿った行動を選択するためには単に報酬感受性を増加させるのではなく，行動プランを立て即時的な報酬反応を制御 ...

2

RIETI - スポット価格予測に基づくJEPX先渡価格付けモデルの構築

... 本論文では， JEPX スポット価格の対数系列をトレンドと残差に分解し，金融工学分野におけるデリバティブ価格付け手法の一つである測度変換を適用することで先渡価格を導出する．具体的な手順は以下の通りである．まず， JEPX スポット価格系列を確定的なカレンダーパラメータのトレンド関数とそれ以外の残差項を用いて表現し，残差項を状態空間モデルとして記述する．つぎに，残差に対して時系列モデルを当てはめ，残差の条件付期待値か ...

22

ディーゼル乗用車における実路走行時NOx排出予測モデルに関する研究

... - モデル化を行うのは非常に難しい．そこでシャシダイナモを用いた認証試験モードにおける NOx 浄化率を活用する手法を考案した．認証試験モードでは当然ながら NSC も含めた排出ガス低減装置が適切に作動していると考えられる．実路走行でも同様の制御が行われている範囲では，触媒が同じ浄化性能を有すると仮定した．この仮定の上で考慮すべきこととして，実走行ではモード ...

136

初級フランス語学習者の読解における語彙知識の予測

... テクストから構成されている。杉山（2018）の調査に基づき、学習者が一人でも未知語であると判断した単語をすべてリスト化した。ただし、成句や熟語表現は頻度情報を得られないため、リストから除外する。また、杉山（2019）の結果から、動詞の活用形は動詞自体の語彙の頻度が高くても習得されにくいことが明らかになったため、リストから除外することとした。同様に、代名動詞も他動詞からの類推に失敗し、既知の形態素を組み合わせて誤っ ...

15

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

... で戦略の配分の決定や学習に時間が掛かり，相手プレイヤーとの協調行動により唯一つの状態が最適解となるゲームにおいて，平均獲得報酬が少なくなることが挙げられる．一方， S’-alg の問題点として，相手プレイヤーがグリーディな戦略を行うアルゴリズムだった場合，アルゴリズム内の満足度が減少し，低い報酬に満足してしまい一方的に搾取されてしまうことが挙げられる． ...

4

強化学習モデルにおける報酬予測

関連した話題