• 検索結果がありません。

強化学習で何ができる

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

... 5. 結論 人々の意思決定互いに影響し合う状況をモデル化した「ゲー ム」において,意思決定主体学習を行う場合に,自己の利益 を最大化する戦略を獲得するアルゴリズム広く研究されてい る.しかしながら,既存の強化学習アルゴリズムは様々なゲー ムにおいて高い報酬を獲得することできる,最適な戦略を ...

4

1L5-4 マルチエージェント逆強化学習による報酬設計問題の考察

1L5-4 マルチエージェント逆強化学習による報酬設計問題の考察

... 本研究はこの問題に対して,マルチエージェントによるア プローチをとる.既存研究はマルチエージェント強化学習に よって解決するための,各エージェントへの適切な報酬配分法 提案されている.しかし,この報酬配分方法は経験的知識に 基づいているため,必ずしも最適な行動系列,あるいは所望の 行動系列を生成させることを保証しない点課題ある. ...

4

1F2-2 人狼における強化学習を用いたエージェントの設計

1F2-2 人狼における強化学習を用いたエージェントの設計

... 1. はじめに 近年,完全情報ゲームにおける人工知能の技術の進歩は目 覚ましく,オセロやチェスに続き,将棋においても人工知能人 間のプロを相手に勝利するようになった.一方,不完全情報 ゲームの人工知能についての研究は少なく発展の余地あり, 人工知能目指すべき新たな目標の一つあると考えられる. 鳥海らは,[鳥海 ...

3

IPSJ SIG Technicl Repor に相当し 探索木の前向きの枝刈り処理に用いることも可能である. 本論文では このシミュレーション方策中のパラメータと局面評価関数中の特徴量パラメータの両方を同時に学習できる強化学習則を導出する. さらに 強化学習ではなく その局面での正解手を与える教師

IPSJ SIG Technicl Repor に相当し 探索木の前向きの枝刈り処理に用いることも可能である. 本論文では このシミュレーション方策中のパラメータと局面評価関数中の特徴量パラメータの両方を同時に学習できる強化学習則を導出する. さらに 強化学習ではなく その局面での正解手を与える教師

... 通常,局面評価関数に教師付き学習を適用する際は,プ ロ棋士の棋譜データベース等から,局面とそこ指された 指し手を唯一の正解手として局面・指し手ペアの訓練デー タを作成する.しかし,ここはより一般的な場合を扱う. すなわち,正解手を1つに限定せずに,正解と思われる複 数の指し手に対してそれらを選択する確率分布を学習させ ることにする.そこで,今,正解の着手決定方策を π*,学 ...

8

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... Step 2 : Step 1 の学習用パターンに対して学習 Step 3 : 全てのパターン選択されるまで繰り返す 識別性能を評価するために 10CV を 10 回行い,評価用パター ンに対する平均正答率を性能評価の指標として用いることとす ...

2

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... • 状態の探索足りず,次善の報酬に満足し最適戦略を学 習しない場合も存在する こと挙げられる.すなわち,全てのゲームにおいて高い報酬 を獲得するオールマイティなアルゴリズムはない.この問題 を解決するため,損失回避戦略により相手プレイヤーに搾取 されることを回避し,積極的探索戦略により最適な状態を探 索することできる M-Qubed によって S-alg ...

4

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

... 牧野らによるパラメータ推定 [Makino 12] においては、仮 定されたパラメータ値あらわされる強化学習問題を解くこ と、演示に含まれる行動列の尤度を計算し、観測列の尤度と 合わせ、演示の事後確率最大となるパラメータ値を探索する というプロセス推定を行っていた。しかし、特に部分観測問 ...

3

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014 4H1-3 学習あり繰り返し囚人のジレンマにおける協調行動の発生 Emergence of Cooperation in the Iterated Prisoner’s Dilemma between Reinforcement Learners ...

4

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... 予め転移させておくこと,少ない探索回数学習を行うこと を目標とする.しかし,元タスクと目標タスク似ていない場 合,負の転移発生してしまう可能性ある.そこで,どの元 タスクを転移させるかを判別するために,目標タスクとのタス ク間類似度を測る必要ある.また,転移学習には,タスクの ...

3

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... 5 ある。 この図からわかるように、最適 ϵ は α の値により大きく変化 している。全体的な傾向としては、 α 大きくなるに従ってよ り小さな ϵ を選ぶ必要あることわかる。これは、 α 大 きい ( 学習時間間隔短い ) 場合には、 1 つの経験に学習大 きく影響されるため、ノイズ成分となる ...

4

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

... 得られる.ここ (∂/∂θ)s(w, θ) = s(w, θ)(∂/∂θ) ln s(w, θ) の関 係を利用した. s(w, θ) に関する期待値は以前として解析的に は計算できない,ガウス分布はサンプリング容易あるた め,数値積分により近似的に評価することできる.したがっ ...

4

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

... 生じる . 多腕バンディ ット問題におけるアーム選択の戦略の 「良さ」を評価する普遍的な指標としてリグレットある . リ グレットは , 期待報酬最大のアームを選び続けた時に得られ 連絡先 : 梁 曽漢, zenghan [email protected] ...

4

長遅延報酬対象向け強化学習手法

長遅延報酬対象向け強化学習手法

... 強化学習手法は外乱に強く,教師データ不要な機械学習手法の一つ ある.そのため強化学習手法は不確実性高い実用的問題に適してい ると考えられる.実用的問題において強化学習手法を適用させることを 考えると,制御に対し報酬は大きな時間遅れを持って与えられ,また制 ...

77

ることが望ましい この場合 以下の要件を満たす必要がある! 問題が DB 化され 再利用が可能であること! 学習履歴が管理できること! 採点結果が素早く返ってくること! 生徒 教師が容易に利用できること! Junit ベースのテストファーストに対応すること! 安全なシステムであること! moodle

ることが望ましい この場合 以下の要件を満たす必要がある! 問題が DB 化され 再利用が可能であること! 学習履歴が管理できること! 採点結果が素早く返ってくること! 生徒 教師が容易に利用できること! Junit ベースのテストファーストに対応すること! 安全なシステムであること! moodle

... 本校は、Junit テストファーストを用いた学習を行っ ていることから、Junit を利用した自動採点を行うジャッ ジサーバを開発した。問題ファイル、Junit テストケース、 Build ファイルの入ったプロジェクトフォルダを提出する こと、自動採点を行う。Build ファイルとはプロジェク ト内の構成書かれたファイルあり、フォルダ内にあ ...

6

学習者が大学で「英語」を学習する目的意識の調査報告

学習者が大学で「英語」を学習する目的意識の調査報告

... 分かった。これらの目的はあまり明示的に表現されること少なく,複雑捉えがたいもの ある。表面的には「単位のために勉強する」と言う学習あっても,内面は異文化理 解をしたいと思っていたり,知的刺激を求めていたりすること考えられる。近年は,社 ...

17

「自分の言葉で語り合う」言葉のやりとりがある学習 : 単元学習「おとなって何?」シンポジウム

「自分の言葉で語り合う」言葉のやりとりがある学習 : 単元学習「おとなって何?」シンポジウム

... 1.2 生徒の実態と課題 入学時から持ち上がった学年ある。 様々な教材に触れ,読み取ったことや作品に ついて考えたことを文章化していく学習を昨年 度は積極的に取り入れてきた。「読めているか」 を確かめるために「書く」というのねらい あった。自分の考えを書くためには,テーマや 目的に即して正確に読み取ることや,自分なり ...

4

での生活では, 理科の学習という意識が薄くなっている 理科の学習が自分の生活に役に立っていると 感じている児童は多いが, 便利にしてくれると感じている児童は少ない このことから理科で学習した 内容が, 生活の中で生かされていることを実感できるような指導を行っていきたい ( 学習活動への意識に関するこ

での生活では, 理科の学習という意識が薄くなっている 理科の学習が自分の生活に役に立っていると 感じている児童は多いが, 便利にしてくれると感じている児童は少ない このことから理科で学習した 内容が, 生活の中で生かされていることを実感できるような指導を行っていきたい ( 学習活動への意識に関するこ

... 【視点2】 本単元は,実際の観 測結果をもとに,雲の量や動きと天 気の関係性や,天気の変化の規則性 について考える学習活動において, 児童の思考過程を評価できる授業 を目指す。例えば,実際に観察した 雲の量や動きと気象衛星による雲 画像などとを関連付けながら表現 できるようにする。また,単元を貫 く課題として「天気予報できるよ ...

6

(3) 児童観 本学級の児童数は 36 人で, 素直で学習意欲が高く, 学習課題に熱心に取り組み, 多くの児童が積極的に発表することができる 各教科の学習で取り組んでいるペアやグループ学習では, それぞれの意見を意欲的に伝え合うことができる しかしながら, 自分の考えや意見になかなか自信が持てない児

(3) 児童観 本学級の児童数は 36 人で, 素直で学習意欲が高く, 学習課題に熱心に取り組み, 多くの児童が積極的に発表することができる 各教科の学習で取り組んでいるペアやグループ学習では, それぞれの意見を意欲的に伝え合うことができる しかしながら, 自分の考えや意見になかなか自信が持てない児

... ○復習や英語への慣れ親しみに関する活動を,ペアやグループを中心に,児童主体継続的に進めた結 果,自分自身について変容あったと考えている児童 23 人いる。自分から進ん意見を言えるよう になったなど,コミュニケーションへの積極的な態度を育成する上望ましい変化を感じている。ま ...

5

進めることができる児童の育成のために 学習計画作りと 読みシート を活用した意見交流の設定が有効であることを 実践を通して明らかにする Ⅲ 研究の見通し学習計画作りと 読みシート を活用した意見交流の設定により 学び合いながら叙述を基に想像して読み進めることができる児童を育てることができるであろう

進めることができる児童の育成のために 学習計画作りと 読みシート を活用した意見交流の設定が有効であることを 実践を通して明らかにする Ⅲ 研究の見通し学習計画作りと 読みシート を活用した意見交流の設定により 学び合いながら叙述を基に想像して読み進めることができる児童を育てることができるであろう

... いながら叙述を基に想像して読み進めること できるための指導の方法について研究を進 める。まず、単元の導入は単元を貫く言語 活動を設定し、児童学習の見通しをもち、 読み取りの観点を意識しながら学習していけ るよう、児童と共に学習計画を作る。また、 読み取りの観点を基に児童進ん読み進め ...

8

(2) 学習目標 物の名前を知る : 注文ができる 学習項目 教材 Ⅰ これは です それはあれはこれは ですか それはあれは 身の回りで集めやすい物ノート 鉛筆 本 鍵 ボールペン かさなど はい です * いいえ じゃ ありません Ⅱ これは 何ですか それはあれは Ⅱ 1 Ⅱ 2 Ⅱ 3 *

(2) 学習目標 物の名前を知る : 注文ができる 学習項目 教材 Ⅰ これは です それはあれはこれは ですか それはあれは 身の回りで集めやすい物ノート 鉛筆 本 鍵 ボールペン かさなど はい です * いいえ じゃ ありません Ⅱ これは 何ですか それはあれは Ⅱ 1 Ⅱ 2 Ⅱ 3 *

... Ⅲ 日常挨拶の絵カードを使い、繰り返し練習する。「すみません」は相手の注意を 引く、謝罪するの二種類の絵を用意。また、質問するとき、「すみません」始 めることを注意する。II に返って、改めて「すみません、お名前は?」と聞ける ようにもっていく。絵カードを見て発話させるばかりなく、対話化する工夫 必要。 ...

8

Show all 10000 documents...

関連した話題