• 検索結果がありません。

深層学習と強化(reinforcement)学習を組み合わせる

ルゴリズム ( 青 ) どちらも平均すれば同程度の性能となることに注意 NFL 定理に関係して AI 分野におけるアルゴリズムの重要性は 最強囲碁 AI アルファ碁解体新書深層学習 モンテカルロ木探索 強化学習から見たその仕組み 5) ではアルゴリズムの特徴を生かして組み合わせておりその考え方が参考

ルゴリズム ( 青 ) どちらも平均すれば同程度の性能となることに注意 NFL 定理に関係して AI 分野におけるアルゴリズムの重要性は 最強囲碁 AI アルファ碁解体新書深層学習 モンテカルロ木探索 強化学習から見たその仕組み 5) ではアルゴリズムの特徴を生かして組み合わせておりその考え方が参考

... 値は精度 再現率の調和平均である。正解公報が理想的に確認で きた場合の理想再現率理想精度(破線)示す。次節 以降の検討結果はグラフの見やすさの点から再現率でプ ロットしているが精度(調査効率)重視の観点からはグ ラフの立ち上がりが急峻な方が良い。再現率(網羅性) 重視の観点からはなるべく早く 100%に近づく方が良 い。再現率の理想曲線に対して精度計算してプロット ...

12

2I4-OS-17a-4 海馬-大脳新皮質系に着目した深層学習による記憶モデルの提案

2I4-OS-17a-4 海馬-大脳新皮質系に着目した深層学習による記憶モデルの提案

... 時系列データの想起行う場合は, ESN の伝搬 RBM の 隠れ層から可視層への伝搬繰り返す. 2.3 IL-ESN-RBM IL-ESN-RBM は IL-RBM IL-ESN 組み合わせたモデ ルである.新たなエピソードの系列が入力されるたびに,別の 隠れ層素子群用いて学習する.これによって複数のエピソー ...

4

強化学習を用いた自律多脚車輪型ロボットの脱出行動の環境適応

強化学習を用いた自律多脚車輪型ロボットの脱出行動の環境適応

... た.多脚車輪型のロボットは車輪脚の 2 種類の移動機構同時に備えており,それらの 組み合わせによって高い環境適応能力実現している.しかし,スタック状態などの事前 に設計されていない状況に陥った場合は,逆に可能な行動の組み合わせが多すぎて,ラン ダムに試行して脱出する方法では脱出までに時間がかかり,状況悪化させる可能性があ ...

38

深層学習を用いた学生の受講態度の推定

深層学習を用いた学生の受講態度の推定

... Python 中心にして、高速化が必要な箇所は プログラミング言 語 C組み合わせている場合が多い。なお、ディープラーニングにおいて は、定形かつ大量の演算並列にパイプライン処理する目的のために GPU (Graphics Processing Unit) 利用することが多い。どのディープラーニング ...

23

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... いて,個々が学習行うことで自己の利益最大にする戦略 獲得する強化学習アルゴリズムが研究されている.しかし, 既存の強化学習アルゴリズムにはゲームの状況によって得意な ゲーム不得意なゲームがあるという問題点があった.本研究 では,得手不得手が相補的な関係にある強化学習アルゴリズ ...

4

深層学習におけるベイズ最適化の高速化

深層学習におけるベイズ最適化の高速化

... 一般的によく利用される並列分散手法としては,重みの初期値変えて複数のモデル 作り,一番良いモデル使う手法が有名である.この研究では,ネットワークの内部並列 化する手法提案している.各層のニューロン一つに関する計算は,同じ層の他のニュー ...

34

深層学習とプレイアウトに基づく囲碁アルゴリズム

深層学習とプレイアウトに基づく囲碁アルゴリズム

... の学習推移 強化学習の RL Policy Network のネットワーク構造は SL Policy Network 同じである。使用したパラメータは、 save-every=10, game-batch=10, iterations=6000, record- every=1 である。自己対戦の初期重みには、SL Policy Net- work ...

8

1F2-2 人狼における強化学習を用いたエージェントの設計

1F2-2 人狼における強化学習を用いたエージェントの設計

... ば,「agentA agentB が占い師だカミングアウト(以下,CO)し, agentA は agentC 人間だ判定し,agentB は agentC 人狼だ 判定した.」という状況においては,表 1 に挙げた 9 パターン の役職の組み合わせが考えられるので,それぞれのパターン 一つの状態 s t ...

3

深層学習をめぐる最近の熱狂

深層学習をめぐる最近の熱狂

... ク構造している。畳込み層の中の最上位層全結合層 の間にFigure S S7にも見られる関心領域特徴ベクトル 層が加えられた。関心領域特徴ベクトル層の出力用い て,領域提案ネットワーク (RPN: Region Proposal Net- work)が構成された。RPNに表現された特徴ベクトル から,物体性得点出力する層その時の関心領域のス ...

14

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

... t=2 に関する条件付き期待値である.本稿では初期状 態 x 1 が固定されている場合についてのみ議論するため,以降, x 1 に関する依存性は省略する. 上述の有限長マルコフ決定過程における方策探索の問題設定 は,ロボット制御問題,ゲーム AI 設計などで実際に用いられる 汎用的な問題設定である [Bertsekas 07, Deisenroth 13] .この問 題の標準的な解法では,方策パラメトリックな確率分布であ ...

4

長遅延報酬対象向け強化学習手法

長遅延報酬対象向け強化学習手法

... 強化学習手法は外乱に強く,教師データが不要な機械学習手法の一つ である.そのため強化学習手法は不確実性が高い実用的問題に適してい る考えられる.実用的問題において強化学習手法適用させること 考える,制御に対し報酬は大きな時間遅れ持って与えられ,また制 ...

77

Freshers’ Englishでの学習者オートノミー育成を目指した取り組み : 英語学習の目標設定と学習計画

Freshers’ Englishでの学習者オートノミー育成を目指した取り組み : 英語学習の目標設定と学習計画

... まずAくんは必修科目に加え、2年次以上に開講されている選択科目の内、2科目(映 画で学ぶ英語文化、ドラマで学ぶ英語文化)履修する計画立てているが、授業 外学習については何も記入していない。ほぼ毎回の授業でさまざまな英語学習方法紹 ...

29

1F3-1 エネルギベースドモデルを用いた強化学習のための多層パーセプトロン構造

1F3-1 エネルギベースドモデルを用いた強化学習のための多層パーセプトロン構造

... 0 返す. エージェントの行動は東西南北の方向に移動する 4 つの行動 選択可能で,移動する場合はその方向に壁がない場合,確 率 1 で対応する方向へ 1 マス移動するものした.エージェ ントは毎エピソードの開始時に状態 “S”からスタートし,状態 “G”に入ることでエピソードが終了するものした.エージェ ントの報酬はゴール到達時に +1 ...

4

RIETI - 中小企業における輸出と企業力の強化:工業統計ミクロデータを用いた輸出の学習効果の検証

RIETI - 中小企業における輸出と企業力の強化:工業統計ミクロデータを用いた輸出の学習効果の検証

... ただし、エレクトロニクス産業は、韓国、台湾、中国の企業が国際的な競争力つけてお り、激しい価格競争に巻き込まれている。従って、技術開発力やシェア(市場占有率)で優 位な地位占めている電子部品除いて、生産の増加ほどには収益の増大もたらしてお らず、従業者数が依然として減少傾向にあるとともに、付加価値額の増加率も電子部品除 ...

32

強化学習における認知バイアスと固執性―選択行動を決めているのは過去の“選択の結果”か“選択そのもの”か?―

強化学習における認知バイアスと固執性―選択行動を決めているのは過去の“選択の結果”か“選択そのもの”か?―

... (Perseverance) 結果は無 関係に同じ選択肢選び続ける傾向である考える。ポ ジティビティ・バイアスや確証バイアスのような認知バ イアス固執性は,見た目上は類似した行動もたらす が,本研究では質的に異なるプロセスである考える。 異なるプロセスに由来していても目に見える行動が同じ ...

8

近年 ビッグデータ ( 膨大なデータ ) を効率的に分析するソフトウェアの登場 IoT( モノのインターネット ) の進展 などの技術革新を背景に AIは目覚しい進化を遂げています こうした革新に AIが自ら学習するディープラーニング ( 深層学習 ) が結びつくことで 過去 2 回のAIブームとは

近年 ビッグデータ ( 膨大なデータ ) を効率的に分析するソフトウェアの登場 IoT( モノのインターネット ) の進展 などの技術革新を背景に AIは目覚しい進化を遂げています こうした革新に AIが自ら学習するディープラーニング ( 深層学習 ) が結びつくことで 過去 2 回のAIブームとは

... (注2)税引前分配⾦再投資基準価額は、分配⾦(税引前)分配時に再投資したもの仮定して計算しており、実際の基準価額は異なります。 (注3)「対設定時基準価額⽐率」は、「分配⾦」(税引前)の設定時基準価額(10,000円)に対する⽐率で、当ファンドの収益率は異なります。 ...

24

2F4-OS-01a-7 多層マルチモーダルLDAと強化学習による意味理解に基づく行動決定

2F4-OS-01a-7 多層マルチモーダルLDAと強化学習による意味理解に基づく行動決定

... む動作の 6 つが備わっている.グリッド内はどこでも移動でき るが,壁のグリッドへは移動できない.また,グリッドの各色 は,想定した場所意味している.例えば,黄色はキッチンで あり,その中のどこかに飲み物が置かれている.ロボットは, 内的状態が「のどの渇き」であった時,試行錯誤することで最 終的に飲み物のあるグリッドで飲む動作することができれば 報酬が与えられる.内的状態が「空腹」であれば,最終的に食 ...

4

中国人日本語学習者のライティングの学習状況と学習意識に関する調査

中国人日本語学習者のライティングの学習状況と学習意識に関する調査

... 「書く」ことは,相手の存在にかかわらず,教材利用して,独学でも上達するという意見もある.このように,「書く」こと 学習するにあたり,学習者はそれぞれの学習スタイル学習持っており,それ基づいて自分に合う方法で勉強する ...

4

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

... 論 [6] として数理的に広く研究されている. ゲーム理論では,複数の意思決定主体がそれぞれの目的 達成するために相互依存している状況「ゲーム」定義し, これ解析する.この「ゲーム」において意思決定下すプレ イヤーは自身取り巻く状況に応じて行動選択する.プレイ ヤーは自己の戦略に則って行動し,プレイヤー同士の行動の組 ...

4

IPSJ SIG Technicl Repor に相当し 探索木の前向きの枝刈り処理に用いることも可能である. 本論文では このシミュレーション方策中のパラメータと局面評価関数中の特徴量パラメータの両方を同時に学習できる強化学習則を導出する. さらに 強化学習ではなく その局面での正解手を与える教師

IPSJ SIG Technicl Repor に相当し 探索木の前向きの枝刈り処理に用いることも可能である. 本論文では このシミュレーション方策中のパラメータと局面評価関数中の特徴量パラメータの両方を同時に学習できる強化学習則を導出する. さらに 強化学習ではなく その局面での正解手を与える教師

... 近似計算法考案した.次に,探索時にシミュレーション方策用いてモンテカルロ探索行う場合や,探索の深さ 制御する場合のために,局面評価関数シミュレーション方策の両者同時に学習する学習方策勾配法により ...

8

Show all 10000 documents...

関連した話題