Top PDF 深層学習と強化(reinforcement)学習を組み合わせる

ルゴリズム ( 青 ) どちらも平均すれば同程度の性能となることに注意 NFL 定理に関係して AI 分野におけるアルゴリズムの重要性は最強囲碁 AI アルファ碁解体新書深層学習モンテカルロ木探索強化学習から見たその仕組み 5) ではアルゴリズムの特徴を生かして組み合わせておりその考え方が参考

... 値は精度と再現率の調和平均である。正解公報が理想的に確認できた場合の理想再現率と理想精度（破線）を示す。次節以降の検討結果はグラフの見やすさの点から再現率でプロットしているが精度（調査効率）重視の観点からはグラフの立ち上がりが急峻な方が良い。再現率（網羅性）重視の観点からはなるべく早く 100％に近づく方が良い。再現率の理想曲線に対して精度を計算してプロット ...

12

2I4-OS-17a-4 海馬-大脳新皮質系に着目した深層学習による記憶モデルの提案

... 時系列データの想起を行う場合は， ESN の伝搬と RBM の隠れ層から可視層への伝搬を繰り返す． 2.3 IL-ESN-RBM IL-ESN-RBM は IL-RBM と IL-ESN を組み合わせたモデルである．新たなエピソードの系列が入力されるたびに，別の隠れ層素子群を用いて学習する．これによって複数のエピソー ...

4

強化学習を用いた自律多脚車輪型ロボットの脱出行動の環境適応

... た．多脚車輪型のロボットは車輪と脚の 2 種類の移動機構を同時に備えており，それらの組み合わせによって高い環境適応能力を実現している．しかし，スタック状態などの事前に設計されていない状況に陥った場合は，逆に可能な行動の組み合わせが多すぎて，ランダムに試行して脱出する方法では脱出までに時間がかかり，状況を悪化させる可能性があ ...

38

深層学習を用いた学生の受講態度の推定

... Python を中心にして、高速化が必要な箇所はプログラミング言語 Cを組み合わせている場合が多い。なお、ディープラーニングにおいては、定形かつ大量の演算を並列にパイプライン処理する目的のために GPU (Graphics Processing Unit) を利用することが多い。どのディープラーニング ...

23

PDFファイル 4H1 「強化学習とエージェント」

... いて，個々が学習を行うことで自己の利益を最大にする戦略を獲得する強化学習アルゴリズムが研究されている．しかし，既存の強化学習アルゴリズムにはゲームの状況によって得意なゲームと不得意なゲームがあるという問題点があった．本研究では，得手不得手が相補的な関係にある強化学習アルゴリズ ...

4

深層学習におけるベイズ最適化の高速化

... 一般的によく利用される並列分散手法としては，重みの初期値を変えて複数のモデルを作り，一番良いモデルを使う手法が有名である．この研究では，ネットワークの内部を並列化する手法を提案している．各層のニューロン一つに関する計算は，同じ層の他のニュー ...

34

深層学習とプレイアウトに基づく囲碁アルゴリズム

... の学習推移強化学習の RL Policy Network のネットワーク構造は SL Policy Network と同じである。使用したパラメータは、 save-every=10, game-batch=10, iterations=6000, record- every=1 である。自己対戦の初期重みには、SL Policy Net- work ...

8

1F2-2 人狼における強化学習を用いたエージェントの設計

... ば，「agentA と agentB が占い師だとカミングアウト(以下，CO)し， agentA は agentC を人間だと判定し，agentB は agentC を人狼だと判定した．」という状況においては，表 1 に挙げた 9 パターンの役職の組み合わせが考えられるので，それぞれのパターンを一つの状態 s t ...

3

深層学習をめぐる最近の熱狂

... ク構造をしている。畳込み層の中の最上位層と全結合層との間にFigure S S7にも見られる関心領域特徴ベクトル層が加えられた。関心領域特徴ベクトル層の出力を用いて，領域提案ネットワーク（RPN: Region Proposal Net- work）が構成された。RPNに表現された特徴ベクトルから，物体性得点を出力する層とその時の関心領域のス ...

14

... t=2 に関する条件付き期待値である．本稿では初期状態 x 1 が固定されている場合についてのみ議論するため，以降， x 1 に関する依存性は省略する．上述の有限長マルコフ決定過程における方策探索の問題設定は，ロボット制御問題，ゲーム AI 設計などで実際に用いられる汎用的な問題設定である [Bertsekas 07, Deisenroth 13] ．この問題の標準的な解法では，方策をパラメトリックな確率分布であ ...

4

長遅延報酬対象向け強化学習手法

... 強化学習手法は外乱に強く，教師データが不要な機械学習手法の一つである．そのため強化学習手法は不確実性が高い実用的問題に適していると考えられる．実用的問題において強化学習手法を適用させることを考えると，制御に対し報酬は大きな時間遅れを持って与えられ，また制 ...

77

Freshers’ Englishでの学習者オートノミー育成を目指した取り組み : 英語学習の目標設定と学習計画

... まずＡくんは必修科目に加え、２年次以上に開講されている選択科目の内、２科目（映画で学ぶ英語と文化、ドラマで学ぶ英語と文化）を履修する計画を立てているが、授業外学習については何も記入していない。ほぼ毎回の授業でさまざまな英語学習方法を紹 ...

29

1F3-1 エネルギベースドモデルを用いた強化学習のための多層パーセプトロン構造

... 0 を返す．エージェントの行動は東西南北の方向に移動する 4 つの行動とを選択可能で，移動する場合はその方向に壁がない場合，確率 1 で対応する方向へ 1 マス移動するものとした．エージェントは毎エピソードの開始時に状態 “S”からスタートし，状態 “G”に入ることでエピソードが終了するものとした．エージェントの報酬はゴール到達時に +1 ...

4

RIETI - 中小企業における輸出と企業力の強化：工業統計ミクロデータを用いた輸出の学習効果の検証

... ただし、エレクトロニクス産業は、韓国、台湾、中国の企業が国際的な競争力をつけており、激しい価格競争に巻き込まれている。従って、技術開発力やシェア（市場占有率）で優位な地位を占めている電子部品を除いて、生産の増加ほどには収益の増大をもたらしておらず、従業者数が依然として減少傾向にあるとともに、付加価値額の増加率も電子部品を除 ...

32

強化学習における認知バイアスと固執性―選択行動を決めているのは過去の“選択の結果”か“選択そのもの”か？―

... （Perseverance）を結果とは無関係に同じ選択肢を選び続ける傾向であると考える。ポジティビティ・バイアスや確証バイアスのような認知バイアスと固執性は，見た目上は類似した行動をもたらすが，本研究では質的に異なるプロセスであると考える。異なるプロセスに由来していても目に見える行動が同じ ...

8

近年ビッグデータ ( 膨大なデータ ) を効率的に分析するソフトウェアの登場 IoT( モノのインターネット ) の進展などの技術革新を背景に AIは目覚しい進化を遂げていますこうした革新に AIが自ら学習するディープラーニング ( 深層学習 ) が結びつくことで過去 2 回のAIブームとは

... （注2）税引前分配⾦再投資基準価額は、分配⾦（税引前）を分配時に再投資したものと仮定して計算しており、実際の基準価額とは異なります。（注3）「対設定時基準価額⽐率」は、「分配⾦」（税引前）の設定時基準価額（10,000円）に対する⽐率で、当ファンドの収益率とは異なります。 ...

24

2F4-OS-01a-7 多層マルチモーダルLDAと強化学習による意味理解に基づく行動決定

... む動作の 6 つが備わっている．グリッド内はどこでも移動できるが，壁のグリッドへは移動できない．また，グリッドの各色は，想定した場所を意味している．例えば，黄色はキッチンであり，その中のどこかに飲み物が置かれている．ロボットは，内的状態が「のどの渇き」であった時，試行錯誤することで最終的に飲み物のあるグリッドで飲む動作をすることができれば報酬が与えられる．内的状態が「空腹」であれば，最終的に食 ...

4

中国人日本語学習者のライティングの学習状況と学習意識に関する調査

... 「書く」ことは,相手の存在にかかわらず,教材を利用して,独学でも上達するという意見もある.このように,「書く」ことを学習するにあたり,学習者はそれぞれの学習スタイルと学習観を持っており,それを基づいて自分に合う方法で勉強する ...

4

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

... 論 [6] として数理的に広く研究されている．ゲーム理論では，複数の意思決定主体がそれぞれの目的を達成するために相互依存している状況を「ゲーム」と定義し，これを解析する．この「ゲーム」において意思決定を下すプレイヤーは自身を取り巻く状況に応じて行動を選択する．プレイヤーは自己の戦略に則って行動し，プレイヤー同士の行動の組 ...

4

IPSJ SIG Technicl Repor に相当し探索木の前向きの枝刈り処理に用いることも可能である. 本論文ではこのシミュレーション方策中のパラメータと局面評価関数中の特徴量パラメータの両方を同時に学習できる強化学習則を導出する. さらに強化学習ではなくその局面での正解手を与える教師

... 近似計算法を考案した．次に，探索時にシミュレーション方策を用いてモンテカルロ探索を行う場合や，探索の深さを制御する場合のために，局面評価関数とシミュレーション方策の両者を同時に学習する学習則を方策勾配法により ...

8

深層学習と強化(reinforcement)学習を組み合わせる