• 検索結果がありません。

深層強化学習のアルゴリズム

深層学習とプレイアウトに基づく囲碁アルゴリズム

深層学習とプレイアウトに基づく囲碁アルゴリズム

... まず、wrapper.pyx を Cython コンパイラで処理して C++ソースコード wrapper.cpp を自動生成する。次 に、Ray が提供するすべて C++ソースコードと wrap- per.cpp を C++コンパイラで処理してオブジェクトファ イルを一括生成する。最後にリンカで適切な LDFLAGS を指定して拡張子 “so” からなる共有ライブラリを作成 する。プラットフォーム ...

8

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

... The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014 図 2: 1 次元特徴量ヒストグラム Step.3 選択 (Selection) 集団中から適合度を基準として, 次世代に残す個体を 集団数だけ選択する. ...

3

ある種の極値問題の解法と,その適応・学習アルゴリズムへの応用

ある種の極値問題の解法と,その適応・学習アルゴリズムへの応用

... In this paper, an algebraic method of solutions of some extremum problems are presented First, simple mathematical problems are solved by the new method. Second,an adaptive and a learnin[r] ...

6

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

... 20 独立変数を 持つ回帰モデル Pareto- optimal な 集合であり 、 目的関数は学習データ へ適合度( X 軸: adjusted R 2 ) と 新規テ ス ト データ に おけ る 誤差( Y 軸 : Sum of Squared Residual ) である 。 つま り 、 図 1 はモデル学習データ ...

2

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

... 1. はじめに マルコフ決定過程における最適意思決定問題解法である 直接方策探索法は,方策をパラトリックモデルで特徴づけ,与 えられたパラメータ空間から適切なパラメータを探索すること により,方策最適化を実現する [Deisenroth 13] .よって,古 典的な動的計画法規範方法―価値関数同定により方策最 ...

4

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

... *2 学習院大学計算機 ン ー Graduate School of Information Sciences, Hiroshima City University Computer Centre, Gakushuin University Knowledge discovery from structured data is an important task in machine learning and data ...

2

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

... してしまい,正しく学習が行えない.このような問題を持つ環 境を部分観測マルコフ決定過程( POMDP )と呼ぶ. POMDP 環境下における問題解決手法として HQ-Learning が提案されている [2] . HQ-Learning は学習すべきタスクを サブタスクに分割し,それぞれにサブゴールを設定し,別環 境にもかかわらず観測情報が同一となる状況を回避している. HQ-Learning ...

4

PDFファイル 2H1 「強化学習の基礎」

PDFファイル 2H1 「強化学習の基礎」

... が生じる . 多腕バンディ ット問題におけるアーム選択戦略 「良さ」を評価する普遍的な指標としてリグレットがある . リ グレットは , 期待報酬が最大アームを選び続けた時に得られ 連絡先 : 梁 曽漢, zenghan [email protected] ...

4

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

PDFファイル 1D3 「遺伝的アルゴリズムによる学習」

... 1. はじめに 個人感性を反映した楽曲自動生成に関する研究が進め られている.帰納論理プログラミング (Inductive Logic Pro- gramming; ILP) を用いて個人感性モデルを獲得し,進化計 算アルゴリズムにより感性モデルに即した楽曲を生成する手法 が提案されており,個人感性を反映した楽曲生成がある程度 可能であることが報告されている ...

4

強化学習を用いた自律多脚車輪型ロボットの脱出行動の環境適応

強化学習を用いた自律多脚車輪型ロボットの脱出行動の環境適応

... Keywords: Reinforcement Learning, Wheel-Legged Robot, Escaping Actions, Adaptation to Environment, Autonomous System 概 要: 探査ロボットやレスキューロボットなど,未知環境で作業を行うロボット研究が多 ...

38

決定木学習アルゴリズムを利用したシナリオ型土地利用予測に関する研究 −福岡県糸島地域を対象として− [ PDF

決定木学習アルゴリズムを利用したシナリオ型土地利用予測に関する研究 −福岡県糸島地域を対象として− [ PDF

... 5.まとめ−研究成果− まとめ−研究成果− まとめ−研究成果− まとめ−研究成果− まとめ−研究成果− 本研究成果は大きく 3つある。一つは、経験値に基 ずく街路利用頻度調査分析により、学生男性・学 生女性・会社員女性については、街路を選択しながら 利用している傾向を明らかにすることができたこと。 ...

4

2L1-1 満足化とその基準の動的な更新による強化学習の促進

2L1-1 満足化とその基準の動的な更新による強化学習の促進

... より動物的なエージェントとして強化学習エージェントを自身 消費カロリーに釣り合う行動を見つけて,生存し続ける事を 目的としたエージェントとして定義する事が可能になったと言 える.更に満足しているという均衡した状態から環境を学習 し,目標値 ( 基準値 ) を動的に獲得できるアルゴリズムが開発 ...

4

1F3-1 エネルギベースドモデルを用いた強化学習のための多層パーセプトロン構造

1F3-1 エネルギベースドモデルを用いた強化学習のための多層パーセプトロン構造

... [7],こ 枠組みでは方策はエネルギ関数を用いた Boltzmann 分布で 表される.エネルギ関数に基づく方策表現を用いた先行研究で は特に restricted Boltzmann machines (RBMs)[6] をベース にした手法が主に用いられてきた.RBMs を関数近似器に用 いる強化学習手法には価値関数をエネルギベースドモデルに ...

4

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... • 状態探索が足りず,次善報酬に満足し最適戦略を学 習しない場合も存在する ことが挙げられる.すなわち,全てゲームにおいて高い報酬 を獲得するオールマイティなアルゴリズムではない.この問題 を解決するため,損失回避戦略により相手プレイヤーに搾取 されることを回避し,積極的探索戦略により最適な状態を探 索することができる M-Qubed によって S-alg ...

4

PDFファイル 4H1 「強化学習とエージェント」

PDFファイル 4H1 「強化学習とエージェント」

... The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014 4H1-5 オンライン学習アルゴリズムファジィ識別器へ応用と性能比較 Application of Online Learning Algorithms to Fuzzy Classifiers and ...

2

長遅延報酬対象向け強化学習手法

長遅延報酬対象向け強化学習手法

... では,状態と時間関係を独立して考えるものが主流であり,時間方向 情報を積極的に利用する試みは,あまり行われていない.本研究目 的は,状態時間推移を独立して考慮し,適応させることできる強化 学習手法を考え,その対象として植物育成制御を行う.具体的な対象 としては,工学的に制御を行うことができる植物工場システムを対象と ...

77

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

... 5. 結論 人々意思決定が互いに影響し合う状況をモデル化した「ゲー ム」において,意思決定主体が学習を行う場合に,自己利益 を最大化する戦略を獲得するアルゴリズムが広く研究されてい る.しかしながら,既存強化学習アルゴリズムは様々なゲー ムにおいて高い報酬を獲得することができるが,最適な戦略を ...

4

2I4-OS-17a-4 海馬-大脳新皮質系に着目した深層学習による記憶モデルの提案

2I4-OS-17a-4 海馬-大脳新皮質系に着目した深層学習による記憶モデルの提案

... 基本的な深層学習アルゴリズムを適用する場合,学習開 始時点でデータセットが完成している必要があった.提案モデ ルでは,海馬モジュールが十分に追加学習機能を用いてデータ セットを収集した後に大脳新皮質モジュールに対する学習を開 始することで,データセットがあらかじめ決定していない問題 ...

4

( 前半 ) 目次 1. 辞書学習の導入と先行研究の紹介. 辞書学習の応用事例 3. 辞書学習のサンプル複雑度とは ( 後半 ) 4. 既存の辞書学習のアルゴリズム 5.Bayes 推定を用いた辞書学習のアルゴリズム /53

( 前半 ) 目次 1. 辞書学習の導入と先行研究の紹介. 辞書学習の応用事例 3. 辞書学習のサンプル複雑度とは ( 後半 ) 4. 既存の辞書学習のアルゴリズム 5.Bayes 推定を用いた辞書学習のアルゴリズム /53

... 行列分解問題 データを行列積として近似する問題総称 個別問題ごとに、行列性質を仮定する。 – 主成分分析 (PCA) … A コラムは互いに直交する – 非負因子行列分解 (NMF) … A, X 要素が非ゼロ ...

53

ルゴリズム ( 青 ) どちらも平均すれば同程度の性能となることに注意 NFL 定理に関係して AI 分野におけるアルゴリズムの重要性は 最強囲碁 AI アルファ碁解体新書深層学習 モンテカルロ木探索 強化学習から見たその仕組み 5) ではアルゴリズムの特徴を生かして組み合わせておりその考え方が参考

ルゴリズム ( 青 ) どちらも平均すれば同程度の性能となることに注意 NFL 定理に関係して AI 分野におけるアルゴリズムの重要性は 最強囲碁 AI アルファ碁解体新書深層学習 モンテカルロ木探索 強化学習から見たその仕組み 5) ではアルゴリズムの特徴を生かして組み合わせておりその考え方が参考

... word2vec 方が doc2vec よ り先に開発されている。単語分散表現ベクトルから指 定した単語類似語が簡単に得られる。word2vec は gensim を用いて Python より実行した。3 節デー タセットに図 13 doc2vwc による文書ベクトル 化処理概要に準じて Janome により形態素解析して ...

12

Show all 10000 documents...

関連した話題