知能ロボットの技術:人工知能からのアプローチ(前編):6.ロボットにおける機械学習の課題と動向
8
0
0
全文
(2) 特集:知能ロボットの技術:人工知能からのアプローチ(前編). マルコフ決定過程(Markov Decision Process: MDP)に. 値 Q(s, a) を一定割合減衰させる.. より定式化する.マルコフ決定過程では,状態遷移と. Q-2. 行動 a により報酬が得られた場合,その報酬に応じ. 報酬の与えられ方がともにマルコフ性を満たす.すなわ. て行動価値 Q(s, a) を増加させる.. ち,ロボットがある状態 s で行動 a をとったとき,その. Q-3. 行動 a により遷移した先の状態 s' の各行動の最大. 行動により変化した次の状態 s' と,行動の結果得られる. の行動価値 max a' Q(s', a') に応じてもとの行動価値. 報酬 r が各々 s と a のみに依存した確率に基づいて決定. Q(s, a) を増加させる.. されると見なす.よって強化学習の目的はロボットが置 かれている状態 s において,将来にわたってより確実に. また,TD の枠組みからはずれるが,手順の Q-2 に. あるいは多くの報酬が得られる行動 a を選択する方針を. おいて得られた報酬を過去の行動にわたって分配する. 求めることにある.. Profit Sharing といった方法が提案されている.この. 強化学習による行動学習で最も広く用いられているの. Profit Sharing は TD 学習のような収束保証性はないも. が TD(Temporal Difference)学習である.TD 学習では,. のの,一度得られた成功事例を中心に強化が行われるた. 各状態の良さを表す状態価値(State Value)という概念. め,全状態をくまなく調べ尽くす必要のある Q 学習に. を導入する.状態価値とは各状態から行動を開始して将. 比べ速く学習が進むことが知られている.. 来にわたって得られる期待報酬を表しており,これを求. 不完全知覚問題. めることができれば,ロボットはより価値の大きい状態 や行動を選択することで得られる報酬を最大化すること. MDP の枠組みではロボットはすべての状態を完全に. ができる.よって TD 学習の目的は学習を通じて真の状. 識別できることを仮定している.しかし実際には,ロ. 態価値を求めることになる.. ボットは環境を部分的にしか観察できず,本来区別す. TD 学習では以下の手順で状態価値を修正していく.. べき状態を識別できないことが考えられる.このよう に,環境としてはマルコフ決定過程だが,観察する能力. T-1. ロボットの試行錯誤の行動の結果,ある状態 s に訪. の限界から完全なマルコフ性を仮定できない問題を不完 全知覚マルコフ決定過程(Partially Observable Markov. れた場合,その価値 V(s) を一定割合減衰させる. T-2. 状態 s に訪れた際に報酬が得られた場合,状態価値. Decision Process: POMDP)と呼ぶ.たとえば図 -1(a) のような迷路を考える.この迷路において, S ・ G を. V(s) を報酬に応じて増加させる. T-3. 状態 s からある行動をとって別の状態 s' へ移った. 各々出発地点・目標地点とする.もしロボットの視野が. 際,状態 s' の価値 V(s') に応じて状態価値 V(s) を増加. 十分広ければ,これらの各マス目は別々の状態として. させる.. 識別できるが,たとえば図 -1(b)のように,ロボットが 8 つの隣接するマス目しか知覚できないとすると,図 -1. もし,問題空間にエルゴート性. ☆2. が仮定できる場合,. (a)の * で示した 2 つのマス目が同じ状態として識別. 以上の手順により状態価値が真の値に収束することが知. されてしまう.この場合,単純に MDP を仮定した強化. られている.. 学習を行うと,この 2 つのマス目における行動(右に行. 状態価値を用いた TD 学習は,各状態における各行動. くべきか左に行くべきか)を決定できない ( 図 -1(c)).. によりどの状態へ遷移するかが既知である場合は有効で. この問題に対しては,次の 2 つのアプローチが考えら. あるが,ロボットの学習などでは環境の知識が十分でな. れる.. く行動と状態遷移の関係が未知である場合が多いため, 適用が難しい.このため,状態価値の代わりに行動価値. • 履歴による状態混同の解消 :. (Action Value,Q 値)を用いた TD 学習がよく用いられ. POMDP では各時点における観測だけでは状態が同定. る.行動価値は,各状態における各行動をとったときに. できないことが問題であったが,与えられた環境によ. 将来にわたって得られる期待報酬を表している.この行. っては状態の遷移履歴により状態を区別できる場合が. 動価値の TD 学習で最も広く用いられているのが Q 学習. ある.たとえば図 -1 の迷路では,直前と現在のマス. や SARSA である.たとえば,Q 学習においては,以下. 目のペアで状態を表すことで,問題の 2 つの状態を識. の要領で行動価値を修正し,漸近的に真の行動価値を学. 別することができる.ただし,履歴による状態識別を. 習する.. ☆2. Q-1. ある状態 s である行動 a をとった場合,その行動価. 1146. 44 巻 11 号 情報処理 2003 年 11 月. −2−. エルゴート性:状態遷移を十分長い時間繰り返した場合,最終的に どの状態に存在するかの確率が,初期状態に依存しなくなる性質の こと..
(3) ロボットにおける機械学習の課題と動向. (a)迷路. (b)エージェントの視野. (c)各状態の最適行動. 図 -1 不完全知覚問題を含む迷路. 全状態に対して行うと本来同一の状態まで区別され無. を発見できる.ただしこの方法では,どれくらい先の. 駄が大きいため,履歴による区別の必要性を各状態で. 遷移まで考慮に入れるべきかが問題となる.また,各. 判断する方法が必要となる.また,学習途中で状態の. 状態において前後の履歴を記録する必要があり,メモ. 区別/統一を行う場合,行動価値などの期待報酬を分. リ量などで問題が生じる場合もある.. 配/合成する方法も検討する必要がある.. (2)行動価値に十分な偏りがない場合に状態の混同があ. • 非決定的行動政策 :. るとする.混同されている状態では,本来異なる行. POMDP によって引き起こされる致命的な問題の 1 つ. 動政策が混在しているので,行動価値が分散し,最適. に無限ループへの落ち込みがある.たとえば図 -1 の. 行動が唯一に決めにくい状態になると考えられる.よ. 迷路で混同の起きている 2 つの状態の最適行動を左右. って行動価値の偏りを何らかの指標で計り,その値に. どちらかに決定してしまった場合,ロボットはどちら. よって状態の混同を判別する.この方法では混同され. かの状態で無限ループに陥り,決してゴールにたどり. ている状態において最適行動が一致している場合は検. 着くことができなくなる.これを避けるためには,混. 出できないが,強化学習の目的(各状態における最適. 同の生じている状態において最適行動を決定するこ. 行動の決定)を考えれば,無理に混同状態を検出する. とをあきらめ,確率的,あるいはランダムに行動を. 必要がないため,問題はないと考えられる.ただし,. 選択することで致命的な無限ループを生じる行動に陥. POMDP が生じていない場合でも行動価値に偏りがな. ることを避ける方法が考えられる.一般に強化学習で. い場合もあり,他の判断基準と合わせて用いる必要が. は,-greedy 選択や Boltzmann 選択のように学習時. ある.. にはある程度ランダムに行動選択をすることが仮定さ. (3)学習時における行動価値の変化が激しい場合に状態. れているので,学習後においてもこのランダム性を残. の混同があるとする.学習時の各行動の行動価値の変. すことはそれほど問題はないが,最終的な効率を考え. 化を観察すると,細かい変動はあるものの,一般に真. た場合,これらのランダム性はできるだけ排除するこ. の値に漸近するかたちで推移する.一方,POMDP に. とが望ましい.よってこの方法においても状態ごとに. より無限ループに陥るような環境の場合,相反する政. ランダムな行動選択の必要性を判断することが必要と. 策の学習が重なるため,行動価値がいつまでも大きく. なる.. 上下に変動することが観測できる.この現象を利用す れば,混同が生じ,かつ相反する政策を獲得しようと. いずれのアプローチにおいても,どの状態で混同が生. している状態を検出することができる.. じているかを判別することが重要になってくる.この方. 状態の表現と環境の分節. 法としては,以下のようなものが考えられる.. POMDP を避ける方法の 1 つとして,エージェントや (1)その状態からの遷移後の状態あるいは状態系列を求. ロボットにセンサを追加するなど状態の識別能力を増や. め,遷移にばらつきがある場合に状態の混同があると. すことが考えられる.たとえば図 -1 の迷路の場合,エ. する.POMDP では,混同されている状態から同じ行. ージェントの視野を近隣 24 個に拡大すればこの迷路で. 動(系列)をとっても異なる状態に達することが問題. の POMDP は解決する.しかしこの方法では,区別され. であるので,その異なりを検出すれば区別すべき状態. る状態の数が増加(8 近傍の場合は 2 個の状態,24 近 8. IPSJ Magazine Vol.44 No.11 Nov. 2003. −3−. 1147.
(4) 特集:知能ロボットの技術:人工知能からのアプローチ(前編). (a)粗い分節. (b)細かい分節. (c)重要度に応じた分節. 図 -2 サッカーフィールドのさまざまな分節法. 傍の場合は 2 個の状態)してしまい,学習すべき状態. 提案している.ここにおいても,各状態とセンサ値の確. 価値や行動価値が増加してしまう.機械学習一般の性質. 率関係をうまく解釈することで,連続な状態空間の適切. として,調整すべきパラメータの数が増えると,必要と. な分節が行えることを示している.. される学習例の数も比例して多くなり,非現実的な数に. その他の代表的な関数近似としては以下のようなもの. なる場合がある.これを次元の悪魔と呼ぶ.. がある.. 24. また,ロボットが活動する実世界の状態は多くの場 合連続的な値で表現される.TD 学習や Q 学習の理論的. • スプライン近似 : 状態空間を適当に分節し,スプライ. 枠組みとしては状態表現が連続値であっても問題はない. ン関数により補完することで連続的な価値関数を近似. が,実際の計算では状態価値や行動価値を表す関数は未. する.誤差を最小にする近似方法などが知られてお. 知であるため,何らかの近似が必要となる.この近似に. り,容易に適用できるが,分節の方法や次数をうまく. おいても,近似能力を過度に高めると上記と同じように. 選ぶ必要がある.. 次元の悪魔の問題が生じることになる.. • タイルコーディング(C-MAC): Q 学習などで状態空. このように,強化学習では状態をどのように表現する. 間をマス目で区切る代わりに,異なる種類のマス目に. かが重要な問題であり,この環境の表現により強化学習. よる分節を複数用意し,ある状態の評価を,その状態. の能力が決定されるといっても過言ではない.. が所属するすべてのマス目の価値の和や平均とする.. 連続的な表現に対する近似の方法の 1 つとして,連続. 各マス目の価値の学習は,通常の TD 学習や Q 学習を. 的な状態空間をいくつかの部分に分節し,各々を離散的. そのまま分節の種類ごとに適用することで行う.これ. な状態として扱う方法がある.典型的な分節の方法とし. は関数の連続的な近似にはなっていないが,マス目の. ては状態空間をマス目に分節する方法で,たとえばサッ. 種類をうまく選ぶことで細かいマス目分割に相当する. カーロボットの行動学習の場合,サッカーのフィールド. 精度が得られるほか,分節の境界領域の不連続性によ. を図 -2(a)のように分節することが考えられる.ただこ. る悪影響を軽減する効果がある.. の(a)のような分節では重要なゴール前が 1 状態にまと. • 神経回路網 : 状態を表す特徴量などを入力として,そ. められてしまうため,十分な表現ができない.かといっ. の状態の価値を出力とする神経回路網を用意し,学習. て,図 -2(b)のように細かくマス目を切ると迷路の問題. を通じて適切な状態価値を出力するよう回路網のパラ. と同じく次元の悪魔の問題が生じる.よって通常はドメ. メータを調整する.学習能力や汎化能力は用いる神経. イン知識を利用して,たとえば図 -2(c)のような分節を. 回路網や学習方法に依存する.. 選ぶ必要がある. この環境の分節を学習によって獲得する方法も提案さ. また,価値関数は行動選択政策に依存し,行動選択. れている.文献 6)では,強化学習において環境の変化. 政策も価値関数の学習結果に依存して変化する.このた. の予測可能性に基づいて状態空間を分割する MOSAIC. め,Q 学習などで神経回路網など非線型の近似法を用い. を適用し,適切な状態空間の分節を行っている.また,. ると学習が収束しない場合があることが知られており,. 文献 2)では,隠れマルコフモデルにおいて環境のセン. 問題に応じて適切に選ぶ必要がある.. サ値を状態の出力値として扱い,行動とセンサ値の変化 を予測するよう隠れマルコフモデルの学習を行う方法を. 1148. 44 巻 11 号 情報処理 2003 年 11 月. −4−.
(5) ロボットにおける機械学習の課題と動向. 観察と模倣による学習 認 識. 通常の機械学習では,学習に用いる例の数は十分用意 されることを前提にしている.しかし,実際のロボット. 汎 化. 再 生. を使った学習を考える場合,ロボットに何万回も試行錯 誤させることは現実的ではない.また,高精度のロボッ. 基本動作モデル. トのシミュレータを用意し,試行錯誤を容易に繰り返す ことができる場合においても,多様に変化する実世界を. 図 -3 模倣学習. 網羅するためには非常に多数の例が必要となり,現実的 に適用不可能な場合も考えられる. 一方,人間が何かを学ぶ場合,すべての場合を網羅的 に試行錯誤する代わりに,教師などが模範となる動作を. 要と見なすかもしれない.このような間違った解釈をし. 示し,学習者がそれを模倣することで効率的に適切な動. てしまった場合,正確に動作を再現できなくなるほか,. 作を習得することができる.これを機械的に実現するの. ゴールまでの距離が異なるなど状況が少しでも変化する. が模倣学習. である.すなわち模倣学習とは,比較的. とそれに適応できなくなってしまう.このように,模範. 少数の成功例から適切な動作手順を習得し,それを汎化. 演技を行う教師と学習者が同じ基本動作モデルを持つこ. する学習手法を指す.この模倣学習は単純に模倣により. とが模倣学習では重要となる.. 動作を獲得するだけでなく,上で述べた強化学習などの. この動作モデルの表現の枠組みとしては,たとえば以. 初期値を与えるためのブートストラップに利用できるな. 下のようなものが考えられる.. 3). ど,さまざまな方面で期待されている. 図 -3 は模倣学習のプロセスを示している.模倣学習. • ルール記述 : 動作の開始・終了条件などをルールのか. はこの図のように,模範演技者の動作を観察しその動. たちで記述し,その条件により動作を表現する.設計. 作を表す内部表現に変換する動作認識,認識した動作. 者の意図を反映しやすい反面,環境の多様性に対する. をできるだけ広範囲の状況に適用できる行動規則にまと. 調整や,認識や汎化における整合性などを維持するこ. めあげる汎化,獲得した行動規則を実際に直面している. とが困難であることが多い.. 状況に対して適用する動作の再生の 3 段階からなる.ま. • 力学特性 : アクチュエータの動作にいくつかのモード. た各段階において動作をどういう単位でどのように表現. がある場合,そのモードを特徴づける力学特性を求. するかを決める基本動作モデルが重要な要素となる.以. め,その変化により動作の変化を表現する .力学特. 下ではこれらの要素および段階について順に議論をして. 性がはっきり分かっているものに対して汎用性が高い. ゆく.. 反面,動作モードがない,あるいは明確でないものや. 1). 力学特性が複雑なものに対しての適用が難しい.. 基本動作モデル. • ニューラルネットワーク : 上記の力学特性の代わりに,. 少数の例しか用いることのできない模倣学習では,通. ニューラルネットワークなどをブラックボックスの制. 常の機械学習に加えいくつかの仕掛けが必要になる.そ. 御器として用いる.力学特性が複雑であったり不明で. の一番重要な仕掛けが基本動作モデルである.たとえ. ある場合でも適用できる反面,アクチュエータの動作. ば,サッカーにおいてドリブルシュートを模倣学習する. を十分に近似できるように適切な回路構成および事前. 場合を考えよう.コーチが模範演技として,ドリブルで. の学習を行う必要がある.. 3 回ボールにタッチした後,シュートしたとする.通常,. • 確率モデル : 隠れマルコフモデルなどの確率モデルに. ドリブルシュートを練習する生徒であれば,このコーチ. より動作を記述する.モデリングや汎化において確率. の動作を見て, 「ドリブル」のあとに「シュート」すると. 的手法を素直に用いることができるが,ニューラルネ. いう動作の系列を見出し,それに基づいて自分のプレー. ットワークと同じく適切なモデル構成および事前の学. に反映するだろう.しかし,生徒がまったくドリブルと. 習を必要とする.. いうものを知らない場合,とにかくボールに 3 回触れた. 観察によるモデリング. のちシュートすると理解するかもしれない.さらにサッ カーを知らない場合,単に 4 回ボールに触れることが重. 模倣学習では模範演技を観察し,動作モデルに基づい IPSJ Magazine Vol.44 No.11 Nov. 2003. −5−. 1149.
(6) 特集:知能ロボットの技術:人工知能からのアプローチ(前編). て内部表現に変換するモデリングが必要となる.その際. られるかを示しており,切り替えの条件をどのように記. 重要となるのが動作の分節である.一般に模倣させたい. 述するかに大きく依存する.その条件記述の方法として. 振る舞いはいくつかの基本動作の組合せとして表現され. は,基本動作の開始・終了条件によるものと,基本動作. る.たとえば上記のドリブルシュートの例では,示され. の尤度を利用した確率的記述によるものがある.. た模範演技をドリブルの部分とシュートの部分に分節す. 開始・終了条件を用いる方法では,各基本動作の開始. る必要が出てくる.. や終了を示す条件をあらかじめ決めておき,その条件が. このモデリングとそこにおける動作の分節は,採用. 満たされた時点で基本動作の切り替えが生じるとする.. する動作モデルの枠組みによってその性質が異なってく. このため,汎化能力はその条件に対応する状態の多様さ. る.ルール記述を動作モデルに用いる場合,各基本動作. に依存する.また,この場合の基本動作の切り替えは明. の開始・終了条件により分節が行われる.このため,分. 確なかたちで記述されるため,組み立て作業のような基. 節条件を明示的に記述できる反面,曖昧な状態やどの基. 本動作間の切れ目がはっきりしている動作の模倣学習に. 本動作にも当てはまらない状態をどう扱うかという問題. 向いている.. が出てくる.. 一方,確率的記述を用いる方法では,認識の際に各基. 力学特性を用いる方法では,軌道の転換点など力学特. 本動作の尤度を求めておき,それに基づきある基本動作. 性の変化が観察できる現象として現れる特徴点の抽出が. から別の基本動作への切り替えが生じる確率を求める.. 必要となる.. 動作再生時にはその切り替え確率と外界の状況に基づい. ニューラルネットや確率モデルを用いる場合は,誤差. てどの基本動作を適用すべきかの尤度を求め,動作の切. 逆伝搬法やベイズ推定などを用いて観察結果を直接モデ. り替えを行う.この方法の特徴は,基本動作の切り替え. リングすることができる.これらの方法では複数の基本. を緩やかに表現することができるため,サッカーのプレ. 動作にまたがる曖昧な状態を自然に表現できる反面,分. ーのように基本動作間の切れ目がはっきりしないものに. 節を適切に行わせる制御を明示的にできないという問題. 対して比較的自然に適用できる点である.. がある.. 動作の再生. 汎化. 獲得された基本動作の系列は,ロボットが実際に直面. 模倣学習では,獲得された動作をそのまま再現するだ. している状況に応じて再生されることになる.ただ,模. けでなく,環境や状況の違いに応じて生成する動作を適. 倣学習では少ない例から学習を行うため,与えられた問. 応させる汎化の能力が必要となる.特に人間の生活空間. 題のすべての状態を網羅しているとは限らない.このた. のような変化の多い環境でのロボットの応用を考えた場. め模倣学習は,効率が悪いながらも任意の状態に適用し. 合,高い汎化能力が求められる.. て動作を生成できる別の方式と組み合わせ,適切なタイ. 模倣学習の枠組みでは,汎化には 2 つのレベルが考. ミングで獲得した動作系列を開始・中断する機構が必要. えられる.1 つは基本動作モデルの持つ汎化能力であ. となってくる.たとえばサッカーにおいてドリブルシュ. る,もう 1 つは基本動作の切り替えタイミングの汎化で. ートの学習を行った場合,獲得したドリブルシュートを. ある.. 適用できる場面は限られており,また,適用を始めた後. 基本動作の汎化能力とは各基本動作がどれくらいの汎. にドリブル中に敵にボールを取られた場合には,再生を. 用性を持つかを意味する.たとえば,ドリブルシュート. 中断して無駄なシュート動作に入らないようにする必要. を模倣する際,認識されたドリブルやシュートという基. がある.. 本動作が「直線的なドリブル」や「ループシュート」のよ. これら動作再生の開始・中断は基本的には模倣学習の. うに細かく分類されている場合,学習した行動を適用で. 一段外側の枠組みにより制御されるべきものであるが,. きる局面は限られてくる.一方, 「ドリブル全般」や「シ. その制御に利用できる情報を模倣学習の枠組みから提供. ュート全般」といった大まかなくくりで基本動作を分け. できる場合がある.たとえば,動作の再生時にその結果. ている場合,適用局面は広くなるが,コーチの意図が細. を認識部分に再入力することで,再生した動作が獲得し. かく正確に反映されない可能性も出てくる.このため,. た動作とどれくらいかけ離れているかを,モデルの尤度. どのような細かさの基本動作を用意するかが模倣学習で. などにより数値的に表すことができ,動作の中断を判断. は問題となる.. する情報の 1 つとして利用することができる.. 一方,切り替えタイミングの汎化とは,基本動作を切 り替えるタイミングをどれくらい柔軟に状況に対応させ. 1150. 44 巻 11 号 情報処理 2003 年 11 月. −6−.
(7) ロボットにおける機械学習の課題と動向. とができ,下位レベルの適応能力の柔軟性を保ちつつチ ームプレーなど複雑な組合せがある高位レベル行動の学. High Level Goals. 習を行うことができるようになっている. ただしこの階層的学習の枠組みでは,下位レベルと上. Adversarial Behaviors. 位レベルの学習手法をどう組み合わせればよいか,上位. メモリベース学習. Team Behaviors. レベルにおける学習誤差をどうやって下位レベルに伝達 するかについては規定しておらず,今後は上下のレベル. Multi-Agent Behaviors. の学習の擦り合わせ方法を精密化していく必要があるだ. 強化学習. ろう.. Multi-Agent Behaviors. 今後の課題と展開. 決定木学習. Individual Behaviors. 前章でも述べているようにロボットは統合システムで. 神経回路網. World Model. あるため,部分的な改善が必ずしも全体の能力の向上に つながらない.このため機械学習の手法を適用する際に. Environment. も部分的な能力向上ではなく,階層的学習法のようにシ ステム全体でのバランスを考えた上での各種機械学習の. 図 -4 階層的学習. 適用手法の研究が今後重要になってくると思われる. またロボットは実世界において動作するため,その実 世界をどのように表現し取り扱うかが機械学習では重要 になってくる.特に模倣学習や強化学習では環境や行動 の表現が学習能力を規定するため,その表現そのものの. 階層的学習. 学習・獲得手法が重要な研究課題となると予想される. また,これらの技術はロボットに限らず,ヒューマン. ロボットは統合システムであり,低レベルのセンサ・. インタフェースやネットワークエージェントなどへの応. アクチュエータの制御レベルから高レベルのチーム戦. 用も考えられるため,広い意味でのロボット技術として. 術の判断・決定まで,多くのレベルを実装する必要が. 取り組んでいく必要があるだろう.. ある.そしてその各レベルで機械学習の適用が必要と されている.たとえばこの数年のロボカップにおける機. 参考文献 1)Miyamoto, H. and Kawato, M.: A Tennis Serve and Upswing Learning Robot Based on Bi-directional Theory, Neural Networks, 11:1331-1344 (1998). 2)Noda, I.: Hidden Markov Modeling for Multi-agent Systems, In Mitsuru Ishizuka and Abdul Sattar, editors, Proc. of The Seventh Pacific Rim International Conference on Artificial Intelligence, pp. 128-137, Springer (Aug. 2002). 3)Schaal, S.: Is Imitation Learning the Route to Humanoid Robots? Trends in Cognitive Sciences, 3(6):233-242 (June 1999). 4)Stone, P.: Layered Learning in Multiagent Systems: A Winning Approach to Robotic Soccer, MIT Press (2000). 5)Sutton, R.S. and Barto, A.G.: Reinforcement Learning: An Introduction, MIT Press, Cambridge, MA (1998). 6)鮫島和行,銅谷賢治,川人光男 : 強化学習 mosaic: 予測性によるシンボ ル化と見まね学習 , 日本ロボット学会誌,19(5):551-556 (2001). (平成 15 年 9 月 10 日受付). 械学習の用いられ方をまとめてみると,まずスキルレベ ルでは画像認識や行動認識,あるいは制御パラメータの 調整に神経回路網や隠れマルコフモデル・遺伝的アルゴ リズムなどが用いられており,個人の戦術レベルではパ スやポジションの評価・行動決定に強化学習・神経回路 網・決定木の学習が適用されている.さらにチーム戦術 レベルではチームモデリングやフォーメーションの決定 のために隠れマルコフモデルや強化学習を使っていると ころもある.しかし,これらの学習をバラバラに適用し ても,ロボット全体として統一のとれた学習方針を設計 することができない.そこで,ロボットシステムを機械 学習の立場から階層的に扱う階層的学習の考え方が提案 されてきている.Stone ら. はサッカーエージェントを. 4). 構成する上で図 -4 に示すような階層構造をとるように 設計し,その各々の部分に異なる学習手法を適用してい る.このように階層的に学習を適用することで,下位の レベルの学習の汎化能力により上位の学習を加速するこ IPSJ Magazine Vol.44 No.11 Nov. 2003. −7−. 1151.
(8) −8−.
(9)
関連したドキュメント
「技術力」と「人間力」を兼ね備えた人材育成に注力し、専門知識や技術の教育によりファシリ
目標を、子どもと教師のオリエンテーションでいくつかの文節に分け」、学習課題としている。例
72 Officeシリーズ Excel 2016 Learning(入門編) Excel の基本操作を覚える ・Excel 2016 の最新機能を理解する ・ブックの保存方法を習得する 73
はじめに
また、第1号技能実習から第2号技能実習への移行には技能検定基礎級又は技
電子式の検知機を用い て、配管等から漏れるフ ロンを検知する方法。検 知機の精度によるが、他
物質工学課程 ⚕名 電気電子応用工学課程 ⚓名 情報工学課程 ⚕名 知能・機械工学課程
認知症診断前後の、空白の期間における心理面・生活面への早期からの