知能ロボットの技術：人工知能からのアプローチ（前編）：6.ロボットにおける機械学習の課題と動向

全文

(1)ロボットにおける機械学習の課題と動向. 特集 6 ロボットにおける機械学習の課題と動向野田五十樹. 産業技術総合研究所サイバーアシスト研究センター科学技術振興事業団さきがけ研究 21 [email protected]. 実世界での行動を行うロボットでは，動作とその影響の複雑さや多様な状況に対して柔軟に対応する必要があるため，機械学習の適用が望まれ，数多くの試みがなされている．本稿ではその中で，行動学習として広く用いられている強化学習，ヒューマノイドロボットの行動プログラミングとして期待されている模倣学習，システム全体を機械学習の立場で見直す階層的学習の 3 つのテーマに関して，関連する話題を交えながら解説する．れているが，それらを統合的に扱うため，ロボットシス. ロボットと機械学習. テム全体の構成を機械学習の立場から階層的に設計する階層的学習という考え方が提案されてきている．. 近年ロボットの適用範囲は，家庭用やエンタテイメン. 本稿では，これらロボットに特徴的な機械学習の考. トなどますます多方面に広がっており，人間の生活空間. え方である，強化学習，模倣学習，階層的学習を取り上. のような多様な環境の中で複雑で柔軟性のある振る舞い. げ，その現状と課題について解説していく．. をロボットは要求されるようになってきている．この環. 強化学習と環境の分節. 境の多様性と高度な行動の制御のために機械学習はさまざまなかたちで適用が試みられている．. 強化学習. ロボットの行動獲得に機械学習を適用するにあたって. ロボットの学習を考える場合，ロボットに達成して. 制約となるのが，学習例の与え方である．一般に機械学習は非常に多くの数の学習例を必要とするが，ロボット. ほしい目標状態などは分かっていても，個々の場面で実. は機械であるため，コンピュータ上のシミュレーション. 際にどのような行動をとるべきかを具体的に与えること. のように何万回も試行錯誤させることは難しく，また教. が困難な場合がある．このような場合に有効な学習の枠. 師付学習において，個々の学習例に対する正解行動を具. 組みとして強化学習（Reinforcement Learning）. 体的に示すことが難しい．特に協調作業など抽象度の高. ある．強化学習では，ロボットは何らかの方針に従って. いレベルの学習をする場合にその傾向が強くなる．この. 行動を行い，その結果望ましい状態に達した場合，その. 問題を解消する手法として，具体的な行動の教示を必要. 達成度合いに応じた報酬が与えられる．ロボットはでき. としない強化学習と，少数の例からの学習を可能とする. るだけ多くの報酬をもらえるように方針を修正すること. 模倣学習がロボットでは特に重要となってくる．. で，徐々に望ましい行動をとる方針を獲得する．. また，ロボットは統合システムであり，低レベルの. 強化学習では多くの場合，ロボットが行動する環境を. 5）☆ 1. が. 制御系から戦術的判断あるいは協調的行動における競合解消や役割分担まで，幅広いレベルの処理を包含してい. ☆1. る．この各レベルにおいて各種学習手法の適用が試みら. 強化学習に関する一般的な情報としては http://www-anw.cs.umass. edu/~rich/RL-FAQ.html が参考になる．. IPSJ Magazine Vol.44 No.11 Nov. 2003. −1−. 1145.

(2) 特集：知能ロボットの技術：人工知能からのアプローチ（前編）. マルコフ決定過程（Markov Decision Process: MDP）に. 値 Q(s, a) を一定割合減衰させる．. より定式化する．マルコフ決定過程では，状態遷移と. Q-2. 行動 a により報酬が得られた場合，その報酬に応じ. 報酬の与えられ方がともにマルコフ性を満たす．すなわ. て行動価値 Q(s, a) を増加させる．. ち，ロボットがある状態 s で行動 a をとったとき，その. Q-3. 行動 a により遷移した先の状態 s' の各行動の最大. 行動により変化した次の状態 s' と，行動の結果得られる. の行動価値 max a' Q(s', a') に応じてもとの行動価値. 報酬 r が各々 s と a のみに依存した確率に基づいて決定. Q(s, a) を増加させる．. されると見なす．よって強化学習の目的はロボットが置かれている状態 s において，将来にわたってより確実に. また，TD の枠組みからはずれるが，手順の Q-2 に. あるいは多くの報酬が得られる行動 a を選択する方針を. おいて得られた報酬を過去の行動にわたって分配する. 求めることにある．. Profit Sharing といった方法が提案されている．この. 強化学習による行動学習で最も広く用いられているの. Profit Sharing は TD 学習のような収束保証性はないも. が TD（Temporal Difference）学習である．TD 学習では，. のの，一度得られた成功事例を中心に強化が行われるた. 各状態の良さを表す状態価値（State Value）という概念. め，全状態をくまなく調べ尽くす必要のある Q 学習に. を導入する．状態価値とは各状態から行動を開始して将. 比べ速く学習が進むことが知られている．. 来にわたって得られる期待報酬を表しており，これを求. 不完全知覚問題. めることができれば，ロボットはより価値の大きい状態や行動を選択することで得られる報酬を最大化すること. MDP の枠組みではロボットはすべての状態を完全に. ができる．よって TD 学習の目的は学習を通じて真の状. 識別できることを仮定している．しかし実際には，ロ. 態価値を求めることになる．. ボットは環境を部分的にしか観察できず，本来区別す. TD 学習では以下の手順で状態価値を修正していく．. べき状態を識別できないことが考えられる．このように，環境としてはマルコフ決定過程だが，観察する能力. T-1. ロボットの試行錯誤の行動の結果，ある状態 s に訪. の限界から完全なマルコフ性を仮定できない問題を不完全知覚マルコフ決定過程（Partially Observable Markov. れた場合，その価値 V(s) を一定割合減衰させる． T-2. 状態 s に訪れた際に報酬が得られた場合，状態価値. Decision Process: POMDP）と呼ぶ．たとえば図 -1（a）のような迷路を考える．この迷路において， S ・ G を. V(s) を報酬に応じて増加させる． T-3. 状態 s からある行動をとって別の状態 s' へ移った. 各々出発地点・目標地点とする．もしロボットの視野が. 際，状態 s' の価値 V(s') に応じて状態価値 V(s) を増加. 十分広ければ，これらの各マス目は別々の状態として. させる．. 識別できるが，たとえば図 -1（b）のように，ロボットが 8 つの隣接するマス目しか知覚できないとすると，図 -1. もし，問題空間にエルゴート性. ☆2. が仮定できる場合，. （a）の * で示した 2 つのマス目が同じ状態として識別. 以上の手順により状態価値が真の値に収束することが知. されてしまう．この場合，単純に MDP を仮定した強化. られている．. 学習を行うと，この 2 つのマス目における行動（右に行. 状態価値を用いた TD 学習は，各状態における各行動. くべきか左に行くべきか）を決定できない ( 図 -1（c）)．. によりどの状態へ遷移するかが既知である場合は有効で. この問題に対しては，次の 2 つのアプローチが考えら. あるが，ロボットの学習などでは環境の知識が十分でな. れる．. く行動と状態遷移の関係が未知である場合が多いため，適用が難しい．このため，状態価値の代わりに行動価値. • 履歴による状態混同の解消 :. （Action Value，Q 値）を用いた TD 学習がよく用いられ. POMDP では各時点における観測だけでは状態が同定. る．行動価値は，各状態における各行動をとったときに. できないことが問題であったが，与えられた環境によ. 将来にわたって得られる期待報酬を表している．この行. っては状態の遷移履歴により状態を区別できる場合が. 動価値の TD 学習で最も広く用いられているのが Q 学習. ある．たとえば図 -1 の迷路では，直前と現在のマス. や SARSA である．たとえば，Q 学習においては，以下. 目のペアで状態を表すことで，問題の 2 つの状態を識. の要領で行動価値を修正し，漸近的に真の行動価値を学. 別することができる．ただし，履歴による状態識別を. 習する．. ☆2. Q-1. ある状態 s である行動 a をとった場合，その行動価. 1146. 44 巻 11 号情報処理 2003 年 11 月. −2−. エルゴート性：状態遷移を十分長い時間繰り返した場合，最終的にどの状態に存在するかの確率が，初期状態に依存しなくなる性質のこと．.

(3) ロボットにおける機械学習の課題と動向. （a）迷路. （b）エージェントの視野. （c）各状態の最適行動. 図 -1 不完全知覚問題を含む迷路. 全状態に対して行うと本来同一の状態まで区別され無. を発見できる．ただしこの方法では，どれくらい先の. 駄が大きいため，履歴による区別の必要性を各状態で. 遷移まで考慮に入れるべきかが問題となる．また，各. 判断する方法が必要となる．また，学習途中で状態の. 状態において前後の履歴を記録する必要があり，メモ. 区別／統一を行う場合，行動価値などの期待報酬を分. リ量などで問題が生じる場合もある．. 配／合成する方法も検討する必要がある．. （2）行動価値に十分な偏りがない場合に状態の混同があ. • 非決定的行動政策 :. るとする．混同されている状態では，本来異なる行. POMDP によって引き起こされる致命的な問題の 1 つ. 動政策が混在しているので，行動価値が分散し，最適. に無限ループへの落ち込みがある．たとえば図 -1 の. 行動が唯一に決めにくい状態になると考えられる．よ. 迷路で混同の起きている 2 つの状態の最適行動を左右. って行動価値の偏りを何らかの指標で計り，その値に. どちらかに決定してしまった場合，ロボットはどちら. よって状態の混同を判別する．この方法では混同され. かの状態で無限ループに陥り，決してゴールにたどり. ている状態において最適行動が一致している場合は検. 着くことができなくなる．これを避けるためには，混. 出できないが，強化学習の目的（各状態における最適. 同の生じている状態において最適行動を決定するこ. 行動の決定）を考えれば，無理に混同状態を検出する. とをあきらめ，確率的，あるいはランダムに行動を. 必要がないため，問題はないと考えられる．ただし，. 選択することで致命的な無限ループを生じる行動に陥. POMDP が生じていない場合でも行動価値に偏りがな. ることを避ける方法が考えられる．一般に強化学習で. い場合もあり，他の判断基準と合わせて用いる必要が. は，-greedy 選択や Boltzmann 選択のように学習時. ある．. にはある程度ランダムに行動選択をすることが仮定さ. （3）学習時における行動価値の変化が激しい場合に状態. れているので，学習後においてもこのランダム性を残. の混同があるとする．学習時の各行動の行動価値の変. すことはそれほど問題はないが，最終的な効率を考え. 化を観察すると，細かい変動はあるものの，一般に真. た場合，これらのランダム性はできるだけ排除するこ. の値に漸近するかたちで推移する．一方，POMDP に. とが望ましい．よってこの方法においても状態ごとに. より無限ループに陥るような環境の場合，相反する政. ランダムな行動選択の必要性を判断することが必要と. 策の学習が重なるため，行動価値がいつまでも大きく. なる．. 上下に変動することが観測できる．この現象を利用すれば，混同が生じ，かつ相反する政策を獲得しようと. いずれのアプローチにおいても，どの状態で混同が生. している状態を検出することができる．. じているかを判別することが重要になってくる．この方. 状態の表現と環境の分節. 法としては，以下のようなものが考えられる．. POMDP を避ける方法の 1 つとして，エージェントや（1）その状態からの遷移後の状態あるいは状態系列を求. ロボットにセンサを追加するなど状態の識別能力を増や. め，遷移にばらつきがある場合に状態の混同があると. すことが考えられる．たとえば図 -1 の迷路の場合，エ. する．POMDP では，混同されている状態から同じ行. ージェントの視野を近隣 24 個に拡大すればこの迷路で. 動（系列）をとっても異なる状態に達することが問題. の POMDP は解決する．しかしこの方法では，区別され. であるので，その異なりを検出すれば区別すべき状態. る状態の数が増加（8 近傍の場合は 2 個の状態，24 近 8. IPSJ Magazine Vol.44 No.11 Nov. 2003. −3−. 1147.

(4) 特集：知能ロボットの技術：人工知能からのアプローチ（前編）. （a）粗い分節. （b）細かい分節. （c）重要度に応じた分節. 図 -2 サッカーフィールドのさまざまな分節法. 傍の場合は 2 個の状態）してしまい，学習すべき状態. 提案している．ここにおいても，各状態とセンサ値の確. 価値や行動価値が増加してしまう．機械学習一般の性質. 率関係をうまく解釈することで，連続な状態空間の適切. として，調整すべきパラメータの数が増えると，必要と. な分節が行えることを示している．. される学習例の数も比例して多くなり，非現実的な数に. その他の代表的な関数近似としては以下のようなもの. なる場合がある．これを次元の悪魔と呼ぶ．. がある．. 24. また，ロボットが活動する実世界の状態は多くの場合連続的な値で表現される．TD 学習や Q 学習の理論的. • スプライン近似 : 状態空間を適当に分節し，スプライ. 枠組みとしては状態表現が連続値であっても問題はない. ン関数により補完することで連続的な価値関数を近似. が，実際の計算では状態価値や行動価値を表す関数は未. する．誤差を最小にする近似方法などが知られてお. 知であるため，何らかの近似が必要となる．この近似に. り，容易に適用できるが，分節の方法や次数をうまく. おいても，近似能力を過度に高めると上記と同じように. 選ぶ必要がある．. 次元の悪魔の問題が生じることになる．. • タイルコーディング（C-MAC）: Q 学習などで状態空. このように，強化学習では状態をどのように表現する. 間をマス目で区切る代わりに，異なる種類のマス目に. かが重要な問題であり，この環境の表現により強化学習. よる分節を複数用意し，ある状態の評価を，その状態. の能力が決定されるといっても過言ではない．. が所属するすべてのマス目の価値の和や平均とする．. 連続的な表現に対する近似の方法の 1 つとして，連続. 各マス目の価値の学習は，通常の TD 学習や Q 学習を. 的な状態空間をいくつかの部分に分節し，各々を離散的. そのまま分節の種類ごとに適用することで行う．これ. な状態として扱う方法がある．典型的な分節の方法とし. は関数の連続的な近似にはなっていないが，マス目の. ては状態空間をマス目に分節する方法で，たとえばサッ. 種類をうまく選ぶことで細かいマス目分割に相当する. カーロボットの行動学習の場合，サッカーのフィールド. 精度が得られるほか，分節の境界領域の不連続性によ. を図 -2（a）のように分節することが考えられる．ただこ. る悪影響を軽減する効果がある．. の（a）のような分節では重要なゴール前が 1 状態にまと. • 神経回路網 : 状態を表す特徴量などを入力として，そ. められてしまうため，十分な表現ができない．かといっ. の状態の価値を出力とする神経回路網を用意し，学習. て，図 -2（b）のように細かくマス目を切ると迷路の問題. を通じて適切な状態価値を出力するよう回路網のパラ. と同じく次元の悪魔の問題が生じる．よって通常はドメ. メータを調整する．学習能力や汎化能力は用いる神経. イン知識を利用して，たとえば図 -2（c）のような分節を. 回路網や学習方法に依存する．. 選ぶ必要がある．この環境の分節を学習によって獲得する方法も提案さ. また，価値関数は行動選択政策に依存し，行動選択. れている．文献 6）では，強化学習において環境の変化. 政策も価値関数の学習結果に依存して変化する．このた. の予測可能性に基づいて状態空間を分割する MOSAIC. め，Q 学習などで神経回路網など非線型の近似法を用い. を適用し，適切な状態空間の分節を行っている．また，. ると学習が収束しない場合があることが知られており，. 文献 2）では，隠れマルコフモデルにおいて環境のセン. 問題に応じて適切に選ぶ必要がある．. サ値を状態の出力値として扱い，行動とセンサ値の変化を予測するよう隠れマルコフモデルの学習を行う方法を. 1148. 44 巻 11 号情報処理 2003 年 11 月. −4−.

(5) ロボットにおける機械学習の課題と動向. 観察と模倣による学習認識. 通常の機械学習では，学習に用いる例の数は十分用意されることを前提にしている．しかし，実際のロボット. 汎化. 再生. を使った学習を考える場合，ロボットに何万回も試行錯誤させることは現実的ではない．また，高精度のロボッ. 基本動作モデル. トのシミュレータを用意し，試行錯誤を容易に繰り返すことができる場合においても，多様に変化する実世界を. 図 -3 模倣学習. 網羅するためには非常に多数の例が必要となり，現実的に適用不可能な場合も考えられる．一方，人間が何かを学ぶ場合，すべての場合を網羅的に試行錯誤する代わりに，教師などが模範となる動作を. 要と見なすかもしれない．このような間違った解釈をし. 示し，学習者がそれを模倣することで効率的に適切な動. てしまった場合，正確に動作を再現できなくなるほか，. 作を習得することができる．これを機械的に実現するの. ゴールまでの距離が異なるなど状況が少しでも変化する. が模倣学習. である．すなわち模倣学習とは，比較的. とそれに適応できなくなってしまう．このように，模範. 少数の成功例から適切な動作手順を習得し，それを汎化. 演技を行う教師と学習者が同じ基本動作モデルを持つこ. する学習手法を指す．この模倣学習は単純に模倣により. とが模倣学習では重要となる．. 動作を獲得するだけでなく，上で述べた強化学習などの. この動作モデルの表現の枠組みとしては，たとえば以. 初期値を与えるためのブートストラップに利用できるな. 下のようなものが考えられる．. 3）. ど，さまざまな方面で期待されている．図 -3 は模倣学習のプロセスを示している．模倣学習. • ルール記述 : 動作の開始・終了条件などをルールのか. はこの図のように，模範演技者の動作を観察しその動. たちで記述し，その条件により動作を表現する．設計. 作を表す内部表現に変換する動作認識，認識した動作. 者の意図を反映しやすい反面，環境の多様性に対する. をできるだけ広範囲の状況に適用できる行動規則にまと. 調整や，認識や汎化における整合性などを維持するこ. めあげる汎化，獲得した行動規則を実際に直面している. とが困難であることが多い．. 状況に対して適用する動作の再生の 3 段階からなる．ま. • 力学特性 : アクチュエータの動作にいくつかのモード. た各段階において動作をどういう単位でどのように表現. がある場合，そのモードを特徴づける力学特性を求. するかを決める基本動作モデルが重要な要素となる．以. め，その変化により動作の変化を表現する．力学特. 下ではこれらの要素および段階について順に議論をして. 性がはっきり分かっているものに対して汎用性が高い. ゆく．. 反面，動作モードがない，あるいは明確でないものや. 1）. 力学特性が複雑なものに対しての適用が難しい．. 基本動作モデル. • ニューラルネットワーク : 上記の力学特性の代わりに，. 少数の例しか用いることのできない模倣学習では，通. ニューラルネットワークなどをブラックボックスの制. 常の機械学習に加えいくつかの仕掛けが必要になる．そ. 御器として用いる．力学特性が複雑であったり不明で. の一番重要な仕掛けが基本動作モデルである．たとえ. ある場合でも適用できる反面，アクチュエータの動作. ば，サッカーにおいてドリブルシュートを模倣学習する. を十分に近似できるように適切な回路構成および事前. 場合を考えよう．コーチが模範演技として，ドリブルで. の学習を行う必要がある．. 3 回ボールにタッチした後，シュートしたとする．通常，. • 確率モデル : 隠れマルコフモデルなどの確率モデルに. ドリブルシュートを練習する生徒であれば，このコーチ. より動作を記述する．モデリングや汎化において確率. の動作を見て，「ドリブル」のあとに「シュート」すると. 的手法を素直に用いることができるが，ニューラルネ. いう動作の系列を見出し，それに基づいて自分のプレー. ットワークと同じく適切なモデル構成および事前の学. に反映するだろう．しかし，生徒がまったくドリブルと. 習を必要とする．. いうものを知らない場合，とにかくボールに 3 回触れた. 観察によるモデリング. のちシュートすると理解するかもしれない．さらにサッカーを知らない場合，単に 4 回ボールに触れることが重. 模倣学習では模範演技を観察し，動作モデルに基づい IPSJ Magazine Vol.44 No.11 Nov. 2003. −5−. 1149.

(6) 特集：知能ロボットの技術：人工知能からのアプローチ（前編）. て内部表現に変換するモデリングが必要となる．その際. られるかを示しており，切り替えの条件をどのように記. 重要となるのが動作の分節である．一般に模倣させたい. 述するかに大きく依存する．その条件記述の方法として. 振る舞いはいくつかの基本動作の組合せとして表現され. は，基本動作の開始・終了条件によるものと，基本動作. る．たとえば上記のドリブルシュートの例では，示され. の尤度を利用した確率的記述によるものがある．. た模範演技をドリブルの部分とシュートの部分に分節す. 開始・終了条件を用いる方法では，各基本動作の開始. る必要が出てくる．. や終了を示す条件をあらかじめ決めておき，その条件が. このモデリングとそこにおける動作の分節は，採用. 満たされた時点で基本動作の切り替えが生じるとする．. する動作モデルの枠組みによってその性質が異なってく. このため，汎化能力はその条件に対応する状態の多様さ. る．ルール記述を動作モデルに用いる場合，各基本動作. に依存する．また，この場合の基本動作の切り替えは明. の開始・終了条件により分節が行われる．このため，分. 確なかたちで記述されるため，組み立て作業のような基. 節条件を明示的に記述できる反面，曖昧な状態やどの基. 本動作間の切れ目がはっきりしている動作の模倣学習に. 本動作にも当てはまらない状態をどう扱うかという問題. 向いている．. が出てくる．. 一方，確率的記述を用いる方法では，認識の際に各基. 力学特性を用いる方法では，軌道の転換点など力学特. 本動作の尤度を求めておき，それに基づきある基本動作. 性の変化が観察できる現象として現れる特徴点の抽出が. から別の基本動作への切り替えが生じる確率を求める．. 必要となる．. 動作再生時にはその切り替え確率と外界の状況に基づい. ニューラルネットや確率モデルを用いる場合は，誤差. てどの基本動作を適用すべきかの尤度を求め，動作の切. 逆伝搬法やベイズ推定などを用いて観察結果を直接モデ. り替えを行う．この方法の特徴は，基本動作の切り替え. リングすることができる．これらの方法では複数の基本. を緩やかに表現することができるため，サッカーのプレ. 動作にまたがる曖昧な状態を自然に表現できる反面，分. ーのように基本動作間の切れ目がはっきりしないものに. 節を適切に行わせる制御を明示的にできないという問題. 対して比較的自然に適用できる点である．. がある．. 動作の再生. 汎化. 獲得された基本動作の系列は，ロボットが実際に直面. 模倣学習では，獲得された動作をそのまま再現するだ. している状況に応じて再生されることになる．ただ，模. けでなく，環境や状況の違いに応じて生成する動作を適. 倣学習では少ない例から学習を行うため，与えられた問. 応させる汎化の能力が必要となる．特に人間の生活空間. 題のすべての状態を網羅しているとは限らない．このた. のような変化の多い環境でのロボットの応用を考えた場. め模倣学習は，効率が悪いながらも任意の状態に適用し. 合，高い汎化能力が求められる．. て動作を生成できる別の方式と組み合わせ，適切なタイ. 模倣学習の枠組みでは，汎化には 2 つのレベルが考. ミングで獲得した動作系列を開始・中断する機構が必要. えられる．1 つは基本動作モデルの持つ汎化能力であ. となってくる．たとえばサッカーにおいてドリブルシュ. る，もう 1 つは基本動作の切り替えタイミングの汎化で. ートの学習を行った場合，獲得したドリブルシュートを. ある．. 適用できる場面は限られており，また，適用を始めた後. 基本動作の汎化能力とは各基本動作がどれくらいの汎. にドリブル中に敵にボールを取られた場合には，再生を. 用性を持つかを意味する．たとえば，ドリブルシュート. 中断して無駄なシュート動作に入らないようにする必要. を模倣する際，認識されたドリブルやシュートという基. がある．. 本動作が「直線的なドリブル」や「ループシュート」のよ. これら動作再生の開始・中断は基本的には模倣学習の. うに細かく分類されている場合，学習した行動を適用で. 一段外側の枠組みにより制御されるべきものであるが，. きる局面は限られてくる．一方，「ドリブル全般」や「シ. その制御に利用できる情報を模倣学習の枠組みから提供. ュート全般」といった大まかなくくりで基本動作を分け. できる場合がある．たとえば，動作の再生時にその結果. ている場合，適用局面は広くなるが，コーチの意図が細. を認識部分に再入力することで，再生した動作が獲得し. かく正確に反映されない可能性も出てくる．このため，. た動作とどれくらいかけ離れているかを，モデルの尤度. どのような細かさの基本動作を用意するかが模倣学習で. などにより数値的に表すことができ，動作の中断を判断. は問題となる．. する情報の 1 つとして利用することができる．. 一方，切り替えタイミングの汎化とは，基本動作を切り替えるタイミングをどれくらい柔軟に状況に対応させ. 1150. 44 巻 11 号情報処理 2003 年 11 月. −6−.

(7) ロボットにおける機械学習の課題と動向. とができ，下位レベルの適応能力の柔軟性を保ちつつチームプレーなど複雑な組合せがある高位レベル行動の学. High Level Goals. 習を行うことができるようになっている．ただしこの階層的学習の枠組みでは，下位レベルと上. Adversarial Behaviors. 位レベルの学習手法をどう組み合わせればよいか，上位. メモリベース学習. Team Behaviors. レベルにおける学習誤差をどうやって下位レベルに伝達するかについては規定しておらず，今後は上下のレベル. Multi-Agent Behaviors. の学習の擦り合わせ方法を精密化していく必要があるだ. 強化学習. ろう．. Multi-Agent Behaviors. 今後の課題と展開. 決定木学習. Individual Behaviors. 前章でも述べているようにロボットは統合システムで. 神経回路網. World Model. あるため，部分的な改善が必ずしも全体の能力の向上につながらない．このため機械学習の手法を適用する際に. Environment. も部分的な能力向上ではなく，階層的学習法のようにシステム全体でのバランスを考えた上での各種機械学習の. 図 -4 階層的学習. 適用手法の研究が今後重要になってくると思われる．またロボットは実世界において動作するため，その実世界をどのように表現し取り扱うかが機械学習では重要になってくる．特に模倣学習や強化学習では環境や行動の表現が学習能力を規定するため，その表現そのものの. 階層的学習. 学習・獲得手法が重要な研究課題となると予想される．また，これらの技術はロボットに限らず，ヒューマン. ロボットは統合システムであり，低レベルのセンサ・. インタフェースやネットワークエージェントなどへの応. アクチュエータの制御レベルから高レベルのチーム戦. 用も考えられるため，広い意味でのロボット技術として. 術の判断・決定まで，多くのレベルを実装する必要が. 取り組んでいく必要があるだろう．. ある．そしてその各レベルで機械学習の適用が必要とされている．たとえばこの数年のロボカップにおける機. 参考文献 1）Miyamoto, H. and Kawato, M.: A Tennis Serve and Upswing Learning Robot Based on Bi-directional Theory, Neural Networks, 11:1331-1344 (1998). 2）Noda, I.: Hidden Markov Modeling for Multi-agent Systems, In Mitsuru Ishizuka and Abdul Sattar, editors, Proc. of The Seventh Pacific Rim International Conference on Artificial Intelligence, pp. 128-137, Springer (Aug. 2002). 3）Schaal, S.: Is Imitation Learning the Route to Humanoid Robots? Trends in Cognitive Sciences, 3(6):233-242 (June 1999). 4）Stone, P.: Layered Learning in Multiagent Systems: A Winning Approach to Robotic Soccer, MIT Press (2000). 5）Sutton, R.S. and Barto, A.G.: Reinforcement Learning: An Introduction, MIT Press, Cambridge, MA (1998). 6）鮫島和行，銅谷賢治，川人光男 : 強化学習 mosaic: 予測性によるシンボル化と見まね学習 , 日本ロボット学会誌，19(5):551-556 (2001). （平成 15 年 9 月 10 日受付）. 械学習の用いられ方をまとめてみると，まずスキルレベルでは画像認識や行動認識，あるいは制御パラメータの調整に神経回路網や隠れマルコフモデル・遺伝的アルゴリズムなどが用いられており，個人の戦術レベルではパスやポジションの評価・行動決定に強化学習・神経回路網・決定木の学習が適用されている．さらにチーム戦術レベルではチームモデリングやフォーメーションの決定のために隠れマルコフモデルや強化学習を使っているところもある．しかし，これらの学習をバラバラに適用しても，ロボット全体として統一のとれた学習方針を設計することができない．そこで，ロボットシステムを機械学習の立場から階層的に扱う階層的学習の考え方が提案されてきている．Stone ら. はサッカーエージェントを. 4）. 構成する上で図 -4 に示すような階層構造をとるように設計し，その各々の部分に異なる学習手法を適用している．このように階層的に学習を適用することで，下位のレベルの学習の汎化能力により上位の学習を加速するこ IPSJ Magazine Vol.44 No.11 Nov. 2003. −7−. 1151.

(8) −8−.

(9)