• 検索結果がありません。

追加したシステムについて提案しそれぞれについて紹介した.

第5章では,実数値のベンチマーク問題として,大きく分けてシングルステップ問題と マルチステップ問題に分けてそれぞれ紹介した.実数値のシングルステップ問題は,各要 素が連続値を取る入力群に対して出力が一意的に決まった問題であり,解く問題によって はその出力も連続値を扱わなければならないことがあるが,本研究では,まず第一歩とし て,状態空間のみ実数値を扱う問題に限定した.また,連続値のマルチステップ問題は報 酬という特別な入力を手がかりに環境に適応する機械学習の問題の一つであり,連続値の 状態空間では不完全知覚に伴い非マルコフ性への対処などの問題が挙げられる.

第6 章では,提案システムの有効性について,ECS を実数値のシングルステップ問題 とマルチステップ問題に適用し exemplar の総数である population sizeと抽出された

exemplar を用いた解性能から検証した.具体的には,シングルステップ問題において,

まず単純なカーゴレイアウト問題を通し,固定の照合範囲と動的照合範囲の ECS につ いてそれぞれ検証したところ,(1)動的照合範囲型ECSを用いた場合,固定の照合範囲 ECSと比べて少ないexemplar数で同程度の性能(3%程度の性能向上)を示し,(2)学習 時における選択手法にはルーレット選択を用いて exemplarの有用性の見積りの機会は 均一に与えた方がより最適な一般化に寄与できる可能性を示唆した.さらに,入力デー タに偏りのある問題であるチェッカーボード問題を通して,(3)データの偏りを考慮した exemplarの範囲の更新は,入力の偏りが大きい状態空間(ir = 7)においても65%以上 の分類精度を出す exemplarの抽出を可能とした.さらに,(4)UCI Machine Learning

Repository のデータセットを用いた実験を通して,従来のECSより少数データに対す

る分類精度は非常に高いことを示した.(5) 直接政策法を応用したexemplar の生成は,

従来手法と比較しても偏りの厳しい不均衡データ集合に対しても安定的な分類成功率を 示し,少数データの有効な範囲確保に寄与していることが明らかにした.第 7 章では,

報酬遅延学習問題としてマウンテンカー問題に適用し,従来手法であるExempla-based

Policy search(EBP) と比較したところ,報酬遅延問題であるマウンテンカー問題を通し

て,(6)ECS のexemplar の一般化は事前知識と同等の性能を維持しながらexemplar の 削減に成功し,(7)exemplar の生成を導入したECS はEBP に比べ,解の性能が良く,

さらにexemplar の一般化を促進させ,より少ないexemplar で問題を解くことが可能で

あることを示した.

8.2 今後の課題

8.2.1 雑音 ( ノイズ ) を含む問題への展開

本研究において,提案システムの有効性を検証したベンチマーク問題は全てシステムが 出力した行動に対して必ず,環境は決まったインタラクションを返してくる.例えば,シ

8. 結論 8.2. 今後の課題

ングルステップ問題においては,環境からの入力に対してシステムは出力し,その出力が 適切であるかの判定に誤差(エラー)は全く含まれていない.マルチステップ問題におい ても,選択した出力に対して次状態が確率的に決定するモデルとしてセミマルコフが挙げ られるが,現実の問題にはこのように誤差を含む様な問題が数多く存在する.そこで,雑 音を含む問題上での検証が必要であると考えられる.

8.2.2 事前知識のない状況からの学習

本研究において,事前知識としてExemplarを活用するシステムであるECSを提案し その有用性を検証したが,そのメカニズムの基本となっているLCSは,本来的には環境 とのインタラクションを通して,新たなルールを生成していくためLCSは最初の母集団 にあるルール数は0からスタートできることが1つ利点として挙げられている.そこで,

LCSのメカニズムを基本としたECSでも母集団にあるルールが0からスタートして学習 が可能であるかの検証が必要であると考えられる.

謝辞

本論文をまとめるにあたり,ご指導,ご鞭撻を頂きました電気通信大学総合情報学専攻 高玉圭樹教授に心から感謝の意を表します.また,副指導教員である吉浦裕教授,論文審 査委員である中嶋信生教授、西野哲郎教授,高橋裕樹准教授には,多くの貴重なご意見・

ご指摘を頂きましたことを感謝いたします。研究の進め方や研究者としての考え方につい ても多くのご助言を頂きました服部聖彦助教授,佐藤寛之助教授に心からお礼申し上げま す.ゼミを通して大学院生や学部生,さらには,修了したOB・OGの皆さんには多くご 指摘やご助言を頂きましたこと,また,一緒に研究生活を共に楽しく過ごすことができま したことにとても感謝しております.最後に,長い学生生活を支えてくれた家族に心より 感謝を申し上げます.

参考文献 89

参考文献

[Anderson] Anderson, C. W. and Krethamar, R. M.: “Solving Optimal Control and Search Problems with Reinforcement Learning in MAT-LAB”(http://www.cs.colostate.edu/ anderson/res/rl/matlabpaper/rl.html) [Bernad´o 2002] Bernad´o, E.: Contributions to Genetic Based Classifier Systems, PhD

thesis, Enginyeria i Arquitectura la Salle, Ramon Llull University, Barcelona, 2002.

[Bernad´o 2003] Bernad´o, E. and Garrell, J. M.: “Accuracy-Based Learning Classifier Systems: Models, Analysis and Applications to Classification Tasks”, Evolution-ary Computation, Vol. 11, No. 3, pp.209-238, (2003)

[Bull 2008] Bull, L., Bernad´o, E., Holmes, J.(Eds.):“Learning Classifier Systems in Data Mining”, Studies in Computational Intelligence Series Vol. 125, Springer, (2008)

[Butz 2001] Butz, M. V. and Wilson, S. W.: “An Algorithmic Description of XCS”, Lecture Notes in Computer Science, Vol.1996, pp.253-272 (2001)

[Butz 2006] Butz, M. V.:“Rule-Based Evolutionary Online Learning Systems - A Principled Approach to LCS Analysis and Design”, Studies in Fuzziness and Soft Computing Series Vol. 191, Springer, (2006)

[Goldberg 1989] Goldberg, D. E.: Genetic Algorithms in Search, Optimization, and Machine Learning, Addison-Wesley(1989)

[Gomez et al. 1989] Gomez, F., Schmidhuber, J., and Mikkulainen, R.: “Accelerated neural evolution through cooperatively coevolved synapses”, Journal of Machine Learning Reseach, Vol.9, pp.937-965, (2008)

[八谷,杉山 2008] 八谷大岳,杉山将:“強くなるロボティック・ゲームプレイヤーの作り 方〜実践で学ぶ強化学習〜”,毎日コミュニケーションズ(2008)

[Hansen 2001] Hansen, N. and Ostermeier, A.: “Completely derandomized self-adaptation in evolution strategies”, Evolutionary Computation, Vol. 9, pp.159-195, (2001)

参考文献

[Holland 1978] Holland, J. H. and Reitman, J.:“Cognitive Systems Based on Adaptive Algorithms”, in Waterman, D. A. amd Hayes-Roth, F. (Eds.), Pattern Directed Inference Systems, Academic Press(1978)

[Holland 1986] Holland, J. H.: “Escaping Brittleness: the Possibilities of General-purpose Learning Algorithms Applied to Parallel Rule-based System”, Machine Learning, an artificial intelligence approach, Vol.2, pp.593-623(1986)

[Igel 2003] Igel, C.: “Neuroevolution for reinforcement learning using evolution strate-gies”, The Proceedings of IEEE Congress on Evolutionary Computation (CEC

’03), Vol. 4, pp.2588-2595, (2003)

[Ikeda 2005] Ikeda, K.: “Exemplar-Based Direct Policy Search with Evolutionary optimization”, in Proceedings of 2005 Congress on Evolutionary Computation CEC2005, pp.2357-2364, (2005)

[Kamio 2004] Kamio, T., Soga, S., Fujisaka, H., and Mitsubori, K.: “An Adaptive State Space Segmentation for Reinforcement Learning Using Fuzzy-ART Neural Network”, Proceeding of IEEE International Midwest Symposium on Circuits and System, 3, pp.117-120, (2004)

[Kassahun 2006] Kassahun, Y.: Towards a Unified Approach to Learning and Adap-tation, PhD thesis, Institute of Computer Science and Applied Mathematics, Chritian-Albrechts University, Kiel, Germany, (2006)

[Kovacs 1996] Kovacs, T.: “Evolving Optimal Populations with XCS Classifier Sys-tems”, Technical Report CSRP-96-17, School of Computer of Science, University of Birmingham(1996)

[Lanzi 1997] Lanzi, P. L.: “A Study of the Generalization Capabilities of XCS”, In B´ack, T., editor,Proceedings of the Seventh International Conference of Genetic Algorithms (ICGA97), pp.418-425, Morgan Kaufman, San Francisco(1997) [Lanzi et al. 2005a] Lanzi, P. L., Loiacono, D., Wilson, S. W., and Goldberg, D.

E.: “Extending XCSF beyond linear approximation”, In Proceedings of Genetic Evolutionary Computation 2005 (GECCO ’05), (2005)

[Lanzi 2005b] Lanzi, P. L., Loiacono, D., Wilson, S. W., and Goldberg, D. E.: “XCS with Computed Prediction for the Learning of Boolean Functions”, In Proceedings of the IEEE Congress on Evolutionary Computation (CEC ’05), (2005)

[Moriarty 1999] Moriarty, D. E., Schultz, A. C., and Grefenstette, J. J.: “Evolu-tionary algorithms for reinforcement learning”, Journal of Artificial Intelligence Research, Vol. 11, pp.241-276 (1999)

[Murao 1997] Murao, H.: “Q-Learning with adaptive state segmentation”,

Proceed-参考文献

ings of IEEE International Symposium on Computational Intelligence in Robotics and Automation, pp.179-184, (1997)

[Orriols 2005] Orriols-Puig, A., Bernad´o-Mansilla, E.: “The Class Imbalance Prob-lem in UCS Classifier System: Fitness Adaptation”, Congress on Evolutionary Computation 2005, vol. 1, pp. 604-611, (2005)

[宮崎 2007] 宮崎和光, 木村元, 小林重信: “合理的政策形成アルゴリズムの連続値入力へ の拡張”, 人工知能学会誌, Vol. 20, No. 3, pp.332-341, (2007)

[Rummery 1994] Rummery, G. and Niranjan, M.: “Online Q-learning using Connec-tinist Systems”, Technical Report CUED/F-INFEG/TR166, Engineering Depart-ment, Cambridge University(1994)

[下村 2004] 下村一文: “荷物配置最適化のためのヒューリスティック分枝限定法”, 東京

工業大学, 知能機械システム科学専攻, 修士論文, (2004)

[Stanley 2002] Stanley, K. O., Mikkulainen, R.: “Evolving neural networks through augmenting topologies”, Evolutionary Computation, Vol. 10, pp.99-127, (2002) [Stone 2003] Stone, C. and Bull, L.: “For Real! XCS with Conti-nuous-Valued

In-puts”,Evolutionary Computation, Vol.11, No.3, pp.299-336, (2003)

[Sutton 1996] Sutton, R. S.: “Generalization in Reinforcement Learning: Success-ful Examples Using Sparse Coarse Coding”, in Advance in Neural Information Processing Systems, Vol.8, pp.1038-1044, The MIT Press(1996)

[Sutton 1988] Sutton, R. S.: “Learning to Predict by the Methods of Temporal Dif-ferences”, Machine Learning, Vol. 3, pp.9-44 (1988)

[Sutton 1998] Sutton, R. S. and Barto, A.: An Introduction to Reinforcement Learn-ing, MIT Press, Cambridge, MA.(1998)

[高玉 2006] 高玉 圭樹: “マルチエージェントに基づくカーゴレイアウトシステム:日本

がイニシアティブをとる次世代運用システムに向け”, 人工知能学会誌, Vol.21, No.1, pp39-44,(2006)

[土屋ほか,2005] 土屋千加夫,佐久間淳,池田心,小野功,小林重信:“インスタンス ベース政策表現とその最適化”,計測自動制御学会,システム情報部門学術講演会,

pp247-252(2005)

[和田ほか,2004] 和田充史,高玉圭樹,下原勝憲,片井修:“実数値学習分類子システム の分析”,人工知能学会誌,20巻,1号,F, pp.57-66(2005)

[Watkins 1989] Watkins, J. C. H.: Learning from Delayed Reward, PhD thesis, Cam-bridge University(1989)

[Watkins 1992] Watkins, J. C. H. and Dayan, P.: Technical note: Q-learning,Machine Learning, Vol.8, pp.279-292(1992)

参考文献

[Wilson 1994] Wilson, S. W.: “ZCS: A Zeroth Level Classifier System”, evolutionary Computation, Vol.2, No.1, pp. 1-18(1994)

[Wilson 1995] Wilson, S. W.: “Classifier Fitness Based on Accuracy”, evolutionary Computation, Vol.3, No.2, pp. 149-175(1995)

[Wilson 1998] Wilson, S. W.: Generalization in the XCS Classifier Systems, in Ge-netic Programing 1998: Proceedings of the Third Annual Conference, pp.665-674, Morgan Kaufmann(1998)

[Wilson 2000] Wilson, S. W.: “Get Real! XCS with Continuous-Valued Inputs”, Lecture note in Computer Science, Vol.1996, pp.158-176(2000)

[Wilson 2002] Wilson, S. W.: “Classifiers that approximate functions”, Journal of Natural Computating, Vol. 1, No.2-3, pp.211-234, (2002)

参考文献 A. H-IIA TRANSFER VEHICLE: HTV

A H-IIA Transfer Vehicle: HTV

HTVとは,国際宇宙ステーション(International Space Station: ISS)に物資を運搬す る宇宙ステーション補給機のことである.図A.1に示すように,HTVは2つのベイ(No.1 BayとNo.2 Bay)からなり,各ベイは4つのラック(HTV Resuply Rack: HRR)から 構成される.さらに,各ラックには図A.2に示すように数多くのカーゴ(Cargo Transfer

Bag: CTB)が搭載される.カーゴのサイズは大きいものから小さいものまでさまざまで

あり,重さもバラバラである.現在検討されているミッションには,ハーフ,シングル,

ダブル,トリプルサイズの4種類のCTB(それぞれ,シングルサイズを基準に半分,等 倍,2倍,3倍の大きさ)と,M02バック(シングルサイズ4つ分の大きさ),M01バッ ク(シングルサイズ6つ分の大きさ)の2種類のバックがある.なお同図A.2 のラックに は A と記されたシングルサイズのカーゴと B と記されたハーフサイズのカーゴの 2種類のみが搭載されている例を表している.また,カーゴ以外にもHTVに搭載するも のとして,(1)HRR(タイプIとIIがある),(2)ラックの代わりに搭載される国際標 準ペイロードラック(International Standard Payload Rack: ISPR),(3)曝露パレッ ト,(4)水,(5)燃料がある.

A.1 HTV内のラック

目的

サイズや重さの異なるカーゴと関連物資を搭載する宇宙ステーション補給機(H-II

A. H-IIA TRANSFER VEHICLE: HTV 参考文献

A.2 ラック内のCTB

Transfer Vehicle: HTV)が,自らの姿勢を制御し計算された軌道を正確に通るた

めには,HTVの重心が機体の中心近くになるようにカーゴを配置する必要がある.

しかし,JAXAによるとHTVの重心がYZ軸平面において半径25mm以内に入 るようにカーゴを配置しなければ,その制御は保証されない(なお,図A.1に示す ように,X軸縦方向,YZ軸平面がHTVを上からみた平面となる).

HTVの大きさが横幅約4m,高さ約10mという大型バスに匹敵することを考える と,半径25mmの円がいかに小さく厳しい制約であることが分かる.このような 制約の厳しいカーゴレイアウトを地上局オペレータが計算する場合,人手では限界 があるばかりか,予定カーゴの重さの変更や到着遅れ,さらには複数のカーゴのグ ループ化など様々な要求に対処しなければならず,ヒューマンエラー(計算ミス) を招く可能性が高くなる.このような背景から,カーゴインテグレーション業務を サポートするシステムの構築が急務となっている[高玉 2006].加えて,カーゴレ イアウト最適化問題は,表A.1のような制約があるため目的関数は非線形となる

[下村 2004]. また,全ての荷物を指定された空間の中に配置し,そこから求まる

重心を指定された場所へ近づけるという組み合わせ最適化問題でもある.カーゴの 重さは実数値で表され,その組み合わせがカーゴまたはラックの数によって増大す るので最適な解を見積るには非常に時間がかかってしまう.

問題設定

本研究では,動的照合範囲型ECSの性能を評価するために実際のカーゴレイアウ ト問題を単純化した問題を設定した.具体的には図A.3 のようにカーゴを2次元 上に12個配置したシミュレーションを通して提案手法の性能を検証する.

参考文献 A. H-IIA TRANSFER VEHICLE: HTV

A.1 最適化問題のクラス 制約

連続(線形) 離散 目

的 関 数

線 形

線形計画問題 組み合わせ最適化問題

非 線 形

2次計画問題 組み合わせ最適化問題

A.3 2次元上に荷物配置するカーゴレイアウト問題

行動となるカーゴ交換とラック交換については以下の図A.4,A.5 を用いて説明 する.

カーゴ交換 (1) 重心方向にあるカーゴを交換対象Aとして決定

(2) 交換対象A と交換することで中心と重心の間の距離を最も短くすること のできるカーゴを探索

(3) (2)で交換対象Bを決定 (4) AとBを交換して行動終了

ラック交換 (1) 重心方向にあるラックを交換対象Aとして決定

A. H-IIA TRANSFER VEHICLE: HTV 参考文献

A.4 カーゴの交換手順

(2) 交換対象 Aと交換することで中心と重心の間の距離を最も短くすること のできるラックを探索

(3) (2)で交換対象Bを決定 (4) AとBを交換して行動終了

ECSのカーゴレイアウト問題適用する際にExemplarの構成をカーゴレイアウト問題に 合わせる必要がある.Exemplarの条件部と行動部以下のように設定した.

条件部[中心から重心までの距離:d, 中心からの重心方向:θ]