展望 - 長遅延報酬対象向け強化学習手法

本論文では従来困難と考えられていた2つの実用的問題への強化学習手法の適用について述べた．

植物育成問題については，シミュレータによる実験で提案手法の学習速度の速さを確認することができた．また成分の違う養液を用いることで植物育成制御が可能であることは明らかであるため，提案手法による植物工場システムを用いた植物育成について強化学習の適用が実運用可能なものとなることが期待できる．また成分の違う養液供給の比率制御のみならず温度や湿度と言った，植物に影響を及ぼす様々な環境の制御にも強化学習の適用が可能であると考える．実際には環境の微調整を強化学習により行うことで，植物工場システムを用いた植物生産の自動化や新規農業就労者への機械によるサポートなどが期待できる．

交通流制御問題については，交通信号のフィードバック制御のために，

センサで獲得することが困難な分岐率について強化学習で獲得することを提案し，シミュレータ実験により分岐率の獲得可能なことと，獲得した分岐率のみを使った交通信号のフィードバック制御により交通流が改善されることを確認した．実際問題として，分岐率の推定を微調整といった形で交通信号制御に介入させることにより交通流は無理なく改善されると期待されるが，そのためには交通センサが各交差点に網羅的に配置されている必要がある．今日の状況では交通センサの数は十分とは言えず，将来的により多くの交通センサの配備と言った交通インフラの整備が望まれる．

Small World仮説などの大規模な問題では，ハブの周りに集中する多数

のリンク・ノードと，それらをつなぐ少数のリンクから構成されていることが知られている．仮説として，大規模な制御問題でも同様な構造が見いだせるのではないかと考える．大規模な問題であるほど，本論文で述べた局所有向閉路を持つ単純有向マクログラフであることが予想でき，

本論文で述べた強化学習手法の適用範囲は大規模な実用的制御問題向きであることを期待できる．

最後に，本論文で述べたことを基に実用的制御問題への道筋を示すことができるのではないかと考えられる．

本研究を行うにあたり，様々な方々のご指導，ご鞭撻を頂きました．ここに謹んで感謝の意を表明します．

主指導教員である三上貞芳教授には，快適な研究環境を提供して下さり，ゼミでの御指導や，研究に対する心構え等，研究に関する事は勿論，

研究以外においても大変貴重なご意見と多大なご助力と頂きました．心より感謝を申し上げます．

大沢英一教授，松原仁教授，片桐恭弘教授には予備審査，本審査を通じて学位論文を指導して頂きました．貴重な意見とアドバイスに心より感謝を申し上げます．

Dalhousie大学への留学について，南北海道学術振興財団様から留学

資金の助成を受けました．留学先ではEvagelos E. Millios教授，Thomas

Trappenberg教授から研究についての貴重な意見，指導を頂き貴重な体

験をさせて頂きました．心より感謝を申し上げます．

また，学会等で本論文に関する御助言を頂いた皆様に感謝いたします．

研究を進めてきた当研究室の仲間には，ゼミ等でお互いの知識と技術を高め合いながら研究活動を進めてきました．仲間達と切磋琢磨できたことに心より感謝申し上げます．

研究活動以外においても，私の精神的な支えとなって下さった友人，知人の皆様に，心より感謝申し上げます．

最後になりましたが，大学院での研究活動を，陰から支えて下さった両親，家族へ，なにより感謝申し上げます．

[1] Takatuji M, “Theory of Plant Factory”, SHITA TECHNOLOGY, No.1, 1993.(in Japanese)

[2] Takatuji M, “Basic and Practice of Plant Factory”, Eikoubou, 1996.(in Japanese)

[3] Sutton R.S., Barto A.G., “Reinforcement Learning”, The MIT Press, 1999.

[4] Toshimi K, “Kewpie TS Farm”, SHITA REPORT, No.6, 1993.(in Japanese)

[5] “Eco saku”, “http://www.ecosaku-yasai.com/index.html”,(access at 29/03/2010)

[6] Watkins C.J.C.H., “Learning from Delay Rewards”, Ph.D. thesis, Cembridge University, 1989.

[7] Larcher W, “Physiological Plant Ecology”, Springer, 2003.

[8] Miyazaki K, Kobayashi S, “Proﬁt Sharing Based Reinforcement Learning Systems in Continuous State Spaces”, SCIS & ISIS 2006, pp.1105-1110, 2006.

[9] Miyazaki K, Terada T, Kobayashi H, “Generating Cooperative Be-havior by Multi Agent Proﬁt Sharing on the Soccer Game”, ISIS 2003, pp.116-169, 2003.

[10] Ueda Y, Narita H, Kato N, Hayashi K, Nambo H, Kimura H, “An Automatic Email Disribution by Usingn Text Mining and Reinforce-ment Learning”, Denshi Joho Tsushin Gakkai Ronbunshi, Vol.J87-D-I, No.10, pp.887-898, 2004.

[12] Baird L, “Residual Algorithms: Reinforcement Learning with Func-tion ApproximaFunc-tion”, Proceedings of the Twelfth InternaFunc-tional Con-ference on Machine Learning, pp.30-37, 1995.

[13] Aoki H, Umetu N, Ono S, “Theory and Practice of Hydroponic Soil Cultivation”, Seibundo Shinkosha, 2001.(in Japanese)

[14] Singh S, Bertsekas D, “Reinforcement Learning for Dynamic Chan-nel Allocation in Cellular Telephone Systems”, Advances in Neural Information Processing Systems: Proceedings of the 1996 Confer-ence, pp.974-980, 1997.

[15] Boyan J.A., Littman M.L., “Packet Routing in Dynamically Chang-ing Networks: A Reinforcement LearnChang-ing Approach”, Advances in Neural Information Processing Systems 6, pp.671-678, 1994.

[16] Takatuji M, “Present and Future of Complete Controlled Type Plant Factory”, SHITA REPORT, No.23, 2006.(in Japanese)

[17] Kato S, Matsuo H, “A Theory of Proﬁt Sharing in Dynamic Envi-ronment”, Lecture Notes in Computer Science, Vol.1886, pp.115-124, 2000.

[18] Lack A.J., Evans D.E., “Instant Notes in Plant Biology”, BIOS Sci-entiﬁc Publishers Limited, 2001.

[19] C. Diakaki, M. Papageorgiou and K. Aboudolas, “A multivariable regulator approach to traﬃc-responsive network-wide signal con-trol”, Control Engineering Practice, vol. 10, No. 2, p. 183-195, Feb.

2002.

[20] Y. Wakasa, K. Iwaoka, K. Hanaoka and K. Tanaka, “A Control En-gineering Approach to Real-Time and Network-Wide Traﬃc Signal Control”, Transactions of the Society of Instrument and Control En-gineers, vol. 42, No. 9, p. 1076-1082, Sep. 2006. (in Japanese)

Engineering and Control, Vol. 23, No. 4, p. 190-192, Apr. 1982.

[22] P. R. Lowrie, “SCATS: The Sydney Co-ordinated Adaptive Traﬃc System―Principles, Methodology, Algorithms”, Proceedings of the IEE International Conference on Road Traﬃc Signalling, p. 67-70, 1982.

[23] Y. Sugiyama, “Physics of Traﬃc Flow”, Nagare : The Japan Society of Fluid Mechanics, vol. 22, No. 2, p. 95-108, Apr. 2003. (in Japanese) [24] M. Bando, K. Hasebe, A. Nakayama, A. Shibata and Y. Sugiyama,

“Dynamical model of traﬃc congestion and numerical simulation”, Physical Review E, vol. 51, No. 2, p. 1035-1042, Feb. 1995.

[25] M. Bando, K. Hasebe, K. Nakanishi, A. Nakayama, A. Shibata and Y. Sugiyama, “Phenomenological Study of Dynamical Model of Traf-ﬁc Flow”, Journal de Physique I, vol. 5, No. 11, p. 1389-1399, Nov.

1995.

[26] S. Lmmer and D. Helbing, “Self-control of traﬃc lights and vehi-cle ﬂows in urban road networks”, Journal of Statistical Mechanics:

Theory and Experiment, vol. 2008, No. 4, p. P04019, Apr. 2008.

[27] S. Mimura and M. Hisai, “Construction of Real-Time Control Logic for Signalized Network Under Over-Saturated Condition”, Memoirs of the Faculty of Engineering Yamaguchi University, vol. 57, No. 1, p. 15-19, Oct. 2006. (in Japanese)

[28] H. Ishikawa, H.Shimizu, Y. Sobata and M. Kobayashi, “Congestion Length Control for a Traﬃc Network”, IPSJ journal, vol. 45, No. 4, p. 1154-1162, Apr. 2004. (in Japanese)

endthebibliography

2.1 強化学習の適用範囲 . . . . 5

2.2 等比減少関数の合理性 . . . . 9

2.3 phaseに分けた場合の妥当性を満たしている時の従来手法と提案手法の比較 . . . . 10

3.1 観測上の学習系列と制御上の学習系列 . . . . 13

3.2 従来の学習方式での制御上学習系列に対する報酬の与えられ方 . . . . 13

3.3 提案学習方式での制御上学習系列に対する報酬の与えられ方 . . . . 14

3.4 制御上の学習系列の例 . . . . 14

3.5 制御上の学習系列の例2 . . . . 16

3.6 局所的有向閉路を持つ単純有向マクログラフの例 . . 18

3.7 局所的有向閉路を持つ単純有向マクログラフを交通流制御問題に当てはめた例 . . . . 18

3.8 局所的有向閉路を持つ単純有向マクログラフをチェックポイントを通過する川下りレースに当てはめた例 . 19 4.1 一般的な植物工場システム . . . . 23

4.2 強化学習を用いた植物工場システム . . . . 23

4.3 小規模植物工場システム（写真） . . . . 24

4.4 小規模植物工場システム（モデル図） . . . . 25

4.5 小規模植物工場システム（ブロック図） . . . . 26

4.8 電磁弁（burkert社製Type 6231） . . . . 29

4.9 養液タンク（10l） . . . . 30

4.10 固定的スケジュールで育成した葉ダイコン . . . . 32

4.11 従来の学習方式による結果（縦軸：茎の長さ平均，横軸：育成回数) . . . . 33

4.12 シミュレーション実験結果 . . . . 38

5.1 分岐率の取得が困難な例 . . . . 43

5.2 本論文で扱う交通ネットワークの定義（用語）. . . . 43

5.3 交通ネットワーク . . . . 44

5.4 交通信号の状態 . . . . 44

5.5 交通流入出 . . . . 46

5.6 交通流入量 . . . . 47

5.7 フィードバック制御のための設定 . . . . 48

5.8 制御を行う交差点 . . . . 55

5.9 分岐率獲得のための学習設定 . . . . 56

5.10 シミュレータ画面 . . . . 57

5.11 シミュレータ実験結果 . . . . 58

4.1 小規模植物工場に用いた機器 . . . . 25 4.2 従来の学習方式による結果 . . . . 34 5.1 シミュレータで用いるセル . . . . 53

ドキュメント内長遅延報酬対象向け強化学習手法 (ページ 68-77)