植物育成シミュレータによる比較実験

4.4.2 _考察

実験結果を見ると初期の段階から2回目，3回目は改善された結果を得ることができたが，それ以降は改善されいている結果とは言いがたい．このような結果が得られたのは，従来の強化学習手法では，制御上での学習系列に追いける各状態行動対の価値が適切に更新されないためと考えられる．このことから，植物など状態遷移が連続時間上にあり，制御に対し報酬が時間遅れを持つ対象に関しては，従来の強化学習手法では適用が難しいということがいえる．

る．また本研究ではこの状態のことをphaseと呼ぶこととした．成長度合いについて更に述べると，シミュレータでは各phaseにおいて養液の効果はそれぞれ違い，また養液は時間遅れをもって効果を表すこととし，

成長度合いは養液の効果と養液供給量の積の累積値であらわすこととした．その際本来であれば植物の成長過程において植物は個々の個性のようなものを持っているため，ランダム的にその個性，つまり揺らぎのようなものを実装する必要があると思われるが，本実験では提案した学習手法についての検証をメインとするため，そのような揺らぎを持たせずシミュレータを設計した．

シミュレータ実験での設定について述べる．植物を規定時間，この実験では240ステップ時間後で1試行とし，その時点での成長度合いを報酬として与える事とする．強化学習の報酬の取り方として，各状態での成長度合いをとるのではなく1試行が終わった時点での報酬のみを用いるエピソード型強化学習で価値関数を更新していく．養液を模した行動出力として各phaseで効果の異なる行動出力を3種用意した．これらの行動出力の影響は各phaseにおいて異なるのだが，効果が現れるときにはその時点のphaseの効果が反映されるのではなく，養液供給が行われた時点でのphaseの効果が反映される．また養液供給量は3種類とも0〜

10の範囲で決定され，3種類の供給量の合計が10以下になるよう設定し，

3種の養液をそれぞれ，供給してから3ステップ時間後，5ステップ時間後，7ステップ時間後に効果が現れることとした．実験では以下のような数種類の養液効果パターンにおいて実験を行った．

1. 養液3種がすべて植物の成長にプラスとなるパターン

2. ある養液は植物の成長に効果を与えないパターン

3. ある養液は植物の成長に悪影響を与えるパターン

4. 養液3種すべてが，あるphaseにおいては植物の成長に悪影響を与えるパターン

などといったパターンを用意して実験を行った．(2)のパターンではある養液の効果はすべて0であるとした．(3)および(4)での悪影響につい

ては，現実の植物の育成では考えにくいことであるが，成長度合いをマイナスにするような効果として用意し，実験を行った．これらの要素効果パターンについて，実際にある特定の植物の成長過程を模したものではなく，予備実験で育てた植物の成長過程を見て，我々が計測することのできる定性的な成長過程になるように効果パターンを設計した．これらの養液効果パターンを用い，提案した強化学習手法において，softmax 方策について実験を行った．学習パラメータについて，学習率αは従来の強化学習研究を参考にして0.1とした．また割引率γは対象である植物の育成について，その系列は非常に長いものであり，初期の行動出力も十分その成長に影響を与えるものと考えることができるため，0.99とした．ひとつの実験につき，30000試行学習を行った．(1）の養液3種が全ての植物の成長にプラスとなるパターンでは特によい結果（図4.12）を得ることができた．

4.5.2 考察

結果として，(1)の養液3種がすべて植物の成長にプラスとなるパターンにおいては特に良い結果を得ることができた．各試行ごとに結果にばらつきは見られるが移動平均を見ると，試行を重ねるにつれ，成長度合いが大きくなっていくことが確認できた．特に5000試行あたりまでは，

大幅に成長度合いが上がっていくことが確認できた．これらの結果から，

考案した時間区分状態行動対集合を用いた遅延報酬対応強化学習手法の研究は，定性的な植物育成シミュレータにおいて，典型的な養液効果パターンにおいて有効であることがいえる．試行ごとに結果のばらつきが見られたのは，一試行の制御回数が240と多いことと，各養液供給量の幅が0〜10まであることに加え，3種類の合計が10以下でなければならないという制約を設けたために行動出力の決定パターンが膨大になってしまったためだと考えられる．

4.6 _まとめ

提案した手法の検証として，植物工場システムにおける植物の育成制御への適用，特に複数種類の養液の供給制御に適用させ検証を行った．検証手法として，植物育成シミュレータによる提案手法の妥当性の検証を

図 4.12: シミュレーション実験結果

小規模植物工場システムにおける実験では，従来の強化学習による葉ダイコンの育成制御実験を行った．

その結果，植物育成シミュレータにおける検証実験では，考えられる典型的な養液効果パターンについて，時間区分状態行動対集合を用いた遅延報酬対応強化学習手法が有効であることが確認できた．小規模植物工場における，従来の強化学習手法の適用実験では，従来の強化学習手法では改善される結果を得ることができないことがわかった．

ドキュメント内長遅延報酬対象向け強化学習手法 (ページ 42-47)

4.4.2 考察

4.5.2 考察

4.6 まとめ

4.4.2 _考察

4.6 _まとめ