4.4.2 考察
実験結果を見ると初期の段階から2回目,3回目は改善された結果を得 ることができたが,それ以降は改善されいている結果とは言いがたい.こ のような結果が得られたのは,従来の強化学習手法では,制御上での学 習系列に追いける各状態行動対の価値が適切に更新されないためと考え られる.このことから,植物など状態遷移が連続時間上にあり,制御に 対し報酬が時間遅れを持つ対象に関しては,従来の強化学習手法では適 用が難しいということがいえる.
る.また本研究ではこの状態のことをphaseと呼ぶこととした.成長度 合いについて更に述べると,シミュレータでは各phaseにおいて養液の 効果はそれぞれ違い,また養液は時間遅れをもって効果を表すこととし,
成長度合いは養液の効果と養液供給量の積の累積値であらわすこととし た.その際本来であれば植物の成長過程において植物は個々の個性のよ うなものを持っているため,ランダム的にその個性,つまり揺らぎのよ うなものを実装する必要があると思われるが,本実験では提案した学習 手法についての検証をメインとするため,そのような揺らぎを持たせず シミュレータを設計した.
シミュレータ実験での設定について述べる.植物を規定時間,この実 験では240ステップ時間後で1試行とし,その時点での成長度合いを報 酬として与える事とする.強化学習の報酬の取り方として,各状態での 成長度合いをとるのではなく1試行が終わった時点での報酬のみを用い るエピソード型強化学習で価値関数を更新していく.養液を模した行動 出力として各phaseで効果の異なる行動出力を3種用意した.これらの 行動出力の影響は各phaseにおいて異なるのだが,効果が現れるときに はその時点のphaseの効果が反映されるのではなく,養液供給が行われ た時点でのphaseの効果が反映される.また養液供給量は3種類とも0〜
10の範囲で決定され,3種類の供給量の合計が10以下になるよう設定し,
3種の養液をそれぞれ,供給してから3ステップ時間後,5ステップ時間 後,7ステップ時間後に効果が現れることとした.実験では以下のような 数種類の養液効果パターンにおいて実験を行った.
1. 養液3種がすべて植物の成長にプラスとなるパターン
2. ある養液は植物の成長に効果を与えないパターン
3. ある養液は植物の成長に悪影響を与えるパターン
4. 養液3種すべてが,あるphaseにおいては植物の成長に悪影響を与 えるパターン
などといったパターンを用意して実験を行った.(2)のパターンではあ る養液の効果はすべて0であるとした.(3)および(4)での悪影響につい
ては,現実の植物の育成では考えにくいことであるが,成長度合いをマ イナスにするような効果として用意し,実験を行った.これらの要素効 果パターンについて,実際にある特定の植物の成長過程を模したもので はなく,予備実験で育てた植物の成長過程を見て,我々が計測すること のできる定性的な成長過程になるように効果パターンを設計した.これ らの養液効果パターンを用い,提案した強化学習手法において,softmax 方策について実験を行った.学習パラメータについて,学習率αは従来 の強化学習研究を参考にして0.1とした.また割引率γは対象である植物 の育成について,その系列は非常に長いものであり,初期の行動出力も 十分その成長に影響を与えるものと考えることができるため,0.99とし た.ひとつの実験につき,30000試行学習を行った.(1)の養液3種が全 ての植物の成長にプラスとなるパターンでは特によい結果(図4.12)を 得ることができた.
4.5.2 考察
結果として,(1)の養液3種がすべて植物の成長にプラスとなるパター ンにおいては特に良い結果を得ることができた.各試行ごとに結果にば らつきは見られるが移動平均を見ると,試行を重ねるにつれ,成長度合 いが大きくなっていくことが確認できた.特に5000試行あたりまでは,
大幅に成長度合いが上がっていくことが確認できた.これらの結果から,
考案した時間区分状態行動対集合を用いた遅延報酬対応強化学習手法の 研究は,定性的な植物育成シミュレータにおいて,典型的な養液効果パ ターンにおいて有効であることがいえる.試行ごとに結果のばらつきが 見られたのは,一試行の制御回数が240と多いことと,各養液供給量の 幅が0〜10まであることに加え,3種類の合計が10以下でなければなら ないという制約を設けたために行動出力の決定パターンが膨大になって しまったためだと考えられる.
4.6 まとめ
提案した手法の検証として,植物工場システムにおける植物の育成制 御への適用,特に複数種類の養液の供給制御に適用させ検証を行った.検 証手法として,植物育成シミュレータによる提案手法の妥当性の検証を
図 4.12: シミュレーション実験結果
小規模植物工場システムにおける実験では,従来の強化学習による葉ダ イコンの育成制御実験を行った.
その結果,植物育成シミュレータにおける検証実験では,考えられる 典型的な養液効果パターンについて,時間区分状態行動対集合を用いた 遅延報酬対応強化学習手法が有効であることが確認できた.小規模植物 工場における,従来の強化学習手法の適用実験では,従来の強化学習手 法では改善される結果を得ることができないことがわかった.