• 検索結果がありません。

小規模植物工場システムにおける予備実験

ドキュメント内 長遅延報酬対象向け強化学習手法 (ページ 38-42)

4.4.1 実験

作成した小規模植物工場システムにおける実験では,育成対象として 葉ダイコンを用いる.育成対象として葉ダイコンに決定するに当たって 予備実験を行った.予備実験では,まず比較的短期間で育成が可能な植 物として,ブロッコリ,ルッコラ,ダッタンソバ,カイワレダイコン,葉 ダイコンを育成した.その結果,短期間において比較的良く育ち,また 養液の成分に差をつけた場合に我々人間でも感じることが可能なほど大 きな差が出た葉ダイコンを選定した.また,小規模植物工場システムに おいて,植物の育成制御が可能であるかの実験を行った.この予備実験 は,強化学習を用いずに,固定的スケジュールを用いて行った.その結 果葉ダイコンを育成することが成功し(図4.10),作成した小規模植物工 場システムが正しく動作することを確認した.

提案した強化学習手法による育成実験の前段階として,従来の強化学 習手法による植物の育成実験を行った.この実験では,葉ダイコンを同時 に3株6日間育成させ,各株における葉ダイコンの茎の長さの平均値を大 きくすることを目標に,2種類の異なる成分比を持った養液(ハイポネッ クスハイグレード栄養素強化064:500倍希釈,同744:1000倍希釈)の供 給比率の決定について学習を行う.養液の供給量は,両養液の供給を制御 する電磁弁を合計9秒間開くことで行う.例えば,064の養液供給が5秒 であれば,744の供給量は4秒とする.システムの構成としては(図4.4) に準ずる.実験環境は,温度25℃,湿度50%,ライト12時間でon/off 切り替えで行った.養液の供給は1日2回12時間間隔である.一回の学 習で3つの結果について学習を行う.つまり,一回の学習で3試行分の学 習を行った.実験の1回目は初期段階なので,養液の供給比率がランダ ムなものを2株,養液の供給比率が同一のものを1株として,それ以降 は強化学習により養液供給比率を決定させるようにした.この実験では6 回育成を行った.実験結果を(図4.11)に示す.実験結果はグラフで,各 段階で長さ平均が1位のもの,2位のもの,3位のものを線で結んであり,

それぞれの結果に相関はない.

図 4.10: 固定的スケジュールで育成した葉ダイコン

図 4.11: 従来の学習方式による結果(縦軸:茎の長さ平均,横軸:育成 回数)

表 4.2: 従来の学習方式による結果

1位 2位 3位

1回目(学習前) 45.00mm 38.93mm 33.33mm

2回目 52.00mm 40.25mm 39.83mm

3回目 49.38mm 47.80mm 39.44mm

4回目 44.00mm 40.00mm 36.50mm

5回目 40.75mm 38.20mm 24.67mm

6回目 39.00mm 34.33mm 25.00mm

4.4.2 考察

実験結果を見ると初期の段階から2回目,3回目は改善された結果を得 ることができたが,それ以降は改善されいている結果とは言いがたい.こ のような結果が得られたのは,従来の強化学習手法では,制御上での学 習系列に追いける各状態行動対の価値が適切に更新されないためと考え られる.このことから,植物など状態遷移が連続時間上にあり,制御に 対し報酬が時間遅れを持つ対象に関しては,従来の強化学習手法では適 用が難しいということがいえる.

ドキュメント内 長遅延報酬対象向け強化学習手法 (ページ 38-42)

関連したドキュメント