小規模植物工場システムにおける予備実験

4.4.1 実験

作成した小規模植物工場システムにおける実験では，育成対象として葉ダイコンを用いる．育成対象として葉ダイコンに決定するに当たって予備実験を行った．予備実験では，まず比較的短期間で育成が可能な植物として，ブロッコリ，ルッコラ，ダッタンソバ，カイワレダイコン，葉ダイコンを育成した．その結果，短期間において比較的良く育ち，また養液の成分に差をつけた場合に我々人間でも感じることが可能なほど大きな差が出た葉ダイコンを選定した．また，小規模植物工場システムにおいて，植物の育成制御が可能であるかの実験を行った．この予備実験は，強化学習を用いずに，固定的スケジュールを用いて行った．その結果葉ダイコンを育成することが成功し（図4.10），作成した小規模植物工場システムが正しく動作することを確認した．

提案した強化学習手法による育成実験の前段階として，従来の強化学習手法による植物の育成実験を行った．この実験では，葉ダイコンを同時に3株6日間育成させ，各株における葉ダイコンの茎の長さの平均値を大きくすることを目標に，2種類の異なる成分比を持った養液（ハイポネックスハイグレード栄養素強化064:500倍希釈，同744:1000倍希釈）の供給比率の決定について学習を行う．養液の供給量は，両養液の供給を制御する電磁弁を合計9秒間開くことで行う．例えば，064の養液供給が5秒であれば，744の供給量は4秒とする．システムの構成としては(図4.4) に準ずる．実験環境は，温度25℃，湿度50%，ライト12時間でon/oﬀ 切り替えで行った．養液の供給は1日2回12時間間隔である．一回の学習で3つの結果について学習を行う．つまり，一回の学習で3試行分の学習を行った．実験の1回目は初期段階なので，養液の供給比率がランダムなものを2株，養液の供給比率が同一のものを1株として，それ以降は強化学習により養液供給比率を決定させるようにした．この実験では6 回育成を行った．実験結果を(図4.11)に示す．実験結果はグラフで，各段階で長さ平均が1位のもの，2位のもの，3位のものを線で結んであり，

それぞれの結果に相関はない．

図 4.10: 固定的スケジュールで育成した葉ダイコン

図 4.11: 従来の学習方式による結果（縦軸：茎の長さ平均，横軸：育成回数)

表 4.2: 従来の学習方式による結果

1位 2位 3位

1回目（学習前） 45.00mm 38.93mm 33.33mm

2回目 52.00mm 40.25mm 39.83mm

3回目 49.38mm 47.80mm 39.44mm

4回目 44.00mm 40.00mm 36.50mm

5回目 40.75mm 38.20mm 24.67mm

6回目 39.00mm 34.33mm 25.00mm

4.4.2 _考察

実験結果を見ると初期の段階から2回目，3回目は改善された結果を得ることができたが，それ以降は改善されいている結果とは言いがたい．このような結果が得られたのは，従来の強化学習手法では，制御上での学習系列に追いける各状態行動対の価値が適切に更新されないためと考えられる．このことから，植物など状態遷移が連続時間上にあり，制御に対し報酬が時間遅れを持つ対象に関しては，従来の強化学習手法では適用が難しいということがいえる．

ドキュメント内長遅延報酬対象向け強化学習手法 (ページ 38-42)

4.4.1 実験

4.4.2 考察

4.4.2 _考察