自然選択による恒常性を持つ人工生命の創発

(1)

自然選択による恒常性を持つ人工生命の創発

高橋将文

情報アーキテクチャ学科 1014053

指導教員三上貞芳

提出日平成 30 年 1 月 29 日

Emergence of Artificial Life with Homeostasis

by Natural Selection

by

Masafumi TAKAHASHI

BA Thesis at Future University Hakodate, 2018

Advisor: Prof. Sadayoshi MIKAMI

Department of Media Architecture Future University Hakodate

(2)

The purpose as a biological agent is finite limited by symbolizing the purpose of a biological agent as an objective function. In this research, we propose a method to create artificial life that has homeostasis and can adapt to the three-dimensional environment with high dimensional visual input without using objective function. The artificial life has a neural network as a gene that determines behavior from its perceptual state and physiological state. The agent mutates genes by repeating natural selection and mutation, and adapts to the environment as a population. Finally, we evaluate the adaptability and homeostasis of the agent to the environment, and show that the agent can adapt to the environment as a population.

Keywords: Artificial Life, Homeostasis, Natural Selection, NEAT, Deep NeuroEvolution

概要: 近年，恒常性に基づく生物学的エージェントに関する研究が行われている．また，それらの研究のほとんどでは，エージェントに対し何らかの目的関数が与えられている．しかし，生物学的エージェントの目的を目的関数として記号化することにより，本来無限に存在する生物学的エージェントとしての目的を有限に制限してしまう．よって，本研究では高次元の視覚入力を伴う 3 次元環境において，目的関数を用いることなく恒常性を持ち環境に適応可能な人工生命を創発する．人工生命は自身の知覚状態と生理学的状態から行動を決定するニューラルネットワークを遺伝子として持つ．エージェントは自然選択と突然変異を繰り返すことで遺伝子が変異し，個体群として環境に適応する．最後に，エージェントの環境への適応度や恒常性を評価し，エージェントが個体群として環境に適応可能であることを示す．

(3)

3.7 Unity . . . 16 3.8 Life in Silico . . . 17 第4章提案手法 19 4.1 環境 . . . 19 4.2 エージェント . . . 19 4.3 評価方法 . . . 22 第5章 NEATを用いたエージェントによる実験 24 5.1 平地における実験 . . . 24 5.1.1 結果 . . . 24 5.1.2 考察 . . . 27 5.2 高低差がある地形における実験 . . . 27

(4)

5.2.1 結果 . . . 27 5.2.2 考察 . . . 27 5.3 草木・岩が存在する地形における実験. . . 30 5.3.1 結果 . . . 30 5.3.2 考察 . . . 30 第6章 Deep NeuroEvolutionを用いたエージェントによる実験 35 6.1 平地における実験 . . . 35 6.1.1 環境 . . . 35 6.1.2 結果 . . . 35 6.1.3 考察 . . . 35 6.2 高低差がある地形における実験 . . . 37 6.2.1 環境 . . . 37 6.2.2 結果 . . . 37 6.2.3 考察 . . . 38 6.3 草木・岩が存在する地形における実験. . . 38 6.3.1 環境 . . . 38 6.3.2 結果 . . . 38 6.3.3 考察 . . . 40 第7章結言 41 7.1 まとめ . . . 41 7.2 今後の方針 . . . 41

(5)

第

1 章

緒言

1.1 背景

生物は，変動する外部環境に対して生体の内部状態を一定に保とうとする維持機構を備

えている[1]．これは「恒常性」として知られている．近年，この恒常性に基づく生物学的

エージェントに関する研究が行われている．Ashbyは，機械の状態を動的に安定化させる

Homeostatを開発した[2]．PfeiferとScheierは，古典的な人工知能における問題点として

フレーム問題や記号接地問題を説明し，完全自律エージェントと身体性認知科学の研究の重要性を指摘した[3]．銅谷らは，生存と進化的ロボット工学のための学習エージェントの研究を目的としたサイバーローデントと呼ばれるロボットを開発した[4]．サイバーローデントは，環境中に存在するバッテリーパックを用いて充電することにより自身のバッテリーの状態を安定に保つことが可能である．Keramatiらは，エージェントの内部状態を考慮しない強化学習モデルの弱点は学習及び動機への統合された見解の欠如から生じると考え，生理学的状態から動機づけ状態へのマッピングとしてドライブの仮説的概念を形式化した[5]．Yoshidaは，生存確率の対数を報酬関数とした深層強化学習を用い，視覚刺激を含む環境において恒常性を維持し，生存可能なエージェントを開発した[6]．これらの研究のほとんどでは，設計者によってエージェントに何らかの目的関数が与えられている[4, 5, 6]．しかし，生物学的エージェントの目的を目的関数としてモデル化することによって目的を記号化するため，本来無限に存在する生物学的エージェントとしての目的を有限に制限してしまう．そのため，設計者が考慮していない環境では適応出来ないなどの問題が発生する可能性がある．これは一般にフレーム問題と呼ばれ，生物学的エージェントの目的を目的関数としてモデル化する限り逃れることが出来ない問題である．このように，フレーム問題の影響を最小限に抑えることは，生物学的エージェントの設計において重要な課題の一つである．

(6)

1.2 研究目的

本研究では，目的関数を用いることなく，自然選択と突然変異によって恒常性を持ち環境に適応可能な人工生命を開発する．ここで，目的関数とは，最適化問題において目的を最大化または最小化される関数として定式化したものである．生物学的エージェントは，「食物を探す」，「食べる」，「天敵から身を守る」，「繁殖する」，「子孫の世話をする」といった，さまざまなタスクを実行しなければならない[3]．しかし，これまでの研究のほとんどでは，設計者によってエージェントに何らかの目的関数が与えられているため，本来無限に存在する生物学的エージェントとしての目的を有限に制限してしまっていた．これは，設計者又は観測者によってエージェントの目的を目的関数という形でモデル化されることにより発生する問題である．よって，本研究では目的関数を用いることなく恒常性を持ち環境に適応可能な人工生命を開発することを目的とする．

(7)

第

2 章

第

3 章

関連事象

3.1 遺伝的アルゴリズム

遺伝的アルゴリズムとは，生物の進化の仕組みを参考にして考案された最適化アルゴリ

ズムであり，1975年にミシガン大学のJohn Henry Hollandによって提案された．遺伝的

アルゴリズムは，遺伝子の初期値の集合を生成した後，選択・交叉・突然変異を繰り返すことにより最適化を行う．以下，各過程について述べる．

3.1.1 選択

選択では，適応度に基づいて各個体を評価し，次世代を生成する際に基となる個体を選択する．適応度とは，設計者によって与えられる目的関数により求められる各個体の評価値である．選択アルゴリズムには，ルーレット選択・ランキング選択・トーナメント選択などがある．ルーレット選択は，個体iを選択する確率をpi，個体iの適応度をfiとした際に，各個体の選択確率を式3.1で求める手法である．各個体を選択する確率は適応度に比例した確率となる．ランキング選択とは，予め適応度の順位に対して選択される確率を設定する手法である．ルーレット選択と違い，各順位間の適応度の差が選択確率に影響しないという特徴がある．トーナメント選択は，個体群から予め設定した数の個体をランダムに選択し，その中で最も適応度が高い個体を選択するというプロセスを個体数分繰り返すという手法である．ランキング選択と同様に，各順位間の適応度の差が選択確率に影響しないという特徴がある． pi= fi ∑_N k=1fk (3.1)

3.1.2 交叉

交叉では，2つの個体の遺伝子を組み換えることで新しい遺伝子を生成する．交叉には，一点交叉・多点交叉・一様交叉などがある．一点交叉は，遺伝子を切断する一点をランダムに選択し，その箇所で切断した遺伝子同士を繋ぎ合わせることで新しい遺伝子を生成する手法である．多点交叉は，遺伝子の切断箇所を複数選択し，その箇所で切断した遺伝子同士を繋ぎ合わせることで新しい遺伝子を生成する手法である．一様交叉は，遺伝子の各要素ごと独立に1/2の確率で入れ換える手法である．

(13)

3.1.3 突然変異

突然変異では，ある確率で遺伝子の一部を変化させる手法である．突然変異には，摂動・挿入・欠失・大変異などがある．摂動は，遺伝子の要素が実数値の際に用いられ，ある与えられた幅の分だけ要素の値を変化させる手法である．挿入・欠失は，遺伝子に新しい要素を挿入・削除する手法である．大変異は，一定の周期で突然変異率を高める，変化量を大きくする手法であり，摂動などと組み合わせて利用される．主に局所解から脱出する目的で用いられる．

3.2 自然選択

自然の環境において，生まれてくるすべての個体が生き残れるわけではない．一般には，生き残れる個体数よりもはるかに多くの個体が毎世代生まれてくる．しかし，自然界において資源は有限であるため資源に対する種間競争が生じ，種全体に生存に対して選択圧が生じる[9]．また，同一集団でお互いに交配して繁殖している個体同士であっても様々な形質の差異があり，それらの個体が皆同等に繁殖しているわけではない．このような過程において，有利な変異は保存され，不利な変異は排除されることを自然選択と呼ぶ[10]．自然選択は，遺伝的アルゴリズムで用いられる選択手法と違い，設計者から目的関数は与えられない．また，自然選択は次の3つの条件さえ満たされれば必ず作動する[11]．1)ある形質が個体間で異なること，2)その変異が遺伝すること，3) その変異が原因となって繁殖や生存に個体差が生じること．本研究では，この自然選択を用いることで目的関数を用いずに環境に適応可能なエージェントを創発する．図3.1: 自然選択

3.3 ニューラルネットワーク

ニューラルネットワークとは，生体システムにおける情報処理を数学的に表現しようとして考えられたモデルである．ニューラルネットワークは，形式ニューロンと呼ばれる素

(14)

子によって構成される．形式ニューロンの例を図3.2に示す．形式ニューロンは，他の多数の形式ニューロンi = 0, 1,...から入力信号xiを受け取る．ここで，各形式ニューロン同士の結合の強さを表す重みとしてwiを導入する．これらを用いて，形式ニューロンへの入力を式3.2のように定義する． u =∑ i wixi (3.2) また，形式ニューロンへの入力uは，微分可能な非線形活性化関数hを用いて式3.3のように変換され，形式ニューロンの出力であるzとなる．非線形活性化関数hには，一般にロジスティックシグモイド関数やtanh関数，ReLU関数などが用いられる． z = h(u) (3.3) 図3.2: 形式ニューロンニューラルネットワークの例を図3.3に示す．ニューラルネットワークは形式ニューロンによって構成されている．複数の形式ニューロンを伝播することによって最終的な出力となる．ニューラルネットワークの構成は，図3.3のように入力層，中間層，出力層の3層構造となる．また，ニューラルネットワークには中間層がさらに細かく層で分かれているモデルと層で分かれていないモデルが存在する．中間層がさらに細かく層で分かれているモデルで主に用いられる層には，全結合層と畳み込み層が存在する．以下で全結合層と畳み込み層について説明する．

(15)

図3.3: ニューラルネットワーク

3.3.1 全結合層

全結合層は，前の層のすべてのユニットとその次の層のすべてのユニットが接続されている層である．すべての層が接続されるため，非常に多くのパラメータを必要とするため，計算コストおよびメモリ使用量の大きさ等が問題となっている．

3.3.2 畳み込み層

畳み込み層は行列入力に対してフィルタを用いて畳み込み処理を行う層であり，主に画像認識や物体認識などに多く用いられる．畳み込み層における畳み込み処理の例を図3.4 に，畳み込み処理の手順を図3.5に示す．畳み込みニューラルネットワークにおける畳み込み処理は，入力の行列に対してフィルタを作用させることで行う．フィルタは入力行列よりも小さいサイズを持つH∗ Hの画像として用いる．また，その画素値をhpqとする．ここで，入力行列の画素をxij，出力行列の画素をyijとするとき，畳み込み処理の式は式 3.4のようになる．また，畳み込み処理の手順を可視化すると図3.5のようになる． yij = H_∑−1 p,q=0 xi+p,j+qhpq (3.4) 次に，畳み込み層の例を図3.6に示す．畳み込み層では一般に入力行列と出力行列は複数存在する．この各行列のことをチャネルと呼ぶ．ここで，入力に用いるチャネルのサイズがH∗ HでありK枚存在する場合，入力はH∗ H ∗ Kの画像とみなすことが出来る．ここで，入力画像の画素値をxkpqと表現する．また，出力のチャネルがM枚存在する場合，K枚の入力チャネルに対してそれぞれM枚のフィルタを用意し，フィルタと出力画像の画素値をそれぞれhkmpq，ymijとする．この場合，畳み込み層の処理の式は式3.5のようになる．また，畳み込み層での処理を可視化すると図3.6のようになる．この場合，入力画像の各チャネルにそれぞれ対応するフィルタで畳み込み処理をしたものの総和が出力

(16)

図3.4: 畳み込み処理

(17)

画像の1つの画素となる． ymij = K_∑−1 k=0 H_∑−1 p,q=0 xk,i+p,j+qhkmpq (3.5) 図 3.6: 畳み込み層

3.4 NeuroEvolution of Augmenting Topologies

本研究では，ニューラルネットワークにおける進化手法として， NeuroEvolution of

Argmenting Topologies (NEAT)を用いる[12]．NEATとは，遺伝的アルゴリズムを用い

てニューラルネットワークのノード間の重みと構造の最適化を行う手法である．NEATにおける遺伝子型と表現型を図3.7に示す．NEATでは，遺伝子としてネットワークのノードと結合の情報を持つ．ノードの情報として，ノードのID，ノードが入力層，隠れ層，出力層のどの層に属するのかの情報を持つ．結合の情報として，入力ノード，出力ノード，重みなどの情報を持つ．これらの情報から構成されたニューラルネットワークがNEATにおける表現型となる． NEATにおける突然変異を示したものを図3.8に示す．突然変異には，ノードの突然変異と結合の突然変異がある．ノードの突然変異では，ノードの追加・削除などがある．結合の突然変異では，結合の追加・削除に加え，結合の有効・無効の変更，重みの変化などがある． NEATにおける交叉を示したものを図3.9に示す．交叉では，どちらか一方のみが持つノードや結合はすべて子に受け継がれ，両方が持つノードや結合はある確率でどちらか一方のものが子に受け継がれる． NEATは，エージェントの毎行動ごとの評価を必要としない，行動の頻度や遅延報酬の影響を受けない，計算量が少ない，重みだけでなく構造ごと最適化出来るなどの特徴があるため，本研究で扱う問題において最適であると考えられる.

(18)

図3.7: NEATにおける遺伝子型と表現型[12]

(19)

(20)

3.5 Deep NeuroEvolution

本研究では，ニューラルネットワークにおける進化手法として，NEATとともにDeep

NeuroEvolutionを用いる．Deep NeuroEvolutionはDeep Neural Networkに

NeuroEvolu-tionを組み合わせた手法であり，Uber AI LabsのSuchらによって提案された[13]．NEAT

と異なり，Deep NeuroEvolutionはニューラルネットワークの重みのみを遺伝子として持

ち，構造の最適化は行わずに固定的な構造を用いる．ネットワークの構造に畳み込みニュー

ラルネットワークを用いて実験を行い，Atariなどの強化学習タスクにおいて深層強化学

習アルゴリズムであるDeep Q-NetworkやAsynchronous Advantage Actor-Criticに匹敵

する学習性能があることが示されている．

3.6 Global Average Pooling

Global average poolingは，従来の畳み込みニューラルネットワークに含まれる全結合層

において問題であった過学習を抑制する手法であり，Linらによって提案された[14]．従来

の畳み込みニューラルネットワークにおける全結合層とGlobal average poolingを図3.10

に示す．従来の畳み込みニューラルネットワークは，上位層において畳み込み層における

全てのチャンネルを1つのベクトルに変換することで平坦化を行い，全結合層を伝播する

ことによって特徴量を低次元のベクトルで表現していた．しかし，従来の手法は膨大な量のパラメータを用いるため，非常に多くのメモリを必要とする，学習の処理に大きな負荷がかかってしまう，過学習が発生する傾向があるなどの問題がある．

Global average poolingは，従来の手法を用いる代わりに畳み込み層における各チャン

ネルの全画素の平均値を求め，求めた平均値を次の層の各ユニットの値とする．これにより，従来の手法で必要であった全結合層における膨大な量の重みのパラメータが無くなる．図3.10の例では，3, 136∗ 128 = 401, 408個のパラメータが削減されることになる．これにより，多くのメモリが削減されるだけでなく，過学習が抑制される，学習の処理が従来の手法に比べて少なくなるなどの効果がある．また，画像認識に用いられるデータセットであるCIFAR-10を用いて学習を行った結果，従来の全結合層を用いた手法と比較して精度が改善されることが示されている[14]．

3.7 Unity

本研究では，Unityと呼ばれるゲームエンジンを用いてシミュレーションを行った．Unity はUnity Technologiesによって2005年から開発が進められているゲームエンジンであり，ウェブプラグイン，デスクトッププラットフォーム，携帯機器向けのコンピュータゲーム，シミュレーターの開発などに用いられ，100万人以上の開発者が使用している．Unityには

NVIDIAのPhysXと呼ばれる物理エンジンが搭載されており，物理演算をCPUで行う代

わりにCUDAが使用可能なGPUで行うことで，高速な演算が可能である．また，Unity

にはアセットストアと呼ばれる，3Dモデル，テクスチャ，マテリアル，パーティクルシ

(21)

[1]全結合層

[2]Global Average Pooling

図3.10: 全結合層とGlobal Average Poolingの比較

3.8 Life in Silico

Life in Silico(LIS)とは，株式会社ドワンゴ人工知能研究所が開発したオープンソースソフトウェアの汎用知能エージェント学習環境シミュレータである．LISの実行画面を図 3.11に示す．また，LISのアルゴリズムの概要を図3.12に示す．LISはゲームエンジンの Unityと，DQNやCNNといった機械学習開発環境をつなぎ，エージェントが自律的に学習する枠組みを提供している．LISはエージェントが行動する環境と，学習・エージェントの行動決定を行う部分に分かれている．エージェントにはフロントカメラや深度センサが搭載され，それらから取得された値が学習部分に渡される．また，学習部が渡された値からエージェントの行動を決定しUnityに渡されることで，Unityの環境上のエージェントが行動する．エージェントが行動することによって環境から報酬を得ることが出来る．このプロセスを繰り返すことにより，エージェントはより食物を得るように学習する．

(22)

(23)

第

4 章

提案手法

本研究では，目的関数を用いずに恒常性を持ち環境に適応可能なエージェントを開発する手法として，ニューラルネットワークにおける進化手法と自然選択を組み合わせる手法を提案する．この手法では，目的関数の代わりに，自然選択の資源に対する種間競争の過程において有利な変異は保存され，不利な変異は排除されるという仕組みを用いる．これにより，観測者がエージェントの目的を目的関数としてモデル化することなく，環境に適応可能なエージェントを開発することが可能となる．以下，本研究で用いる環境とエージェントについて述べる．環境の説明では，主にエージェントを含めた環境に存在する資源の流れやエージェントの状態について述べる．エージェントの説明では，エージェントの学習や行動決定について述べる．

4.1 環境

本研究で用いる環境の概要を図4.1に示す．環境は，UnityのRealistic Nature

Environ-mentというアセットを用いて構築した．環境には，エージェントが生存において必要とする資源が存在する．また，資源の量が無限であることにより種間競争が起こらず自然選択が発生しないこと，選択圧の変動により学習が不安定になることを避けるために，エージェントの持つ資源の量を含め環境に存在する資源の量を固定する．エージェントは，自身の内部状態である生理学的状態と外界から取得した状態である知覚状態の2種類の状態を持つ．生理学的状態は，内部状態として自身の持つ資源のレベルとし，エネルギーレベルと呼ぶ．知覚状態は外界から取得した状態として，エージェントに搭載されたカメラでエージェントの前方を撮影した画像となる．また，この2つを組み合わせたものがエージェントの動機付け状態となる．エージェントは，資源に触れることで自身のエネルギーレベルを0.2増加させる．また，エージェントのエネルギーレベルが-1.0以上の時にそのエージェントが生存していると定義し，エネルギーレベルが-1.0未満のエージェントは環境から消去される．エージェントのエネルギーレベルは各ステップごとに0.01消費される．エージェントが消費した資源は養分として環境に還元され，環境に還元された養分の総量が0.2以上になった際に環境に資源として出現し，環境が持つ養分が0.2減少する．こうすることでエージェントを含めた環境に存在する資源の総量を一定に保つことが可能となる．

4.2 エージェント

エージェントを図4.3に示す．エージェントは水色でカプセルの形状をしている．エージェントの中心には前方を撮影するフロントカメラが搭載されている．エージェントは，

(24)

(25)

遺伝子として持つニューラルネットワークにより行動を決定する．ニューラルネットワークへの入力は，生理学的状態であるエネルギーレベルと知覚状態である画像である．また，出力層の各ユニットはエージェントの各行動（左回転，右回転，前進）に対応しており，最も高い値を出力したユニットに対応する行動を選択する．

図4.3: エージェント

本研究では，ニューラルネットワークにおける進化手法としてNEATとDeep

NeuroEvo-lutionを用いる．しかし，遺伝的アルゴリズムのように目的関数として適応度を用いる選択は行わずに，自然選択を用いる．交配は，エージェント同士が触れ合った際に両エージェントのエネルギーレベルが0以上の場合に行われる．交配によって新しく子となる2体のエージェントが生成され，子となるエージェントは親となる2体のエージェントからエネルギーを1/4ずつ受け取る．交配では通常の進化手法と同じように遺伝子の交叉を行い，新しく生まれたエージェントにその遺伝子が受け継がれる．また，新しい個体が生まれた際に一定の確率で各進化手法に沿った突然変異が発生する．これにより，自然選択が発生する条件である，1)ある形質が個体間で異なること，2)その変異が遺伝すること，3)その変異が原因となって繁殖や生存に個体差が生じることの3つの条件を満たすことが可能となる．エージェントのコントローラの概要を図4.4に示す．エージェントのテクスチャにはLIS と同様のものを用いた．NEATを用いたエージェントによる実験では，ネットワークの構造の初期状態として，入力層のユニットと出力層のユニットのみ用意し，すべての入力ユニットとすべての出力ユニットが接続されている状態とする．また，Deep NeuroEvolutio を用いるエージェントによる実験では図4.5に示すネットワークを用いる．知覚状態であ

る視覚画像は2層の畳み込み層を伝播した後，Global average poolingによって16個のユ

ニットに変換される．視覚画像は図4.6のような画像となる．また，生理学的状態である

エネルギーレベルは16個のユニットへ全結合層によって接続され，知覚状態から伝播さ

(26)

れる．また，全ての層の活性化関数にはReLU関数を用いた．図4.4: コントローラ図4.5: 畳み込み処理の手順

4.3 評価方法

本研究で提案する手法では，通常遺伝的アルゴリズムなどの進化計算で用いられる適応度などの目的関数を利用しない．目的関数を利用しない理由は，フレーム問題の本質である無限に存在するものを記号化する際に無限に時間を要するという問題から，生物学的エージェントとしての無限に存在する目的を記号化することは不可能であると考えたためである．そのため，本研究で用いる手法にも絶対的な評価を行うことが出来ない．しかし，

(27)

図4.6: コントローラに入力される画像の例 1つ目の指標として，エージェント群として保持するエネルギーの総量を用いる．本手法では，エージェントは自身の減少し続けるエネルギーレベルに対して環境に存在する資源を得ることにより生存し，繁殖することが可能となる．そのため，進化によって環境に適応することでより多くのエージェントが自身の生理学的状態を安定化させるためにより多くのエネルギーを保持するようになると考える．よって，1つ目の指標として，エージェント群として保持するエネルギーの総量を用いる． 2つ目の指標として，一般に生物学において用いられる適応度を用いる．生物は，進化を通じて生物個体が生育環境にどれくらい適応しているかを示す数値となる適応度を最大化していると考えられている[15]．今回，tステップ目におけるエージェント群の適応度として「tからt+199ステップ目までの200ステップの間に出現したエージェントの数× 平均生存時間」を用いる．この適応度を用いて，エージェント群が生物として繁栄していく能力の評価を行う．よって，1つ目の指標として，生物学的な適応度を用いる．

(28)

第

5 章

NEAT

を用いたエージェントによる

実験

本研究で提案する手法を用いることで，目的関数を用いることなく恒常性を持ち環境に適応可能な人工生命が創発されることを検証するため，Unityを用いたシミュレータ上に環境を構築し，実験を行なった．実験では，平地における実験，高低差がある地形における実験，高低差だけでなく草木や岩などがある地形における実験という3種類の難易度の環境において実験を行い，評価を行なった．本章では，NEATを用いたエージェントによる実験を行う．

5.1 平地における実験

平地の環境として用いる環境を図5.1，図5.2に示す．フィールドの大きさは 700× 700[m2]であり，芝生のテクスチャで覆われている．エージェントがフィールドの外に出ることを防ぐために，フィールドの四方は透明な壁で覆われている．環境には赤色で球状の餌が存在する．また，初期状態として1000個の資源と400体のエージェントが環境全体にランダムな位置に配置される．また，エージェントの初期状態としてエネルギーレベルに0を設定する．エージェントが餌に触れることでエージェントのエネルギーレベルが0.2増加し，餌が環境から消去される．エージェントのエネルギーレベルは各ステップごとに0.01減少する．環境全体として持つエネルギーの量を固定するために，エージェントが消費したエネルギーは環境に還元される．また，環境が持つエネルギーの量が0.2以上になるごとに環境のランダムな位置に餌が配置され，環境が持つエネルギーの量は0.2 減少するされる．この環境において実験を行い，環境に存在するエネルギー量のうちエージェントが保持するエネルギーの総量を求め，評価を行った．

5.1.1 結果

実験の結果を図5.3，図??に示す．図5.3はエージェントが保持するエネルギーの総量の時系列の変化を表している．初期はエージェントの保持するエネルギーの総量が約180 から120程度まで大幅に減少したことが分かる．また，時間の経過とともにエージェントが保持する資源の総量が160程度まで増加することが分かる．図5.4はエージェント群の適応度の時系列の変化を表している．適応度は開始してから5度ほど約40000程度まで減少しているが，資源の総量と同様に徐々に増加していることが分かる．

(29)

図5.1: 平地として用いる環境（真上からの視点）

(30)

(31)

5.1.2 考察

図5.3から，初期にエージェントの保持するエネルギーの総量が約180から120程度まで大幅に減少したことが分かる．また，時間の経過とともにエージェントの保持するエネルギーの総量が増加することが分かる．また，図??から，初期に出現したエージェントと比較して終盤に出現したエージェントの方が適応度が高いことが分かる．これらの結果から，エージェントに，自身の減少し続けるエネルギーに対して餌を取得することでエネルギーレベルを安定化させる生存能力や，十分なエネルギーを取得している状態で他のエージェントと触れ合い交配を行うことによる子孫を残す繁殖能力が時間の経過とともに上昇していることが分かる．これは，時間の経過とともに突然変異と自然選択によってエージェントの生存能力や繁殖能力が高くなったことが考えられる．本実験では，エージェントに報酬関数などの目的関数を与えていない．しかし，エージェントは自身の減少し続けるエネルギーレベルに対して，視覚情報から餌を取得することで恒常性を維持し，交配することで群として成長可能なことを示せた．以上のことから，平地の環境において，エージェントは目的関数を用いずに自然選択によって恒常性を持ち環境に適応可能であることが示せた．

5.2 高低差がある地形における実験

高低差がある地形の環境として用いる環境を図5.5，図5.6に示す．フィールドは5.1で用いたフィールドに高低差を付けたものを用いる．5.1と同じく初期状態として1000個の餌と400体のエージェントがフィールドにランダムに配置される．エージェントが前進する場合，坂の角度の緩急はエージェントが進む距離には影響は無い．この環境において実験を行い，環境に存在するエネルギー量のうちエージェントが保持するエネルギーの総量を求め，評価を行った．

5.2.1 結果

実験の結果を図5.7，5.8に示す．図5.7はエージェントが群として保持するエネルギーの総量の時系列の変化を表している．初期状態から約6000ステップ目までエージェントの群として保持するエネルギーの総量が約200から90ほどまで大幅に減少していることが分かる．また，その後3回ほど約80まで大幅に減少しつつも増加を続け，約130まで上昇し安定していることが分かる．また，図5.8はエージェント群の適応度の時系列の変化を表している．エージェント群として徐々に適応度が上昇していることが分かる．しかし，エージェントが群として保持する資源の総量，適応度ともに5.1での実験の結果と比較し低い値となっている．

5.2.2 考察

図5.7から，初期にエージェントの保持するエネルギーの総量が約90程度まで大幅に下がっている．これは5.1での実験の初期と比較し，30ほど低い値となっている．また，5.1

(32)

(33)

図5.7: 5.2での実験におけるエージェント群が保持するエネルギーの総量の時系列な変化

(34)

での実験と比較し，エージェントの保持するエネルギーの総量の増加の速度が遅くなっている．また，図5.8より，適応度においても5.1での実験の結果と比較して低い値となっている．これらは，5.1での実験と比較して適応することが困難な環境になっているためだと考えられる．今回用いた環境は5.1で用いた環境に高低差をつけた環境となるため，自分自身よりも高い位置，もしくは低い位置にある餌も餌として認識する必要がある．また，認識するだけでなく，認識した位置に向かう行動を選択しなくてはいけない．また，隆起した地形が視界を塞ぎ，近くに餌があっても認識出来なくなる場合がある．そのため，エージェントが認識しにくい窪んだ地形などに資源が集中し，その地形以外の場所の空間に対する資源の密度が低くなることが考えられる．以上より，今回用いる環境は5.1で用いた環境に比べ，適応しにくい地形であると考えられるため，5.1における実験と比較してエージェント群として保持する資源の総量，適応度ともに低い値となっていると考えられる．しかし，このような困難な環境であっても時間の経過とともにエージェントの保持するエネルギーの総量が増加していることが分かる．よって，高低差がある環境において，エージェントは自身の減少し続けるエネルギーレベルに対して，視覚情報から餌を取得することで恒常性を維持し，交配することで群として成長可能なことを示せた．

5.3 草木・岩が存在する地形における実験

高低差がある地形の環境として用いる環境の全体像を図5.9，図5.10に示す．また，環境の詳細を表す図として環境中に配置したエージェントの位置と視界の範囲を図5.11に，各エージェントの視界の生画像を図5.12に示す．フィールドは5.2で用いたフィールドに草木・岩を配置したものを用いる．初期状態として1000個の餌と400体のエージェントがフィールドにランダムに配置される．木や岩はエージェントの視界を遮るだけでなく，衝突判定があるため障害物となる．この環境において実験を行い，環境に存在するエネルギー量のうちエージェントが保持するエネルギーの総量を求め，評価を行った．

5.3.1 結果

実験の結果を図5.13，図5.14に示す．図5.13はエージェントが群として保持するエネルギーの総量の時系列の変化を表している．初期状態から約5000ステップ目まで資源の総量が約200から0付近まで大幅に減少していることが分かる．また，その後約50程度まで上昇するが，その後再度減少し，18000ステップ目付近で0になり，エージェントが絶滅していることが分かる．また，図5.14より，エージェント群の適応度もまた大幅に減少した後上昇するが再度大幅に減少し，約18000ステップ目で0になっていることが分かる．

5.3.2 考察

図，図より，エージェント群が保持する資源の総量，適応度ともに大幅に減

(35)

図5.9: 草木・岩が存在する地形として用いる環境（真上からの視点）

(36)

図5.11: 各エージェントの視界

[1]1のエージェントの視点 [2]2のエージェントの視点

(37)

(38)

とが分かる．これは，5.2の環境と比較してさらに適応することが困難な環境になっているためだと考えられる．今回用いた環境は5.2で用いた環境に草木や岩などが追加された環境となるため，5.2で用いた環境に比べて視界を遮る物体が多くなっている．そのため，エージェントはより資源を認識することが困難になる．また，木と岩には衝突判定があるためエージェントの障害物となっており，エージェントは木と岩を避けつつ資源を得る行動を獲得しなければいけない．以上より，今回用いる環境は5.2で用いた環境に比べ，適応しにくい地形であると考えられる．よって，草木・岩が存在する環境において，NEAT を用いたエージェントは環境における資源の総量を本実験で用いた量に設定した場合，環境に適応出来ないことを示した．

(39)

第

6 章

Deep NeuroEvolution

を用いた

エージェントによる実験

6.1 平地における実験

6.1.1 環境

平地の環境として，5.1節での実験で用いた環境と同じ環境を用いる．また，初期状態として5.1節と同様に1000個の資源と400体のエージェントが環境全体にランダムな位置に配置されている．この環境において実験を行い，環境に存在するエネルギー量のうちエージェントが保持するエネルギーの総量，適応度として各ステップにおける産子数×生存時間を用いて評価を行なった．

6.1.2 結果

実験の結果を図6.1，図6.2に示す．図6.1はエージェント群が保持する資源の総量を示しており，図6.2はエージェント群の適応度を示している．図6.1では，エージェント群が保持する資源の総量が初期に130程度まで減少した後，210程度まで上昇していることが分かる．また，5.1節のNEATを用いたエージェントによる実験と比較して高い数値となっており，エージェントの資源を得る力がNEATを用いたエージェントと比較して高いことが分かる．

6.1.3 考察

エージェント群が保持する資源の総量また適応度ともに5.1節のNEATを用いたエージェントによる実験と比較して最終的に高い数値となった理由として，2つの理由が考えられる．1つ目に，NEATはネットワークの構造の初期状態として中間層が存在しないのに対し，Deep NeuroEvolutionでは中間層にCNNという深層学習の分野でも高い精度を出す構造を用いているため，NEATで用いた初期の構造からCNNほどの精度を出すことが可能な構造を創発することが困難であることが考えられる．2つ目に，Deep NeuroEvolution に対してNEATは突然変異に関する重要なパラメータが多く存在するため，それらのパラメータの調整が失敗している可能性が考えられる．また，5.1節での実験の結果に対して今回の実験では，エージェントの資源の総量が安定して上昇していることが挙げられる．こちらもまた，NEATが重みだけでなく構造の最適化を同時に行うことに対してDeep NeuroEvolutionは重みのみの最適化を行うため，より安定した進化が可能となったことが考えられる．

(40)

(41)

6.2 高低差がある地形における実験

6.2.1 環境

高低差がある環境として，5.2節の実験で用いた環境と同じ環境を用いる．また，初期状態として5.2節での実験と同様に1000個の資源と400体のエージェントが環境全体にランダムな位置に配置されている．この環境において実験を行い，環境に存在するエネルギー量のうちエージェントが保持するエネルギーの総量，適応度として各ステップにおける産子数×生存時間を用いて評価を行なった．

6.2.2 結果

実験の結果を図6.3，図6.4に示す．図6.3はエージェント群が保持する資源の総量を示しており，図6.4はエージェント群の適応度を示している．図6.3では，エージェント群が保持する資源の総量が初期に70程度まで減少した後，160程度まで上昇していることが分かる．また，5.2節のNEATを用いたエージェントによる実験と比較して初期は低い数値となっているが，最終的には高い数値となっていることが分かる．また，エージェント群として適応度についても，5.2節の実験における結果と比較して早期に高い数値を示していることが分かる．図6.3: 6.2での実験におけるエージェント群が保持するエネルギーの総量の時系列な変化

(42)

図6.4: 6.2での実験におけるエージェント群の適応度の時系列な変化

6.2.3 考察

6.1節での結果と同様に，5.2節のNEATを用いたエージェントによる実験の結果と比較し，早期に高い数値を示していることが分かる．これにより，エージェントの生存，繁殖する力がNEATを用いたエージェントと比較して高いことが分かる．

6.3 草木・岩が存在する地形における実験

6.3.1 環境

平地の環境として，5.3節の実験で用いた環境と同じ環境を用いる．また，初期状態として5.3節と同様に1000個の資源と400体のエージェントが環境全体にランダムな位置に配置されている．この環境において実験を行い，環境に存在するエネルギー量のうちエージェントが保持するエネルギーの総量，適応度として各ステップにおける産子数×生存時間を用いて評価を行なった．

6.3.2 結果

実験の結果を図6.5，図6.6に示す．図6.5はエージェント群が保持する資源の総量を示しており，図6.6はエージェント群の適応度を示している．図6.5では，エージェント群

(43)

(44)

6.3.3 考察

5.3節でのNEATを用いたエージェントによる実験では絶滅してしまったが今回の実験では絶滅せずに，エージェント群が保持するエネルギーの総量，適応度ともに初期に大幅に減少した後大幅に上昇している．よって，草木・岩が存在する環境において，エージェントは自身の減少し続けるエネルギーレベルに対して，視覚情報から資源を取得することで恒常性を維持し，交配することで群として成長可能なことを示せた．

(45)

第

7 章

結言

7.1 まとめ

本研究では，生物学的エージェントの目的を目的関数として定式化することによって，本来無限に存在する生物学的エージェントとしての目的を有限に制限してしまうという問題に対し，自然選択によって目的関数を用いずに恒常性を持ち環境に適応可能な人工生命を開発することを目指した．我々のエージェントが自身の減少し続けるエネルギーレベルに対して，視覚情報から餌を取得することで恒常性を維持し，交配することで群として適応可能なことを示した．また，平地だけでなく高低差がある環境，草木や岩などが存在する地形においてもエージェントが適応可能なことを示した．

NEATとDeep NeuroEvolutionとの比較では，Deep NeuroEvolutionを用いたエージェントの方がより適応度またエージェントの保持する資源の総量ともに高い数値となる結果となるだけでなく，より安定した進化が可能であることを示した．

7.2 今後の方針

本研究で用いたエージェントはカプセルの形状をしており，エージェントが選択可能な行動は左回転，右回転，前進の3種類であった．形状と行動ともに設計者によって与えられた固定的なものとして扱われていること，グループ化された大まかな行動であることから，エージェントの形状や選択可能な行動は大きく制限されている．そのため，本研究で用いた手法を拡張し，ニューラルネットワークだけでなくエージェントの形状や選択可能な行動をエージェントの遺伝子として持ち進化を行うことで，より環境に適応可能なエージェントを開発出来る可能性がある．

(46)

謝辞

本研究を進めるにあたり，研究内容やその方針に関するご指導を頂いた公立はこだて未来大学システム情報科学部複雑系知能学科三上貞芳教授に心から感謝いたします．また，

(47)

参考文献

[1] 海谷啓之,中山実,ホメオスタシスと適応,裳華房, 2016.

[2] Ashby W. R., Design for a Brain, Springer Science and Business Media., 1960. [3] Pfeifer, R., and Scheier, C., Understanding intelligence, MIT Press, 1999.

[4] Doya K., Uchibe E., The cyber rodent project: Exploration of adaptive mechanisms for self-preservation and self-reproduction, Adaptive Behavior, 13, 2, 149-160 [5] Keramati M. Gutkin B. S., A reinforcement learning theory for homeostatic

regula-tion, In Advances in neural information processing systems, 82-90, 2011.

[6] Yoshida N, Homeostatic Agent for General Environment, Journal of Artificial Gen-eral Intelligence, 8, 1, 1-22, 2017.

[7] Keramati M., Gutkin B. S., Homeostatic reinforcement learning for integrating re-ward collection and physiological stability, Elife, 3, 2014.

[8] Konidaris, G. D., An Adaptive Robot Motivational System, From Animals to Ani-mats, 9, 346-356, 2006.

[9] 嶋田正和,山村則男,粕谷英一,伊藤嘉昭,動物生態学,海游舎, 2005. [10] Darwin C.,堀伸夫(訳), 堀大才(訳),種の起源,槇書店, 1988.

[11] 日本生態学会,生態学入門,株式会社東京科学同人, 2012.

[12] Kenneth O. Stanley, Evolving Neural Networks through Augmenting Topologies, Evolutionary Computation, 10, 2, 9-127, 2002.

[13] Petroski Such, F., Madhavan, V., Conti, E., Lehman, J., Stanley, K. O., and Clune, J., Deep neuroevolution: Genetic algorithms are a competitive alternative for train-ing deep neural networks for reinforcement learntrain-ing, arXiv preprint to appear, 2017. [14] Min Lin., Qiang C., Shuicheng Y., Network In Network, Cornell University Library,

arXiv preprint to appear, 2014.

[15] 森裕司,武内ゆかり,内田佳子,動物行動学―獣医学共通テキスト編集委員会認定,イ

(48)

図目次

2.1 2次元恒常性空間のモデル[7] . . . . 3 2.2 優先度曲線[8] . . . . 4 2.3 モチベーションシステムの概要[8] . . . . 5 2.4 ネットワーク構成[6] . . . . 6 2.5 Yoshidaが用いた環境[6] . . . . 7 3.1 自然選択 . . . . 9 3.2 形式ニューロン . . . 10 3.3 ニューラルネットワーク . . . 11 3.4 畳み込み処理 . . . 12 3.5 畳み込み処理の手順 . . . 12 3.6 畳み込み層 . . . 13 3.7 NEATにおける遺伝子型と表現型[12] . . . 14 3.8 突然変異[12] . . . 14 3.9 交叉[12] . . . 15

3.10 全結合層とGlobal Average Poolingの比較 . . . 17

3.11 Life in Silico . . . 18 3.12 アルゴリズムの概要 . . . 18 4.1 概要 . . . 20 4.2 資源の循環 . . . 20 4.3 エージェント . . . 21 4.4 コントローラ . . . 22 4.5 畳み込み処理の手順 . . . 22 4.6 コントローラに入力される画像の例 . . . 23 5.1 平地として用いる環境（真上からの視点） . . . 25 5.2 平地として用いる環境（斜め上からの視点） . . . 25 5.3 5.1での実験におけるエージェント群が保持するエネルギーの総量の時系列な変化 . . . 26 5.4 5.1での実験におけるエージェント群の適応度の時系列な変化. . . 26 5.5 高低差がある地形として用いる環境（真上からの視点） . . . 28 5.6 高低差がある地形として用いる環境（斜め上からの視点） . . . 28 5.7 5.2での実験におけるエージェント群が保持するエネルギーの総量の時系列

(49)

5.8 5.2での実験におけるエージェント群の適応度の時系列な変化. . . 29 5.9 草木・岩が存在する地形として用いる環境（真上からの視点） . . . 31 5.10 草木・岩が存在する地形として用いる環境（斜め上からの視点） . . . 31 5.11 各エージェントの視界 . . . 32 5.12 草木・岩が存在する地形として用いる環境（エージェント視点） . . . 32 5.13 5.3での実験におけるエージェント群が保持するエネルギーの総量の時系列な変化 . . . 33 5.14 5.3での実験におけるエージェント群の適応度の時系列な変化. . . 33 6.1 6.1での実験におけるエージェント群が保持するエネルギーの総量の時系列な変化 . . . 36 6.2 6.1での実験におけるエージェント群の適応度の時系列な変化. . . 36 6.3 6.2での実験におけるエージェント群が保持するエネルギーの総量の時系列な変化 . . . 37 6.4 6.2での実験におけるエージェント群の適応度の時系列な変化. . . 38 6.5 6.3での実験におけるエージェント群が保持するエネルギーの総量の時系列な変化 . . . 39 6.6 6.3での実験におけるエージェント群の適応度の時系列な変化. . . 39

自然選択による恒常性を持つ人工生命の創発