人工知能から自然知能へ：自然に潜む計算能力の活用

(1)

人工知能から自然知能へ：自然に潜む計算能力の活用

金

成主

†a)

_成瀬

_誠

††

_青野

_真士

†††,††††

From AI to Natural Intelligence: Harnessing the Computational Power of Nature

Song-Ju KIM

†a)

, Makoto NARUSE

††

, and Masashi AONO

†††,††††

あらまし我々は先行研究において，意思決定問題を物理的に解く新しい計算原理である「綱引き原理」を提案した．本研究では，無線通信におけるチャネル割当ての全体最適解の計算を，「ユーザ内意思決定」と「ユーザ間相互作用」を表現する綱引き原理の導入により物理的に実現できることを示す．そこでは，複数のシリンダ内の二種類の流体のダイナミックスが利用される．この「全体最適意思決定装置」を使うことにより，膨大な計算コストが要求される評価値の計算を流体の物理プロセスに委ねることができ，高々ユーザ数に比例したコストを要する操作(シリンダ内の流体界面の上下運動) を繰り返すだけで，全体最適解を得ることができる．これは，自然現象の揺らぎ，保存則，アナログ性から，知的能力を引き出す新しい試みである．キーワード自然計算，人工知能，多本腕バンディット問題，意思決定

1. まえがき

文明が高度に発達したように見える現代においても，国家間，コミュニティ間，個人間における対立は絶えない．対立が生じてくるのは，自分や自分が代表するコミュニティの利益を最大化しようとする自他の非対称性，すなわち，他者が自分と同じ存在であることを認めようとしない非対称性からである．理想的には，この非対称性を人々の意識改革により解決できることが望ましいが，現実的には非常に難しい．対立は部分最適と全体最適の不一致からも作り出される．全体最適は，必ずしもいつも部分最適の総和として得られるわけではない．例えば，交差点で信号が間もなく †_{国立研究開発法人物質・材料研究機構国際ナノアーキテクトニク} ス研究拠点，つくば市

WPI Center for Materials Nanoarchitectonics (MANA), Na-tional Institute for Materials Science (NIMS), 1–1 Namiki, Tsukuba-shi, 305–0044 Japan

††_{国立研究開発法人情報通信研究機構，小金井市}

National Institute of Information and Communications Technology, 4–2–1 Nukui-kita, Koganei-shi, 184–8795 Japan

†††_{東京工業大学地球生命研究所，東京都}

Earth-Life Science Institute, Tokyo Institute of Technology, 2–12–1 Ookayama, Meguro-ku, Tokyo, 152–8550 Japan

††††_{独立行政法人科学技術振興機構さきがけ，川口市}

PRESTO, Japan Science and Technology Agency, 4–1–8 Honcho, Kawaguchi-shi, 332–0012 Japan

a) E-mail: [email protected] 赤に変わりそうな状況を考えよう．ここで，先行する車両が進路に停滞しているにもかかわらず，停止することなく直進しようとする車は，目的地により速く到着したいという個の利益を追求する意思決定をしている．この車が交差点の東西方向の中央に停滞するせいで，南北方向の青信号を直進しようとする他の車(他者)の進行が妨害される．こうして，個の利益を追求した利己的な意思決定により，全体の利益が損なわれる．そればかりか，道路はつながっているので，こうして作り出された南北方向の停滞が，回り回って東西方向の道路の他所の新たな停滞を生み出す．全体の不利益は，利己的な恩恵にあずかれると判断した個の利益すらも損なう皮肉な結果を招き得るのだ．こうした個と全体の利益の対立は，交通渋滞のみならず，よりスケールの大きな様々な場面において立ち現れる深刻な問題である．このような対立を「技術開発」により最小化することは可能だろうか？例えば，日本では昔から水田に引く水の奪い合いが絶えなかった．いわゆる「我田引水」問題である．しかし，水源に水田面積に応じて水分配量を自動的に決定する「円筒分水」という装置が設置され，この問題が見事に解決された事例がある．ここでポイントとなるのは，自然現象を活用することで全体最適性と公平性がともに達成されたことである．人工システムでは，それが誰かに有利になるように人為

(2)

的に作られた疑いを払拭しきれない．しかし，もし自然現象の活用により全体最適性と公平性が保証される技術を開発できれば，人々はそれに従うことを受け入れ，対立の最小化につながるのではないだろうか？現実的な政治判断の場面では，近年，部分最適と全体最適の対立の調停にゲーム理論を応用するアプローチが注目を浴びており，利得マトリックスを適切に設定することで，多くの状況を数学的にモデル化できることが示されている[1]．本研究で我々が扱うコグニティブ無線のチャネル割当て問題も，ある特殊な利得マトリックスとして表現できる．本論文では，限定されたある種のゲームにおいては，全体最適を高速に導出できる装置が存在することを示す．この装置は，「綱引き原理」と呼ぶ，体積保存則を満たす流体のダイナミックスを想定しているため，複数のシリンダ内の二種類の非圧縮性流体を用いた表現になっているが，必ずしも流体を使わなくても実装可能な「装置概念」である．この装置のことを，第2次世界大戦中にイギリス軍がドイツ軍のエニグマ暗号を解読するためにアナログ電気回路を用いて開発した「チューリングボムべ」と呼ばれる装置との類似性から，「綱引きボムベ」と呼ぶことにする．綱引きボムベを使うことで，NチャネルのM人の割当て問題に対して，毎時刻O(NM)の評価値を計算することなく，M回の操作（シリンダ内の流体界面の上下運動）を繰り返すだけで，自動的に全体最適な割当てが導出される．このことは，今日においても，アナログ計算がデジタル計算より有利となる状況が存在し得ることを示唆している．つまり，「自然現象を活用」することでデジタル計算における計算量爆発を抑えることが可能となる．このようにデジタル計算にはない新たな計算能力，計算原理を自然現象から探し出して活用することを我々は「自然知能」と呼んでいる．人工知能はデジタル計算機上で走るアルゴリズムとして想定されているのに対して，我々の自然知能アプローチは自然現象をダイレクトに利用したアナログ計算であり，1）揺らぎの活用，2）保存則の活用，3）アナログ性の活用などがある．本研究では自然がもつ上記三つの性質を活用して意思決定問題を効率的に解く「知的能力」を引き出すことができることを示す．意思決定問題の本質を捉える状況として，二つのスロットマシンAとBを考える．各マシンはそれぞれ独立な報酬確率PA及びPBをもっている．各試行において，プレイヤーは一つのマシンを選択し，ある特定の報酬確率によって，報酬（例えばコイン一枚）を得る．報酬確率を知らないプレイヤーは，どのような戦略でプレイすれば報酬量を最大化できるであろうか？これが多本腕バンディット問題（BP）である．我々は先行研究において[2]∼[14]，我々が提案した「綱引きモデル」が改良型-greedyアルゴリズムや改良型 softmaxアルゴリズムのような他の有名なアルゴリズムより効率的で，パラメタがないアルゴリズムの中の最良のアルゴリズムとして知られているUCB1-tuned アルゴリズム[15]にその効率性が匹敵することを示した．更に，綱引きモデルは，報酬確率がダイナミックに変化する環境にも素早く適応することも示した．なお，このBPは数学の基礎問題であるため，コグニティブ無線[16], [17]，モンテカルロ木探索，コンピュータ囲碁[18], [19]，ウェブ広告[20]など，様々な応用に適用可能である．コグニティブ無線は，モバイル通信分野での最新のトピックの内の一つで，その基本的な考え方は，有ライセンスユーザ（つまり主要なユーザ）が活動的でない場合，無ライセンスユーザ（コグニティブユーザ）がチャネルにアクセスすることを許可することで，資源を有効に活用することである．（コグニティブユーザは有ライセンスユーザの通信を決して邪魔してはいけない．）無線通信においては新たにまとまった周波数帯域を確保することは既に困難な状況なので，最近，この分野が特に注目されている．図1に，Laiらによって提案されたチャネル・モデルを示す[16], [17]．各々帯域幅がBのNチャネルから成るネットワークを考える．ネットワーク中のユーザは同期的なタイムスロット方式で操作される．各時間スロットにおいて，無ライセンスのユーザは，チャネルiが確率Piで自由に使えると仮定されている．つまり，有ライセンスのユーザによって使用されていない確率がP_iである．無ライセンスのユーザはP_iを事前図 1 チャネル・モデル Fig. 1 Channel model.

(3)

に知らない．各時間スロットで，コグニティブユーザは，ある特定のチャネルを観測することにより，ネットワーク中のチャネルが使えるかどうかを調べる．この設定では，一人のコグニティブユーザはどの時刻にも一つのチャネルだけにアクセスすることができる．問題は，コグニティブユーザの期待スループットを最大化する，チャネルのアクセス戦略を引き出すことである．この状況は，競合的BP (Competitive BP)と等価である．簡単のため，最小のCBP（つまり二人のコグニティブユーザ，二本のチャネルAとB）を考えてみる．チャネルはそれぞれ確率Piで有ライセンスユーザによって使用されない．つまり，BPの文脈では，コグニティブユーザがチャネルiにアクセスした場合，確率P_i で報酬(例えばコイン一枚)を得ると考える．表1に，ユーザ1と2のペイオフ行列を示す．二人のコグニティブユーザが同じチャネルを選択する場合（衝突），報酬確率は半分になる（実際にはどちらか一人が利用する）．一般的なM人の場合には報酬確率が1/Mになる．

コグニティブMAC (Medium Access Control)のプロトコル開発のためには，BPの文脈の中で，全ユーザの合計報酬量(スコア)が最大となるアルゴリズムを求めなければならない．そのためには，個々の利己的な戦略による帰結である「ナッシュ均衡解」を避けることが求められる．本研究では，「綱引き原理」と呼ぶ，体積保存則を満たす「物の動きによる効率化」を利用したダイナミックスを「ユーザ内意思決定」と「ユーザ間相互作用」に適用することで，複数のシリンダ内の二種類の流体ダイナミックスにより，全体最適解のチャネル割当てを集中制御方式で計算する「全体最適意思決定器」を構築し，この装置が，膨大な計算資源を要する評価値の計算を流体の物理プロセスに委ね，毎時刻M回（ユーザ数）の操作（シリンダ内の流体界面の上下運動）を繰り返すだけで，全体最適な割当てが自動的に導出されることを示す．表 1 ユーザ 1（ユーザ 2）に対するペイオフ行列 Table 1 Payoﬀ matrix for user 1 (user 2).

user 2: A user 2: B user 1: A PA/2 (PA/2) PA(PB) user 1: B PB(PA) PB/2 (PB/2)

2. 綱引き原理

BPを解くことができる多くのアルゴリズムでは，各マシンの報酬確率に対する見積りを計算する．ほとんどの場合，ある特定のマシンをプレイしたときに限り，そのマシンの見積りだけが更新される．それとは対照的に，我々が提案した綱引きモデルでは，プレイするマシンに関係なく，「全ての」見積りが同時に更新されるアルゴリズムと等価な学習則を使用する[6], [7]．つまり，時刻tでプレイしなかったとしても，全てのマシンが時刻tで同時にプレイされたように見積りが更新され，時刻t + 1でマシンを選択する際に，全てのマシンの最新の見積りを参照するアルゴリズムを模倣することができる．このユニークな学習則の特徴が，綱引きモデルの高効率性の起源の一つである．我々は先行研究において，学習則の利点を直接使用する「固体版」綱引きモデルを提案した．この単純なモデルが「高効率な計算原理」を端的に示している[13]．ここでは図2aに示すようなシリンダ内の液体を考える．ここで，基準線からの変位をXk（k ∈ {A, B}）とし，Xkが0を超える場合，固体がマシンkを選択するとみなす．報酬があった場合，+1がXkに加図 2 (a)綱引き原理，(b) 綱引きボムベ（3 ユーザ 5 チャネル）

Fig. 2 (a) TOW principle, (b) TOW Bombe (3 users and 5 channels).

(4)

えられ，無報酬の場合には，−ωがXkに加えられる（図2a）．これは，マシンAを選んで，もし報酬があれば液体が手前側にシフトし，報酬がなければ奥側にシフトすることを意味する．変位XB(=−XA)は，次の式によって決定される． XB(t + 1) = QB(t) − QA(t) + δ, (1) Qk(t) = Nk(t) − (1 + ω)Lk(t). (2) ここでδは任意の揺らぎである．Nk(t)は時刻tまでにマシンkをプレイした回数で，Lk(t)はマシンkでの無報酬の回数である．ωはパラメタである．このような「物体の単純な動き」によって意思決定するだけで，既存のアルゴリズムよりも高効率（より多くの報酬量を得る）な意思決定ができることを「綱引き原理」は保証している[13]．つまり，「綱引き原理」は，揺らぎと保存則に起因する連動性（負の相関）をうまく活用して計算の高効率性を引き出している．自然現象にはまだまだこのような高効率な計算原理が潜んでいると思われ，それらを抜き出すことが全く新しい計算機や知的デバイスの創成に繋がると思われる． ωはパフォーマンスを決める重要なパラメタであり，以下の場合にほぼ最適なことがわかっている． ω0 = γ 2− γ. (3) ここでγ = PA+PBである．この「綱引き原理」は任意のマシン数Nとプレイヤー数Mに対しても有効であり，その場合には，式(3)におけるγをPM+PM+1 にすると良い[21]．ここで，P_M とは，確率が高い方から上位M 番目のマシンの報酬確率を表す．また，あらかじめ報酬確率の和γの情報が得られていなくとも，パラメタω0を過去の経験に基づいて自ら推定できる仕組みを綱引きモデルに導入することによって（“adaptive TOW (ATOW)”と呼ぶ），パラメタをもたない他のアルゴリズムよりも，依然として高いパフォーマンスを示すことが確認されている[6], [7]．

3. 綱引きボムベ

図2bに3ユーザ，5チャネル（A, B, C, D, E）用の綱引きボムベを示す[22]．シリンダ内に青色と黄色の二種類の非圧縮性流体が満たされている．青色が「ユーザ内意思決定」で黄色が「ユーザ間相互作用」を担う流体である．各時刻においての各ユーザのチャネル選択は赤のアジャスターの高さ（流体界面の高さ）によって決定される（最高値を選択）．青と黄色のアジャスターは固定されると仮定すると，各ユーザ内で青の流体による「綱引き原理」が成り立ち（つまり，一つの界面が上がると，他の四つの界面が等しく下がる），効率的なチャネル選択が可能となる．それと同時に，黄色の流体によっても「ユーザ間の綱引き」が実行され（つまりuser1の界面が上がるとuser2と3 の界面が下がる），衝突を回避でき，全体最適解を速く正確に探索するのに寄与する．式は以下のようになる．

Q(i,k)(t) = ΔQ(i,k)(t) + Q(i,k)(t − 1)

− 1 M − 1 j=i ΔQ(j,k)(t), (4) X(i,k)(t + 1) = Q(i,k)(t) −_{N − 1}1 l=k Q(i,l)(t). (5) 時刻tにおける，ユーザi，チャネルkの界面の高さを，X(i,k)(t)としている．ここでΔQ(i,k)(t)は，ユーザi，チャネルkが時刻tで選択され，報酬があれば +1，なければ−ωだけ界面が上下する．選択されなければ0である．上記の式に加えて，X(i,k)に振動を加える．これは，青と黄色のアジャスターを外部から適切にコントロールすることによって可能である．今回は，下記のようなユーザ間で全く同じ振動osc(i,k)(t)を与えた場合を扱う．

osc(i,k)(t) = A sin(2πt/5 + 2π(k − 1)/5) (6)

ここで，k = 1, · · ·, 5である．このように綱引きボムベは，毎時刻M 人のユーザが各人の青い流体の界面が一番高いチャネルを選択し，選択チャネルで成功する（パケット送信成功）か失敗する（パケット送信失敗）かによってその界面を上下（+1か−ω）する操作を加えるだけで（つまりM回の操作）動作することがわかる．後は，体積保存則により自動的に界面が動き，各人の次の選択を計算してくれるのである．また，この各人の選択においては，試行錯誤において速く正確に解を得ることができる「綱引き原理」の効果で，高効率な探索が実現できている．更には，ユーザ間の相互作用（黄色の流体）によって，自動的に「ナッシュ均衡」を避けて全体最適解に辿り着けるのである[21], [22]．

(5)

4. 結

果

綱引きボムベがナッシュ均衡を避けて全体最適解を導出できることを示すために，ここでは典型例として， (P_A,P_B,P_C,P_D,P_E) = (0.03, 0.05, 0.1, 0.2, 0.9) を考える．今，ユーザ数3人を考えると，ペイオフの表現には添字が3つ必要になるため，それを「ペイオフテンソル」と呼ぶことにする．この典型例のペイオフテンソルは53 _{= 125}_{個の要素をもつため，簡単} のために各ユーザが下位のAとBの選択をしなかった場合の行列要素だけを書くと，以下のようになる（表2, 3, 4）．各行列要素において，ユーザ1，ユーザ 2，ユーザ3の報酬確率が順番に記されている． 3人のユーザによって得られた最大の合計報酬量を与える状態を「全体最適（Social Maximum SM）」と呼ぶことにする[23]．この問題においては，ユーザ達がそれぞれ上位三つ（C, D, E）の異なるマシンを選ぶ「棲み分け状態（6通り）」が全体最適になる（表にSMと記す）．利己的に考えた場合，他人の選択にかかわらず常にEを選ぶことが最高の報酬確率になっ表 2 典型例 (PC,PD,PE)=(0.1, 0.2, 0.9) のペイオフ行列 (user 3 がC の場合)

Table 2 Payoﬀ matrix for the typical example where (PC,PD,PE)=(0.1, 0.2, 0.9) (user 3 selects C).

u2: C u2: D u2: E u1: C 1/30, 1/30, 1/30 .05, .2, .05 .05, .9, .05

u1: D .2, .05, .05 .1, .1, .1 .2, .9, .1 SM u1: E .9, .05, .05 .9, .2, .1 SM .45, .45, .1

表 3 典型例 (PC,PD,PE)=(0.1, 0.2, 0.9) のペイオフ行列 (user 3 がD の場合)

Table 3 Payoﬀ matrix for the typical example where (PC,PD,PE)=(0.1, 0.2, 0.9) (user 3 selects D).

u2: C u2: D u2: E u1: C .05, .05, .2 .1, .1, .1 .1, .9, .2 SM

u1: D .1, .1, .1 2/30, 2/30, 2/30 .1, .9, .1 u1: E .9, .1, .2 SM .9, .1, .1 .45, .45, .2

表 4 典型例 (PC,PD,PE)=(0.1, 0.2, 0.9) のペイオフ行列 (user 3 がE の場合)

Table 4 Payoﬀ matrix for the typical example where (PC,PD,PE)=(0.1, 0.2, 0.9) (user 3 selects E).

u2: C u2: D u2: E u1: C .05, .05, .9 .1, .2, .9 SM .1, .45, .45 u1: D .2, .1, .9 SM .1, .1, .9 .2, .45, .45 u1: E .45, .1, .45 .45, .2, .45 .3, .3, .3 NE ているので，この場合，全てのユーザがEを選ぶ状態（1通り）がナッシュ均衡（Nash EquilibriumNE）となっている．綱引きボムベのパフォーマンスは「スコア: ユーザが1000回プレイして得た報酬の回数」で評価する．コグニティブ無線においては，送信できたパケット量に対応する．図3に典型例(PA,PB,PC, PD,PE) = (0.03, 0.05, 0.1, 0.2, 0.9)の場合に対する綱引きボムベのスコアを示した．1000サンプルを使用したので各データにつき1000個の円がある．各円は一つのサンプルについて，選択数1000までに獲得したスコアをユーザi（水平軸）とユーザj（垂直軸）について表 している．図3には六つのクラスターが確認できる．これらが，各ユーザがそれぞれ上位三つ（C, D, E）の異なるマシンを選ぶ「棲み分け状態（6通り）」の二次元展開に対応し，全体最適を与える．全体最適点は， (ユーザ1のスコア，ユーザ2のスコア，ユーザ3のスコア) = (100, 200, 900)，(100, 900, 200)，(200, 100, 900)，(200, 900, 100)，(900, 100, 200)，(900, 200, 100)である．特に，ナッシュ均衡状態(300, 300, 300)が実現されないことに注目したい．更に，選択数1000までの合計スコアのサンプル平均を図4に示す．各ユーザのスコアの平均と合計スコアの平均を示している．ほぼ公平性が保たれながら，合計スコアの平均値が全体最適である100+200+900 = 1200 を獲得できていることを確認できる．ここでは，パラメタω = 0.08, A = 1.0を用いた（γ = PB+PCとして式(3)を計算）．次に，他の一般的な例として，(P_A,P_B,P_C, P_D, PE) = (0.1, 0.2, 0.3, 0.4, 0.5)を考える．図5に，綱図 3 綱引きボムベのスコア．(PA,PB,PC,PD,PE) = (0.03, 0.05, 0.1, 0.2, 0.9) の場合

Fig. 3 Scores of the TOW Bombe for the case where (PA,PB,PC,PD,PE) = (0.03, 0.05, 0.1, 0.2,

(6)

図 4 綱引きボムべの合計スコアの平均．(PA,PB,PC,

PD,PE) = (0.03, 0.05, 0.1, 0.2, 0.9) の場合

Fig. 4 Average total scores of the TOW Bombe for the case where (PA, PB, PC, PD, PE) = (0.03, 0.05, 0.1, 0.2, 0.9).

図 5 綱引きボムベのスコア．(PA,PB,PC,PD,PE) = (0.1, 0.2, 0.3, 0.4, 0.5) の場合

Fig. 5 Scores of the TOW Bombe for the case where (PA,PB, PC,PD,PE) = (0.1, 0.2, 0.3, 0.4,

0.5).

図 6 綱引きボムべの合計スコアの平均．(PA,PB,PC,

PD,PE) = (0.1, 0.2, 0.3, 0.4, 0.5) の場合 Fig. 6 Average total scores of the TOW Bombe for

the case where (PA,PB,PC,PD,PE) = (0.1,

0.2, 0.3, 0.4, 0.5). 引きボムベのスコアを，図6に合計スコアの平均を示した．この場合，全体最適点は，(ユーザ1のスコア，ユーザ2のスコア，ユーザ3のスコア) = (300, 400, 図 7 綱引きボムベのスコア．(PA,PB,PC,PD,PE) = (0.03, 0.05, 0.1, 0.2, 0.9) の場合

Fig. 7 Scores of the TOW Bombe for the case where (PA,PB,PC,PD,PE) = (0.03, 0.05, 0.1, 0.2, 0.9). 500)，(300, 500, 400)，(400, 300, 500)，(400, 500, 300)，(500, 300, 400)，(500, 400, 300)であるが，クラスターを見ても，合計スコアの平均値を見ても，全体最適である300 + 400 + 500 = 1200が実現できていることが確認できる．このような一般的な例に対しても全体最適が実現できていることがわかる．なお，ここではパラメタω = 0.33, A = 1.0を用いた．本論文では前もってパラメタωを与える場合について示したが，初期に何の情報も与えず，パラメタを内部変数で推定する綱引きボムベについても研究されている[21]．この場合，揺らぎがより効果的に活用できるようになり，特に人工的に作った揺らぎよりも内部発生的なランダムな揺らぎの方がパフォーマンスが良いという結果が得られている．図 7aにスコア，bにスコアの揺らぎ依存性を示す．これは，装置において自然に発生する揺らぎがより効果的であるということを示唆しており，自然現象の能力をより引き出すことに成功している．この自然に発生する内部揺らぎは，デジタル計算機で計算する場合，膨大な計算コストがかかってしまう．なぜなら，体積保存則を満たすように揺らぎを入れ，かつ，揺らぎのランダム性を上げる

(7)

にはどうしても相当な計算コストがかかってしまうからである．しかし，自然を活用すれば「自動的に」体積保存則とランダム性は満たされ，パフォーマンスもより向上させることが可能なのである．

5. むすび

本研究では，コグニティブ無線のチャネル割当て問題に焦点を絞り，限定された形のゲーム利得マトリックスにおいては全体最適を高速に導出できる「物理現象を活用する計算装置」が存在することを示した．この装置は，「綱引き原理」と呼ぶ，体積保存則を満たすダイナミックスによる効率的プロセスを利用し，二種類の非圧縮性流体を使ったシリンダ系装置により実装される．この装置を使うことで，毎時刻O(NM)の評価値を計算することなく，M回の操作（シリンダ内の流体界面の上下運動）を繰り返すだけで，自動的に全体最適な割当てが導出される．筆者らは量子ドット間のエネルギー移動を用いた意思決定装置[24], [25]や単一光子を用いた意思決定装置[26], [27]などを作製してきた．これらを複数接続することで「量子版綱引きボムベ」も実装可能である．量子版綱引きボムベは，コグニティブ無線の問題だけでなく，より多様なゲーム利得マトリックスに対応できる可能性があり，より広範な応用性を期待できる．これらについては将来他所で議論することとしたい．謝辞本研究の一部は日本学術振興会科学研究費補助金挑戦的萌芽研究並びに研究拠点形成事業（A.先端拠点形成型）による．綱引きボムベの理論と量子的拡張についての有益な議論に対して，山梨大学の堀裕和教授に感謝する．文献

[1] B.B. De Mesquita, The Predictioneer’s Game, Ran-dom House, 2009.

[2] S.-J. Kim, M. Aono, and M. Hara, “Tug-of-war model for two-bandit problem,” in C. Calude, et al. eds., Unconventional Computation, Lecture Notes in Com-puter Science, vol.5715, Springer, p.289, 2009. [3] S.-J. Kim, M. Aono, and M. Hara, “Tug-of-war model

for multi-armed bandit problem,” in C. Calude, et al. eds., Unconventional Computation, Lecture Notes in Computer Science, vol.6079, Springer, pp.69–80, 2010.

[4] S.-J. Kim, M. Aono, and M. Hara, “Tug-of-war model for the two-bandit problem: Nonlocally-correlated parallel exploration via resource conserva-tion,” BioSystems, vol.101, pp.29–36, 2010. [5] 金成主，青野真士，原正彦，“多本腕バンディット問題

に対する綱引きモデルについて ∼非局所的に相関した並列サーチのための生物からヒントを得た計算手法∼，”信学技報，NLP2010-4, 2010.

[6] S.-J. Kim, E. Nameda, M. Aono, and M. Hara, “Adaptive tug-of-war model for two-armed bandit problem,” Proc. NOLTA2011, pp.176–179, 2011. [7] 金成主，青野真士，行田悦資，原正彦，“粘菌の意思決

定を模した綱引きモデル ∼正確で速い並列探索アルゴリズムの物理的実装に向けて∼，”信学技報，CCS2011-025, 2011.

[8] M. Aono, S.-J. Kim, M. Hara, and T. Munakata, “Amoeba-inspired tug-of-war algorithm for exploration-exploitation dilemma in extended bandit problem,” BioSystems, vol.117, pp.1–9, 2014. [9] S.-J. Kim, M. Aono, E. Nameda, and M. Hara,

“Tug-of-war model for competitive multi-armed ban-dit problem: Amoeba-inspired algorithm for cogni-tive medium access,” Proc. NOLTA2012, pp.590–593, 2012. [10] 金成主，青野真士，行田悦資，原正彦，“コグニティブ媒体アクセスのためのアメーバインスパイアード・アルゴリズム，”信学技報，CCS2012-037, 2012. [11] 金成主，青野真士，“コグニティブ媒体アクセスのためのアメーバインスパイアード・アルゴリズム II，”信学技報，CCS2013-034, 2013.

[12] S.-J. Kim and M. Aono, “Amoeba-inspired algorithm for cognitive medium access,” NOLTA, IEICE, vol.5, no.2, pp.198–209, 2014.

[13] S.-J. Kim, M. Aono, and E. Nameda, “Eﬃcient decision-making by volume-conserving physical ob-ject,” New J. Phys., vol.17, 083023, 2015.

[14] S.-J. Kim, T. Tsuruoka, T. Hasegawa, M. Aono, K. Terabe, M. Aono, “Decision maker based on atomic switches,” AIMS Materials Science, vol.3, no.1, pp.245–259, 2016.

[15] P. Auer, N. Cesa-Bianchi, and P. Fischer, “Finite-time analysis of the multiarmed bandit problem,” Mach. Learn., vol.47, pp.235–256, 2002.

[16] L. Lai, H. Jiang, and H.V. Poor, “Medium access in cognitive radio networks: a competitive multi-armed bandit framework,” Proc. IEEE 42nd Asilomar Con-ference on Signals, System and Computers, pp.98– 102, 2008.

[17] L. Lai, H.E. Gamal, H. Jiang, and H.V. Poor, “Cog-nitive medium access: exploration, exploitation, and competition,” IEEE Trans. Mobile Comput., vol.10, no.2, pp.239–253, 2011.

[18] L. Kocsis and C. Szepesv´ari, “Bandit based monte-carlo planning,” in J.G. Carbonell, et al. eds., 17th European Conference on Machine Learning, Lecture Notes in Artiﬁcial Intelligence, vol.4212, Springer, pp.282–293, 2006.

[19] S. Gelly, Y. Wang, R. Munos, and O. Teytaud, “Mod-iﬁcation of UCT with patterns in monte-carlo Go,” RR-6062-INRIA, pp.1–19, 2006.

(8)

[20] D. Agarwal, B.-C. Chen, and P. Elango, “Ex-plore/exploit schemes for web content optimization,” Proc. ICDM2009, http://dx.doi.org/10.1109/ ICDM.2009.52, 2009.

[21] S.-J. Kim, M. Naruse, and M. Aono, “Harnessing the computational power of ﬂuids for optimization of col-lective decision making,” Philosophies, vol.1, pp.245– 260, 2016.

[22] S.-J. Kim and M. Aono, “Decision maker using coupled incompressible-ﬂuid cylinders,” Spec. Issue Adv. Sci. Technol. Environmentol., vol.B11, pp.41– 45, 2015.

[23] T. Roughgarden, “Selﬁsh routing and the price of an-archy,” The MIT Press, Cambridge, 2005.

[24] S.-J. Kim, M. Naruse, M. Aono, M. Ohtsu, and M. Hara, “Decision maker based on nanoscale photo-excitation transfer,” Scientiﬁc Reports, vol.3, 2370, 2013.

[25] M. Naruse, W. Nomura, M. Aono, M. Ohtsu, Y. Sonnefraud, A. Drezet, S. Huant, and S.-J. Kim, “De-cision making based on optical excitation transfer via near-ﬁeld interactions between quantum dots,” J. Appl. Phys., vol.116, 154303, 2014.

[26] M. Naruse, M. Berthel, A. Drezet, S. Huant, M. Aono, H. Hori, and S.-J. Kim “Single photon deci-sion maker,” Sci. Rep., vol.5, 1325, 2015.

[27] M. Naruse, M. Berthel, A. Drezet, S. Huant, H. Hori, and S.-J. Kim, “Single photon in hierarchical archi-tecture for physical decision making: photon intelli-gence,” ACS Photonics, vol.3, pp.2505–2514, 2016. （平成 28 年 11 月 30 日受付，29 年 2 月 9 日再受付， 5月 16 日公開）金成主（正員）国立研究開発法人物質・材料研究機構 NIMS特別研究員．1994 年朝鮮大学校理学部卒業．1997 年早稲田大学大学院理工学研究科物理学及び応用物理学専攻修士課程修了．2000 年早稲田大学大学院理工学研究科物理学及び応用物理学専攻博士後期課程単位取得．博士 (理学)．2002 年から 2008 年まで情報通信研究機構有期研究員．2003 年から 2006 年まで日本学術振興会特別研究員．2004 年から 2006 年までウィーン工科大学客員研究員．2008 年から 2013 年まで理化学研究所研究員．2008 年から 2013 年まで漢陽大学校 (韓国) 研究助教授．2013 年から現職．複雑系科学，非線形動力学と情報通信への応用，ナチュラルコンピューティングの研究に従事．日本物理学会，電子情報通信学会などの会員．成瀬誠（正員）国立研究開発法人情報通信研究機構ネットワークシステム研究所主任研究員．1994 年東京大学工学部計数工学科卒業．1999 年同大大学院工学系研究科計数工学専攻博士課程修了．博士 (工学)．日本学術振興会リサーチアソシエート，東京大学助手を経て 2002 年より情報通信研究機構．この間，JST さきがけ研究員 (2001-2005)，東京大学大学院工学系研究科委嘱准教授 (2006-2011)を兼務．2017 年グルノーブルアルプス大学 (フランス) 招聘教授．応用物理学会光学論文賞．先端技術大賞等受．情報フォトニクス，ナチュラルコンピューティング，光システム物理学等の研究に従事．青野真士（正員） 1999年慶應義塾大学環境情報学部卒業． 2001年神戸大学大学院自然科学研究科地球惑星科学専攻博士課程前期課程修了．2004 年神戸大学大学院自然科学研究科情報メディア科学専攻博士課程後期課程修了．博士 (理学)．2004 年から 2013 年まで理化学研究所研究員．2013 年 4 月から東京工業大学地球生命研究所研究員．同年 10 月から科学技術振興機構 (JST) 戦略的創造研究推進事業 (PRESTO) さきがけ研究員 (兼任)．2015 年 4 月から東京工業大学地球生命研究所准主任研究者．平成 28 年度文部科学大臣表彰「若手科学者賞」受賞．複雑系科学，非線形動力学，バイオコンピューティング，ナチュラルコンピューティング，生命の起源の研究に従事．電子情報通信学会，応用物理学会などの会員．

人工知能から自然知能へ：自然に潜む計算能力の活用