人工知能から自然知能へ:自然に潜む計算能力の活用
金
成主
†a)成瀬
誠
††青野
真士
†††,††††From AI to Natural Intelligence: Harnessing the Computational Power of Nature
Song-Ju KIM
†a), Makoto NARUSE
††, and Masashi AONO
†††,††††あらまし 我々は先行研究において,意思決定問題を物理的に解く新しい計算原理である「綱引き原理」を提 案した.本研究では,無線通信におけるチャネル割当ての全体最適解の計算を,「ユーザ内意思決定」と「ユーザ 間相互作用」を表現する綱引き原理の導入により物理的に実現できることを示す.そこでは,複数のシリンダ内 の二種類の流体のダイナミックスが利用される.この「全体最適意思決定装置」を使うことにより,膨大な計算 コストが要求される評価値の計算を流体の物理プロセスに委ねることができ,高々ユーザ数に比例したコストを 要する操作(シリンダ内の流体界面の上下運動) を繰り返すだけで,全体最適解を得ることができる.これは,自 然現象の揺らぎ,保存則,アナログ性から,知的能力を引き出す新しい試みである. キーワード 自然計算,人工知能,多本腕バンディット問題,意思決定
1.
ま え が き
文明が高度に発達したように見える現代において も,国家間,コミュニティ間,個人間における対立は 絶えない.対立が生じてくるのは,自分や自分が代表 するコミュニティの利益を最大化しようとする自他の 非対称性,すなわち,他者が自分と同じ存在であるこ とを認めようとしない非対称性からである.理想的に は,この非対称性を人々の意識改革により解決できる ことが望ましいが,現実的には非常に難しい.対立は 部分最適と全体最適の不一致からも作り出される.全 体最適は,必ずしもいつも部分最適の総和として得ら れるわけではない.例えば,交差点で信号が間もなく †国立研究開発法人物質・材料研究機構国際ナノアーキテクトニク ス研究拠点,つくば市WPI Center for Materials Nanoarchitectonics (MANA), Na-tional Institute for Materials Science (NIMS), 1–1 Namiki, Tsukuba-shi, 305–0044 Japan
††国立研究開発法人情報通信研究機構,小金井市
National Institute of Information and Communications Technology, 4–2–1 Nukui-kita, Koganei-shi, 184–8795 Japan
†††東京工業大学地球生命研究所,東京都
Earth-Life Science Institute, Tokyo Institute of Technology, 2–12–1 Ookayama, Meguro-ku, Tokyo, 152–8550 Japan
††††独立行政法人科学技術振興機構さきがけ,川口市
PRESTO, Japan Science and Technology Agency, 4–1–8 Honcho, Kawaguchi-shi, 332–0012 Japan
a) E-mail: [email protected] 赤に変わりそうな状況を考えよう.ここで,先行する 車両が進路に停滞しているにもかかわらず,停止する ことなく直進しようとする車は,目的地により速く到 着したいという個の利益を追求する意思決定をしてい る.この車が交差点の東西方向の中央に停滞するせい で,南北方向の青信号を直進しようとする他の車(他 者)の進行が妨害される.こうして,個の利益を追求 した利己的な意思決定により,全体の利益が損なわれ る.そればかりか,道路はつながっているので,こう して作り出された南北方向の停滞が,回り回って東西 方向の道路の他所の新たな停滞を生み出す.全体の不 利益は,利己的な恩恵にあずかれると判断した個の利 益すらも損なう皮肉な結果を招き得るのだ.こうした 個と全体の利益の対立は,交通渋滞のみならず,より スケールの大きな様々な場面において立ち現れる深刻 な問題である. このような対立を「技術開発」により最小化するこ とは可能だろうか?例えば,日本では昔から水田に引 く水の奪い合いが絶えなかった.いわゆる「我田引水」 問題である.しかし,水源に水田面積に応じて水分配 量を自動的に決定する「円筒分水」という装置が設置 され,この問題が見事に解決された事例がある.ここ でポイントとなるのは,自然現象を活用することで全 体最適性と公平性がともに達成されたことである.人 工システムでは,それが誰かに有利になるように人為
的に作られた疑いを払拭しきれない.しかし,もし自 然現象の活用により全体最適性と公平性が保証される 技術を開発できれば,人々はそれに従うことを受け入 れ,対立の最小化につながるのではないだろうか? 現実的な政治判断の場面では,近年,部分最適と全 体最適の対立の調停にゲーム理論を応用するアプロー チが注目を浴びており,利得マトリックスを適切に設 定することで,多くの状況を数学的にモデル化できる ことが示されている[1].本研究で我々が扱うコグニ ティブ無線のチャネル割当て問題も,ある特殊な利得 マトリックスとして表現できる.本論文では,限定さ れたある種のゲームにおいては,全体最適を高速に導 出できる装置が存在することを示す.この装置は,「綱 引き原理」と呼ぶ,体積保存則を満たす流体のダイナ ミックスを想定しているため,複数のシリンダ内の二 種類の非圧縮性流体を用いた表現になっているが,必 ずしも流体を使わなくても実装可能な「装置概念」で ある.この装置のことを,第2次世界大戦中にイギリ ス軍がドイツ軍のエニグマ暗号を解読するためにアナ ログ電気回路を用いて開発した「チューリングボムべ」 と呼ばれる装置との類似性から,「綱引きボムベ」と呼 ぶことにする.綱引きボムベを使うことで,Nチャネ ルのM人の割当て問題に対して,毎時刻O(NM)の 評価値を計算することなく,M回の操作(シリンダ内 の流体界面の上下運動)を繰り返すだけで,自動的に 全体最適な割当てが導出される.このことは,今日に おいても,アナログ計算がデジタル計算より有利とな る状況が存在し得ることを示唆している.つまり,「自 然現象を活用」することでデジタル計算における計算 量爆発を抑えることが可能となる.このようにデジタ ル計算にはない新たな計算能力,計算原理を自然現象 から探し出して活用することを我々は「自然知能」と 呼んでいる.人工知能はデジタル計算機上で走るアル ゴリズムとして想定されているのに対して,我々の自 然知能アプローチは自然現象をダイレクトに利用した アナログ計算であり,1)揺らぎの活用,2)保存則の 活用,3)アナログ性の活用などがある.本研究では 自然がもつ上記三つの性質を活用して意思決定問題を 効率的に解く「知的能力」を引き出すことができるこ とを示す. 意思決定問題の本質を捉える状況として,二つのス ロットマシンAとBを考える.各マシンはそれぞれ 独立な報酬確率PA及びPBをもっている.各試行に おいて,プレイヤーは一つのマシンを選択し,ある特 定の報酬確率によって,報酬(例えばコイン一枚)を 得る.報酬確率を知らないプレイヤーは,どのような 戦略でプレイすれば報酬量を最大化できるであろう か?これが多本腕バンディット問題(BP)である.我々 は先行研究において[2]∼[14],我々が提案した「綱引 きモデル」が改良型-greedyアルゴリズムや改良型 softmaxアルゴリズムのような他の有名なアルゴリズ ムより効率的で,パラメタがないアルゴリズムの中の 最良のアルゴリズムとして知られているUCB1-tuned アルゴリズム[15]にその効率性が匹敵することを示し た.更に,綱引きモデルは,報酬確率がダイナミックに 変化する環境にも素早く適応することも示した.なお, このBPは数学の基礎問題であるため,コグニティブ 無線[16], [17],モンテカルロ木探索,コンピュータ囲 碁[18], [19],ウェブ広告[20]など,様々な応用に適用 可能である. コグニティブ無線は,モバイル通信分野での最新の トピックの内の一つで,その基本的な考え方は,有ラ イセンスユーザ(つまり主要なユーザ)が活動的でな い場合,無ライセンスユーザ(コグニティブユーザ) がチャネルにアクセスすることを許可することで,資 源を有効に活用することである.(コグニティブユーザ は有ライセンスユーザの通信を決して邪魔してはいけ ない.)無線通信においては新たにまとまった周波数帯 域を確保することは既に困難な状況なので,最近,こ の分野が特に注目されている. 図1に,Laiらによって提案されたチャネル・モデル を示す[16], [17].各々帯域幅がBのNチャネルから 成るネットワークを考える.ネットワーク中のユーザ は同期的なタイムスロット方式で操作される.各時間 スロットにおいて,無ライセンスのユーザは,チャネ ルiが確率Piで自由に使えると仮定されている.つま り,有ライセンスのユーザによって使用されていない 確率がPiである.無ライセンスのユーザはPiを事前 図 1 チャネル・モデル Fig. 1 Channel model.
に知らない.各時間スロットで,コグニティブユーザ は,ある特定のチャネルを観測することにより,ネッ トワーク中のチャネルが使えるかどうかを調べる.こ の設定では,一人のコグニティブユーザはどの時刻に も一つのチャネルだけにアクセスすることができる. 問題は,コグニティブユーザの期待スループットを最 大化する,チャネルのアクセス戦略を引き出すことで ある.この状況は,競合的BP (Competitive BP)と 等価である. 簡単のため,最小のCBP(つまり二人のコグニティ ブユーザ,二本のチャネルAとB)を考えてみる.チャ ネルはそれぞれ確率Piで有ライセンスユーザによっ て使用されない.つまり,BPの文脈では,コグニティ ブユーザがチャネルiにアクセスした場合,確率Pi で報酬(例えばコイン一枚)を得ると考える.表1に, ユーザ1と2のペイオフ行列を示す.二人のコグニ ティブユーザが同じチャネルを選択する場合(衝突), 報酬確率は半分になる(実際にはどちらか一人が利用 する).一般的なM人の場合には報酬確率が1/Mに なる.
コグニティブMAC (Medium Access Control)の プロトコル開発のためには,BPの文脈の中で,全ユー ザの合計報酬量(スコア)が最大となるアルゴリズムを 求めなければならない.そのためには,個々の利己的 な戦略による帰結である「ナッシュ均衡解」を避ける ことが求められる.本研究では,「綱引き原理」と呼ぶ, 体積保存則を満たす「物の動きによる効率化」を利用 したダイナミックスを「ユーザ内意思決定」と「ユー ザ間相互作用」に適用することで,複数のシリンダ内 の二種類の流体ダイナミックスにより,全体最適解の チャネル割当てを集中制御方式で計算する「全体最適 意思決定器」を構築し,この装置が,膨大な計算資源 を要する評価値の計算を流体の物理プロセスに委ね, 毎時刻M回(ユーザ数)の操作(シリンダ内の流体 界面の上下運動)を繰り返すだけで,全体最適な割当 てが自動的に導出されることを示す. 表 1 ユーザ 1(ユーザ 2)に対するペイオフ行列 Table 1 Payoff matrix for user 1 (user 2).
user 2: A user 2: B user 1: A PA/2 (PA/2) PA(PB) user 1: B PB(PA) PB/2 (PB/2)
2.
綱引き原理
BPを解くことができる多くのアルゴリズムでは, 各マシンの報酬確率に対する見積りを計算する.ほと んどの場合,ある特定のマシンをプレイしたときに限 り,そのマシンの見積りだけが更新される.それとは 対照的に,我々が提案した綱引きモデルでは,プレイ するマシンに関係なく,「全ての」見積りが同時に更新 されるアルゴリズムと等価な学習則を使用する[6], [7]. つまり,時刻tでプレイしなかったとしても,全ての マシンが時刻tで同時にプレイされたように見積りが 更新され,時刻t + 1でマシンを選択する際に,全て のマシンの最新の見積りを参照するアルゴリズムを模 倣することができる.このユニークな学習則の特徴が, 綱引きモデルの高効率性の起源の一つである. 我々は先行研究において,学習則の利点を直接使用 する「固体版」綱引きモデルを提案した.この単純なモ デルが「高効率な計算原理」を端的に示している[13]. ここでは図2aに示すようなシリンダ内の液体を考え る.ここで,基準線からの変位をXk(k ∈ {A, B}) とし,Xkが0を超える場合,固体がマシンkを選 択するとみなす.報酬があった場合,+1がXkに加 図 2 (a)綱引き原理,(b) 綱引きボムベ(3 ユーザ 5 チャ ネル)Fig. 2 (a) TOW principle, (b) TOW Bombe (3 users and 5 channels).
えられ,無報酬の場合には,−ωがXkに加えられる (図2a).これは,マシンAを選んで,もし報酬があ れば液体が手前側にシフトし,報酬がなければ奥側に シフトすることを意味する. 変位XB(=−XA)は,次の式によって決定される. XB(t + 1) = QB(t) − QA(t) + δ, (1) Qk(t) = Nk(t) − (1 + ω)Lk(t). (2) ここでδは任意の揺らぎである.Nk(t)は時刻tまで にマシンkをプレイした回数で,Lk(t)はマシンkで の無報酬の回数である.ωはパラメタである. このような「物体の単純な動き」によって意思決定 するだけで,既存のアルゴリズムよりも高効率(より 多くの報酬量を得る)な意思決定ができることを「綱 引き原理」は保証している[13].つまり,「綱引き原理」 は,揺らぎと保存則に起因する連動性(負の相関)を うまく活用して計算の高効率性を引き出している.自 然現象にはまだまだこのような高効率な計算原理が潜 んでいると思われ,それらを抜き出すことが全く新し い計算機や知的デバイスの創成に繋がると思われる. ωはパフォーマンスを決める重要なパラメタであり, 以下の場合にほぼ最適なことがわかっている. ω0 = γ 2− γ. (3) ここでγ = PA+PBである.この「綱引き原理」は任 意のマシン数Nとプレイヤー数Mに対しても有効で あり,その場合には,式(3)におけるγをPM+PM+1 にすると良い[21].ここで,PM とは,確率が高い方 から上位M 番目のマシンの報酬確率を表す.また, あらかじめ報酬確率の和γの情報が得られていなく とも,パラメタω0を過去の経験に基づいて自ら推定 できる仕組みを綱引きモデルに導入することによって (“adaptive TOW (ATOW)”と呼ぶ),パラメタをも たない他のアルゴリズムよりも,依然として高いパ フォーマンスを示すことが確認されている[6], [7].
3.
綱引きボムベ
図2bに3ユーザ,5チャネル(A, B, C, D, E)用 の綱引きボムベを示す[22].シリンダ内に青色と黄色 の二種類の非圧縮性流体が満たされている.青色が 「ユーザ内意思決定」で黄色が「ユーザ間相互作用」を 担う流体である.各時刻においての各ユーザのチャネ ル選択は赤のアジャスターの高さ(流体界面の高さ) によって決定される(最高値を選択).青と黄色のア ジャスターは固定されると仮定すると,各ユーザ内で 青の流体による「綱引き原理」が成り立ち(つまり, 一つの界面が上がると,他の四つの界面が等しく下が る),効率的なチャネル選択が可能となる.それと同 時に,黄色の流体によっても「ユーザ間の綱引き」が 実行され(つまりuser1の界面が上がるとuser2と3 の界面が下がる),衝突を回避でき,全体最適解を速 く正確に探索するのに寄与する. 式は以下のようになる.Q(i,k)(t) = ΔQ(i,k)(t) + Q(i,k)(t − 1)
− 1 M − 1 j=i ΔQ(j,k)(t), (4) X(i,k)(t + 1) = Q(i,k)(t) −N − 11 l=k Q(i,l)(t). (5) 時刻tにおける,ユーザi,チャネルkの界面の高さ を,X(i,k)(t)としている.ここでΔQ(i,k)(t)は,ユー ザi,チャネルkが時刻tで選択され,報酬があれば +1,なければ−ωだけ界面が上下する.選択されな ければ0である. 上記の式に加えて,X(i,k)に振動を加える.これは, 青と黄色のアジャスターを外部から適切にコントロー ルすることによって可能である.今回は,下記のよう なユーザ間で全く同じ振動osc(i,k)(t)を与えた場合を 扱う.
osc(i,k)(t) = A sin(2πt/5 + 2π(k − 1)/5) (6)
ここで,k = 1, · · ·, 5である. このように綱引きボムベは,毎時刻M 人のユーザ が各人の青い流体の界面が一番高いチャネルを選択し, 選択チャネルで成功する(パケット送信成功)か失敗 する(パケット送信失敗)かによってその界面を上下 (+1か−ω)する操作を加えるだけで(つまりM回の 操作)動作することがわかる.後は,体積保存則によ り自動的に界面が動き,各人の次の選択を計算してく れるのである.また,この各人の選択においては,試 行錯誤において速く正確に解を得ることができる「綱 引き原理」の効果で,高効率な探索が実現できている. 更には,ユーザ間の相互作用(黄色の流体)によって, 自動的に「ナッシュ均衡」を避けて全体最適解に辿り 着けるのである[21], [22].
4.
結
果
綱引きボムベがナッシュ均衡を避けて全体最適解を 導出できることを示すために,ここでは典型例として, (PA,PB,PC,PD,PE) = (0.03, 0.05, 0.1, 0.2, 0.9) を考える.今,ユーザ数3人を考えると,ペイオフの 表現には添字が3つ必要になるため,それを「ペイ オフテンソル」と呼ぶことにする.この典型例のペイ オフテンソルは53 = 125個の要素をもつため,簡単 のために各ユーザが下位のAとBの選択をしなかっ た場合の行列要素だけを書くと,以下のようになる (表2, 3, 4).各行列要素において,ユーザ1,ユーザ 2,ユーザ3の報酬確率が順番に記されている. 3人のユーザによって得られた最大の合計報酬量を 与える状態を「全体最適(Social Maximum SM)」 と呼ぶことにする[23].この問題においては,ユーザ 達がそれぞれ上位三つ(C, D, E)の異なるマシンを 選ぶ「棲み分け状態(6通り)」が全体最適になる(表 にSMと記す).利己的に考えた場合,他人の選択に かかわらず常にEを選ぶことが最高の報酬確率になっ 表 2 典型例 (PC,PD,PE)=(0.1, 0.2, 0.9) のペイオフ 行列 (user 3 がC の場合)Table 2 Payoff matrix for the typical example where (PC,PD,PE)=(0.1, 0.2, 0.9) (user 3 selects C).
u2: C u2: D u2: E u1: C 1/30, 1/30, 1/30 .05, .2, .05 .05, .9, .05
u1: D .2, .05, .05 .1, .1, .1 .2, .9, .1 SM u1: E .9, .05, .05 .9, .2, .1 SM .45, .45, .1
表 3 典型例 (PC,PD,PE)=(0.1, 0.2, 0.9) のペイオフ 行列 (user 3 がD の場合)
Table 3 Payoff matrix for the typical example where (PC,PD,PE)=(0.1, 0.2, 0.9) (user 3 selects D).
u2: C u2: D u2: E u1: C .05, .05, .2 .1, .1, .1 .1, .9, .2 SM
u1: D .1, .1, .1 2/30, 2/30, 2/30 .1, .9, .1 u1: E .9, .1, .2 SM .9, .1, .1 .45, .45, .2
表 4 典型例 (PC,PD,PE)=(0.1, 0.2, 0.9) のペイオフ 行列 (user 3 がE の場合)
Table 4 Payoff matrix for the typical example where (PC,PD,PE)=(0.1, 0.2, 0.9) (user 3 selects E).
u2: C u2: D u2: E u1: C .05, .05, .9 .1, .2, .9 SM .1, .45, .45 u1: D .2, .1, .9 SM .1, .1, .9 .2, .45, .45 u1: E .45, .1, .45 .45, .2, .45 .3, .3, .3 NE ているので,この場合,全てのユーザがEを選ぶ状態 (1通り)がナッシュ均衡(Nash EquilibriumNE)と なっている. 綱引きボムベのパフォーマンスは「スコア: ユーザ が1000回プレイして得た報酬の回数」で評価する.コ グニティブ無線においては,送信できたパケット量に 対応する.図3に典型例(PA,PB,PC, PD,PE) = (0.03, 0.05, 0.1, 0.2, 0.9)の場合に対する綱引きボム ベのスコアを示した.1000サンプルを使用したので 各データにつき1000個の円がある.各円は一つのサ ンプルについて,選択数1000までに獲得したスコア をユーザi(水平軸)とユーザj(垂直軸)について表 している.図3には六つのクラスターが確認できる. これらが,各ユーザがそれぞれ上位三つ(C, D, E)の 異なるマシンを選ぶ「棲み分け状態(6通り)」の二 次元展開に対応し,全体最適を与える.全体最適点は, (ユーザ1のスコア,ユーザ2のスコア,ユーザ3の スコア) = (100, 200, 900),(100, 900, 200),(200, 100, 900),(200, 900, 100),(900, 100, 200),(900, 200, 100)である.特に,ナッシュ均衡状態(300, 300, 300)が実現されないことに注目したい. 更に,選択数1000までの合計スコアのサンプル平均 を図4に示す.各ユーザのスコアの平均と合計スコアの 平均を示している.ほぼ公平性が保たれながら,合計ス コアの平均値が全体最適である100+200+900 = 1200 を獲得できていることを確認できる.ここでは,パラ メタω = 0.08, A = 1.0を用いた(γ = PB+PCと して式(3)を計算). 次に,他の一般的な例として,(PA,PB,PC, PD, PE) = (0.1, 0.2, 0.3, 0.4, 0.5)を考える.図5に,綱 図 3 綱引きボムベのスコア.(PA,PB,PC,PD,PE) = (0.03, 0.05, 0.1, 0.2, 0.9) の場合
Fig. 3 Scores of the TOW Bombe for the case where (PA,PB,PC,PD,PE) = (0.03, 0.05, 0.1, 0.2,
図 4 綱引きボムべの合計スコアの平均.(PA,PB,PC,
PD,PE) = (0.03, 0.05, 0.1, 0.2, 0.9) の場合
Fig. 4 Average total scores of the TOW Bombe for the case where (PA, PB, PC, PD, PE) = (0.03, 0.05, 0.1, 0.2, 0.9).
図 5 綱引きボムベのスコア.(PA,PB,PC,PD,PE) = (0.1, 0.2, 0.3, 0.4, 0.5) の場合
Fig. 5 Scores of the TOW Bombe for the case where (PA,PB, PC,PD,PE) = (0.1, 0.2, 0.3, 0.4,
0.5).
図 6 綱引きボムべの合計スコアの平均.(PA,PB,PC,
PD,PE) = (0.1, 0.2, 0.3, 0.4, 0.5) の場合 Fig. 6 Average total scores of the TOW Bombe for
the case where (PA,PB,PC,PD,PE) = (0.1,
0.2, 0.3, 0.4, 0.5). 引きボムベのスコアを,図6に合計スコアの平均を示 した.この場合,全体最適点は,(ユーザ1のスコア, ユーザ2のスコア,ユーザ3のスコア) = (300, 400, 図 7 綱引きボムベのスコア.(PA,PB,PC,PD,PE) = (0.03, 0.05, 0.1, 0.2, 0.9) の場合
Fig. 7 Scores of the TOW Bombe for the case where (PA,PB,PC,PD,PE) = (0.03, 0.05, 0.1, 0.2, 0.9). 500),(300, 500, 400),(400, 300, 500),(400, 500, 300),(500, 300, 400),(500, 400, 300)であるが,ク ラスターを見ても,合計スコアの平均値を見ても,全 体最適である300 + 400 + 500 = 1200が実現できて いることが確認できる.このような一般的な例に対し ても全体最適が実現できていることがわかる.なお, ここではパラメタω = 0.33, A = 1.0を用いた. 本論文では前もってパラメタωを与える場合につい て示したが,初期に何の情報も与えず,パラメタを内 部変数で推定する綱引きボムベについても研究されて いる[21].この場合,揺らぎがより効果的に活用でき るようになり,特に人工的に作った揺らぎよりも内部 発生的なランダムな揺らぎの方がパフォーマンスが良 いという結果が得られている.図 7aにスコア,bに スコアの揺らぎ依存性を示す.これは,装置において 自然に発生する揺らぎがより効果的であるということ を示唆しており,自然現象の能力をより引き出すこと に成功している.この自然に発生する内部揺らぎは, デジタル計算機で計算する場合,膨大な計算コストが かかってしまう.なぜなら,体積保存則を満たすよう に揺らぎを入れ,かつ,揺らぎのランダム性を上げる
にはどうしても相当な計算コストがかかってしまうか らである.しかし,自然を活用すれば「自動的に」体 積保存則とランダム性は満たされ,パフォーマンスも より向上させることが可能なのである.
5.
む す び
本研究では,コグニティブ無線のチャネル割当て問 題に焦点を絞り,限定された形のゲーム利得マトリッ クスにおいては全体最適を高速に導出できる「物理現 象を活用する計算装置」が存在することを示した.こ の装置は,「綱引き原理」と呼ぶ,体積保存則を満たす ダイナミックスによる効率的プロセスを利用し,二種 類の非圧縮性流体を使ったシリンダ系装置により実装 される.この装置を使うことで,毎時刻O(NM)の評 価値を計算することなく,M回の操作(シリンダ内の 流体界面の上下運動)を繰り返すだけで,自動的に全 体最適な割当てが導出される. 筆者らは量子ドット間のエネルギー移動を用いた意 思決定装置[24], [25]や単一光子を用いた意思決定装 置[26], [27]などを作製してきた.これらを複数接続す ることで「量子版綱引きボムベ」も実装可能である. 量子版綱引きボムベは,コグニティブ無線の問題だけ でなく,より多様なゲーム利得マトリックスに対応で きる可能性があり,より広範な応用性を期待できる. これらについては将来他所で議論することとしたい. 謝辞 本研究の一部は日本学術振興会科学研究費補 助金挑戦的萌芽研究並びに研究拠点形成事業(A.先端 拠点形成型)による.綱引きボムベの理論と量子的拡 張についての有益な議論に対して,山梨大学の堀裕和 教授に感謝する. 文 献[1] B.B. De Mesquita, The Predictioneer’s Game, Ran-dom House, 2009.
[2] S.-J. Kim, M. Aono, and M. Hara, “Tug-of-war model for two-bandit problem,” in C. Calude, et al. eds., Unconventional Computation, Lecture Notes in Com-puter Science, vol.5715, Springer, p.289, 2009. [3] S.-J. Kim, M. Aono, and M. Hara, “Tug-of-war model
for multi-armed bandit problem,” in C. Calude, et al. eds., Unconventional Computation, Lecture Notes in Computer Science, vol.6079, Springer, pp.69–80, 2010.
[4] S.-J. Kim, M. Aono, and M. Hara, “Tug-of-war model for the two-bandit problem: Nonlocally-correlated parallel exploration via resource conserva-tion,” BioSystems, vol.101, pp.29–36, 2010. [5] 金 成主,青野真士,原 正彦,“多本腕バンディット問題
に対する綱引きモデルについて ∼非局所的に相関した並 列サーチのための生物からヒントを得た計算手法∼,”信 学技報,NLP2010-4, 2010.
[6] S.-J. Kim, E. Nameda, M. Aono, and M. Hara, “Adaptive tug-of-war model for two-armed bandit problem,” Proc. NOLTA2011, pp.176–179, 2011. [7] 金 成主,青野真士,行田悦資,原 正彦,“粘菌の意思決
定を模した綱引きモデル ∼正確で速い並列探索アルゴリズ ムの物理的実装に向けて∼,”信学技報,CCS2011-025, 2011.
[8] M. Aono, S.-J. Kim, M. Hara, and T. Munakata, “Amoeba-inspired tug-of-war algorithm for exploration-exploitation dilemma in extended bandit problem,” BioSystems, vol.117, pp.1–9, 2014. [9] S.-J. Kim, M. Aono, E. Nameda, and M. Hara,
“Tug-of-war model for competitive multi-armed ban-dit problem: Amoeba-inspired algorithm for cogni-tive medium access,” Proc. NOLTA2012, pp.590–593, 2012. [10] 金 成主,青野真士,行田悦資,原 正彦,“コグニティ ブ媒体アクセスのためのアメーバインスパイアード・アル ゴリズム,”信学技報,CCS2012-037, 2012. [11] 金 成主,青野真士,“コグニティブ媒体アクセスのため のアメーバインスパイアード・アルゴリズム II,”信学技 報,CCS2013-034, 2013.
[12] S.-J. Kim and M. Aono, “Amoeba-inspired algorithm for cognitive medium access,” NOLTA, IEICE, vol.5, no.2, pp.198–209, 2014.
[13] S.-J. Kim, M. Aono, and E. Nameda, “Efficient decision-making by volume-conserving physical ob-ject,” New J. Phys., vol.17, 083023, 2015.
[14] S.-J. Kim, T. Tsuruoka, T. Hasegawa, M. Aono, K. Terabe, M. Aono, “Decision maker based on atomic switches,” AIMS Materials Science, vol.3, no.1, pp.245–259, 2016.
[15] P. Auer, N. Cesa-Bianchi, and P. Fischer, “Finite-time analysis of the multiarmed bandit problem,” Mach. Learn., vol.47, pp.235–256, 2002.
[16] L. Lai, H. Jiang, and H.V. Poor, “Medium access in cognitive radio networks: a competitive multi-armed bandit framework,” Proc. IEEE 42nd Asilomar Con-ference on Signals, System and Computers, pp.98– 102, 2008.
[17] L. Lai, H.E. Gamal, H. Jiang, and H.V. Poor, “Cog-nitive medium access: exploration, exploitation, and competition,” IEEE Trans. Mobile Comput., vol.10, no.2, pp.239–253, 2011.
[18] L. Kocsis and C. Szepesv´ari, “Bandit based monte-carlo planning,” in J.G. Carbonell, et al. eds., 17th European Conference on Machine Learning, Lecture Notes in Artificial Intelligence, vol.4212, Springer, pp.282–293, 2006.
[19] S. Gelly, Y. Wang, R. Munos, and O. Teytaud, “Mod-ification of UCT with patterns in monte-carlo Go,” RR-6062-INRIA, pp.1–19, 2006.
[20] D. Agarwal, B.-C. Chen, and P. Elango, “Ex-plore/exploit schemes for web content optimization,” Proc. ICDM2009, http://dx.doi.org/10.1109/ ICDM.2009.52, 2009.
[21] S.-J. Kim, M. Naruse, and M. Aono, “Harnessing the computational power of fluids for optimization of col-lective decision making,” Philosophies, vol.1, pp.245– 260, 2016.
[22] S.-J. Kim and M. Aono, “Decision maker using coupled incompressible-fluid cylinders,” Spec. Issue Adv. Sci. Technol. Environmentol., vol.B11, pp.41– 45, 2015.
[23] T. Roughgarden, “Selfish routing and the price of an-archy,” The MIT Press, Cambridge, 2005.
[24] S.-J. Kim, M. Naruse, M. Aono, M. Ohtsu, and M. Hara, “Decision maker based on nanoscale photo-excitation transfer,” Scientific Reports, vol.3, 2370, 2013.
[25] M. Naruse, W. Nomura, M. Aono, M. Ohtsu, Y. Sonnefraud, A. Drezet, S. Huant, and S.-J. Kim, “De-cision making based on optical excitation transfer via near-field interactions between quantum dots,” J. Appl. Phys., vol.116, 154303, 2014.
[26] M. Naruse, M. Berthel, A. Drezet, S. Huant, M. Aono, H. Hori, and S.-J. Kim “Single photon deci-sion maker,” Sci. Rep., vol.5, 1325, 2015.
[27] M. Naruse, M. Berthel, A. Drezet, S. Huant, H. Hori, and S.-J. Kim, “Single photon in hierarchical archi-tecture for physical decision making: photon intelli-gence,” ACS Photonics, vol.3, pp.2505–2514, 2016. (平成 28 年 11 月 30 日受付,29 年 2 月 9 日再受付, 5月 16 日公開) 金 成主 (正員) 国立研究開発法人物質・材料研究機構 NIMS特別研究員.1994 年朝鮮大学校理 学部卒業.1997 年早稲田大学大学院理工 学研究科物理学及び応用物理学専攻修士課 程修了.2000 年早稲田大学大学院理工学 研究科物理学及び応用物理学専攻博士後期 課程単位取得.博士 (理学).2002 年から 2008 年まで情報通信 研究機構有期研究員.2003 年から 2006 年まで日本学術振興会 特別研究員.2004 年から 2006 年までウィーン工科大学客員研 究員.2008 年から 2013 年まで理化学研究所研究員.2008 年 から 2013 年まで漢陽大学校 (韓国) 研究助教授.2013 年から 現職.複雑系科学,非線形動力学と情報通信への応用,ナチュ ラルコンピューティングの研究に従事.日本物理学会,電子情 報通信学会などの会員. 成瀬 誠 (正員) 国立研究開発法人情報通信研究機構ネッ トワークシステム研究所主任研究員.1994 年東京大学工学部計数工学科卒業.1999 年同大大学院工学系研究科計数工学専攻博 士課程修了.博士 (工学).日本学術振興会 リサーチアソシエート,東京大学助手を経 て 2002 年より情報通信研究機構.この間,JST さきがけ研 究員 (2001-2005),東京大学大学院工学系研究科委嘱准教授 (2006-2011)を兼務.2017 年グルノーブルアルプス大学 (フ ランス) 招聘教授.応用物理学会光学論文賞.先端技術大賞等 受.情報フォトニクス,ナチュラルコンピューティング,光シ ステム物理学等の研究に従事. 青野 真士 (正員) 1999年慶應義塾大学環境情報学部卒業. 2001年神戸大学大学院自然科学研究科地球 惑星科学専攻博士課程前期課程修了.2004 年神戸大学大学院自然科学研究科情報メ ディア科学専攻博士課程後期課程修了.博 士 (理学).2004 年から 2013 年まで理化 学研究所研究員.2013 年 4 月から東京工業大学地球生命研究 所研究員.同年 10 月から科学技術振興機構 (JST) 戦略的創造 研究推進事業 (PRESTO) さきがけ研究員 (兼任).2015 年 4 月から東京工業大学地球生命研究所准主任研究者.平成 28 年 度文部科学大臣表彰「若手科学者賞」受賞.複雑系科学,非線 形動力学,バイオコンピューティング,ナチュラルコンピュー ティング,生命の起源の研究に従事.電子情報通信学会,応用 物理学会などの会員.