光を用いた意思決定 ─バンディット問題を光で解く─

(1)

1．意思決定問題を光で解決する

人工知能（Artificial Intelligence：AI）における重要課題である意思決定 [Sutton 98] とは，動的に変化する環境での適切な判断であり，無線通信における周波数割当ての効率化 [Kuroda 18]，モンテカルロ木探索 [Silver 17]，自動運転・ロボットなどの運輸・交通・生産などの多くの重要な応用の基礎にあることから活発な研究が行われている．意思決定問題の基盤に，当たり確率の未知なスロットマシンからの獲得報酬を最大化する問題（多本腕バンディット問題（Multi-Armed Bandit problem：MAB））がある．報酬の最大化には，いずれのマシンを選択するのが有利かを知るための探索（試し打ち）が必要になるが，過度な探索は損失を伴い，他方で性急な判断は良い選択を逃しかねない．さらに，当たり台が時々刻々と変化する可能性（不確実な環境変化）があることから，状況に応じて自律的に意思決定を変化させる必要もある．このように，探索と決断に難しいトレードオフが存在する（exploration-exploitation dilemma）．本研究では，意思決定とは MAB の解決を指し示すものとする．これまで既存の計算機上のアルゴリズム（softmax 法， UCB法など）[Auer 02, Daw 06, Robbins 52] として古来取り組まれていた意思決定問題を，物理系のダイナミクスを用いて直接に解決できれば，フォン・ノイマンボトルネックと呼ばれる従来システムの限界 [石川 14] を打破し，新たな価値を提供できる可能性がある．特に，光および光技術（フォトニクス）の極限性能を追求すると，光の高帯域性や光と物質との相互作用などの物理系に固有の特長を生かした，全く新たなシステム構造や機能が見えてくる．本稿では，著者らが多くの研究者と協働で取り組んでいる，光を用いた物理的な意思決定に関する研究について，① 単一光子を用いた光の素励起レベルの意思決定 [Naruse 15, Naruse 16]，② レーザカオスを用いた超高速意思決定 [Mihana 18, Naruse 17a, Naruse 18a]，③ エンタングルメントフォトンを用いた意思決定 [Naruse 18b]， ④ 圏論を用いた物理的意思決定の理論の構築，に関する最近の研究の概要を示す．人工知能の目覚ましい発展に歩調を合わせるかのように，光の特長を生かした情報機能の構築に関する研究に， 1980年代の光コンピューティングのフィーバとは異なる新たな形で，世界的に改めて高い関心が寄せられている [Cognitive-Comp 18, JST 18, UCNC 18]．そこには，コンピューティングに関する激烈かつ多様な需要と重要性の高まりや，ムーアの法則の終焉を迎えつつある電子デバイス技術環境の変容，さらに，80 年代からの時の経過を経て，光通信技術や光デバイス技術をはじめとしたフォトニクスが長足の発展を遂げたことなどが，背景

光を用いた意思決定

─バンディット問題を光で解く─

Decision Making by Photonics

　─ Solving Multi-armed Bandit Problems by Photons ─

成瀬　　誠

情報通信研究機構ネットワークシステム研究所

Makoto Naruse Network System Research Institute, National Institute of Information and Communications Technology. [email protected], http://www.nict.go.jp/

内田　淳史

埼玉大学大学院理工学研究科数理電子情報部門

Atsushi Uchida Department of Information and Computer Sciences, Saitama University.

[email protected], http://www.au.ics.saitama-u.ac.jp/

Huant Serge

グルノーブルアルプス大学・CNRS ニール研究所「物理

─

光

─

物質」部門

CNRS, Institut Néel, University Grenoble Alpes.

[email protected], http://neel.cnrs.fr/

Keywords:

decision making, reinforcement learning, photonics, single photon, laser chaos, entangled photon. 「自然界に見いだす数物構造を利用した知的情報処理」

(2)

として当然考えられる．光を用いた意思決定は，本特集でも解説のあるレーザ発振の自己収束動作を応用した解探索 [Inagaki 16, 稲垣 18] や，光の非線形力学を生かす光リザーバコンピューティング [Brunner 13, 菅野 18] とは，機能面でも技術面でも一線を画しているが，同時に，相互補完的な関係にある．また，本特集において，堀や西郷が示している自然知能の理論 [堀 18, 西郷 18a] とも密接に関連する．これらの全体像のなかで，光を用いた物理的意思決定という新たな研究領域が発展している．

2．単一光子意思決定

MABの困難さは，選択肢の数が多くなったときに際立ってくるが，選択肢がたった 2 個の場合にも難しさをはらむ．単純には，直近の選択で数多く当たったほうの台を引き続ければよいと考えがちだが，それは実は単なる偶然であり，「本当に良い台（当たり確率の高い台）は逆側の台だった」ということは容易にあり得る．すなわち，「反対側の台のほうが実は良いのかもしれない」という「反省の契機」を適度に保ちながら決断を進めていくことが必要である（Naruse と Hori らはこの問題を環境系に潜む「特異性」を解消する問題と捉え，圏論を用いた理論化を行っている [Naruse 18c, Naruse 18d]． 5章に概要を示す）．我々は，このような適度な反省の契機を保ちながら決断を進めるという構造が，「単一光子の粒子性と確率性を用いて物理的に直接に実現できる」ことを見いだし，ナノダイヤモンドを単一光子源とした独自の実験システムで実証した [Naruse 15, Naruse 16]．偏光ビームスプリッタ（Polarization Beam Splitter：PBS）に，水平

に対して 45 度傾いた偏光を有する単一光子が入射したとする（図 1（a））．単一光子は，PBS によって確率 1/2 で光検出器 0 または光検出器 1 に向かう．単一光子の粒子性のため，いずれかのチャネルにおいて光子は必ず観測される．PBS に対してほとんど垂直の偏光（V）を有する単一光子が入射したときは，ほとんど 1 の確率で光子は光検出器 0 で検出される．同様に，PBS に対しほとんど水平（H）の偏光を有する単一光子が入射したときは，ほとんど 1 の確率で光子は光検出器 1 で検出される．このように，単一光子の行き先は，偏光に依存して確率的に異なるが，個々のイベントは光の粒子性のために確実に定まる．我々の提案するシステムでは，光検出器 0 で光子が検出されたときは，ただちに，スロットマシン 0 を選ぶ意思決定がなされたとし，光検出器 1 での光子検出はスロットマシン 1 を選択する意思決定と対応付ける．したがって，意思決定の基本戦略は，「良い台」と考える側に向けて，単一光子の偏光を制御することとなる．ここで重要なことは前述の「反省の契機」である．単一光子の確率的性質により，光子には「逆側のチャネル」で検出される可能性が残されている．すなわち，例えば入射偏光が水平に近づけば，光検出器 1 により光子検出される確率が上昇するが，逆側での光子検出の確率はゼロにはならない．特に偏光が 45°の近傍では反省の機会は自然と高まる．以上のシステム原理は古典光では実現できず，量子的な光（単一光子）で初めて実現される．実験では，単一光子源としてナノダイヤモンド中の窒素欠陥を用い，偏光子，半波長板，PBS 通過後の光子を 2 チャネルの単一光子検出器で計測する．時間相関単一光子計数システムにより光子の到着タイミングを検出し，これを意思決定に用いた．選択したスロットマシンからの報酬に基づいて半波長板の回転角を調節し，単一光子の偏光状態を制御する．代表的な結果を図 1（b）に示す．横軸はスロットマシンのプレイ回数，縦軸は「正しい意思決定をした割合（報酬確率が高いほうのスロットマシンを選択した割合）」を示す．最初の 150 サイクルではスロットマシン 0と 1 の報酬確率はそれぞれ 0.8，0.2 と設定してある．よって，スロットマシン 0 の選択が「正しい意思決定」である．時間の経過とともに 1 に漸近していることがわかる（実線）．さらに，環境が不確実に変化することを表現するため，150 サイクルごとにスロットマシン 0 と 1の報酬確率を反転（0.8 を 0.2 に，0.2 を 0.8 にスイッチ）させる．この結果，報酬確率の反転直後に成績は低下するが，時間の経過とともに回復し 1 に漸近している．これは，システムが自律的に環境変化を検知し正しい意思決定を実現していることを示す．点線はスロットマシンの報酬確率を 0.6 と 0.4 に設定した場合の結果である．報酬確率の差が小さいためより難易度の高い意思決定課題を設定したことに対応する．成績はやや低下するが，図 1 単一光子を用いた意思決定の実証．（a）システムアーキテクチャ．（b）2 本腕バンディット問題の解決．自律的な環境変化の検知と適応が実現している

(3)

依然として，自律的に正しい意思決定を実現していることがわかる．

3．レーザカオスを用いた超高速意思決定

前章の単一光子意思決定は，光の素励起レベルの物理を直接に生かした意思決定であり，光の省エネルギー性や集積性の極限性能を実証しているが，単一光子源からの光子生成レートや偏光制御系などの高速化において技術的な難しさがある．一方で，光の最も顕著な物理的性質の一つは広帯域性であり，通信網からデータセンタまで，周知のように光は不可欠な基盤として用いられている．そこで，時間領域での光の極限性能と，半導体レーザをはじめとした光デバイス技術を生かした物理的意思決定の第一歩として，レーザカオスを用いた超高速意思決定を実験的に実証した [Mihana 18, Naruse 17a, Naruse 18a]． 3･1 レーザカオス半導体レーザから出射する光を，鏡で反射させてレーザに戻すと，レーザの動作が不安定化しカオスが生じることが知られている [Uchida 12, 内田 16]（図 2（a））．このような不安定化を避けるために，（レーザポインタなどをはじめ），通常，レーザには光の逆戻りが起きないような工夫がなされている（反射防止膜や光アイソレータ）．しかし，近年ではこの現象を逆に積極的に生かし，超高速な物理乱数生成 [Argyris 10, Uchida 08] や本特集における光リザーバコンピューティング [Brunner 13, 菅野 18] などの新たな可能性が開拓された．本章に示すレーザカオスの意思決定への展開は，最新動向の一つといえる． 3･2 超高速意思決定の基本原理レーザカオスを用いた意思決定の基本原理は前節の単一光子意思決定に類似するが，実現形態は全く異なる．半導体レーザから生成したレーザカオス光を高速にサンプリングし，「しきい値」との大小判定のみで意思決定を行う（図 2（a））．計測した信号レベルが「しきい値より大きいとき」には「スロットマシン 0」を選択すると意思決定し，「小さいとき」は「スロットマシン 1」を選択すると意思決定する．しきい値が十分大きいときは，計測される信号レベルはしきい値より小さくなる場合が多くなり，したがって「スロットマシン 1」を選択するケースがほとんどとなる．ところが，カオスの乱雑さのために，時として計測する信号レベルがしきい値よりも大きくなることがあり，逆側の「スロットマシン 0」を選択することも生じる．すなわち，前節でも議論された「反省の契機」がカオスの不確実さによってもたらされることになる．実験では半導体レーザと光遅延系により生成したレーザカオス光を高速にサンプリングし，上述のしきい値判定のみで意思決定を行う．サンプリング間隔 10 ピコ秒（毎秒 100 ギガサンプル）で光強度データを取得し，意思決定の検証はオフラインで実装した．図には示していないが，図 1（b）と同様に，不確実な環境変化の検知と適応が確認されている [Naruse 17a]．図 2（b）は事前の知識が全くない状態からの意思決定の実現例を示す．レーザカオスの信号を 50 ピコ秒（毎秒 20 ギガサンプル）でサンプリングしたときに，最も適応性に優れた性能が得られている（「正しい意思決定の割合」＝「当たり確率の高い台を選んだ割合」がより速く上昇している）．およそ 20 回の試行で正解率 9 割以上が得られ，事前知識ゼロの状態から約 1 ナノ秒という非常に短いレイテンシーで意思決定が実現している．さらに，本実験に用いたレーザカオスの波形を特徴付ける量である自己相関の値は，意思決定性能が最も高まるサンプリング間隔（50 ピコ秒）において負の最大値を示した．また，負の自己相関の最大値がより大きな擬似周期信号では，意思決定性能はレーザカオスよりも劣る．さらに，一様乱数ならびに負の自己相関を含むようにコンピュータ上で構築したカラーノイズは，レーザカオスのような高速な信号生成は不可能だが，絶対時刻ではなくステップ数として評価しても，カオスのほうが優れた適応性能を実現している（図 2（b））．このことは，カオス時系列が含む時間構造と意思決定性能の間の関係を強く示唆している．このポイントは次の 3･3 節でさらに掘り下げる． 3･3 スケーラブル超高速意思決定前節ではスロットマシンの台数が 2 台という最小規模のバンディット問題の解決を示しているが，実際の応用で求められる問題規模に対応するためのスケーラビリティーの実現は重要な課題である．本章では，レーザカオスからのサンプリングを時間多重化することによるス図 2　レーザカオスを用いた超高速意思決定．（a）原理の概要．（b）計算機上で生成する一様乱数やカラーノイズはレーザカオスの実現する高速性（実験では最速で毎秒 100 ギガサンプル）は不可能だが，ステップ数で評価してもカオスのほうが適応性に優れている

(4)

ケーラブルな意思決定の原理を示し，実際のカオス光を用いた実証結果を示す． 2N_{個のスロットマシン（N は自然数）から当たり確} 率の最も高い台を選択する問題を考え，各マシンの ID を 2 進数で表す．時刻 t1でサンプリングした光強度が しきい値 TH1より大きいときは，選択する台の最上位 ビットを 0 とする．次に，時刻 t2での光強度がしきい値 TH2, 0より大きいときは，選択する台の上位から 2 ビット目を 0 とする．これを必要なビット数だけ繰り返すことにより最終的に選択する台が決まる（図 3（a））．選んだ台から得られた報酬に基づいてしきい値を更新する [Naruse 18a]．実験では 64 台までの動作を確認した（図 3（b））．カオス時系列には，戻り光を生成するミラーの反射率を異ならせた 4 種類（カオス 1, 2, 3, 4）を用いている．4 個のカオスのなかでの性能の差は歴然とはしていないが，カオス 3 が最も優れており，正しい意思決定の割合が 95％を超えるまでに必要なステップ数は N1.16_{に比例し，} 腕数に対しおよそ線形である．また，図 3（b）より，擬似周期信号，およびコンピュータ上で生成したカラーノイズおよび一様乱数を入力時系列として用いると，特に腕数が大きいときには正しい意思決定に至ることが全くできていない様子がわかる．このことは，カオス時系列に含まれる時間構造が意思決定に影響することを，前節の結果よりも一層際立った形で示すものであり，意思決定性能を最大化するような不確実信号の存在可能性を示唆しているといえ，大変興味深い．この背景の解明と実践的な性能最適化は今後の課題だが，一つの手掛かりとして，信号の拡散性に着目した以下の結果が得られている．今，カオス時系列によって駆動されるランダムウォーカを考え，その拡散性を評価する．カオス時系列と別途，一様乱数による時系列を準備する．乱数の値がカオスに よる値よりも小さければ，ウォーカは右へ動き（X（t）＝ ＋1），大きければ左へ動くとする（X（t）＝−1）．したがっ て，時刻 t でのウォーカの位置は x（t）＝X（1）＋X（2）＋… ＋X（t）である．このとき，x（t）のアンサンブル平均 <x（t）> と時刻 t＋D でのアンサンブル平均 < x（t＋D）> をそれぞれ X 座標，Y 座標とみなすと，点列は図 4 の ように分布する．ここで D は 10 000 とした．擬似周期 信号およびカラーノイズは，原点から遠方へも到達しているが，面内の特定の軌道上にしか分布していない．一様乱数は原点の極近辺に留まっている．これに対し，カオスでは，原点から遠方まで面内を隈なくカバーしている．このことは，カオスが探索空間をより素早く探索していることの表れと考えられる．また，平均二乗変位（厳密には Ensemble averages of the Time-averaged Mean Square Displacements：ETMSD）で評価すると，4 種のカオスに対する ETMSD の大小と意思決定性能の優劣が整合する（詳細は [Naruse 18a] を参照されたい）．拡散性や探索性能に優れた量子ウォークとの関連の考察や，保型形式などの数理を用いた理論化など含め，さらなる理解の深化が期待される．なお，本章で示したスケーラビリティー原理は，光の高帯域性を生かした時分割多重に着目しているが，これは一例であり，波長多重，空間多重，偏波多重，これらの組み合わせなどさまざまな原理があり得る．これらは，光の多次元性や多重性という物理的特長の反映であり，さらなるアーキテクチャの創造は重要な観点の一つといえる．図 3　カオス時系列の時間多重によるスケーラブルな超高速意思決定．（a）最上位ビットからパイプライン型に選択肢の各ビットの意思決定を行う．（b）64 本腕バンディットまでの評価例．腕数の増大に伴い，本方式では一様乱数やカラーノイズでは良い意思決定が全く行えていない図 4 カオスおよび擬似乱数に基づいて生成したランダムウォーカの拡散性の差異．カオス時系列は平面内の広い範囲をカバーしている様子がわかる

(5)

4．エンタングルドフォトンを用いた

競合意思決定問題の解決

前章までの意思決定問題は，単一のプレーヤの報酬最大化を目的としていたが，「複数のプレーヤ」が環境に置かれたときには，状況が一層複雑化する．特に，個々のプレーヤが利得の最大化を目指すと，選択肢の重複（競合）が容易に生じる．スロットマシンから出力される報酬は一定とすると，競合時はプレーヤごとの報酬は重複の数だけ減ることになる（図 5（a）左下）．複数のプレーヤが「チーム一丸となって」，チーム全体としての報酬の最大化を目指すなら，選択肢の重複を避け，上位の台を分散してアタックするのがよい．この問題は「競合的多本腕バンディット問題」（Competitive MAB：CMAB）として知られ [Kim 16, Lai 11]，ネットワークなどの資源利活用の最大化をはじめとした，不確実環境下での全体システムの最適化（Social optimization）に直結する重要課題の根底にある．我々は，CMAB を物理的に解決する原理の実現に向けた最初の試みとして，エンタングルドフォトン（もつれ光子）を用いたシステム構造を提案し，基本原理を実験的に実証した [Naruse 18b]．ここでは，最もシンプルな CMAB として，二人のプレーヤ（プレーヤ 1, 2）が 2 台のスロットマシン（マシン A，マシン B）をアタックする状況を考える．エンタングルドフォトンでは，2 個の光子が生成され，片方はシグナル光，他方はアイドラー光と呼ばれている．シグナル光，アイドラー光を分離し，おのおのを偏光ビームスプリッタに入射させ，垂直偏光（V フォトンと呼ぶ）に対応する光検出器で光子が検出されればスロットマシン A を選択すると意思決定し，水平偏光（H フォトン）に対応する光検出器で光子が検出されればスロットマシン B を選択すると意思決定する（図 5（b））．プレーヤ 1はシグナル光を参照し，プレーヤ 2 はアイドラー光を参照するとする．このとき，エンタングルドフォトンの著しい性質は，プレーヤ 1 が H フォトンを検出したときには，プレーヤ 2 は V フォトンを検出することしかあり得ず，プレーヤ 1 が V フォトンを検出したときにはプレーヤ 2 は H フォトンを検出することしかあり得ないことである．すなわち，両者の意思決定は競合することがない．しかも，この性質は，プレーヤ 1 と 2 の基準座標系が相対的にそろっている限り，エンタングルドフォトンの偏光状態をいかに変化させても，エンタングルメントは維持される．このような極めて特徴のある（一見信じられないほど不思議な）現象は，エンタングルドフォトンが状態の量子重ね合わせ（quantum superposition），式を用いると 1/ 2（HV−VH）として実現されていることによれば自然に理解できる．代表的な結果を図 5（b）に示す．スロットマシンの設定は，前半の 50 サイクルはマシン B の当たり確率が高く 0.8，マシン A の当たり確率は 0.2 とし，後半では当たり確率を入れ替える．2 章で示した単一光子意思決定を用いて，プレーヤ 1 と 2 が個別に意思決定をした場合には，両プレーヤとも当たり台を速やかに見いだし，「正しい」意思決定をする．しかしながら，これは意思決定の競合を意味し，実際，図 5（b）左下のように「競合の頻度（両者が同じ意思決定をした割合）」が極めて高い．そのために，個々の累積報酬も伸び悩み，チーム全体としての累積報酬（両者の累積報酬の和）は 100 サイクル経過後で平均 70.9 となった．これに対し，エンタングルドフォトンを用いたときには図 5（b）右下のように競合の頻度は著しく小さく，チームとしての累積報酬は 93.4 と大幅に増大した．このように CMAB の解決，全体最適のための意思決定にエンタングルドフォトンが有効に働く．さらに「公平性」の観点からもエンタングルドフォトンの効果は際立つ．エンタングルドフォトンに似て非なる光子として相関光子（Correlated photon）がある．偏光が直交した相関光子が生成されたとする．特に，片方のフォトンは水平偏光（H フォトン），他方は垂直偏光（V フォトン）であるとしよう．今，H フォトンがプレーヤ 1 の意思決定に，V フォトンがプレーヤ 2 の意思決定となれば，両者に競合は生じない．したがってチーム全体の報酬は最大化する．しかしながら，当たり台を選ぶプレーヤは固定されるので，獲得報酬の格差も最大化する．これに対して，エンタングルドフォトンでは，社会全体の利益の最大化を維持しながら，両プレーヤには常に公平に（平等に）当たり台を選ぶ機会が与えられ図 5　エンタングルドフォトンを用いた競合的多本腕バンディット問題の解決

(6)

る．公平性や平等性は，社会システムはもちろんのこと通信システムをはじめとした工学システムにおいて重要な価値基準であり，物理的意思決定が提供できる機能になり得る．エンタングルメントの度合いを調節することで，アファーマティブアクションに相当する機会の是正も物理的に実現される．加えて，エンタングルドフォトンでは，両プレーヤの基準座標系を相対的に合わせることが必要だが，逆に，このアライメントがずれれば，全体最適は達成されない．したがって，システム内のプレーヤが「自分だけ儲けたい」と考えて，偏光板を制御する「策略」（Deception）を企てても，他のプレーヤを出し抜くことは不可能であり，そればかりか，社会全体としての利益も低下させてしまう．これに対して相関光子の場合には，他人を出し抜く策略は実現可能である．このように，安全性や保障の観点からも特徴ある機能を提供できる．この性質は，進化生物学やゲーム理論における「進化的に安定な戦略」（Evolutionarily Stable Strategy：ESS）などとも関連

があると思われ，さらなる考察が期待される．

5．物理的意思決定の理論基盤に向けて

─圏論によるアプローチ

光を用いた意思決定システムでは，不確実に変化する環境（報酬の確率的な有無や報酬確率の変化など）と，単一光子の確率性やレーザカオスのカオス性に見られる信号の不規則性，さらにはシステムを統制する制御系が複雑に絡み合って動作している．システムの高度化や系統的なシステム設計，応用展開を見据えると，理論的な基盤を明確な形で構築し，全体のシステム構造を捉えることは不可欠であり，さらに，物理系に一部の機能を担わせる（いわばアウトソースする）ことの本質の理解のためにも重要と言える．そこで本章では，圏論（Category theory）を用いて物理的意思決定にアプローチする研究の概要を紹介する．詳細は [Naruse 18c] を参照されたい．圏論については本特集の [堀 18] および [西郷 18a] などを参照されたい． Naruseと Hori らは，2 章の単一光子を用いた意思決 定システムを，「偏光板のセッティング（Y）」と，「カジ ノのセッティング（X）」としてモデル化し，単一光子を 用いたプレイの繰返しにより，Y が自律的に X に近づく ように時間発展することを示した．X を Y に写し取るこ とが意思決定といえる（堀は，これを「特異性」の問題として捉えることの重要性を示している [堀 18]）．さらに，圏論を規範とした分析により，構造的理解を深めることができる．まず，実際に下される個々の「意 思決定（P）」と「スロットマシンからの報酬（Q）」に 対して，「P と Q の直積としての」カジノセッティング （X＝P×Q），ならびに「P と Q の直和としての」偏光 板のセッティング（Y＝P＋Q）という描像を描くこと が重要である（西郷はこれを「合成系」を考えることの重要性として強調している [西郷 18a]）．加えて，短完全列（Short exact sequence）と呼ばれる概念を基礎と して，以上の 4 個のオブジェクト（X, Y, P, Q）に加えて， 「スロットマシンの確率性を生み出す環境要素＝スロッ トマシンの環境系（M）」と「単一光子の確率性を生み 出す環境要素＝光の環境系（F）」の存在が見いだされ る．さらに，これら合計 6 個のオブジェクトが，「三角圏」で知られている「八面体図式」として相互に関係していることがわかる（図 6）[イヴァセン 97]．この考察によっ て，X が Y に写し取られる様子が，6 個のオブジェクト が 4 本の組ひも上で時間発展することとして了解されることになる．これにより，オブジェクト間の依存関係が明確となり，定性的・定量的な分析が可能になることに加え，「システム内で自律的に性能を改善できる要素」と，「不確実性を解除不可能な要素」の依存関係を明確に図式化・評価することが可能となった [Naruse 18c]（図 6 において，実線の矢印は短完全列に対応した射（arrow）であり，波線は，プロセスを前に進めることに対応した射（特性射）を表している）．さらに，同様のアプローチにより，ナノ寸法での光エネルギー移動を用いた解探索システムに関しても，動作原理の分析が示されている [Naruse 17b]．特に，八面体図式の成立のためには，オブジェクトが短完全列として関係付けられなければならず，このことは，物理的には，システムが一定の定常的状態を経ながら展開していくことの重要性を意味している．逆に言えば，例えば，システムを過剰に高速に動作させると，単完全列が成立せず，正しい解を見つけることができない．我々は，「単完全列時間（short-exact-sequence-based time）」という新たな時間概念を提唱し，その一例として解探索性能の定量的分析を示している [Naruse 17b]．なお，圏論による物理システムの理論化や分析に関しては，Saigo らによるソフトロボットの特徴付けと分析に関する研究があり [Saigo 18b]，そこでは，圏論のコア概念ともいえる自然変換（Natural Transformation）が駆使され，従来のハードロボットとの差異が明確化されている．また，Kubota らは環境系を社会通念や歴史図 6　圏論を用いた単一光子意思決定の構造の理解

(7)

性にまで拡張し，美学の構造を数学によって捉える試みを示している [Kubota 17]．

6．ま　　と　　め

光を用いた意思決定の最近の研究状況を概説した．まだ誕生したばかりの新しい研究領域だが発展は著しいといえる．その背景には，近年の AI の重要性の高まりや，光学，非線形科学，量子物理学，フォトニックデバイス，数学などの個々の研究の発展によることはもちろんだが，学際融合的な研究によるインパクトが大きい．例えば，著者の一人（成瀬）は光コンピューティングやフォトニック情報システム，近接場光学の研究に従事し，非ノイマン型・ポスト Moore の新たなシステムアーキテクチャを探求するなかで，粘菌（アメーバ）と近接場光の類似性を発見し，そこから始まった解探索の研究 [Aono 13, Naruse 12] を契機として，光と意思決定のつながりに至った．現在では，圏論を用いた意思決定の構造理解 [Naruse 18c]，ローカルリザーバによる統合モデル [Naruse 18d]，ひいては本特集の [堀 18] や [西郷 18a]が論じているように，普遍的な自然知能の構築も目指している．一方，著者（内田）は，半導体レーザなどのフォトニクスと複雑系科学を融合した「複雑系フォトニクス」を提唱してきた [内田 16]．本研究で論じた意思決定問題は，強化学習の基礎にある内容であると同時に，一定の事前学習を必要とする光リザーバコンピューティング [菅野 18]を機能補完する内容であり，両者の融合に関しても検討を進めている．また，最先端のフォトニクス技術や高周波デバイス技術のポテンシャルからすれば，光意思決定デバイスやシステムの動作速度，集積性，省エネ性などに関しても，今後大きな発展が期待できる．さらに著者（Huant）は単一光子やもつれ光子を用いたナノ光学とその情報物理基盤 [Naruse 13] に関する協働のなかから意思決定の研究に至った．光を初めとした物理の「素材としての良さ」を，意思決定の視点で捉えることは，知的資産としても価値が高いと考えられる．光を用いた意思決定に関する研究が，今後，人工知能を中心とした情報学・機械学習などの研究分野と連携し，さらなる協創を創出するために，本稿が少しでも寄与することができたら幸いである．謝　辞本稿は CREST「次世代フォトニクス」領域のプロジェクト『ナノ光学と光カオスを用いた超高速意思決定メカニズムの創成』における多くの研究者の協働によるものであり関連各位に感謝申し上げる．なかでも山梨大学の堀裕和博士，埼玉大学の巳鼻孝朋氏，グルノーブルアルプス大学・CNRS の N. Chauvet 氏，G. Bachelier 博士， A. Drezet博士，長浜バイオ大学の西郷甲矢人博士，元京都大学の小嶋泉博士との成果は多大である．本研究の一部は科学技術振興機構 CREST（JPMJCR17N2），日本学術振興会科学研究費補助金（JP17H01277，JP16H 03878）および研究拠点形成事業（Core-to-Core）の支援による．

◇　参　考　文　献　◇

[Aono 13] Aono, M., Naruse, M., Kim, S.-J., Wakabayashi, M., Hori, H., Ohtsu, M. and Hara, M.: Amoeba-inspired nanoarchitectonic computing: Solving intractable computational problems using nanoscale photoexcitation transfer dynamics, Langmuir, Vol. 29, No. 24, pp. 7557-7564（2013） [Argyris 10] Argyris, A., et al.: Implementation of 140 Gb/s true

random bit generator based on a chaotic photonic integrated circuit, Opt. Exp., Vol. 18, pp. 18763-18768（2010）

[Auer 02] Auer, P., Cesa-Bianchi, N. and Fischer, P.: Finite-time analysis of the multi-armed bandit problem, Machine

Learning, Vol. 47, pp. 235-256（2002）

[Brunner 13] Brunner, D., Soriano, M. C., Mirasso, C. R. and Fischer, I.: Parallel photonic information processing at gigabyte per second data rates using transient states, Nat.

Commun., Vol. 4, p. 1364（2013）

[Cognitive-comp 18] Cognitive Computing 2018 Merging Concepts with Hardware, _{http://www.cognitive-comp.} org/

[Daw 06] Daw, N., O’Doherty, J., Dayan, P., Seymour, B. and Dolan, R.: Cortical substrates for exploratory decisions in humans, Nature, Vol. 441, pp. 876-879（2006）

[堀 18] 堀裕和：特集「自然界に見いだす数物構造を利用した知的情報処理」自然知能：基本概念と実現技術，Vol. 33, No. 5, pp. 545-552（2018） [石川 14] 石川正俊 : 二次元情報処理のシステムアーキテクチャー ─光ニューロコンピューティング，光インターコネクション，超高速ビジョン─，光学，Vol. 43, pp. 27-34（2014）

[Inagaki 16] Inagaki, T., et al.: A coherent Ising machine for 2000-node optimization problems, Science, Vol. 354, pp. 603-606（2016） [稲垣 18] 稲垣卓弘：特集「自然界に見いだす数物構造を利用した知的情報処理」コヒーレントイジングマシン，Vol. 33, No. 5, pp. 586-591（2018） [イヴァセン 97] イヴァセン, B.：層のコホモロジー，シュプリンガー・フェアラーク東京（1997）

[JST 18] JST CREST International Workshop: Novel frontiers of optics for computing, https://www.jst.go.jp/kisoken/ crest/research/activity/1111087/index.html [菅野 18] 菅野円隆，内田淳史：特集「自然界に見いだす数物構造

を利用した知的情報処理」光リザーバコンピューティングとその展開，Vol. 33, No. 5, pp. 570-576（2018）

[Kim 16] Kim, S. J., Naruse, M. and Aono, M.: Harnessing the computational power of fluids for optimization of collective decision making, Philosophies, Vol. 1, pp. 245-260（2016） [Kubota 17] Kubota, A., Hori, H., Naruse, M. and Akiba, F.: A

new kind of aesthetics-the mathematical structure of the aesthetic-, Philosophies, Vol. 2, p. 14（2017）

[Kuroda 18] Kuroda, K., Kato, H., Kim, S.-J., Naruse, M. and Hasegawa, M.: Improving throughput using multi-armed bandit algorithm for wireless LANs, NOLTA, IEICE, Vol. 9, pp. 74-81（2018）

[Lai 11] Lai, L, El Gamal, H., Jiang, H. and Poor, H. V.: IEEE

Trans., Mobile Computing, Vol. 10, pp. 239-253（2011） [Mihana 18] Mihana, T., Terashima, Y., Naruse, M., Kim, S.-J.

and Uchida, A.: Memory effect on adaptive decision making with a chaotic semiconductor laser, Complexity, Vol. 2018, pp. 4318127（2018）

[Naruse 12] Naruse, M., Aono, M., Kim, S.-J., Kawazoe, T., Nomura, W., Hori, H., Hara, M. and Ohtsu, M.: Spatiotemporal

(8)

dynamics in optical energy transfer on the nanoscale and its application to constraint satisfaction problems, Phys. Rev. B, Vol. 86, p. 125407（2012）

[Naruse 13] Naruse, M., Tate, N., Aono, M. and Ohtsu, M.: Information Phys. fundamentals of nanophotonics, Rep. Prog.

Phys., Vol. 76, p. 056401（2013）

[Naruse 15] Naruse, M., Huant, S., et al.: Single-photon decision maker, Sci. Rep., Vol. 5, pp. 13253（2015）

[Naruse 16] Naruse, M., Berthel, M., Drezet, A., Huant, S., Hori, H. and Kim S.-J.: Single photon in hierarchical architecture for physical decision making: Photon intelligence, ACS Photonics, Vol. 3, pp. 2505-2514（2016）

[Naruse 17a] Naruse, M., Terashima, Y., Uchida, A. and Kim, S. -J.: Ultrafast photonic reinforcement learning based on laser chaos, Sci. Rep., Vol. 7, p. 8772（2017）

[Naruse 17b] Naruse, M., Aono, M., Kim, S.-J., Saigo, H., Ojima, I., Okamura, K. and Hori, H.: Category theory approach to solution searching based on photoexcitation transfer dynamics, Philosophies, Vol. 2, p. 16（2017）

[Naruse 18a] Naruse, M., Mihana, T., Hori, H., Saigo, H., Okamura, K., Hasegawa, M. and Uchida, A.: Scalable photonic reinforcement learning by time-division multiplexing of laser chaos, Sci. Rep., Vol. 8, p. 10890（2018）

[Naruse 18b] Naruse, M., Chauvet, N., Huant, S., Bachelier, G.: Entangled photons for competitive multi-armed bandit problem: achievement of maximum social reward, equality, and deception prevention, arXiv, 1804.04316（2018）

[Naruse 18c] Naruse, M., Huant S., Hori, H., et al.: Category theoretic foundation of single-photon-based decision making,

Int. J. Info. Tech. Decis., in press.

[Naruse 18d] Naruse, M., Yamamoto, E., Nakao, T., Akimoto, T., Northoff, G., et al.: Why is the environment important for decision making? Local reservoir model for choice-based learning, arXiv, 1804.04324（2018）

[Robbins 52]] Robbins, H.: Some aspects of the sequential design of experiments, B. Am. Math. Soc., Vol. 58, pp. 527-535（1952） [西郷 18a] 西郷甲矢人：特集「自然界に見いだす数物構造を利用した知的情報処理」自然知能と圏論，Vol. 33, No. 5, pp. 553-560 （2018）

[Saigo 18b] Saigo, H., Naruse, M., Okamura, K., Hori, H. and Ojima, I.: Category theory as a foundation for soft robotics,

arXiv, 1805.06213（2018）

[Silver 17] Silver, D., et al.: Mastering the game of go without human knowledge, Nature, Vol. 550, p. 354（2017）

[Sutton 98] Sutton, R. S. and Barto, A. G.: Reinforcement

Learning: An Introduction, The MIT Press: Massachusetts

（1998）

[Uchida 12] Uchida, A.: Optical Communication with Chaotic

Lasers: Applications of Nonlinear Dynamics and Synchroni-zation, Wiley-VCH, Weinheim（2012）

[Uchida 08] Uchida, A., et al.: Fast physical random bit generation with chaotic semiconductor lasers, Nat. Photon., Vol. 2, pp. 728-732（2008）

[内田 16] 内田淳史：複雑系フォトニクス : レーザカオスの同期と光情報通信への応用，共立出版（2016）

[UCNC 18] Decision Making in Nature Workshop, Collocated in Unconventional Computation and Natural Computation 2018, https://ucnc2018.lacl.fr/ 2018年 7 月 11 日受理

著　者　紹　介

成瀬　　誠国立研究開発法人情報通信研究機構ネットワークシステム研究所総括研究員．JST CREST プロジェクトリーダー．東京大学大学院工学系研究科博士課程修了（1999）．博士（工学）．JSPS リサーチアソシエイト，東京大学助手を経て NICT 入所．JST さきがけ（2001 ∼ 05），東京大学委嘱准教授（2006 ∼ 11），グルノーブルアルプス大学招聘教授（2017）を兼務．内田　淳史は，前掲（Vol. 33, No. 5, p. 585）参照． Huant Serge グルノーブルアルプス大学・CNRS ニール研究所副所長兼同所「物理─光─物質（Physique Lumière Matière）」部門長兼 CNRS リサーチディレクター．ナノ光学，メゾスコピック系の物理などの研究に従事．

光を用いた意思決定 ─バンディット問題を光で解く─

1．意思決定問題を光で解決する