1.意思決定問題を光で解決する
人工知能(Artificial Intelligence:AI)における重要 課題である意思決定 [Sutton 98] とは,動的に変化する 環境での適切な判断であり,無線通信における周波数割 当ての効率化 [Kuroda 18],モンテカルロ木探索 [Silver 17],自動運転・ロボットなどの運輸・交通・生産など の多くの重要な応用の基礎にあることから活発な研究 が行われている.意思決定問題の基盤に,当たり確率 の未知なスロットマシンからの獲得報酬を最大化する 問題(多本腕バンディット問題(Multi-Armed Bandit problem:MAB))がある.報酬の最大化には,いずれ のマシンを選択するのが有利かを知るための探索(試し 打ち)が必要になるが,過度な探索は損失を伴い,他 方で性急な判断は良い選択を逃しかねない.さらに,当 たり台が時々刻々と変化する可能性(不確実な環境変 化)があることから,状況に応じて自律的に意思決定 を変化させる必要もある.このように,探索と決断に難 しいトレードオフが存在する(exploration-exploitation dilemma).本研究では,意思決定とは MAB の解決を 指し示すものとする. これまで既存の計算機上のアルゴリズム(softmax 法, UCB法など)[Auer 02, Daw 06, Robbins 52] として古 来取り組まれていた意思決定問題を,物理系のダイナミ クスを用いて直接に解決できれば,フォン・ノイマンボ トルネックと呼ばれる従来システムの限界 [石川 14] を 打破し,新たな価値を提供できる可能性がある.特に, 光および光技術(フォトニクス)の極限性能を追求する と,光の高帯域性や光と物質との相互作用などの物理系 に固有の特長を生かした,全く新たなシステム構造や機 能が見えてくる. 本稿では,著者らが多くの研究者と協働で取り組んで いる,光を用いた物理的な意思決定に関する研究につい て,① 単一光子を用いた光の素励起レベルの意思決定 [Naruse 15, Naruse 16],② レーザカオスを用いた超高 速意思決定 [Mihana 18, Naruse 17a, Naruse 18a],③ エ ンタングルメントフォトンを用いた意思決定 [Naruse 18b], ④ 圏論を用いた物理的意思決定の理論の構築,に関する 最近の研究の概要を示す. 人工知能の目覚ましい発展に歩調を合わせるかのよう に,光の特長を生かした情報機能の構築に関する研究に, 1980年代の光コンピューティングのフィーバとは異な る新たな形で,世界的に改めて高い関心が寄せられてい る [Cognitive-Comp 18, JST 18, UCNC 18].そこには, コンピューティングに関する激烈かつ多様な需要と重要 性の高まりや,ムーアの法則の終焉を迎えつつある電子 デバイス技術環境の変容,さらに,80 年代からの時の 経過を経て,光通信技術や光デバイス技術をはじめとし たフォトニクスが長足の発展を遂げたことなどが,背景光を用いた意思決定
─バンディット問題を光で解く─
Decision Making by Photonics
─ Solving Multi-armed Bandit Problems by Photons ─
成瀬 誠
情報通信研究機構ネットワークシステム研究所Makoto Naruse Network System Research Institute, National Institute of Information and Communications Technology. [email protected], http://www.nict.go.jp/
内田 淳史
埼玉大学大学院理工学研究科数理電子情報部門Atsushi Uchida Department of Information and Computer Sciences, Saitama University.
[email protected], http://www.au.ics.saitama-u.ac.jp/
Huant Serge
グルノーブルアルプス大学・CNRS ニール研究所「物理─
光─
物質」部門CNRS, Institut Néel, University Grenoble Alpes.
[email protected], http://neel.cnrs.fr/
Keywords:
decision making, reinforcement learning, photonics, single photon, laser chaos, entangled photon. 「自然界に見いだす数物構造を利用した知的情報処理」として当然考えられる.光を用いた意思決定は,本特集 でも解説のあるレーザ発振の自己収束動作を応用した解 探索 [Inagaki 16, 稲垣 18] や,光の非線形力学を生かす 光リザーバコンピューティング [Brunner 13, 菅野 18] と は,機能面でも技術面でも一線を画しているが,同時に, 相互補完的な関係にある.また,本特集において,堀や 西郷が示している自然知能の理論 [堀 18, 西郷 18a] とも 密接に関連する.これらの全体像のなかで,光を用いた 物理的意思決定という新たな研究領域が発展している.
2.単一光子意思決定
MABの困難さは,選択肢の数が多くなったときに際 立ってくるが,選択肢がたった 2 個の場合にも難しさ をはらむ.単純には,直近の選択で数多く当たったほう の台を引き続ければよいと考えがちだが,それは実は単 なる偶然であり,「本当に良い台(当たり確率の高い台) は逆側の台だった」ということは容易にあり得る.す なわち,「反対側の台のほうが実は良いのかもしれない」 という「反省の契機」を適度に保ちながら決断を進めて いくことが必要である(Naruse と Hori らはこの問題を 環境系に潜む「特異性」を解消する問題と捉え,圏論を 用いた理論化を行っている [Naruse 18c, Naruse 18d]. 5章に概要を示す). 我々は,このような適度な反省の契機を保ちながら決 断を進めるという構造が,「単一光子の粒子性と確率性 を用いて物理的に直接に実現できる」ことを見いだし, ナノダイヤモンドを単一光子源とした独自の実験システ ムで実証した [Naruse 15, Naruse 16].偏光ビームスプ リッタ(Polarization Beam Splitter:PBS)に,水平に対して 45 度傾いた偏光を有する単一光子が入射した とする(図 1(a)).単一光子は,PBS によって確率 1/2 で光検出器 0 または光検出器 1 に向かう.単一光子の粒 子性のため,いずれかのチャネルにおいて光子は必ず観 測される.PBS に対してほとんど垂直の偏光(V)を有 する単一光子が入射したときは,ほとんど 1 の確率で光 子は光検出器 0 で検出される.同様に,PBS に対しほ とんど水平(H)の偏光を有する単一光子が入射したと きは,ほとんど 1 の確率で光子は光検出器 1 で検出され る.このように,単一光子の行き先は,偏光に依存して 確率的に異なるが,個々のイベントは光の粒子性のため に確実に定まる.我々の提案するシステムでは,光検出 器 0 で光子が検出されたときは,ただちに,スロットマ シン 0 を選ぶ意思決定がなされたとし,光検出器 1 での 光子検出はスロットマシン 1 を選択する意思決定と対応 付ける.したがって,意思決定の基本戦略は,「良い台」 と考える側に向けて,単一光子の偏光を制御することと なる. ここで重要なことは前述の「反省の契機」である.単 一光子の確率的性質により,光子には「逆側のチャネル」 で検出される可能性が残されている.すなわち,例えば 入射偏光が水平に近づけば,光検出器 1 により光子検出 される確率が上昇するが,逆側での光子検出の確率はゼ ロにはならない.特に偏光が 45°の近傍では反省の機会 は自然と高まる.以上のシステム原理は古典光では実現 できず,量子的な光(単一光子)で初めて実現される. 実験では,単一光子源としてナノダイヤモンド中の窒 素欠陥を用い,偏光子,半波長板,PBS 通過後の光子 を 2 チャネルの単一光子検出器で計測する.時間相関単 一光子計数システムにより光子の到着タイミングを検出 し,これを意思決定に用いた.選択したスロットマシン からの報酬に基づいて半波長板の回転角を調節し,単一 光子の偏光状態を制御する. 代表的な結果を図 1(b)に示す.横軸はスロットマ シンのプレイ回数,縦軸は「正しい意思決定をした割 合(報酬確率が高いほうのスロットマシンを選択した割 合)」を示す.最初の 150 サイクルではスロットマシン 0と 1 の報酬確率はそれぞれ 0.8,0.2 と設定してある. よって,スロットマシン 0 の選択が「正しい意思決定」 である.時間の経過とともに 1 に漸近していることがわ かる(実線).さらに,環境が不確実に変化することを 表現するため,150 サイクルごとにスロットマシン 0 と 1の報酬確率を反転(0.8 を 0.2 に,0.2 を 0.8 にスイッ チ)させる.この結果,報酬確率の反転直後に成績は低 下するが,時間の経過とともに回復し 1 に漸近している. これは,システムが自律的に環境変化を検知し正しい意 思決定を実現していることを示す.点線はスロットマシ ンの報酬確率を 0.6 と 0.4 に設定した場合の結果である. 報酬確率の差が小さいためより難易度の高い意思決定課 題を設定したことに対応する.成績はやや低下するが, 図 1 単一光子を用いた意思決定の実証. (a)システムアーキテクチャ.(b)2 本腕バンディット問 題の解決.自律的な環境変化の検知と適応が実現している
依然として,自律的に正しい意思決定を実現しているこ とがわかる.
3.レーザカオスを用いた超高速意思決定
前章の単一光子意思決定は,光の素励起レベルの物 理を直接に生かした意思決定であり,光の省エネルギー 性や集積性の極限性能を実証しているが,単一光子源か らの光子生成レートや偏光制御系などの高速化において 技術的な難しさがある.一方で,光の最も顕著な物理的 性質の一つは広帯域性であり,通信網からデータセンタ まで,周知のように光は不可欠な基盤として用いられて いる.そこで,時間領域での光の極限性能と,半導体 レーザをはじめとした光デバイス技術を生かした物理的 意思決定の第一歩として,レーザカオスを用いた超高速 意思決定を実験的に実証した [Mihana 18, Naruse 17a, Naruse 18a]. 3・1 レ ー ザ カ オ ス 半導体レーザから出射する光を,鏡で反射させてレー ザに戻すと,レーザの動作が不安定化しカオスが生じる ことが知られている [Uchida 12, 内田 16](図 2(a)). このような不安定化を避けるために,(レーザポインタ などをはじめ),通常,レーザには光の逆戻りが起きな いような工夫がなされている(反射防止膜や光アイソ レータ).しかし,近年ではこの現象を逆に積極的に生か し,超高速な物理乱数生成 [Argyris 10, Uchida 08] や本 特集における光リザーバコンピューティング [Brunner 13, 菅野 18] などの新たな可能性が開拓された.本章に 示すレーザカオスの意思決定への展開は,最新動向の一 つといえる. 3・2 超高速意思決定の基本原理 レーザカオスを用いた意思決定の基本原理は前節の単 一光子意思決定に類似するが,実現形態は全く異なる. 半導体レーザから生成したレーザカオス光を高速にサン プリングし,「しきい値」との大小判定のみで意思決定 を行う(図 2(a)).計測した信号レベルが「しきい値 より大きいとき」には「スロットマシン 0」を選択する と意思決定し,「小さいとき」は「スロットマシン 1」を 選択すると意思決定する.しきい値が十分大きいときは, 計測される信号レベルはしきい値より小さくなる場合が 多くなり,したがって「スロットマシン 1」を選択するケー スがほとんどとなる.ところが,カオスの乱雑さのため に,時として計測する信号レベルがしきい値よりも大き くなることがあり,逆側の「スロットマシン 0」を選択 することも生じる.すなわち,前節でも議論された「反 省の契機」がカオスの不確実さによってもたらされるこ とになる. 実験では半導体レーザと光遅延系により生成したレー ザカオス光を高速にサンプリングし,上述のしきい値判 定のみで意思決定を行う.サンプリング間隔 10 ピコ秒 (毎秒 100 ギガサンプル)で光強度データを取得し,意 思決定の検証はオフラインで実装した.図には示してい ないが,図 1(b)と同様に,不確実な環境変化の検知 と適応が確認されている [Naruse 17a]. 図 2(b)は事前の知識が全くない状態からの意思決 定の実現例を示す.レーザカオスの信号を 50 ピコ秒(毎 秒 20 ギガサンプル)でサンプリングしたときに,最も 適応性に優れた性能が得られている(「正しい意思決定 の割合」=「当たり確率の高い台を選んだ割合」がより 速く上昇している).およそ 20 回の試行で正解率 9 割以 上が得られ,事前知識ゼロの状態から約 1 ナノ秒という 非常に短いレイテンシーで意思決定が実現している. さらに,本実験に用いたレーザカオスの波形を特徴付 ける量である自己相関の値は,意思決定性能が最も高ま るサンプリング間隔(50 ピコ秒)において負の最大値 を示した.また,負の自己相関の最大値がより大きな擬 似周期信号では,意思決定性能はレーザカオスよりも劣 る.さらに,一様乱数ならびに負の自己相関を含むよう にコンピュータ上で構築したカラーノイズは,レーザカ オスのような高速な信号生成は不可能だが,絶対時刻で はなくステップ数として評価しても,カオスのほうが優 れた適応性能を実現している(図 2(b)).このことは, カオス時系列が含む時間構造と意思決定性能の間の関係 を強く示唆している.このポイントは次の 3・3 節でさら に掘り下げる. 3・3 スケーラブル超高速意思決定 前節ではスロットマシンの台数が 2 台という最小規 模のバンディット問題の解決を示しているが,実際の応 用で求められる問題規模に対応するためのスケーラビリ ティーの実現は重要な課題である.本章では,レーザカ オスからのサンプリングを時間多重化することによるス 図 2 レーザカオスを用いた超高速意思決定. (a)原理の概要.(b)計算機上で生成する一様乱数やカラー ノイズはレーザカオスの実現する高速性(実験では最速で 毎秒 100 ギガサンプル)は不可能だが,ステップ数で評価 してもカオスのほうが適応性に優れているケーラブルな意思決定の原理を示し,実際のカオス光を 用いた実証結果を示す. 2N個のスロットマシン(N は自然数)から当たり確 率の最も高い台を選択する問題を考え,各マシンの ID を 2 進数で表す.時刻 t1でサンプリングした光強度が しきい値 TH1より大きいときは,選択する台の最上位 ビットを 0 とする.次に,時刻 t2での光強度がしきい値 TH2, 0より大きいときは,選択する台の上位から 2 ビッ ト目を 0 とする.これを必要なビット数だけ繰り返すこ とにより最終的に選択する台が決まる(図 3(a)).選 んだ台から得られた報酬に基づいてしきい値を更新する [Naruse 18a]. 実験では 64 台までの動作を確認した(図 3(b)).カ オス時系列には,戻り光を生成するミラーの反射率を異 ならせた 4 種類(カオス 1, 2, 3, 4)を用いている.4 個 のカオスのなかでの性能の差は歴然とはしていないが, カオス 3 が最も優れており,正しい意思決定の割合が 95%を超えるまでに必要なステップ数は N1.16に比例し, 腕数に対しおよそ線形である. また,図 3(b)より,擬似周期信号,およびコンピュー タ上で生成したカラーノイズおよび一様乱数を入力時系 列として用いると,特に腕数が大きいときには正しい意 思決定に至ることが全くできていない様子がわかる. このことは,カオス時系列に含まれる時間構造が意思 決定に影響することを,前節の結果よりも一層際立った 形で示すものであり,意思決定性能を最大化するような 不確実信号の存在可能性を示唆しているといえ,大変興 味深い.この背景の解明と実践的な性能最適化は今後の 課題だが,一つの手掛かりとして,信号の拡散性に着目 した以下の結果が得られている. 今,カオス時系列によって駆動されるランダムウォー カを考え,その拡散性を評価する.カオス時系列と別途, 一様乱数による時系列を準備する.乱数の値がカオスに よる値よりも小さければ,ウォーカは右へ動き(X(t)= +1),大きければ左へ動くとする(X(t)=−1).したがっ て,時刻 t でのウォーカの位置は x(t)=X(1)+X(2)+… +X(t)である.このとき,x(t)のアンサンブル平均 <x(t)> と時刻 t+D でのアンサンブル平均 < x(t+D)> をそれぞれ X 座標,Y 座標とみなすと,点列は図 4 の ように分布する.ここで D は 10 000 とした.擬似周期 信号およびカラーノイズは,原点から遠方へも到達して いるが,面内の特定の軌道上にしか分布していない.一 様乱数は原点の極近辺に留まっている.これに対し,カ オスでは,原点から遠方まで面内を隈なくカバーしてい る.このことは,カオスが探索空間をより素早く探索し ていることの表れと考えられる.また,平均二乗変位(厳 密には Ensemble averages of the Time-averaged Mean Square Displacements:ETMSD)で評価すると,4 種 のカオスに対する ETMSD の大小と意思決定性能の優劣 が整合する(詳細は [Naruse 18a] を参照されたい).拡 散性や探索性能に優れた量子ウォークとの関連の考察 や,保型形式などの数理を用いた理論化など含め,さら なる理解の深化が期待される. なお,本章で示したスケーラビリティー原理は,光の 高帯域性を生かした時分割多重に着目しているが,これ は一例であり,波長多重,空間多重,偏波多重,これら の組み合わせなどさまざまな原理があり得る.これらは, 光の多次元性や多重性という物理的特長の反映であり, さらなるアーキテクチャの創造は重要な観点の一つとい える. 図 3 カオス時系列の時間多重によるスケーラブルな超高速意思 決定. (a)最上位ビットからパイプライン型に選択肢の各ビット の意思決定を行う.(b)64 本腕バンディットまでの評価例. 腕数の増大に伴い,本方式では一様乱数やカラーノイズで は良い意思決定が全く行えていない 図 4 カオスおよび擬似乱数に基づいて生成したランダムウォー カの拡散性の差異. カオス時系列は平面内の広い範囲をカバーしている様子が わかる
4.エンタングルドフォトンを用いた
競合意思決定問題の解決
前章までの意思決定問題は,単一のプレーヤの報酬最 大化を目的としていたが,「複数のプレーヤ」が環境に 置かれたときには,状況が一層複雑化する.特に,個々 のプレーヤが利得の最大化を目指すと,選択肢の重複(競 合)が容易に生じる.スロットマシンから出力される報 酬は一定とすると,競合時はプレーヤごとの報酬は重複 の数だけ減ることになる(図 5(a)左下).複数のプレー ヤが「チーム一丸となって」,チーム全体としての報酬 の最大化を目指すなら,選択肢の重複を避け,上位の台 を分散してアタックするのがよい.この問題は「競合的 多本腕バンディット問題」(Competitive MAB:CMAB) として知られ [Kim 16, Lai 11],ネットワークなどの資 源利活用の最大化をはじめとした,不確実環境下での全 体システムの最適化(Social optimization)に直結する 重要課題の根底にある. 我々は,CMAB を物理的に解決する原理の実現に向 けた最初の試みとして,エンタングルドフォトン(もつ れ光子)を用いたシステム構造を提案し,基本原理を実 験的に実証した [Naruse 18b]. ここでは,最もシンプルな CMAB として,二人のプ レーヤ(プレーヤ 1, 2)が 2 台のスロットマシン(マシ ン A,マシン B)をアタックする状況を考える.エンタ ングルドフォトンでは,2 個の光子が生成され,片方は シグナル光,他方はアイドラー光と呼ばれている.シグ ナル光,アイドラー光を分離し,おのおのを偏光ビーム スプリッタに入射させ,垂直偏光(V フォトンと呼ぶ) に対応する光検出器で光子が検出されればスロットマシ ン A を選択すると意思決定し,水平偏光(H フォトン) に対応する光検出器で光子が検出されればスロットマシ ン B を選択すると意思決定する(図 5(b)).プレーヤ 1はシグナル光を参照し,プレーヤ 2 はアイドラー光を 参照するとする. このとき,エンタングルドフォトンの著しい性質は, プレーヤ 1 が H フォトンを検出したときには,プレー ヤ 2 は V フォトンを検出することしかあり得ず,プレー ヤ 1 が V フォトンを検出したときにはプレーヤ 2 は H フォトンを検出することしかあり得ないことである.す なわち,両者の意思決定は競合することがない.しかも, この性質は,プレーヤ 1 と 2 の基準座標系が相対的にそ ろっている限り,エンタングルドフォトンの偏光状態を いかに変化させても,エンタングルメントは維持される. このような極めて特徴のある(一見信じられないほど不 思議な)現象は,エンタングルドフォトンが状態の量子 重ね合わせ(quantum superposition),式を用いると 1/ 2(HV−VH)として実現されていることによれば自然 に理解できる. 代表的な結果を図 5(b)に示す.スロットマシンの 設定は,前半の 50 サイクルはマシン B の当たり確率が 高く 0.8,マシン A の当たり確率は 0.2 とし,後半では 当たり確率を入れ替える.2 章で示した単一光子意思決 定を用いて,プレーヤ 1 と 2 が個別に意思決定をした場 合には,両プレーヤとも当たり台を速やかに見いだし, 「正しい」意思決定をする.しかしながら,これは意思 決定の競合を意味し,実際,図 5(b)左下のように「競 合の頻度(両者が同じ意思決定をした割合)」が極めて 高い.そのために,個々の累積報酬も伸び悩み,チーム 全体としての累積報酬(両者の累積報酬の和)は 100 サ イクル経過後で平均 70.9 となった.これに対し,エン タングルドフォトンを用いたときには図 5(b)右下の ように競合の頻度は著しく小さく,チームとしての累積 報酬は 93.4 と大幅に増大した.このように CMAB の解 決,全体最適のための意思決定にエンタングルドフォト ンが有効に働く. さらに「公平性」の観点からもエンタングルドフォ トンの効果は際立つ.エンタングルドフォトンに似て非 なる光子として相関光子(Correlated photon)がある. 偏光が直交した相関光子が生成されたとする.特に,片 方のフォトンは水平偏光(H フォトン),他方は垂直偏 光(V フォトン)であるとしよう.今,H フォトンがプ レーヤ 1 の意思決定に,V フォトンがプレーヤ 2 の意思 決定となれば,両者に競合は生じない.したがってチー ム全体の報酬は最大化する.しかしながら,当たり台を 選ぶプレーヤは固定されるので,獲得報酬の格差も最大 化する.これに対して,エンタングルドフォトンでは, 社会全体の利益の最大化を維持しながら,両プレーヤに は常に公平に(平等に)当たり台を選ぶ機会が与えられ 図 5 エンタングルドフォトンを用いた競合的多本腕バン ディット問題の解決る.公平性や平等性は,社会システムはもちろんのこと 通信システムをはじめとした工学システムにおいて重要 な価値基準であり,物理的意思決定が提供できる機能に なり得る.エンタングルメントの度合いを調節すること で,アファーマティブアクションに相当する機会の是正 も物理的に実現される. 加えて,エンタングルドフォトンでは,両プレーヤの 基準座標系を相対的に合わせることが必要だが,逆に, このアライメントがずれれば,全体最適は達成されない. したがって,システム内のプレーヤが「自分だけ儲けた い」と考えて,偏光板を制御する「策略」(Deception) を企てても,他のプレーヤを出し抜くことは不可能であ り,そればかりか,社会全体としての利益も低下させて しまう.これに対して相関光子の場合には,他人を出し 抜く策略は実現可能である.このように,安全性や保障 の観点からも特徴ある機能を提供できる.この性質は, 進化生物学やゲーム理論における「進化的に安定な戦略」 (Evolutionarily Stable Strategy:ESS)などとも関連
があると思われ,さらなる考察が期待される.
5.物理的意思決定の理論基盤に向けて
─圏論によるアプローチ
光を用いた意思決定システムでは,不確実に変化する 環境(報酬の確率的な有無や報酬確率の変化など)と, 単一光子の確率性やレーザカオスのカオス性に見られる 信号の不規則性,さらにはシステムを統制する制御系が 複雑に絡み合って動作している.システムの高度化や系 統的なシステム設計,応用展開を見据えると,理論的な 基盤を明確な形で構築し,全体のシステム構造を捉える ことは不可欠であり,さらに,物理系に一部の機能を担 わせる(いわばアウトソースする)ことの本質の理解の ためにも重要と言える.そこで本章では,圏論(Category theory)を用いて物理的意思決定にアプローチする研究 の概要を紹介する.詳細は [Naruse 18c] を参照されたい. 圏論については本特集の [堀 18] および [西郷 18a] など を参照されたい. Naruseと Hori らは,2 章の単一光子を用いた意思決 定システムを,「偏光板のセッティング(Y)」と,「カジ ノのセッティング(X)」としてモデル化し,単一光子を 用いたプレイの繰返しにより,Y が自律的に X に近づく ように時間発展することを示した.X を Y に写し取るこ とが意思決定といえる(堀は,これを「特異性」の問題 として捉えることの重要性を示している [堀 18]). さらに,圏論を規範とした分析により,構造的理解を 深めることができる.まず,実際に下される個々の「意 思決定(P)」と「スロットマシンからの報酬(Q)」に 対して,「P と Q の直積としての」カジノセッティング (X=P×Q),ならびに「P と Q の直和としての」偏光 板のセッティング(Y=P+Q)という描像を描くこと が重要である(西郷はこれを「合成系」を考えることの 重要性として強調している [西郷 18a]).加えて,短完 全列(Short exact sequence)と呼ばれる概念を基礎と して,以上の 4 個のオブジェクト(X, Y, P, Q)に加えて, 「スロットマシンの確率性を生み出す環境要素=スロッ トマシンの環境系(M)」と「単一光子の確率性を生み 出す環境要素=光の環境系(F)」の存在が見いだされ る.さらに,これら合計 6 個のオブジェクトが,「三角圏」 で知られている「八面体図式」として相互に関係してい ることがわかる(図 6)[イヴァセン 97].この考察によっ て,X が Y に写し取られる様子が,6 個のオブジェクト が 4 本の組ひも上で時間発展することとして了解される ことになる.これにより,オブジェクト間の依存関係が 明確となり,定性的・定量的な分析が可能になることに 加え,「システム内で自律的に性能を改善できる要素」と, 「不確実性を解除不可能な要素」の依存関係を明確に図 式化・評価することが可能となった [Naruse 18c](図 6 において,実線の矢印は短完全列に対応した射(arrow) であり,波線は,プロセスを前に進めることに対応した 射(特性射)を表している). さらに,同様のアプローチにより,ナノ寸法での光エ ネルギー移動を用いた解探索システムに関しても,動作 原理の分析が示されている [Naruse 17b].特に,八面体 図式の成立のためには,オブジェクトが短完全列として 関係付けられなければならず,このことは,物理的には, システムが一定の定常的状態を経ながら展開していくこ との重要性を意味している.逆に言えば,例えば,シス テムを過剰に高速に動作させると,単完全列が成立せず, 正しい解を見つけることができない.我々は,「単完全 列時間(short-exact-sequence-based time)」という新 たな時間概念を提唱し,その一例として解探索性能の定 量的分析を示している [Naruse 17b]. なお,圏論による物理システムの理論化や分析に関し ては,Saigo らによるソフトロボットの特徴付けと分析 に関する研究があり [Saigo 18b],そこでは,圏論のコ ア概念ともいえる自然変換(Natural Transformation) が駆使され,従来のハードロボットとの差異が明確化さ れている.また,Kubota らは環境系を社会通念や歴史 図 6 圏論を用いた単一光子意思決定の構造の理解性にまで拡張し,美学の構造を数学によって捉える試み を示している [Kubota 17].
6.ま と め
光を用いた意思決定の最近の研究状況を概説した.ま だ誕生したばかりの新しい研究領域だが発展は著しい といえる.その背景には,近年の AI の重要性の高まり や,光学,非線形科学,量子物理学,フォトニックデ バイス,数学などの個々の研究の発展によることはも ちろんだが,学際融合的な研究によるインパクトが大き い.例えば,著者の一人(成瀬)は光コンピューティン グやフォトニック情報システム,近接場光学の研究に従 事し,非ノイマン型・ポスト Moore の新たなシステム アーキテクチャを探求するなかで,粘菌(アメーバ)と 近接場光の類似性を発見し,そこから始まった解探索の 研究 [Aono 13, Naruse 12] を契機として,光と意思決定 のつながりに至った.現在では,圏論を用いた意思決定 の構造理解 [Naruse 18c],ローカルリザーバによる統合 モデル [Naruse 18d],ひいては本特集の [堀 18] や [西郷 18a]が論じているように,普遍的な自然知能の構築も目 指している. 一方,著者(内田)は,半導体レーザなどのフォトニ クスと複雑系科学を融合した「複雑系フォトニクス」を 提唱してきた [内田 16].本研究で論じた意思決定問題は, 強化学習の基礎にある内容であると同時に,一定の事前 学習を必要とする光リザーバコンピューティング [菅野 18]を機能補完する内容であり,両者の融合に関しても 検討を進めている.また,最先端のフォトニクス技術や 高周波デバイス技術のポテンシャルからすれば,光意思 決定デバイスやシステムの動作速度,集積性,省エネ性 などに関しても,今後大きな発展が期待できる. さらに著者(Huant)は単一光子やもつれ光子を用い たナノ光学とその情報物理基盤 [Naruse 13] に関する協 働のなかから意思決定の研究に至った.光を初めとした 物理の「素材としての良さ」を,意思決定の視点で捉え ることは,知的資産としても価値が高いと考えられる. 光を用いた意思決定に関する研究が,今後,人工知能 を中心とした情報学・機械学習などの研究分野と連携し, さらなる協創を創出するために,本稿が少しでも寄与す ることができたら幸いである. 謝 辞 本稿は CREST「次世代フォトニクス」領域のプロジェ クト『ナノ光学と光カオスを用いた超高速意思決定メカ ニズムの創成』における多くの研究者の協働によるもの であり関連各位に感謝申し上げる.なかでも山梨大学の 堀 裕和博士,埼玉大学の巳鼻孝朋氏,グルノーブルアル プス大学・CNRS の N. Chauvet 氏,G. Bachelier 博士, A. Drezet博士,長浜バイオ大学の西郷甲矢人博士,元 京都大学の小嶋 泉博士との成果は多大である.本研究の 一部は科学技術振興機構 CREST(JPMJCR17N2),日 本学術振興会科学研究費補助金(JP17H01277,JP16H 03878)および研究拠点形成事業(Core-to-Core)の支 援による.◇ 参 考 文 献 ◇
[Aono 13] Aono, M., Naruse, M., Kim, S.-J., Wakabayashi, M., Hori, H., Ohtsu, M. and Hara, M.: Amoeba-inspired nanoarchitectonic computing: Solving intractable computational problems using nanoscale photoexcitation transfer dynamics, Langmuir, Vol. 29, No. 24, pp. 7557-7564(2013) [Argyris 10] Argyris, A., et al.: Implementation of 140 Gb/s true
random bit generator based on a chaotic photonic integrated circuit, Opt. Exp., Vol. 18, pp. 18763-18768(2010)
[Auer 02] Auer, P., Cesa-Bianchi, N. and Fischer, P.: Finite-time analysis of the multi-armed bandit problem, Machine
Learning, Vol. 47, pp. 235-256(2002)
[Brunner 13] Brunner, D., Soriano, M. C., Mirasso, C. R. and Fischer, I.: Parallel photonic information processing at gigabyte per second data rates using transient states, Nat.
Commun., Vol. 4, p. 1364(2013)
[Cognitive-comp 18] Cognitive Computing 2018 Merging Concepts with Hardware, http://www.cognitive-comp. org/
[Daw 06] Daw, N., O’Doherty, J., Dayan, P., Seymour, B. and Dolan, R.: Cortical substrates for exploratory decisions in humans, Nature, Vol. 441, pp. 876-879(2006)
[堀 18] 堀 裕和:特集「自然界に見いだす数物構造を利用した知的 情報処理」自然知能:基本概念と実現技術,Vol. 33, No. 5, pp. 545-552(2018) [石川 14] 石川正俊 : 二次元情報処理のシステムアーキテクチャー ─光ニューロコンピューティング,光インターコネクション, 超高速ビジョン─,光学,Vol. 43, pp. 27-34(2014)
[Inagaki 16] Inagaki, T., et al.: A coherent Ising machine for 2000-node optimization problems, Science, Vol. 354, pp. 603-606(2016) [稲垣 18] 稲垣卓弘:特集「自然界に見いだす数物構造を利用し た知的情報処理」コヒーレントイジングマシン,Vol. 33, No. 5, pp. 586-591(2018) [イヴァセン 97] イヴァセン, B.:層のコホモロジー,シュプリン ガー・フェアラーク東京(1997)
[JST 18] JST CREST International Workshop: Novel frontiers of optics for computing, https://www.jst.go.jp/kisoken/ crest/research/activity/1111087/index.html [菅野 18] 菅野円隆,内田淳史:特集「自然界に見いだす数物構造
を利用した知的情報処理」光リザーバコンピューティングとそ の展開,Vol. 33, No. 5, pp. 570-576(2018)
[Kim 16] Kim, S. J., Naruse, M. and Aono, M.: Harnessing the computational power of fluids for optimization of collective decision making, Philosophies, Vol. 1, pp. 245-260(2016) [Kubota 17] Kubota, A., Hori, H., Naruse, M. and Akiba, F.: A
new kind of aesthetics-the mathematical structure of the aesthetic-, Philosophies, Vol. 2, p. 14(2017)
[Kuroda 18] Kuroda, K., Kato, H., Kim, S.-J., Naruse, M. and Hasegawa, M.: Improving throughput using multi-armed bandit algorithm for wireless LANs, NOLTA, IEICE, Vol. 9, pp. 74-81(2018)
[Lai 11] Lai, L, El Gamal, H., Jiang, H. and Poor, H. V.: IEEE
Trans., Mobile Computing, Vol. 10, pp. 239-253(2011) [Mihana 18] Mihana, T., Terashima, Y., Naruse, M., Kim, S.-J.
and Uchida, A.: Memory effect on adaptive decision making with a chaotic semiconductor laser, Complexity, Vol. 2018, pp. 4318127(2018)
[Naruse 12] Naruse, M., Aono, M., Kim, S.-J., Kawazoe, T., Nomura, W., Hori, H., Hara, M. and Ohtsu, M.: Spatiotemporal
dynamics in optical energy transfer on the nanoscale and its application to constraint satisfaction problems, Phys. Rev. B, Vol. 86, p. 125407(2012)
[Naruse 13] Naruse, M., Tate, N., Aono, M. and Ohtsu, M.: Information Phys. fundamentals of nanophotonics, Rep. Prog.
Phys., Vol. 76, p. 056401(2013)
[Naruse 15] Naruse, M., Huant, S., et al.: Single-photon decision maker, Sci. Rep., Vol. 5, pp. 13253(2015)
[Naruse 16] Naruse, M., Berthel, M., Drezet, A., Huant, S., Hori, H. and Kim S.-J.: Single photon in hierarchical architecture for physical decision making: Photon intelligence, ACS Photonics, Vol. 3, pp. 2505-2514(2016)
[Naruse 17a] Naruse, M., Terashima, Y., Uchida, A. and Kim, S. -J.: Ultrafast photonic reinforcement learning based on laser chaos, Sci. Rep., Vol. 7, p. 8772(2017)
[Naruse 17b] Naruse, M., Aono, M., Kim, S.-J., Saigo, H., Ojima, I., Okamura, K. and Hori, H.: Category theory approach to solution searching based on photoexcitation transfer dynamics, Philosophies, Vol. 2, p. 16(2017)
[Naruse 18a] Naruse, M., Mihana, T., Hori, H., Saigo, H., Okamura, K., Hasegawa, M. and Uchida, A.: Scalable photonic reinforcement learning by time-division multiplexing of laser chaos, Sci. Rep., Vol. 8, p. 10890(2018)
[Naruse 18b] Naruse, M., Chauvet, N., Huant, S., Bachelier, G.: Entangled photons for competitive multi-armed bandit problem: achievement of maximum social reward, equality, and deception prevention, arXiv, 1804.04316(2018)
[Naruse 18c] Naruse, M., Huant S., Hori, H., et al.: Category theoretic foundation of single-photon-based decision making,
Int. J. Info. Tech. Decis., in press.
[Naruse 18d] Naruse, M., Yamamoto, E., Nakao, T., Akimoto, T., Northoff, G., et al.: Why is the environment important for decision making? Local reservoir model for choice-based learning, arXiv, 1804.04324(2018)
[Robbins 52]] Robbins, H.: Some aspects of the sequential design of experiments, B. Am. Math. Soc., Vol. 58, pp. 527-535(1952) [西郷 18a] 西郷甲矢人:特集「自然界に見いだす数物構造を利用 した知的情報処理」自然知能と圏論,Vol. 33, No. 5, pp. 553-560 (2018)
[Saigo 18b] Saigo, H., Naruse, M., Okamura, K., Hori, H. and Ojima, I.: Category theory as a foundation for soft robotics,
arXiv, 1805.06213(2018)
[Silver 17] Silver, D., et al.: Mastering the game of go without human knowledge, Nature, Vol. 550, p. 354(2017)
[Sutton 98] Sutton, R. S. and Barto, A. G.: Reinforcement
Learning: An Introduction, The MIT Press: Massachusetts
(1998)
[Uchida 12] Uchida, A.: Optical Communication with Chaotic
Lasers: Applications of Nonlinear Dynamics and Synchroni-zation, Wiley-VCH, Weinheim(2012)
[Uchida 08] Uchida, A., et al.: Fast physical random bit generation with chaotic semiconductor lasers, Nat. Photon., Vol. 2, pp. 728-732(2008)
[内田 16] 内田淳史: 複雑系フォトニクス : レーザカオスの同期と 光情報通信への応用,共立出版(2016)
[UCNC 18] Decision Making in Nature Workshop, Collocated in Unconventional Computation and Natural Computation 2018, https://ucnc2018.lacl.fr/ 2018年 7 月 11 日 受理