機械学習を用いた量子状態異常検知 (量子統計モデリングのための基盤構築)

(1)

機械学習を用いた量子状態異常検知

* IBM

東京基礎研究所原聡

$\dagger$ Satoshi Hara IBM Research —

Tokyo

概要精緻な処理が必要となる量子情報処理において量子系の状態をあらわす密度行列の異常の検知は重要な課題である.本稿では機械学習を用いた密度行列の異常検知手法\mathrm{E}\mathrm{D}^{3} を紹介する.観測された密度行列は一般に統計的なゆらぎを含むが, \mathrm{E}\mathrm{D}^{3} を用いることでそのようなゆらぎから異常な変化を抽出することができる.シミュレーション及び実データ実験において, \mathrm{E}\mathrm{D}^{3} が平均行列を使った単純な手法よりも高い精度を達成することを確認した. \mathrm{E}\mathrm{D}^{3} は密度行列の異常が問題となる多くの局面において有用な解決策となると考えている.

1 はじめに

精緻な処理が必要となる量子情報処理では所望の量子状態からのずれ,すなわち異常の検出が重要な課題である.しかしながら,異常の検知は量子系が持つ本質的なゆらぎのために困難な課題の一つでもある.通常,量子系の状態を表現する密度行列は量子トモグラフィ

-[2]

を用いて推定される.この際,実験で得られる観測の総数は限られているために推定された密度行列には統計的なゆらぎが生じる.この統計的なゆらぎと量子系の変化とを区別することが異常検知における技術的な課題である.

本稿では機械学習を用いて密度行列の異常検知を行う方法

\mathrm{E}\mathrm{D}^{3}

_(Erroneous

Deviation

Detector for_Density

_matrices)

_[1]

を紹介する. \mathrm{E}\mathrm{D}^{3} は密度行列の各要素の絶対値が変化す

るような量子系の異常を検知する手法である。このような異常にはデコヒーレンスなど実用上重要な例が数多く含まれる.量子もつれ光子対の量子トモグラフィーにおいて \mathrm{E}\mathrm{D}^{3} と単純な手法とを比較したところ,シミュレーション・実験データの両方で異常検知性能の大きな向上が見られた. \mathrm{E}\mathrm{D}^{3} は密度行列を扱う問題には全て適用できるため,量子光学系に限らず超伝 * 本研究はブリストル大学の小野貴史氏,京都大学の竹内繁樹氏,岡本亮氏,及び大阪大学の鷲尾隆氏との共同研究である [1].

(2)

導回路やイオントラップを用いた系にも適用できる.このため,

\mathrm{E}\mathrm{D}^{3}

は密度行列の異常が問題となる多くの局面において有用な解決策となると考えている.

2 _{密度行列の異常検知手法}

量子トモグラフィーにより K個の観測密度行列 \hat{p}_{1}, \hat{ $\rho$}_{2},...

,\hat{ $\rho$}_{K} が得られているとする.以

下ではk番目の観測密度行列の

_{(i, j)}

要素の絶対値を

_{|\hat{ $\rho$}_{k,i-}\cdot|}

とし,これら絶対値を要素として持つ観測密度行列を

_{|\hat{ $\rho$}_{k}|}

\in \mathbb{R}d\timesá _{と表記する.本稿では,これら} _K_{個の絶対値の観測密度行}

列

_{|\hat{ $\rho$}_{1}|, |\hat{ $\rho$}_{2}|}

,...

,

|\hat{ $\rho$}_{K}|

から異常な行列のインデックス集合

S\subseteq\{1, 2, . . . , K\}

を探す問題を対

象とする.ただし,異常行列のインデックス集合Sの補集合S^{\mathrm{c}}においては行列

_{|\hat{ $\rho$}_{k^{J}}|(k'\in S^{\mathrm{c}})}

は全て正常であるとし,また異常行列はK個の行列のごく一部,つまり

_{|S|\ll K}

であると仮定する.このような問題は機械学習において異常検知や外れ値検知として知られている

[3].

異常検知を最も直接的に実現する方法は,計測された密度行列を正しい密度行列と比較することである.量子トモグラフィー装置を物理モデルに基づいて表現することができれば,その物理モデルから正しい密度行列を計算することができる.そしてその正しい密度行列と各観測密度行列がどの程度異なるかを評価することで異常な行列を見つることができる.こ

のためには量子トモグラフィー装置内の光路に関する正確なパラメータを用いて物理モデルを

計算する必要がある.しかし,現実的には実験装置の正確なパラメー\check{}タを知ることは困難であ

り、その近似値を用いざるをえない.つまり,近似的なパラメータから計算された正しい密

度行列は,量子トモグラフィーにより実際に得られる観測密度行列とは必ずしも一致しない.

そのため、以下では物理モデルを仮定せず、統計的な手法を用いて異常検知を行うことを考える。 2.1

_{平均行列を使う手法 (平均値法)}

物理モデルを用いずに正しい密度行列を観測密度行列から近似的に表現することを考える. 最も単純な方法の一つとしてK個の観測密度行列の平均値を使う方法が考えられる.

|\displaystyle \overline{p}|=\frac{1}{K}\sum_{k=1}^{K}|\hat{ $\rho$}_{k}|.

K 個の観測密度行列のうち大半は正常な行列だと仮定しているため,この平均行列は正し

い密度行列の近似値として使うことができる.そして,各行列のこの平均行列からの偏差

醸

=|\hat{ $\rho$}_{k}|-|\overline{ $\rho$}_{k}|

に基づいて,異常の度合いを評価する.ここでは量子力学的な差異を測る一

般的な方法としてトレース距離

_[4]

を用いる.

(3)

ここで,

_{\Vert\cdot\Vert_{\mathrm{t}\mathrm{r}}}

は行列の特異値の和をあらわしておりトレースノルムと呼ばれる.計算された亀が一定値以上大きければ,密度行列は正しい密度行列からの乖離が大きい,つまり異常だと判定できる. 平均行列を使う方法は単純で直感的にもわかりやすいが,問題点として平均行列

_{|\overline{ $\rho$}_{k}|}

の計算に数が少ないとは言え異常な行列が混入して偏りを生じさせていることがあげられる.この偏りが異常検知の性能を低下させてしまう要因となる. 2.2

機械学習を用いた異常検知手法 \mathrm{E}\mathrm{D}^{3}

_[1]

k番目の絶対値の密度行列の真の値を

_{|$\rho$_{k}|}

とすると,これは正しい密度行列 $\theta$ とそこから

の偏差 $\omega$_{k} を使って

|$\rho$_{k}|= $\theta$+$\omega$_{k}

と表現できる.また,観測密度行列

|\hat{ $\rho$}_{k}|

はこの

|$\rho$_{k}|

に観測

に伴う統計的ゆらぎが加わったものとして解釈できる.このとき,正常な行列については正

しい密度行列 $\theta$からの偏差については $\omega$ k\approx 0 と想定できる.他方,異常な行列については

$\omega$_{k}\neq 0 となる.そのため,偏差の行列の集合

_{\{$\omega$_{1}, $\omega$_{2}, . . . , $\omega$_{K}\}}

は多くが零行列であり,ごく

一部に非零行列を含むスパースな構造を持つと仮定できる.このようにデータの背後にスパー

スな構造が隠れている場合には機械学習のスパース推定の技術が有効である

_[5,

6,

7].

そこ

で, \mathrm{E}\mathrm{D}^{3}では以下の正則化つきの最小二乗問題を解くことで,このスパースな偏差行列の集合

を推定する.

$\theta$,\displaystyle \{ $\omega$\}_{k=1}^{K}\min_{k}\frac{1}{2}\sum_{k=1}^{K}\Vert|\hat{p}_{k}|-( $\theta$+$\omega$_{k})\Vert_{\mathrm{F}}^{2}+ $\gamma$\sum_{k=1}^{K}\Vert s$\omega$_{k}\Vert_{\mathrm{F}}

.

(2)

ここで

_{\Vert\cdot\Vert_{\mathrm{F}}}

は行列のフロベニウスノルム, はアダマール積, $\gamma$は非負のパラメータである.

また,行列s\in \mathbb{R}á\timesd は

s_{ij}=(\displaystyle \frac{1}{K}\sum_{k=1}^{K}\tilde{ $\omega$}_{k,ij}^{2})^{-1/2}

により定義される.式(2) の第一項はなるべく各観測密度行列

_{|\hat{ $\rho$}_{k}|}

に近い $\theta$+$\omega$_{k} を推定すること,第二項は行列の各要素の大きさを正規化したうえでできる限りスパースでありゼロに

近い偏差行列の集合を推定することに対応する.最後に問題

₍₂₎

を解くことによって得られる

$\omega$_{k} から,式(1) と同じくトレース距離

e_{k}=\Vert$\omega$_{k\Vert \mathrm{t}\mathrm{r}}

を計算し, e_{k} が一定値以上大きければ

異常と判断する.式(2)

による推定では, $\theta$ と $\omega$_{k} の同時推定により平均行列を使う場合に比

べて正しい密度行列 $\theta$ の偏りが抑えられること,スパースな偏差行列を推定できることの2

点により,精度の高い異常検知が期待できる.

問題 (2) の各項は凸関数なので全体としても凸関数であり,各種凸最適化アルゴリズムに

(4)

図1 _(a) _{量子もつれ光子対の量子トモグラフィー装置,(b)} 正常な密度行列の各要素の平

均のヒストグラム,(c) 異常な密度行列の各要素の平均のヒストグラム

(Alternating

DirectionMethodof

_Multipliers)

_[8]

を用いた.このアルゴリズムは問題 (2) の構造を活用することで効率的に大域最適解を求めることができる.

3 評価実験

\mathrm{E}\mathrm{D}^{3} と平均値法の性能比較実験を行った.実験では図

_{1(\mathrm{a})}

に概要を示した量子トモグラフィー装置を用い,1個の観測密度行列を1000回の量子もつれ光子対入射の計数から得た. 観測を繰り返すことで,図

_{1(\mathrm{b}) の正常な密度行列及び図1(c)}

の異常な密度行列をそれぞれ複数生成した.なお,各密度行列を計測した前後に装置のパラメータが変動していないことを可能な限り確認して,極カ所望の密度行列が計測されるようにした.異常な密度行列では

_{(1, 4)}

及び

_{(4, 1)}

の非対角要素 (図中

_{(HH, VV)}

に相当) の値が0.421から0.339まで低下している.この異常状態は正常な場合よりも2光子間の量子もつれの程度が少ない状態である.本評価実験では,実際の実験データ及び図

_{1(\mathrm{a})}

の実験系を模した計算機シミュレーションによるデータの2種類を用意した.

(5)

(1,2)\mathrm{t}\mathrm{h} entry O.03 (1_{2}2)\mathrm{t}\mathrm{h} entry

\downarrow 1

\downarrow 0

10(\mathrm{a})

20 30

2^{\mathrm{x}\uparrow$\sigma$^{3}}(2,2)\mathrm{t}\mathrm{h}

en 04 Taoe Distance 03

\downarrow _\downarrow

\downarrow \downarrow 02

0\mathrm{t}

0 0 10 20 30 10 20 30 (\mathrm{c}\rangle (d) 1 0. 8

\mathrm{o}^{0.6}\mathrm{m}

\vdash 0.4 0. 2

0_{0}

\mathrm{J}\downarrow\downarrow 1 1

10(\mathrm{e})

20 30

2^{\mathrm{x}1$\sigma$^{3}(2_{\downarrow}2)\mathrm{t}\mathrm{h}}

entry \downarrow\downarrow\downarrow \downarrow 0

10(\mathrm{g})

20 30 0.5 1 FDR (i) 図2 シミュレーションデータの結果一例 : (\mathrm{a})-(\mathrm{d}) 観測行列の(1, 2), (1, 4)及び(2, 2) 要素と平均値法により計算されたトレース距離 (図中の矢印は異常行列),

(\mathrm{e})-(\mathrm{h})\mathrm{E}\mathrm{D}^{3}

により計算された行列の (1, 2), (1, 4)及び(2, 2)要素とトレース距離 (図中の矢印は異常行

列 ), (i) 平均値法と \mathrm{E}\mathrm{D}^{3}のROC曲線

\mathrm{E}

ナ95%

90 85% 図3シミュレーションデータでの1000回の実験におけるAUCの分布 3.1

結果 :シミュレーションデータ

シミュレーションデータでは正常な密度行列を25000個,異常な密度行列を5000個生成した.これらを1000個の組にわけ,それぞれ正常行列25個,異常行列5個の計30個を1つのデータセット (K=30) とした.これら1000個のデータセットそれぞれで平均値法と \mathrm{E}\mathrm{D}^{3}

の性能を比較した.なお, \mathrm{E}\mathrm{D}^{3}のパラメータ _$\gamma$は事前に10個のデータセットで複数の $\gamma$の値

(6)

図2にシミュレーションデータ及びその結果の一例を示す.図

_{2(\mathrm{a})-(\mathrm{c})}

はある1つのデータセットの30個の観測行列の

_{(1, 2), (1, 4)}

及び

_{(2, 2)}

要素である.また,図

_{2(\mathrm{e})-(\mathrm{g})}

は \mathrm{E}\mathrm{D}^{3} で推定された行列 $\theta$+$\omega$_{k}

_{の(1, 2), (1, 4)}

及び

_(2,

₂₎

要素である.矢印がついた項目が 5個の異常行列をあらわしている.観測行列の要素 (図

_{2(\mathrm{a})-(\mathrm{c})}

) と \mathrm{E}\mathrm{D}^{3} により推定された値(図

_{2(\mathrm{e})-(\mathrm{g})}

) とを比較すると,元の行列にはあった統計的なゆらぎが \mathrm{E}\mathrm{D}^{3} により抑えられ小数の変動だけが残っていることがわかる.特に

_{(1, 4)}

要素でこの傾向は顕著であり,矢印のついた異常行列を除き, 他の正常行列では要素がほぼ一定の値になっている.つまり, \mathrm{E}\mathrm{D}^{3}

により確かに期待した通りのスパースな偏差行列が得られていることがわかる.図2(d), (h)

はそれぞれ平均値法 \mathrm{E}\mathrm{D}^{3} から計算されたトレース距離である.トレース距離が0.04 (破線) を超える行列は赤で強調表示してある.図

_{2\langle \mathrm{d})}

では0.04前後の値を取っていた正常行列の多

くが図2(h)

では 0

_{になっている.他方,図2(d)}

では他の行列に埋もれていた2つの異常行

列が図2(h)

では埋もれずに非零のトレース距離として抽出されている.これは平均値法では

検知できなかった2つの異常が\mathrm{E}\mathrm{D}^{3} ではきちんと検知できたことを示している.図

_{2(\mathrm{i})\ovalbox{\tt\small REJECT} $\lambda$ 2}

つの手法それぞれについて ROC 曲線を描画したものである. \mathrm{E}\mathrm{D}^{3} のほうが曲線がより左上

にあり,平均値法よりも高い異常検知精度を達成できていることがわかる.

1000個のデータセットについて ROC 曲線下の面積AUC (Area Under the Curve)を

0% から100%で評価した結果が図3である.平均値法では約半数でしかAUC=95\% が達成

できなかったのに対し, \mathrm{E}\mathrm{D}^{3} では約7割でAUC=95\% が達成できた.この結果からも \mathrm{E}\mathrm{D}^{3}

の優位性が確認できる. 3.2

結果

:実験データ

実験データでは正常な密度行列を250個,異常な密度行列を50個生成した.ここからランダムに正常な行列を25個,異常な行列を5個取り出し計30個を1つのデータセット (K=30) とした,これを1000回繰り返して1000個のデータセットを作り,それぞれで平均値法と \mathrm{E}\mathrm{D}^{3} の性能を比較した.なお,シミュレーションデータのときと同様に \mathrm{E}\mathrm{D}^{3} のパラメータ _$\gamma$は事前に10個のデータセットで複数の $\gamma$ の値を試し,その結果が一番良かった値を 1000個のデータセット実験で使った. 図

_{4(\mathrm{a})-(\mathrm{c})}

に実験データの一例を示す.図

_{4(\mathrm{a})-(\mathrm{c})}

はある1つのデータセットの30個の観測行列の

_{(1, 2), (1, 4)}

及び

_(2,

₂₎

要素である.シミュレーションデータ (図

_{2(\mathrm{a})-(\mathrm{c})}

) と実験データ (図

_{4(\mathrm{a})-(\mathrm{c})}

) とを比較すると,どちらも同じ実験系を対象にしているにも関わらず得られる密度行列が異なることがわかる.例えば,シミュレーションデータでは

(2, 2)

要素は 10^{-3} 前後と小さな値を取っているのに対し,実験データでは0.02前後の少し大きめの値を取っている.これは実験系がシミュレーションの系とは異なること,つまり理想的な物理モデルとは完全に一致しないことを示している.先にも述べたとおり,この結果は物理モデルを

(7)

0. 4 0. 3 0. 2 0. 1 0 FDR (i) 図4 実験データの結果一例: (\mathrm{a})-(\mathrm{d}) 観測行列の (1, 2), (1, 4)及び(2, 2) 要素と平均値法により計算されたトレース距離 (図中の矢印は異常行列),

(\mathrm{e})-(\mathrm{h})\mathrm{E}\mathrm{D}^{3}

により計算された行列の (1, 2), (1, 4)及び(2, 2)要素とトレース距離 (図中の矢印は異常行列), (i) 平均値法と \mathrm{E}\mathrm{D}^{3}のROC曲線

\displaystyle \mathrm{E}\oint

95% 90% 85% 図5 実験データでの1000回の実験におけるAUCの分布使った異常検知は真の実験パラメータが得られないためにうまくいかないことを示している.

図

_{4(\mathrm{e})-(\mathrm{g})}

は \mathrm{E}\mathrm{D}^{3} で推定された行列 $\theta$+$\omega$_{k}

_{の(1, 2), (1,}

4)

及び

_{(2, 2)}

要素である.

図

_{4(\mathrm{a})-(\mathrm{c})}

と比較すると,シミュレーションデータでの結果 (図2) と同様に,

\mathrm{E}\mathrm{D}^{3}

により元

データの統計的ゆらぎが抑えられ,異常に伴う変動が抽出できていることがわかる.図4(d),

(h)

はそれぞれ平均値法, \mathrm{E}\mathrm{D}^{3} から計算したトレース距離である.こちらもシミュレーションデータの結果と同様に,平均値法では埋もれてしまっていた異常が\mathrm{E}\mathrm{D}^{3} により検知できていることがわかる.2つの手法の結果をROC

_{曲線で比較したものが図4(i)}

であり,ここからも \mathrm{E}\mathrm{D}^{3} の優位性がわかる.

(8)

1000個のデータセットについて ROC 曲線下の面積AUC (Area Under the Curve)を

0% から100%で評価した結果が図5である.平均値法では約3割でしかAUC=95\%が達成

できなかったのに対し, \mathrm{E}\mathrm{D}^{3} では半数以上でAUC=95\% が達成できた.この結果も \mathrm{E}\mathrm{D}^{3} の

優位性を示している.

4 まとめ

本稿では機械学習を用いて密度行列の異常を検知する方法

\mathrm{E}\mathrm{D}^{3}

について紹介した.

\mathrm{E}\mathrm{D}^{3}

では観測行列の偏差の集合がスパースになることに着目し,機械学習のスパース正則化の技術を導入することで異常検知性能の向上を達成した.実際に, \mathrm{E}\mathrm{D}^{3} を使うことでシミュレーションデータ,実験データの両方において平均値法よりも高い精度で異常が検知できることを確認した. \mathrm{E}\mathrm{D}^{3} は量子情報と機械学習という異なる分野の組み合わせから生まれた新しい技術である. 今後,これらの領域の課題技術の交流が深まることでより良い・新しい技術が生み出される可能性がある.例えば\mathrm{E}\mathrm{D}^{3} は密度行列の絶対値の変化に着目した技術であるが,これを位相変化の検知まで広げることができればより多くの局面で異常検知が可能となる.また,密度行列でなく物理観測系をモデル化してそこに機械学習の技術を導入することで,観測データからより直接的に異常を検知できるようになる可能性も考えられる.

参考文献

[1]

Satoshi _Hara, Takafumi _{Ono, Ryo Okamoto,} TakashiWashio, and _Shigeki Takeuchi.

Anomaly detection inreconstructed quantum states _using a machine‐learning tech‐

mque. PhysicalReview A,

89(2):022104

, 2014.

[2]

Daniel FV James,PaulG _Kwiat, WilliamJ _Munro, and Andrew G White. Measure

ment of_qubits.

_Physical

Review_A,

_64(5):052312

, 2001.

[3]

Victoria J _Hodgeand JimAustin. _{A survey of outlier}detection_{methodologies.} Arti‐

ficial Intelligence Review,

_22(2):85-126

, 2004.

[4]

Michael A NielsenandIsaac L _{Chuang. Quantum}computationand_quantum_informa‐

tion. _Cambridge_universitypress, 2010.

[5]

Robert Tibshirani. _{Regression shrinkage}and selection via the lasso. Journal ofthe

RoyalStatistical_Society. Series B

_{(Methodological),}

pages267‐288, 1996.

[6]

Pradeep Ravikumar,John_Lafferty, Han_Liu, and_LarryWasserman. _Sparse additive

models. Journal _ofthe

_Royal

Statistical _Society: Series B

_{(Statistical Methodotogy),}

(9)

[7]

Ah _Jalali, _{Sujay Sanghavi,} Chao Ruan, and _Pradeep K Ravikumar. A _dirty model

formulti‐task

_learning.

In Advances in Neural_{Information Processing}

_Systems,

pages

964‐972, 2010.

[8]

Stephen Boyd, Neal _Parikh, Eric _Chu, _{Borja Peleato,} and Jonathan Eckstein. Dis‐

tributed_optimizationand statistical_learningviathe_alternatingdirection method of

機械学習を用いた量子状態異常検知 (量子統計モデリングのための基盤構築)