敵対的生成ネットワークとサンプリングを用いた異常検知

(1)

敵対的生成ネットワークとサンプリングを用いた異常検知

Outlier Detection Using Generative Adversarial Neural Network

and Sampling

水口真

1,2∗

_{杉山麿人}

1,2,3

Makoto Mizuguchi

1,2

Mahito Sugiyama

1,2,3

1

_{国立情報学研究所}

1

_{National Institute of Informatics}

2

_{総合研究大学院大学}

2

_{The Graduate University for Advanced Studies}

3

_{独立行政法人科学技術振興機構，さきがけ}

3

_{JST, PRESTO}

Abstract: In a generative approach to unsupervised outlier detection, outliers in a dataset may

distort the learned distribution. To overcome the problem, we propose to combine sampling and generative adversarial network (GAN) framework. Our sampling strategy can reduce outliers in training data, which leads to higher detection ability.

1 はじめに

異常検知は、機械学習の分野における重要なトピックの 1 つであり、データの収集が容易になった今日において、不正検知 [2, 8] 等の様々なアプリケーション上で使用されている。一般的に、異常検知を精度高く実現するためには、各データ点において異常かそうでないかを表す正解ラベルを必要とするが、多くの場合は大量の正常データ中に異常データが埋もれているため、少数の異常データに対して正解ラベル付けを行うこと自体にコストがかかる。本論文ではこの問題に対応するため、教師なし学習による異常検知手法を提案する。教師なし学習によって異常データを検出することで、正解ラベルの付与に係るコスト増へ対応することができるようになる。教師なし学習による異常検知では、データの背後に隠れている分布を想定する場合 [9, 13] としない場合 [5, 11] に分かれるが、本論文では前者のアプローチを取る。このアプローチによってデータの背後にある正常データの分布を推定することができるので、現実の問題における対応範囲が拡大する。分布を表現するパラメータのみを保持しておけば、新しいデータに対しても再学習することなく異常検知が実行できるメリットが存在する。本論文では敵対的生成ネットワーク [3] を用いた生成 ∗_{連絡先：総合研究大学院大学複合科学研究科情報学専攻} 〒 101-0003 東京都千代田区一ツ橋 2-1-2 E-mail: [email protected] モデルに基づく手法を用いる。敵対的生成ネットワークが想定する深層学習は、複雑な非線形分布への対応が可能であり、高精度での異常検知が期待される。特に、データが異常か否かを判断するアルゴリズム、つまり 2 値分類を行う手法を用いる。さらに本論文では学習に使用するデータに着目し、異常データが入ったデータセットを使った学習で起こりうる困難を克服するための手法を提案する。異常検知の問題設定上、データセットの中に少数の異常データが紛れていることから、正解データの分布を学習する際にそれらの異常データが影響を与えてしまう。特に敵対的生成ネットワークを用いた異常検知では、学習過程で与えられたデータを高精度で再現するため、正常データのみから判別モデルを学習することが理想的である。しかし、異常データが混在すると異常データをも考慮したデータの分布が再現されてしまう。このため、異常検知の精度としては不十分な結果となってしまう。そこで学習用データセットに対してサンプリングを行い、学習用データ中に異常なデータが混在する機会を減らし、判別モデルの効果的な学習を実現する方法を提案する。本稿は，以下のように構成されている。節 2 で関連研究としての敵対的生成ネットワークとサンプリングによる異常検知を紹介し、節 3 では敵対的生成ネットワークとサンプリングを用いた提案手法を示す。節 4 で実験によって提案手法を検証し，節 5 で本稿の貢献をまとめる。人工知能学会研究会資料 SIG-FPAI-B902-02

(2)

2

2.1 敵対的生成ネットワークを用いた異常

検知

ディープニューラルネットワーク (DNN) は、複数の層と各層に含まれるノードを複数持つことができ、また、活性化関数を各層で設定できることから、非線形な分布に対しても適合できる。また、モデルの表現力が高く、複雑なデータ分布を表現することができる。 DNN を内部構造として持つ敵対的生成ネットワーク [3] を異常検知に用いることで、異常検知を行う際にも精度が高いモデルの作成が期待できる。敵対的生成ネットワークでは DNN を 2 つ内部構造として持ち、片方を生成モデル、もう一方を判別モデルとして利用する。生成モデルが学習用データセットをもとにデータを生成し、判別モデルがそのデータが生成モデルから生成されたデータか（偽物データ）、学習用データセットのデータ（本物データ）かを判別する役割を果たす。異常検知には各種手法があるが、敵対的生成ネットワークを用いる異常検知では、Schlegl らが 2017 年に提案している異常検知の手法 Anomaly Detection with Generative Adversarial Networks (AnoGAN)[6] が初期の手法として知られている。医療の画像データに対して、敵対的生成ネットワークを用いた異常検知を行い、写真の中にある異常な部分を検知することを可能とした。

続いて Zenati らが、2018 年に Eﬃcient GAN-BASED anomaly detection(Eﬃcient GAN)[12] という手法を提案し、AnoGAN で問題のあった予測時における計算スピードが遅いという問題に対して、Encode、Decode という仕組をさらに織り込むことで高速化に成功した。ただし、上記いずれの手法も、敵対的生成ネットワークを用いてデータから特徴量を抽出・再構築し、対象となっているデータ（画像データ）の中で、どこの部分が異常なデータであるかを識別する手法である。また、一定の学習後において、同じデータを生成することしかできなくなるという敵対的生成ネットワーク特有の問題 (mode collapse) であるという問題を解決できていない。構造データに対して異常検知を実現し、かつ、敵対的生成ネットワーク特有の問題をも解決した手法として提案されたものが 2019 年に Liu らが能動学習 [1] のフレームワークを用いて行った ActiveGAN[4] である。能動学習は数少ない教師データしか存在していない状況下においても、機械が人間がラベルを付けるべき学習効率を上げる具体的なデータを提案し、そのデータに対して人間がラベルを付けた結果をもって再度学習を行うフレームワークであるが、その方式を敵対的生成ネットワークの構造としての生成モデルと判別モデルが双方でやり取りを行うという部分に置き換えた。この手法によって、複数の DNN を組み合わせることによって生じていた Mode collapse 問題を解決した。しかし、この手法においても学習用データに異常なデータが混在している場合においては、そのデータを元に生成モデルが学習され、異常なデータが混在した状態で生成されたデータを元に判別モデルも学習される事態は変わらない。従って、サンプリングの手法をこのフレームワークに入れることで、その問題を低減する方法を提案する。

2.2 サンプリングを用いた異常検知

次にサンプリングを用いた異常検知に関連して、本論文の意義について言及する。サンプリングを用いた異常検知としては、データの距離を計算して異常検知を行う際に、サンプリングを行って精度を向上させた Sugiyama and Borgwardt の手法 [7] や、Wu and Jermaine の手法 [10] がある。サンプリングを行うことで、計算速度を上げつつ、検出精度を上げることができる。本論文では、Sugiyama and Borgwardt の手法 [7] と敵対的生成ネットワークによる異常検知を組み合わせた方法を提案する。本論文では異常検知を行う際に、学習用データに対してサンプリングを行うことで正常データのみを用いた敵対的生成ネットワークの学習の実現を目指す。

3 提案手法

この節では、本論文が提案するサンプリングと敵対的生成ネットワークを同時に用いて異常検知を行うことに関する問題設定を定式化し、手法を導入する。

3.1 問題設定

データに含まれる異常なデータと正常なデータを識別することが提案手法の目的である。提案手法では敵対的生成ネットワークによって学習用のデータから正常データの分布を学習する。その際、学習用データに対して、サンプリングを行うことで、正常データのみから敵対的生成ネットワークの学習が行われる確率を上げる。学習が完了した後に、敵対的生成ネットワークが持つ判別モデルにデータを入力して異常度スコアを取得する。その結果があらかじめ設定した閾値以上の場合には、異常なデータとし、閾値よ

(3)

りも低い場合には正常データと判定する。上記の問題設定を定式化する。学習用の入力データ を X ={x1, x2, ..., xn} ⊂ Rd×nとし、それに対応する 正常と異常のラベルを Y ={y1, y2, ..., yn} とする。な お、本論文では教師なし学習を扱うため、上記のラベルは敵対的生成ネットワークによる学習では使用しないものの、正解データを用いた評価時のみに使用する。 入力データ (本物のデータ)X を用いて敵対的生成ネッ トワークを学習させ、学習した生成モデルで生成したデータ (偽物のデータ) を判別モデルに渡したときに、偽物のデータだと判別できるように判別モデルを学習する。敵対的ネットワークは以下で定義され、異常検知における学習の目的は異常度のスコアリングを行う ための D∗を取得することにある。 D∗= arg min G maxD V (G, D), V (G, D) =Ex∼pt(x)[log D(x)] + Ez_∼pz(z)[log (1− D (G(z)))] . 数式中の G : [0, 1] → Rd_{がデータを生成する生成} モデルであり、D :Rd _{→ [0, 1] が生成されたデータを} 偽物だと判別し、入力データである本物のデータを本物だと判別する判別モデルである。生成モデルと判別モデルはインプットデータを用いて交互に学習を行い、互いに均衡した際（ナッシュ均衡）に学習を終了する。学習後に実施する異常検知の際には新たなデータを判 別モデル D に投入し、異常度を算定する。 サンプリングは重複なしのランダムサンプリングを 行う。入力データ X に対して、ランダムサンプリング による部分集合 S⊆ X を抽出する。ここで、サンプル 比率_{|S|/|X| は入力パラメータとし、ユーザーが決定} する。

3.2 アルゴリズム

以上の敵対的生成ネットワークとサンプリング手法 を組み合わせる。まず、入力データ X に対してサンプ リングを行い、学習用データ S ⊆ X を取得すること で、新しく取得した学習用データは異常なデータがない、または元の学習用データよりも少ないことが想定される。次にこのデータを元に敵対的生成ネットワークへ適用し、生成モデルと判別モデルの学習を進める。このような学習過程を経ることにより、最終的に取得する判別モデルは正常なデータをより効果的に判別するモデルとなる。 Algorithm 1 に疑似コードを記載した。敵対的生成ネットワークの学習前にデータをサンプリングすることで、学習用データから異常なデータをできるだけ排 除する。具体的には、全データ X に対して、サンプ 図 1: 学習過程のイメージ図 Algorithm 1 敵対的生成ネットワークとサンプリン グを用いた異常検知の Algorithm Require: 学習データ X，サンプリング割合 r Ensure: 異常度 p 1: k← r|X| 2: S← Subsample of X with |S| = k

3: D∗ = arg minGmaxDV (G, D), V (G, D) =

Ex_∼pt(x)[log D(x)] +Ez_∼pz(z)[log (1− D (G(z)))] 4: p(x) = 1− D(x) 5: return p(x) f or all x∈ X リング割合 r で S⊆ X(|S| = r|X|) を獲得する。後続 の処理で敵対的生成ネットワークの学習によって判別モデルを学習し、各データ点に対して異常度のスコアリングが可能となる。アルゴリズム全体の学習が進む過程では、生成モデルが正常なデータのみとなっている学習用データに近似するデータを生成し、判別モデルが本物のデータ＝正常なデータのみの学習用データか、偽物のデータ＝生成モデルが生成した正常なデータを模したデータかを判別していくことで、本物のデータを判別することができる判別モデルが入手できる（図 1:学習過程のイメージ図を参照）。

4 実験

この節では、実験に使用したデータの種類、評価指標、アルゴリズムに使用したパラメータ、実験結果について説明する。

4.1 使用したデータの種類

使用するデータは、公開データを用いる。次元が低いものから高いものまでを選択した。提案手法が様々なバリエーションに対応できるよう、データに特定の

(4)

パターンがないようにし、以下のデータセットを利用する。表 1: 使用データ概要データ概要 (正常・異常) Pima 健康・糖尿病 Shuttle クラス 1・他のクラス PageBlocks テキストデータ・非テキストデータ WDBC 陽性・陰性 APS ネガティブ・ポジティブ HAR 歩きの動作データ・他の動作データ表 2: 使用データ数データデータ数 (正常数・異常数・データ次元) Pima 500・268・8 Shuttle 1,000・13・9 PageBlocks 4,883・510・10 WDBC 357・10・30 APS 59,000・10,000・170 HAR 2,830・30・561

4.2 評価指標

評価手法としては AUC を使用した。それぞれのデータに対して、サンプリング割合を変更し、各割合における AUC を報告する。具体的にはサンプリング割合を 100 ％（すべてのデータを用いる場合）から 10 ％（元データから 10 ％だけをランダムサンプルして選定）まで 10 ％ずつ減少させながら、それぞれのサンプリング割合における試行を 3 回実施し、AUC の平均値を計算した。

4.3 アルゴリズムに使用したパラメータ

異常検知のそもそもの前提として、正解ラベルを用いたパラメータの調整は基本的にはできない。その為、クロスバリデーションを用いたネットワーク構造上のハイパーパラメータの調整は実施しない。すべてのデータに対して同一のパラメータの設定を一定に固定し、サンプルサイズに対する AUC の変動を見ることが目的である。

4.4 実験結果

サンプル割合としてすべてのデータを使用した場合の 100%をベースラインにおき、そこからの AUC の差図 2: 各データ毎の AUC 推移を図 2 にプロットした。図 2 にある通り、各割合で 100%の時から比較して多くの場合 AUC が向上していることがわかる。ただし、どの割合で最も AUC が高くなるかを各データで指定することは難しく、データセットによって異なることがわかる。全体としては、20 ％から 30 ％の際に、平均して AUC がよくなることが多い。教師なしの学習モデルのため、どのサンプル割合がよいかを試行的に実施することは現実問題としては困難であるが、元データの 20 ％∼30 ％を用いることを推奨する。

5 むすび

本論文では、敵対的生成ネットワークを使った異常検知を行う際の学習過程に注目し、全データを用いるのではなく、サンプリングによって学習データを減らしたほうがより異常検知の精度が上がることを実験的に示した。複数のデータを用いた実験の結果、サンプリングによって AUC の精度が向上し、全データを用いるのではなく、特定のサンプル抽出を行うことの有効性が示された。さらに、副次効果として全データを用いる際と比較して、学習速度も向上している。ただし、普遍的なサンプリング割合の発見についてはできておらず、サンプリングが有効であることを示したのみであるため、今後は性能の理論解析や異なるサンプリング手法による精度向上を目指す。

謝辞

本研究は、JSPS 科研費 JP16H02870（MS）の助成を受けたものです。

(5)

参考文献

[1] N. Abe and J. Langford B. Zadrozny. Outlier detection by active learning. ACM SIGKDD In-ternational Conference on Knowledge Discovery and Data Mining, page 504–509, 2006.

[2] U. Fiore, A. D. Santis, F. Perla, P. Zanetti, and F. Palmieri. Using generative adversarial net-works for improving classification eﬀectiveness in credit card fraud detection. Information Sci-ences, 2017.

[3] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial networks. Advances in Neural Information Processing Sys-tems, page 2672–2680, 2014.

[4] Yezheng Liu, Zhe Li, Chong Zhou, Yuanchun Jiang, Jianshan Sun, Meng Wang, and Xiang-nan He. Generative adversarial active learning for unsupervised outlier detection. 2019.

[5] S. Ramaswamy, R. Rastogi, and K. Shim. Ef-ficient algorithms for mining outliers from large data sets. Proceedings of the ACM SIGMOD In-ternational Conference on Management of Data, page 427–438, 2000.

[6] T. Schlegl, P. Seebck, S. M. Waldstein, U.Schmidt-Erfurth, and G. Langs. Unsupervised anomaly detection with generative adversarial networks to guide marker discovery. Interna-tional Conference on Information Processing in Medical Imaging, 2017.

[7] Mahito Sugiyama and Karsten Borgwardt. Rapid distance-based outlier detection via sampling. Advances in Neural Information Processing Sys-tems, 2013.

[8] V. S. Tseng, J. C. Ying, C. W. Huang, Y. Kao, and K. T. Chen. Fraudetector: A graph-mining-based framework for fraudulent phone call detec-tion. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, page 2157–2166, 2015.

[9] Tiziana Veracini, Stefania Matteoli, Marco Di-ani, and Giovanni Corsini. Fully unsupervised learning of gaussian mixtures for anomaly detec-tion in hyperspectral imagery. Institute of Elec-trical and Electronics Engineers, 2009.

[10] Mingxi Wu and Christopher Jermaine. Outlier detection by sampling with accuracy guarantees. Advances in Neural Information Processing Sys-tems, 2006.

[11] D. Yu, G. Sheikholeslami, and A. Zhang. Find-out: Finding outliers in very large datasets. Knowledge and Information Systems, page 387–412, 2002.

[12] Houssam Zenati, Chuan Sheng Foo, Bruno Lecouat, Gaurav Manek, and Vijay Ramaseshan Chandrasekhar. Eﬃcient gan-based anomaly de-tection. The Workshop on International Confer-ence on Learning Representations, 2018.

[13] C. Zhou and R. C. Paﬀenroth. Anomaly de-tection with robust deep autoencoders. ACM SIGKDD International Conference on Knowl-edge Discovery and Data Mining, page 665–674, 2017.

敵対的生成ネットワークとサンプリングを用いた異常検知