• 検索結果がありません。

敵対的生成ネットワークとサンプリングを用いた異常検知

N/A
N/A
Protected

Academic year: 2021

シェア "敵対的生成ネットワークとサンプリングを用いた異常検知"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)

敵対的生成ネットワークとサンプリングを用いた異常検知

Outlier Detection Using Generative Adversarial Neural Network

and Sampling

水口 真

1,2

杉山 麿人

1,2,3

Makoto Mizuguchi

1,2

Mahito Sugiyama

1,2,3

1

国立情報学研究所

1

National Institute of Informatics

2

総合研究大学院大学

2

The Graduate University for Advanced Studies

3

独立行政法人科学技術振興機構,さきがけ

3

JST, PRESTO

Abstract: In a generative approach to unsupervised outlier detection, outliers in a dataset may

distort the learned distribution. To overcome the problem, we propose to combine sampling and generative adversarial network (GAN) framework. Our sampling strategy can reduce outliers in training data, which leads to higher detection ability.

1

はじめに

異常検知は、機械学習の分野における重要なトピッ クの 1 つであり、データの収集が容易になった今日に おいて、不正検知 [2, 8] 等の様々なアプリケーション上 で使用されている。  一般的に、異常検知を精度高く実現するためには、各 データ点において異常かそうでないかを表す正解ラベ ルを必要とするが、多くの場合は大量の正常データ中 に異常データが埋もれているため、少数の異常データ に対して正解ラベル付けを行うこと自体にコストがか かる。本論文ではこの問題に対応するため、教師なし 学習による異常検知手法を提案する。教師なし学習に よって異常データを検出することで、正解ラベルの付 与に係るコスト増へ対応することができるようになる。  教師なし学習による異常検知では、データの背後に 隠れている分布を想定する場合 [9, 13] としない場合 [5, 11] に分かれるが、本論文では前者のアプローチを 取る。このアプローチによってデータの背後にある正 常データの分布を推定することができるので、現実の 問題における対応範囲が拡大する。分布を表現するパ ラメータのみを保持しておけば、新しいデータに対し ても再学習することなく異常検知が実行できるメリッ トが存在する。  本論文では敵対的生成ネットワーク [3] を用いた生成 連絡先:総合研究大学院大学複合科学研究科情報学専攻       〒 101-0003 東京都千代田区一ツ橋 2-1-2        E-mail: [email protected] モデルに基づく手法を用いる。敵対的生成ネットワー クが想定する深層学習は、複雑な非線形分布への対応 が可能であり、高精度での異常検知が期待される。特 に、データが異常か否かを判断するアルゴリズム、つ まり 2 値分類を行う手法を用いる。  さらに本論文では学習に使用するデータに着目し、異 常データが入ったデータセットを使った学習で起こり うる困難を克服するための手法を提案する。異常検知 の問題設定上、データセットの中に少数の異常データ が紛れていることから、正解データの分布を学習する 際にそれらの異常データが影響を与えてしまう。特に 敵対的生成ネットワークを用いた異常検知では、学習 過程で与えられたデータを高精度で再現するため、正 常データのみから判別モデルを学習することが理想的 である。しかし、異常データが混在すると異常データ をも考慮したデータの分布が再現されてしまう。この ため、異常検知の精度としては不十分な結果となって しまう。そこで学習用データセットに対してサンプリ ングを行い、学習用データ中に異常なデータが混在す る機会を減らし、判別モデルの効果的な学習を実現す る方法を提案する。  本稿は,以下のように構成されている。節 2 で関連 研究としての敵対的生成ネットワークとサンプリング による異常検知を紹介し、節 3 では敵対的生成ネット ワークとサンプリングを用いた提案手法を示す。節 4 で実験によって提案手法を検証し,節 5 で本稿の貢献 をまとめる。 人工知能学会研究会資料 SIG-FPAI-B902-02

(2)

2

関連研究

この節では、敵対的生成ネットワークを異常検知で 用いる関連研究と、サンプリングを用いた異常検知に 関連する研究についてまとめる。

2.1

敵対的生成ネットワークを用いた異常

検知

ディープニューラルネットワーク (DNN) は、複数の 層と各層に含まれるノードを複数持つことができ、ま た、活性化関数を各層で設定できることから、非線形 な分布に対しても適合できる。また、モデルの表現力 が高く、複雑なデータ分布を表現することができる。   DNN を内部構造として持つ敵対的生成ネットワー ク [3] を異常検知に用いることで、異常検知を行う際に も精度が高いモデルの作成が期待できる。敵対的生成 ネットワークでは DNN を 2 つ内部構造として持ち、片 方を生成モデル、もう一方を判別モデルとして利用す る。生成モデルが学習用データセットをもとにデータ を生成し、判別モデルがそのデータが生成モデルから 生成されたデータか(偽物データ)、学習用データセッ トのデータ(本物データ)かを判別する役割を果たす。  異常検知には各種手法があるが、敵対的生成ネット ワークを用いる異常検知では、Schlegl らが 2017 年に 提案している異常検知の手法 Anomaly Detection with Generative Adversarial Networks (AnoGAN)[6] が初 期の手法として知られている。医療の画像データに対 して、敵対的生成ネットワークを用いた異常検知を行 い、写真の中にある異常な部分を検知することを可能 とした。

 続いて Zenati らが、2018 年に Efficient GAN-BASED anomaly detection(Efficient GAN)[12] という手法を提 案し、AnoGAN で問題のあった予測時における計算ス ピードが遅いという問題に対して、Encode、Decode と いう仕組をさらに織り込むことで高速化に成功した。  ただし、上記いずれの手法も、敵対的生成ネットワー クを用いてデータから特徴量を抽出・再構築し、対象 となっているデータ(画像データ)の中で、どこの部 分が異常なデータであるかを識別する手法である。ま た、一定の学習後において、同じデータを生成するこ としかできなくなるという敵対的生成ネットワーク特 有の問題 (mode collapse) であるという問題を解決でき ていない。構造データに対して異常検知を実現し、か つ、敵対的生成ネットワーク特有の問題をも解決した 手法として提案されたものが 2019 年に Liu らが能動学 習 [1] のフレームワークを用いて行った ActiveGAN[4] である。  能動学習は数少ない教師データしか存在していない 状況下においても、機械が人間がラベルを付けるべき 学習効率を上げる具体的なデータを提案し、そのデー タに対して人間がラベルを付けた結果をもって再度学 習を行うフレームワークであるが、その方式を敵対的 生成ネットワークの構造としての生成モデルと判別モ デルが双方でやり取りを行うという部分に置き換えた。 この手法によって、複数の DNN を組み合わせること によって生じていた Mode collapse 問題を解決した。  しかし、この手法においても学習用データに異常な データが混在している場合においては、そのデータを 元に生成モデルが学習され、異常なデータが混在した 状態で生成されたデータを元に判別モデルも学習され る事態は変わらない。従って、サンプリングの手法を このフレームワークに入れることで、その問題を低減 する方法を提案する。

2.2

サンプリングを用いた異常検知

次にサンプリングを用いた異常検知に関連して、本 論文の意義について言及する。  サンプリングを用いた異常検知としては、データの 距離を計算して異常検知を行う際に、サンプリングを 行って精度を向上させた Sugiyama and Borgwardt の 手法 [7] や、Wu and Jermaine の手法 [10] がある。  サンプリングを行うことで、計算速度を上げつつ、検 出精度を上げることができる。本論文では、Sugiyama and Borgwardt の手法 [7] と敵対的生成ネットワークに よる異常検知を組み合わせた方法を提案する。本論文 では異常検知を行う際に、学習用データに対してサン プリングを行うことで正常データのみを用いた敵対的 生成ネットワークの学習の実現を目指す。

3

提案手法

この節では、本論文が提案するサンプリングと敵対 的生成ネットワークを同時に用いて異常検知を行うこ とに関する問題設定を定式化し、手法を導入する。

3.1

問題設定

データに含まれる異常なデータと正常なデータを識 別することが提案手法の目的である。  提案手法では敵対的生成ネットワークによって学習 用のデータから正常データの分布を学習する。その際、 学習用データに対して、サンプリングを行うことで、正 常データのみから敵対的生成ネットワークの学習が行 われる確率を上げる。学習が完了した後に、敵対的生 成ネットワークが持つ判別モデルにデータを入力して 異常度スコアを取得する。その結果があらかじめ設定 した閾値以上の場合には、異常なデータとし、閾値よ

(3)

りも低い場合には正常データと判定する。  上記の問題設定を定式化する。学習用の入力データ を X ={x1, x2, ..., xn} ⊂ Rd×nとし、それに対応する 正常と異常のラベルを Y ={y1, y2, ..., yn} とする。な お、本論文では教師なし学習を扱うため、上記のラベ ルは敵対的生成ネットワークによる学習では使用しな いものの、正解データを用いた評価時のみに使用する。 入力データ (本物のデータ)X を用いて敵対的生成ネッ トワークを学習させ、学習した生成モデルで生成した データ (偽物のデータ) を判別モデルに渡したときに、 偽物のデータだと判別できるように判別モデルを学習 する。敵対的ネットワークは以下で定義され、異常検 知における学習の目的は異常度のスコアリングを行う ための D∗を取得することにある。 D∗= arg min G maxD V (G, D), V (G, D) =Ex∼pt(x)[log D(x)] + Ez∼pz(z)[log (1− D (G(z)))] .  数式中の G : [0, 1] → Rdがデータを生成する生成 モデルであり、D :Rd → [0, 1] が生成されたデータを 偽物だと判別し、入力データである本物のデータを本 物だと判別する判別モデルである。生成モデルと判別 モデルはインプットデータを用いて交互に学習を行い、 互いに均衡した際(ナッシュ均衡)に学習を終了する。 学習後に実施する異常検知の際には新たなデータを判 別モデル D に投入し、異常度を算定する。  サンプリングは重複なしのランダムサンプリングを 行う。入力データ X に対して、ランダムサンプリング による部分集合 S⊆ X を抽出する。ここで、サンプル 比率|S|/|X| は入力パラメータとし、ユーザーが決定 する。

3.2

アルゴリズム

以上の敵対的生成ネットワークとサンプリング手法 を組み合わせる。まず、入力データ X に対してサンプ リングを行い、学習用データ S ⊆ X を取得すること で、新しく取得した学習用データは異常なデータがな い、または元の学習用データよりも少ないことが想定 される。次にこのデータを元に敵対的生成ネットワー クへ適用し、生成モデルと判別モデルの学習を進める。 このような学習過程を経ることにより、最終的に取得 する判別モデルは正常なデータをより効果的に判別す るモデルとなる。   Algorithm 1 に疑似コードを記載した。敵対的生成 ネットワークの学習前にデータをサンプリングするこ とで、学習用データから異常なデータをできるだけ排 除する。 具体的には、全データ X に対して、サンプ 図 1: 学習過程のイメージ図 Algorithm 1 敵対的生成ネットワークとサンプリン グを用いた異常検知の Algorithm Require: 学習データ X,サンプリング割合 r Ensure: 異常度 p 1: k← r|X| 2: S← Subsample of X with |S| = k

3: D∗ = arg minGmaxDV (G, D), V (G, D) =

Ex∼pt(x)[log D(x)] +Ez∼pz(z)[log (1− D (G(z)))] 4: p(x) = 1− D(x) 5: return p(x) f or all x∈ X リング割合 r で S⊆ X(|S| = r|X|) を獲得する。後続 の処理で敵対的生成ネットワークの学習によって判別 モデルを学習し、各データ点に対して異常度のスコア リングが可能となる。  アルゴリズム全体の学習が進む過程では、生成モデ ルが正常なデータのみとなっている学習用データに近 似するデータを生成し、判別モデルが本物のデータ= 正常なデータのみの学習用データか、偽物のデータ= 生成モデルが生成した正常なデータを模したデータか を判別していくことで、本物のデータを判別すること ができる判別モデルが入手できる(図 1:学習過程のイ メージ図を参照)。

4

実験

この節では、実験に使用したデータの種類、評価指 標、アルゴリズムに使用したパラメータ、実験結果に ついて説明する。

4.1

使用したデータの種類

使用するデータは、公開データを用いる。次元が低 いものから高いものまでを選択した。提案手法が様々 なバリエーションに対応できるよう、データに特定の

(4)

パターンがないようにし、以下のデータセットを利用 する。 表 1: 使用データ概要 データ 概要 (正常・異常) Pima 健康・糖尿病 Shuttle クラス 1・他のクラス PageBlocks テキストデータ・非テキストデータ WDBC 陽性・陰性 APS ネガティブ・ポジティブ HAR 歩きの動作データ・他の動作データ 表 2: 使用データ数 データ データ数 (正常数・異常数・データ次元) Pima 500・268・8 Shuttle 1,000・13・9 PageBlocks 4,883・510・10 WDBC 357・10・30 APS 59,000・10,000・170 HAR 2,830・30・561

4.2

評価指標

評価手法としては AUC を使用した。それぞれのデー タに対して、サンプリング割合を変更し、各割合にお ける AUC を報告する。具体的にはサンプリング割合を 100 %(すべてのデータを用いる場合)から 10 %(元 データから 10 %だけをランダムサンプルして選定)ま で 10 %ずつ減少させながら、それぞれのサンプリング 割合における試行を 3 回実施し、AUC の平均値を計算 した。

4.3

アルゴリズムに使用したパラメータ

異常検知のそもそもの前提として、正解ラベルを用 いたパラメータの調整は基本的にはできない。その為、 クロスバリデーションを用いたネットワーク構造上のハ イパーパラメータの調整は実施しない。すべてのデー タに対して同一のパラメータの設定を一定に固定し、 サンプルサイズに対する AUC の変動を見ることが目 的である。

4.4

実験結果

サンプル割合としてすべてのデータを使用した場合 の 100%をベースラインにおき、そこからの AUC の差 図 2: 各データ毎の AUC 推移 を図 2 にプロットした。  図 2 にある通り、各割合で 100%の時から比較して多 くの場合 AUC が向上していることがわかる。ただし、 どの割合で最も AUC が高くなるかを各データで指定 することは難しく、データセットによって異なること がわかる。全体としては、20 %から 30 %の際に、平 均して AUC がよくなることが多い。  教師なしの学習モデルのため、どのサンプル割合が よいかを試行的に実施することは現実問題としては困 難であるが、元データの 20 %∼30 %を用いることを 推奨する。

5

むすび

本論文では、敵対的生成ネットワークを使った異常 検知を行う際の学習過程に注目し、全データを用いる のではなく、サンプリングによって学習データを減ら したほうがより異常検知の精度が上がることを実験的 に示した。複数のデータを用いた実験の結果、サンプ リングによって AUC の精度が向上し、全データを用 いるのではなく、特定のサンプル抽出を行うことの有 効性が示された。さらに、副次効果として全データを 用いる際と比較して、学習速度も向上している。ただ し、普遍的なサンプリング割合の発見についてはでき ておらず、サンプリングが有効であることを示したの みであるため、今後は性能の理論解析や異なるサンプ リング手法による精度向上を目指す。

謝辞

本研究は、JSPS 科研費 JP16H02870(MS)の助成 を受けたものです。

(5)

参考文献

[1] N. Abe and J. Langford B. Zadrozny. Outlier detection by active learning. ACM SIGKDD In-ternational Conference on Knowledge Discovery and Data Mining, page 504–509, 2006.

[2] U. Fiore, A. D. Santis, F. Perla, P. Zanetti, and F. Palmieri. Using generative adversarial net-works for improving classification effectiveness in credit card fraud detection. Information Sci-ences, 2017.

[3] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial networks. Advances in Neural Information Processing Sys-tems, page 2672–2680, 2014.

[4] Yezheng Liu, Zhe Li, Chong Zhou, Yuanchun Jiang, Jianshan Sun, Meng Wang, and Xiang-nan He. Generative adversarial active learning for unsupervised outlier detection. 2019.

[5] S. Ramaswamy, R. Rastogi, and K. Shim. Ef-ficient algorithms for mining outliers from large data sets. Proceedings of the ACM SIGMOD In-ternational Conference on Management of Data, page 427–438, 2000.

[6] T. Schlegl, P. Seebck, S. M. Waldstein, U.Schmidt-Erfurth, and G. Langs. Unsupervised anomaly detection with generative adversarial networks to guide marker discovery. Interna-tional Conference on Information Processing in Medical Imaging, 2017.

[7] Mahito Sugiyama and Karsten Borgwardt. Rapid distance-based outlier detection via sampling. Advances in Neural Information Processing Sys-tems, 2013.

[8] V. S. Tseng, J. C. Ying, C. W. Huang, Y. Kao, and K. T. Chen. Fraudetector: A graph-mining-based framework for fraudulent phone call detec-tion. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, page 2157–2166, 2015.

[9] Tiziana Veracini, Stefania Matteoli, Marco Di-ani, and Giovanni Corsini. Fully unsupervised learning of gaussian mixtures for anomaly detec-tion in hyperspectral imagery. Institute of Elec-trical and Electronics Engineers, 2009.

[10] Mingxi Wu and Christopher Jermaine. Outlier detection by sampling with accuracy guarantees. Advances in Neural Information Processing Sys-tems, 2006.

[11] D. Yu, G. Sheikholeslami, and A. Zhang. Find-out: Finding outliers in very large datasets. Knowledge and Information Systems, page 387–412, 2002.

[12] Houssam Zenati, Chuan Sheng Foo, Bruno Lecouat, Gaurav Manek, and Vijay Ramaseshan Chandrasekhar. Efficient gan-based anomaly de-tection. The Workshop on International Confer-ence on Learning Representations, 2018.

[13] C. Zhou and R. C. Paffenroth. Anomaly de-tection with robust deep autoencoders. ACM SIGKDD International Conference on Knowl-edge Discovery and Data Mining, page 665–674, 2017.

参照

関連したドキュメント

行ない難いことを当然予想している制度であり︑

 学部生の頃、教育実習で当時東京で唯一手話を幼児期から用いていたろう学校に配

自然言語というのは、生得 な文法 があるということです。 生まれつき に、人 に わっている 力を って乳幼児が獲得できる言語だという え です。 語の それ自 も、 から

   手続内容(タスク)の鍵がかかっていること、反映日(完了日)に 日付が入っていることを確認する。また、登録したメールアドレ

 講義後の時点において、性感染症に対する知識をもっと早く習得しておきたかったと思うか、その場

音響域振動計測を行う。非対策船との比較検証ができないため、ここでは、浮床対策を施し た公室(Poop Deck P-1

現を教えても らい活用 したところ 、その子は すぐ動いた 。そういっ たことで非常 に役に立 っ た と い う 声 も いた だ い てい ま す 。 1 回の 派 遣 でも 十 分 だ っ た、 そ

成人刑事手続で要請されるものを少年手続にも適用し,認めていこうとす