特徴選択による性能変化

提案手法で利用する各特徴量の識別能力を分析し，それをもとに特徴選択をおこなう．特徴選択とは，特徴抽出エンジンで得られた特徴量の中でより有用なものを選択して利用することである．本節では，特徴選択により提案手法の性能がどのように変化するのかを調査する．ここでは，5.2節で示した悪性Webサイトのヒット率および5.3節で測定した総巡回時間において最も良い結果が得られた特徴C を選択して評価を進める．なお，この分析ではこれまでと同様に訓練データセットとして表 4.1，テストデータセットとして表 5.1に示したデータをそれぞれ利用する．

5.5.1 F-score _{に基づく特徴量の順位}

提案手法で利用するすべての特徴量に対して，それぞれの識別能力をF-score (Fisher score) を用いて算出する．F-scoreとは，特徴量の識別能力を表す統計的な評価基準[45, 46]であり，k 個の訓練データxi (i= 1,· · · , k)があるとき，l個の特徴量の中のj番目の特徴量(j = 1,· · · , l) のF-scoreは次の式で定義される．

F(j)≡ (bj−xj)²+ (mj−xj)²

1 nb−1

+nb

i=1(bi,j−bj)²+ _n ¹

m−1

+nm

i=1(mi,j−mj)²

ここで，nbとnmはそれぞれ良性訓練データと悪性の訓練データの個数，xj，bj，mjはそれぞれ全訓練データ，良性訓練データ，悪性訓練データのj番目の特徴量の平均値，bi,jとmi,jはそれぞれi個目の良性と悪性訓練データのj番目の特徴量を意味する．F(j)の分子は良性と悪性の群間の平均平方を表し，F(j)の分母は良性と悪性それぞれの群内の平均平方を表している．F-scoreの数値が大きいほど，その特徴量による識別能力が高いことを示す．本研究では

第 5 章提案手法の性能評価提案手法 (特徴C) で利用するすべての特徴量(特徴次元数: 1,995次元)に対してF-scoreを算出し，順位をつけた結果を表 5.7に示す．ただし，表 5.7ではIPアドレスの各オクテットに関する数値とFQDN文字列の内容はセキュリティ上の理由によりマスク処理を施している．

また，今回は紙面の都合により上位25件のみを表示している．

表 5.7より，WHOIS情報のドメイン登録日の識別能力が高いことがわかる．これは 4.3節で示したとおり，悪性Webサイトのドメイン登録日が良性Webサイトに比べて新しい日付に偏っているためである．また，IPアドレスの特徴量は上位25件中22件を占め非常に有効な特徴であることがわかる．特に上位オクテット(第1〜第2オクテット) の特徴量は，4.2.2節で示した空間的局所性に大きく関係するため，より大きなF-scoreとなっている．一方，FQDN 文字列の特徴量のうち上位の順位のものはWHOIS情報とIPアドレスに比べて少ない．これはFQDN文字列の特徴量の絶対数が少なく，相対的に順位が低くなったためである．

5.5.2 特徴選択によるヒット率の変化

5.5.1節で算出した特徴量の順位をもとに特徴選択をおこない，選択した特徴量の数 (特徴

次元数) に応じた悪性Webサイトのヒット率の変化を調査する．悪性Webサイトのヒット率とは 5.2節で定義したとおり，巡回URLリストに実際に含まれる悪性Webサイトの数の割合のことである．ヒット率が高いほど，その手法の性能が良いことを意味する．

選択する特徴量の数ごとに悪性Webサイトのヒット率の計測をおこない，その結果を表 5.8 に示す．提案手法 (400位〜1,995位) では，特徴量の順位1位からそれぞれの順位までの特徴量を選択してヒット率を計測する．例えば，400位の場合には上位1〜400位までの特徴量を選択する．なお，1,995位の場合は提案手法 (特徴C)で抽出するすべての特徴量を利用するため，5.2節の表 5.3における特徴Cの結果と一致する．

表 5.8より既存手法を用いてランダムに巡回する場合 (既存)のヒット率は5.2節で示したと

おり約10%となる．一方，提案手法 (400位〜1,995位) の場合はいずれも既存手法よりもヒッ

ト率が高い．また，表 5.8より巡回URLリスト長が1,000から20,000までは利用する特徴量が多いほどヒット率が増加し，1,995位までのすべての特徴量を使う際に最もヒット率が高いことがわかる．しかし，巡回URLリスト長が30,000より大きい場合には1,200位までの特徴量を使う際にヒット率が最も高くなることがわかった．これは，提案手法 (特徴C) で抽出する特徴量のうち上位順位の特徴量がより有用であることを示している．

第 5 章提案手法の性能評価

表 5.7: 各特徴量のF-scoreに基づく順位

順位特徴量 F-score

1 WHOIS情報(ドメイン登録日) 0.112

2 IPアドレス (第1オクテット: 1) 0.023 3 IPアドレス (第1オクテット: 2) 0.021 4 IPアドレス (第1オクテット: 3) 0.010 5 IPアドレス (第1オクテット: 4) 0.007 6 IPアドレス (第1オクテット: 5) 0.006 7 IPアドレス (第1オクテット: 6) 0.006 8 IPアドレス (第1・2オクテット: 1) 0.006 9 IPアドレス (第2オクテット: 1) 0.005 10 IPアドレス (第2オクテット: 2) 0.005

11 FQDN文字列 (n-gram: aa) 0.005

12 IPアドレス (第2オクテット: 3) 0.004 13 IPアドレス (第1オクテット: 7) 0.004 14 IPアドレス (第1オクテット: 8) 0.004 15 IPアドレス (第1・2オクテット: 2) 0.004

16 FQDN文字列 (n-gram: ab) 0.004

17 IPアドレス (第2オクテット: 4) 0.004 18 IPアドレス (第1・2・3オクテット: 1) 0.004 19 IPアドレス (第2オクテット: 5) 0.004 20 IPアドレス (第2オクテット: 6) 0.003 21 IPアドレス (第1オクテット: 9) 0.003 22 IPアドレス (第1・2オクテット: 3) 0.003 23 IPアドレス (第2オクテット: 7) 0.003 24 IPアドレス (第1・2オクテット: 4) 0.003 25 IPアドレス (第1・2オクテット: 5) 0.003

第 5 章提案手法の性能評価

表 5.8: 悪性Webサイトのヒット率 (特徴選択)

巡回URLリスト長既存 400位 800位 1,200位 1,600位 1,995位

1,000 10% 67% 79% 86% 86% 94%

5,000 10% 66% 70% 74% 78% 82%

10,000 10% 54% 58% 62% 61% 63%

20,000 10% 38% 41% 42% 43% 43%

30,000 10% 30% 31% 32% 31% 31%

40,000 10% 24% 25% 25% 24% 24%

50,000 10% 20% 20% 20% 20% 20%

60,000 10% 17% 17% 17% 17% 17%

70,000 10% 15% 15% 15% 15% 15%

80,000 10% 13% 13% 13% 13% 13%

90,000 10% 12% 12% 12% 12% 12%

100,000 10% 11% 11% 11% 11% 11%

5.5.3 特徴選択による総巡回時間の変化

5.5.1節で算出した特徴量の順位をもとに特徴選択をおこない，選択した特徴量の数 (特徴

次元数)に応じて総巡回時間を比較する．総巡回時間とは 5.5節と同様に，ある特定数の悪性 Webサイトを発見するまでにかかるすべての所要時間のことである．総巡回時間が短いほど，

その手法の性能が良いことを意味する．既存手法における総巡回時間は，Webクライアント型ハニーポットによる巡回時間のみとなる．一方，提案手法における総巡回時間は，巡回順序決定システムにおける所要時間とハニーポットによる巡回時間の和となる．なお，本節の実験環境は5.3節と同様である．

まず，巡回順序決定システムにおける所要時間を測定した結果を表 5.9 に示す．今回は特徴

順位を400位から1,995位まで変更し，それぞれの場合の所要時間を測定する．なお，1,995位

の場合は提案手法(特徴C)で抽出するすべての特徴量を利用するため，5.3節の表 5.4における特徴Cの結果と一致する．表5.9より，所要時間は選択する特徴量の数に比例することがわかる．また，特徴順位に基づく特徴選択により巡回順序決定システムのコストは調整可能であることが示された．

第 5 章提案手法の性能評価

表 5.9: 巡回順序決定システムの所要時間 (特徴選択) 特徴順位 400位 800位 1,200位 1,600位 1,995位所要時間 318 s 344 s 386 s 513 s 562 s

次に，既存手法を用いてランダムに巡回する場合 (既存)および提案手法 (400位〜1,995位) における総巡回時間を表5.10に示す．悪性Webサイト発見数が100の場合以外は，提案手法 (400位〜1,995位) の総巡回時間が既存手法に比べて大幅に短いことがわかる．提案手法の間で総巡回時間を比較すると，悪性Webサイト発見数が500までは特徴順位が400位までの特徴量を使った場合が最も総巡回時間が短い．これは表 5.9に示した巡回順序決定システムにおける所要時間の影響が大きいためである．悪性Webサイト発見数が1,000の場合は，1,200位の総巡回時間が最も短くなり，その後悪性Webサイト発見数が2,000から8,000の間は1,995 位の総巡回時間が最も短い．一方，悪性Webサイト発見数が9,000と10,000の時は，1,200位の総巡回時間が最も短くなる．これは悪性Webサイト発見数が1,000以降は，巡回順序決定システムにおける所要時間の影響は小さくなり，その代わりに 5.5.2節で示した悪性Webサイトのヒット率が強く影響するためである．

表 5.10: 総巡回時間 (特徴選択)

悪性Webサイト発見数既存 400位 800位 1,200位 1,600位 1,995位 100 583 s 387 s 411 s 452 s 576 s 624 s 500 3,139 s 710 s 724 s 712 s 842 s 871 s 1,000 6,097 s 1,274 s 1,137 s 1,105 s 1,209 s 1,205 s 2,000 12,193 s 2,144 s 1,951 s 1,927 s 1,963 s 1,899 s 3,000 18,217 s 2,993 s 2,810 s 2,773 s 2,697 s 2,570 s 4,000 24,391 s 4,239 s 3,913 s 3,612 s 3,586 s 3,435 s 5,000 30,306 s 5,599 s 4,842 s 4,635 s 4,708 s 4,555 s 6,000 36,470 s 7,470 s 6,723 s 6,117 s 6,370 s 5,976 s 7,000 42,519 s 10,512 s 8,639 s 8,125 s 8,663 s 7,875 s 8,000 48,479 s 13,831 s 11,340 s 10,896 s 11,020 s 10,185 s 9,000 54,634 s 18,173 s 16,427 s 14,703 s 14,959 s 15,404 s 10,000 60,883 s 31,567 s 29,184 s 28,335 s 29,793 s 29,153 s

第 5 章提案手法の性能評価

ドキュメント内 Web Web Web Web Web IP (ページ 38-43)

5.5.1 F-score に基づく特徴量の順位

5.5.2 特徴選択によるヒット率の変化

5.5.3 特徴選択による総巡回時間の変化

5.5.1 F-score _{に基づく特徴量の順位}