提案手法で利用する各特徴量の識別能力を分析し,それをもとに特徴選択をおこなう.特徴 選択とは,特徴抽出エンジンで得られた特徴量の中でより有用なものを選択して利用すること である.本節では,特徴選択により提案手法の性能がどのように変化するのかを調査する.こ こでは,5.2節で示した悪性Webサイトのヒット率および5.3節で測定した総巡回時間におい て最も良い結果が得られた特徴C を選択して評価を進める.なお,この分析ではこれまでと 同様に訓練データセットとして表 4.1,テストデータセットとして表 5.1に示したデータをそ れぞれ利用する.
5.5.1 F-score に基づく特徴量の順位
提案手法で利用するすべての特徴量に対して,それぞれの識別能力をF-score (Fisher score) を用いて算出する.F-scoreとは,特徴量の識別能力を表す統計的な評価基準[45, 46]であり,k 個の訓練データxi (i= 1,· · · , k)があるとき,l個の特徴量の中のj番目の特徴量(j = 1,· · · , l) のF-scoreは次の式で定義される.
F(j)≡ (bj−xj)2+ (mj−xj)2
1 nb−1
+nb
i=1(bi,j−bj)2+ n 1
m−1
+nm
i=1(mi,j−mj)2
ここで,nbとnmはそれぞれ良性訓練データと悪性の訓練データの個数,xj,bj,mjはそれぞ れ全訓練データ,良性訓練データ,悪性訓練データのj番目の特徴量の平均値,bi,jとmi,jは それぞれi個目の良性と悪性訓練データのj番目の特徴量を意味する.F(j)の分子は良性と悪 性の群間の平均平方を表し,F(j)の分母は良性と悪性それぞれの群内の平均平方を表してい る.F-scoreの数値が大きいほど,その特徴量による識別能力が高いことを示す.本研究では
第 5 章 提案手法の性能評価 提案手法 (特徴C) で利用するすべての特徴量(特徴次元数: 1,995次元)に対してF-scoreを 算出し,順位をつけた結果を表 5.7に示す.ただし,表 5.7ではIPアドレスの各オクテット に関する数値とFQDN文字列の内容はセキュリティ上の理由によりマスク処理を施している.
また,今回は紙面の都合により上位25件のみを表示している.
表 5.7より,WHOIS情報のドメイン登録日の識別能力が高いことがわかる.これは 4.3節 で示したとおり,悪性Webサイトのドメイン登録日が良性Webサイトに比べて新しい日付に 偏っているためである.また,IPアドレスの特徴量は上位25件中22件を占め非常に有効な特 徴であることがわかる.特に上位オクテット(第1〜第2オクテット) の特徴量は,4.2.2節で 示した空間的局所性に大きく関係するため,より大きなF-scoreとなっている.一方,FQDN 文字列の特徴量のうち上位の順位のものはWHOIS情報とIPアドレスに比べて少ない.これ はFQDN文字列の特徴量の絶対数が少なく,相対的に順位が低くなったためである.
5.5.2 特徴選択によるヒット率の変化
5.5.1節で算出した特徴量の順位をもとに特徴選択をおこない,選択した特徴量の数 (特徴
次元数) に応じた悪性Webサイトのヒット率の変化を調査する.悪性Webサイトのヒット率 とは 5.2節で定義したとおり,巡回URLリストに実際に含まれる悪性Webサイトの数の割合 のことである.ヒット率が高いほど,その手法の性能が良いことを意味する.
選択する特徴量の数ごとに悪性Webサイトのヒット率の計測をおこない,その結果を表 5.8 に示す.提案手法 (400位〜1,995位) では,特徴量の順位1位からそれぞれの順位までの特徴 量を選択してヒット率を計測する.例えば,400位の場合には上位1〜400位までの特徴量を 選択する.なお,1,995位の場合は提案手法 (特徴C)で抽出するすべての特徴量を利用するた め,5.2節の表 5.3における特徴Cの結果と一致する.
表 5.8より既存手法を用いてランダムに巡回する場合 (既存)のヒット率は5.2節で示したと
おり約10%となる.一方,提案手法 (400位〜1,995位) の場合はいずれも既存手法よりもヒッ
ト率が高い.また,表 5.8より巡回URLリスト長が1,000から20,000までは利用する特徴量 が多いほどヒット率が増加し,1,995位までのすべての特徴量を使う際に最もヒット率が高い ことがわかる.しかし,巡回URLリスト長が30,000より大きい場合には1,200位までの特徴 量を使う際にヒット率が最も高くなることがわかった.これは,提案手法 (特徴C) で抽出す る特徴量のうち上位順位の特徴量がより有用であることを示している.
第 5 章 提案手法の性能評価
表 5.7: 各特徴量のF-scoreに基づく順位
順位 特徴量 F-score
1 WHOIS情報(ドメイン登録日) 0.112
2 IPアドレス (第1オクテット: 1) 0.023 3 IPアドレス (第1オクテット: 2) 0.021 4 IPアドレス (第1オクテット: 3) 0.010 5 IPアドレス (第1オクテット: 4) 0.007 6 IPアドレス (第1オクテット: 5) 0.006 7 IPアドレス (第1オクテット: 6) 0.006 8 IPアドレス (第1・2オクテット: 1) 0.006 9 IPアドレス (第2オクテット: 1) 0.005 10 IPアドレス (第2オクテット: 2) 0.005
11 FQDN文字列 (n-gram: aa) 0.005
12 IPアドレス (第2オクテット: 3) 0.004 13 IPアドレス (第1オクテット: 7) 0.004 14 IPアドレス (第1オクテット: 8) 0.004 15 IPアドレス (第1・2オクテット: 2) 0.004
16 FQDN文字列 (n-gram: ab) 0.004
17 IPアドレス (第2オクテット: 4) 0.004 18 IPアドレス (第1・2・3オクテット: 1) 0.004 19 IPアドレス (第2オクテット: 5) 0.004 20 IPアドレス (第2オクテット: 6) 0.003 21 IPアドレス (第1オクテット: 9) 0.003 22 IPアドレス (第1・2オクテット: 3) 0.003 23 IPアドレス (第2オクテット: 7) 0.003 24 IPアドレス (第1・2オクテット: 4) 0.003 25 IPアドレス (第1・2オクテット: 5) 0.003
第 5 章 提案手法の性能評価
表 5.8: 悪性Webサイトのヒット率 (特徴選択)
巡回URLリスト長 既存 400位 800位 1,200位 1,600位 1,995位
1,000 10% 67% 79% 86% 86% 94%
5,000 10% 66% 70% 74% 78% 82%
10,000 10% 54% 58% 62% 61% 63%
20,000 10% 38% 41% 42% 43% 43%
30,000 10% 30% 31% 32% 31% 31%
40,000 10% 24% 25% 25% 24% 24%
50,000 10% 20% 20% 20% 20% 20%
60,000 10% 17% 17% 17% 17% 17%
70,000 10% 15% 15% 15% 15% 15%
80,000 10% 13% 13% 13% 13% 13%
90,000 10% 12% 12% 12% 12% 12%
100,000 10% 11% 11% 11% 11% 11%
5.5.3 特徴選択による総巡回時間の変化
5.5.1節で算出した特徴量の順位をもとに特徴選択をおこない,選択した特徴量の数 (特徴
次元数)に応じて総巡回時間を比較する.総巡回時間とは 5.5節と同様に,ある特定数の悪性 Webサイトを発見するまでにかかるすべての所要時間のことである.総巡回時間が短いほど,
その手法の性能が良いことを意味する.既存手法における総巡回時間は,Webクライアント型 ハニーポットによる巡回時間のみとなる.一方,提案手法における総巡回時間は,巡回順序決 定システムにおける所要時間とハニーポットによる巡回時間の和となる.なお,本節の実験環 境は5.3節と同様である.
まず,巡回順序決定システムにおける所要時間を測定した結果を表 5.9 に示す.今回は特徴
順位を400位から1,995位まで変更し,それぞれの場合の所要時間を測定する.なお,1,995位
の場合は提案手法(特徴C)で抽出するすべての特徴量を利用するため,5.3節の表 5.4におけ る特徴Cの結果と一致する.表5.9より,所要時間は選択する特徴量の数に比例することがわ かる.また,特徴順位に基づく特徴選択により巡回順序決定システムのコストは調整可能であ ることが示された.
第 5 章 提案手法の性能評価
表 5.9: 巡回順序決定システムの所要時間 (特徴選択) 特徴順位 400位 800位 1,200位 1,600位 1,995位 所要時間 318 s 344 s 386 s 513 s 562 s
次に,既存手法を用いてランダムに巡回する場合 (既存)および提案手法 (400位〜1,995位) における総巡回時間を表5.10に示す.悪性Webサイト発見数が100の場合以外は,提案手法 (400位〜1,995位) の総巡回時間が既存手法に比べて大幅に短いことがわかる.提案手法の間 で総巡回時間を比較すると,悪性Webサイト発見数が500までは特徴順位が400位までの特 徴量を使った場合が最も総巡回時間が短い.これは表 5.9に示した巡回順序決定システムにお ける所要時間の影響が大きいためである.悪性Webサイト発見数が1,000の場合は,1,200位 の総巡回時間が最も短くなり,その後悪性Webサイト発見数が2,000から8,000の間は1,995 位の総巡回時間が最も短い.一方,悪性Webサイト発見数が9,000と10,000の時は,1,200位 の総巡回時間が最も短くなる.これは悪性Webサイト発見数が1,000以降は,巡回順序決定シ ステムにおける所要時間の影響は小さくなり,その代わりに 5.5.2節で示した悪性Webサイト のヒット率が強く影響するためである.
表 5.10: 総巡回時間 (特徴選択)
悪性Webサイト発見数 既存 400位 800位 1,200位 1,600位 1,995位 100 583 s 387 s 411 s 452 s 576 s 624 s 500 3,139 s 710 s 724 s 712 s 842 s 871 s 1,000 6,097 s 1,274 s 1,137 s 1,105 s 1,209 s 1,205 s 2,000 12,193 s 2,144 s 1,951 s 1,927 s 1,963 s 1,899 s 3,000 18,217 s 2,993 s 2,810 s 2,773 s 2,697 s 2,570 s 4,000 24,391 s 4,239 s 3,913 s 3,612 s 3,586 s 3,435 s 5,000 30,306 s 5,599 s 4,842 s 4,635 s 4,708 s 4,555 s 6,000 36,470 s 7,470 s 6,723 s 6,117 s 6,370 s 5,976 s 7,000 42,519 s 10,512 s 8,639 s 8,125 s 8,663 s 7,875 s 8,000 48,479 s 13,831 s 11,340 s 10,896 s 11,020 s 10,185 s 9,000 54,634 s 18,173 s 16,427 s 14,703 s 14,959 s 15,404 s 10,000 60,883 s 31,567 s 29,184 s 28,335 s 29,793 s 29,153 s
第 5 章 提案手法の性能評価