悪性Webサイト探索のための効率的な巡回順序の決定法

(1)

悪性Webサイト探索のための

効率的な巡回順序の決定法

千葉大紀

学籍番号: 5111B073-1

指導: 後藤滋樹教授

Feb. 8, 2013 Daiki Chiba, Goto Lab.

1

(2)

本論文に関わる研究業績

(2013年2月現在)

2

種類別 題名、発表・発行掲載誌名、発表・発行年月、連名者

査読付国際会議

Daiki Chiba, Kazuhiro Tobe, Tatsuya Mori, Shigeki Goto, “Detecting Malicious

Websites by Learning IP Address Features," Proc. the 12th IEEE/IPSJ

International Symposium on Applications and the Internet (SAINT2012), pp.29--39, Izmir, Turkey, Jul. 2012.

国内学会発表 千葉大紀, 森達哉, 後藤滋樹, "悪性Webサイト探索のための優先巡回順序の選定 法," コンピュータセキュリティシンポジウム2012 (CSS2012) 論文集, vol.2012, no.3, pp.805--812, Oct. 2012. 国内学会発表 千葉大紀, 八木毅, 秋山満昭, 森達哉, 後藤滋樹, "多種多様な攻撃に用いられるIP アドレス間の相関解析," コンピュータセキュリティシンポジウム2011 (CSS2011) 論文集, vol.2011, no. 3, pp.185--190, Oct. 2011.

国内学会

発表 千葉大紀, 森達哉, 後藤滋樹, “SVMを用いたIP攻撃通信の判別法,” 情報処理学会 全国大会講演論文集, vol.2011, no.1, pp.491--493, Mar. 2011.

情報処理学会推奨卒業論文認定

(3)

研究背景 [1/2]

• Web経由のマルウェア感染事例の増加

• e.g. Drive-by-download攻撃

4 脆弱な

Webブラウザ

入口サイト

中継サイト

…

攻撃サイト

マルウェア

配布サイト

Webアクセス

自動転送

…

脆弱性攻撃

マルウェアのダウンロード

自動転送

(5)

研究背景 [2/2]

• マルウェア対策技術

• Webクライアント型ハニーポットによる巡回

[2]

• 収集データの解析 ⇒ ブラックリストの提供 [3]

5

悪性サイト良性サイト巡回セキュリティアプライアンスユーザ _{Webクライアント型} ハニーポットブラックリスト

[2] M. Akiyama, et al. “Searching structural neighborhood of malicious URLs to improve blacklisting,” Proc. IEEE/IPSJ SAINT 2011.

[3] 八木毅, “マルウェア感染を検知・制御するブラックリストシステムの設計,” 信学技報, 2012. ハニーポット ＝「おとりシステム」 Web空間の巡回を行い、悪性サイトを発見・解析 Web空間

(6)

研究目標

• Webクライアント型ハニーポットの課題

• 多くの悪性サイトが展開され、URLは短命 [2]

• Web空間の網羅的な巡回には多大なリソースが必要

研究目標

Webクライアント型ハニーポットが、より効率的に

悪性サイトを発見するための

最適な巡回順序

の決定

7

[2] M. Akiyama, et al. “Searching structural neighborhood of malicious URLs to improve blacklisting,” Proc. IEEE/IPSJ SAINT 2011.

(8)

提案手法 [概要]

9

悪性サイト良性サイトマネージャエージェントエージェントエージェント … Webブラウザ Webブラウザ Webブラウザ …

Webクライアント型ハニーポット

巡回ログ管理 巡回順序決定 システム 巡回URLリスト IPアドレス分析

巡回順序決定システム

巡回順序付き巡回URLリスト

特徴抽出エンジン

訓練データ WHOIS情報分析 FQDN文字列分析 Web空間検知巡回

識別し得る特徴量を抽出

• ３つの分析手法

1. IPアドレス分析

2. WHOIS情報分析

3. FQDN (ドメイン名) 文字列分析

14

※ FQDN = Fully Qualified Domain Name

(15)

提案手法

[特徴抽出/訓練データ]

• 訓練データ

• 良性訓練

• Webサイトランキング

Alexa Top sites [38]

• 悪性訓練

• 公開の悪性サイトブラックリスト

MDL (Malware Domain List) [39]

15 データ

収集期間

Webサイト数

良性訓練

2011/4/30

10,000

悪性訓練

2009/1/1〜2011/4/30

35,438

(16)

提案手法

[特徴抽出/IPアドレス分析]

• IPアドレス分析

• IPアドレス空間の「

空間的な偏り

」

• 悪性な活動に利用されるIPアドレスは、

特定のネットワークブロックに偏る

[30, 31, 32]

• 特徴抽出

ExOctet Method [30]

• 我々の以前の研究成果

• IPアドレスの構造的な特徴を基にした

特徴抽出手法

16

ヒルベルト曲線を用いた可視化 [40] ⇒ 悪性IPアドレスの空間的な偏り

[30] D. Chiba, et al. “Detecting malicious websites by learning IP address features,” Proc. IEEE/IPSJ SAINT 2012.

[31] S. Hao, et al. “Detecting spammers with SNARE: spatiotemporal network-level automatic reputation engine,” Proc. USENIX SSYM 2009.

[32] M. P. Collins, et al. “Using uncleanliness to predict future botnet addresses,” Proc. ACM IMC2007.

(17)

提案手法

[特徴抽出/WHOIS情報分析]

• ドメインのWHOIS情報分析

• ドメイン登録期間

• 登録日が新しいドメインは

悪性度が高い [22, 23, 25]

• 特徴抽出

W = d

n

– d

(dn: 現在の日付、d: ドメイン登録日)

17 ドメイン登録期間の累積分布

(CDF: Cumulative Distribution Function)

⇒悪性ドメインの登録期間は短い

[22] M. Felegyhazi, et al. “On the potential of proactive domain blacklisting,” Proc. USENIX LEET 2010.

[23] J. Ma, et al. “Beyond blacklists: learning to detect malicious web sites from suspicious URLs,” Proc. ACM KDD 2009.

[25] L. Invernizzi, et al. “EvilSeed: A Guided Approach to Finding Malicious Web Pages,” Proc. IEEE S&P 2012.

(18)

提案手法

[特徴抽出/FQDN文字列分析]

18

• FQDN文字列分析

• FQDN文字列の n-gram (n=2)

• 良性/悪性FQDNでは利用される

文字列の傾向が異なる [24]

• 特徴抽出

{g

-0

, … , g

k

, … , g

z9

}

(g

k

: n-gram文字列

k

の出現頻度)

• 2文字の連続文字列の抽出

→

数字 or 記号を少なくとも1文字

含むものだけを抽出

• 例 a1−a2.example.com

→ a1, 1−, −a, a2, 2.

, .2, e.

, .c

n-gram の出現頻度分布 (上位30位)

⇒ 良性/悪性で利用される文字列に差

[24] S. Yadav, et al. “Detecting algorithmically generated malicious domain names,” Proc. ACM IMC 2010.

(19)

提案手法 [機械学習エンジン]

• 教師あり機械学習の応用

• SVM (Support Vector Machine)

• 訓練データから超平面生成 → テストデータの分類

• 「悪性度」の推定 [30]

• 悪性度の高い順にURLリストを並び替え

⇒

巡回順序

を付与

19

ラベル 特徴ベクトル +1 {1,1,0,0,0,1,…} -1 {1,1,0,0,0,0,…} -1 {1,1,0,0,1,0,…} … … 訓練データの例

[30] D. Chiba, et al. “Detecting malicious websites by learning IP address features,” Proc. IEEE/IPSJ SAINT 2012.

(20)

性能評価 [総巡回時間]

• 総巡回時間

• ある特定数の悪性サイト

を発見する際の所要時間

• 既存手法

• ランダムに巡回

• 提案手法

• 巡回順序

を事前に決定

してから巡回

22

特徴抽出エンジン 特徴A 特徴B 特徴C 特徴D IPアドレス ✔ ✔ ✔ - WHOIS情報分析 - ✔ ✔ ✔ FQDN文字列分析 - ✔ ✔ ✔ n-gram 例外処理 - - ✔ ✔

悪性Webサイト探索のための効率的な巡回順序の決定法