悪性Webサイト探索のための
効率的な巡回順序の決定法
千葉 大紀
学籍番号: 5111B073-1
指導: 後藤滋樹 教授
Feb. 8, 2013 Daiki Chiba, Goto Lab.
1
本論文に関わる研究業績
(2013年2月 現在)
Feb. 8, 2013 Daiki Chiba, Goto Lab.
2
種類別 題名、発表・発行掲載誌名、 発表・発行年月、連名者
査読付 国際会議
Daiki Chiba, Kazuhiro Tobe, Tatsuya Mori, Shigeki Goto, “Detecting Malicious
Websites by Learning IP Address Features," Proc. the 12th IEEE/IPSJ
International Symposium on Applications and the Internet (SAINT2012), pp.29--39, Izmir, Turkey, Jul. 2012.
国内学会 発表 千葉 大紀, 森 達哉, 後藤 滋樹, "悪性Webサイト探索のための優先巡回順序の選定 法," コンピュータセキュリティシンポジウム2012 (CSS2012) 論文集, vol.2012, no.3, pp.805--812, Oct. 2012. 国内学会 発表 千葉 大紀, 八木 毅, 秋山 満昭, 森 達哉, 後藤 滋樹, "多種多様な攻撃に用いられるIP アドレス間の相関解析," コンピュータセキュリティシンポジウム2011 (CSS2011) 論文集, vol.2011, no. 3, pp.185--190, Oct. 2011.
国内学会
発表 千葉 大紀, 森 達哉, 後藤 滋樹, “SVMを用いたIP攻撃通信の判別法,” 情報処理学会 全国大会講演論文集, vol.2011, no.1, pp.491--493, Mar. 2011.
情報処理学会推奨卒業論文認定
目次
•
研究背景
•
研究目標
•
提案手法
•
性能評価
•
まとめ
研究背景 [1/2]
•
Web経由のマルウェア感染事例の増加
•
e.g. Drive-by-download攻撃
4
脆弱な
Webブラウザ
入口サイト
中継サイト
…
攻撃サイト
マルウェア
配布サイト
Webアクセス
自動転送
…
脆弱性攻撃
マルウェアのダウンロード
自動転送
研究背景 [2/2]
•
マルウェア対策技術
•
Webクライアント型ハニーポットによる巡回
[2]
•
収集データの解析 ⇒ ブラックリストの提供 [3]
5
悪性サイト 良性サイト 巡回 セキュリティ アプライアンス ユーザ Webクライアント型 ハニーポット ブラックリスト[2] M. Akiyama, et al. “Searching structural neighborhood of malicious URLs to improve blacklisting,” Proc. IEEE/IPSJ SAINT 2011.
[3] 八木 毅, “マルウェア感染を検知・制御するブラックリスト システムの設計,” 信学技報, 2012. ハニーポット =「おとりシステム」 Web空間の巡回を行い、 悪性サイトを発見・解析 Web空間
目次
•
研究背景
•
研究目標
•
提案手法
•
性能評価
•
まとめ
研究目標
•
Webクライアント型ハニーポットの課題
•
多くの悪性サイトが展開され、URLは短命 [2]
•
Web空間の網羅的な巡回には多大なリソースが必要
研究目標
Webクライアント型ハニーポットが、より効率的に
悪性サイトを発見するための
最適な巡回順序
の決定
7
[2] M. Akiyama, et al. “Searching structural neighborhood of malicious URLs to improve blacklisting,” Proc. IEEE/IPSJ SAINT 2011.
目次
•
研究背景
•
研究目標
•
提案手法
•
性能評価
•
まとめ
提案手法 [概要]
9
悪性サイト 良性サイト マネージャ エージェント エージェント エージェント … Webブラウザ Webブラウザ Webブラウザ …Webクライアント型ハニーポット
巡回ログ管理 巡回順序決定 システム 巡回URLリスト IPアドレス分析巡回順序決定システム
巡回順序付き 巡回URLリスト特徴抽出エンジン
訓練 データ WHOIS情報分析 FQDN文字列分析 Web空間 検知 巡回機械学習エンジン
入力: 出力: 巡回URLリスト (テストデータ)提案手法 [概要]
10
悪性サイト 良性サイト マネージャ エージェント エージェント エージェント … Webブラウザ Webブラウザ Webブラウザ …Webクライアント型ハニーポット
巡回ログ管理 巡回順序決定 システム 巡回URLリスト IPアドレス分析巡回順序決定システム
巡回順序付き 巡回URLリスト特徴抽出エンジン
訓練 データ WHOIS情報分析 FQDN文字列分析 Web空間 検知 巡回機械学習エンジン
入力: 出力: 巡回URLリスト (テストデータ)提案手法 [概要]
11
悪性サイト 良性サイト マネージャ エージェント エージェント エージェント … Webブラウザ Webブラウザ Webブラウザ …Webクライアント型ハニーポット
巡回ログ管理 巡回順序決定 システム 巡回URLリスト IPアドレス分析巡回順序決定システム
巡回順序付き 巡回URLリスト特徴抽出エンジン
訓練 データ WHOIS情報分析 FQDN文字列分析 Web空間 検知 巡回機械学習エンジン
入力: 出力: 巡回URLリスト (テストデータ)提案手法 [概要]
12
悪性サイト 良性サイト マネージャ エージェント エージェント エージェント … Webブラウザ Webブラウザ Webブラウザ …Webクライアント型ハニーポット
巡回ログ管理 巡回順序決定 システム 巡回URLリスト IPアドレス分析巡回順序決定システム
巡回順序付き 巡回URLリスト特徴抽出エンジン
訓練 データ WHOIS情報分析 FQDN文字列分析 Web空間 検知 巡回機械学習エンジン
入力: 出力: 巡回URLリスト (テストデータ)提案手法 [概要]
13
悪性サイト 良性サイト マネージャ エージェント エージェント エージェント … Webブラウザ Webブラウザ Webブラウザ …Webクライアント型ハニーポット
巡回ログ管理 巡回順序決定 システム 巡回URLリスト IPアドレス分析巡回順序決定システム
巡回順序付き 巡回URLリスト特徴抽出エンジン
訓練 データ WHOIS情報分析 FQDN文字列分析 Web空間 検知 巡回機械学習エンジン
入力: 出力: 巡回URLリスト (テストデータ)提案手法 [特徴抽出エンジン]
•
特徴抽出エンジン
•
訓練データから良性/悪性を
識別し得る特徴量を抽出
•
3つの分析手法
1.
IPアドレス分析
2.
WHOIS情報分析
3.
FQDN (ドメイン名) 文字列分析
Feb. 8, 2013 Daiki Chiba, Goto Lab.
14
※ FQDN = Fully Qualified Domain Name提案手法
[特徴抽出/訓練データ]
•
訓練データ
•
良性訓練
•
Webサイトランキング
Alexa Top sites [38]
•
悪性訓練
•
公開の悪性サイトブラックリスト
MDL (Malware Domain List) [39]
Feb. 8, 2013 Daiki Chiba, Goto Lab.
15
データ
収集期間
Webサイト数
良性訓練
2011/4/30
10,000
悪性訓練
2009/1/1〜2011/4/30
35,438
提案手法
[特徴抽出/IPアドレス分析]
•
IPアドレス分析
•
IPアドレス空間の「
空間的な偏り
」
•
悪性な活動に利用されるIPアドレスは、
特定のネットワークブロックに偏る
[30, 31, 32]
•
特徴抽出
ExOctet Method [30]
•
我々の以前の研究成果
•
IPアドレスの構造的な特徴を基にした
特徴抽出手法
16
ヒルベルト曲線を用いた可視化 [40] ⇒ 悪性IPアドレスの空間的な偏り[30] D. Chiba, et al. “Detecting malicious websites by learning IP address features,” Proc. IEEE/IPSJ SAINT 2012.
[31] S. Hao, et al. “Detecting spammers with SNARE: spatiotemporal network-level automatic reputation engine,” Proc. USENIX SSYM 2009.
[32] M. P. Collins, et al. “Using uncleanliness to predict future botnet addresses,” Proc. ACM IMC2007.
提案手法
[特徴抽出/WHOIS情報分析]
•
ドメインのWHOIS情報分析
•
ドメイン登録期間
•
登録日が新しいドメインは
悪性度が高い [22, 23, 25]
•
特徴抽出
W = d
n– d
(dn: 現在の日付、d: ドメイン登録日)17
ドメイン登録期間の累積分布
(CDF: Cumulative Distribution Function)
⇒悪性ドメインの登録期間は短い
[22] M. Felegyhazi, et al. “On the potential of proactive domain blacklisting,” Proc. USENIX LEET 2010.
[23] J. Ma, et al. “Beyond blacklists: learning to detect malicious web sites from suspicious URLs,” Proc. ACM KDD 2009.
[25] L. Invernizzi, et al. “EvilSeed: A Guided Approach to Finding Malicious Web Pages,” Proc. IEEE S&P 2012.
提案手法
[特徴抽出/FQDN文字列分析]
18
•
FQDN文字列分析
•
FQDN文字列の n-gram (n=2)
•
良性/悪性FQDNでは利用される
文字列の傾向が異なる [24]
•
特徴抽出
{g
-0, … , g
k, … , g
z9}
(g
k: n-gram文字列
k
の出現頻度)
•
2文字の連続文字列の抽出
→
数字 or 記号を少なくとも1文字
含むものだけを抽出
•
例 a1−a2.example.com
→ a1, 1−, −a, a2, 2.
, .2, e.
, .c
n-gram の出現頻度分布 (上位30位)⇒ 良性/悪性で利用される文字列に差
[24] S. Yadav, et al. “Detecting algorithmically generated malicious domain names,” Proc. ACM IMC 2010.
提案手法 [機械学習エンジン]
•
教師あり機械学習の応用
•
SVM (Support Vector Machine)
• 訓練データから超平面生成 → テストデータの分類
•
「悪性度」の推定 [30]
•
悪性度の高い順にURLリストを並び替え
⇒
巡回順序
を付与
19
ラベル 特徴ベクトル +1 {1,1,0,0,0,1,…} -1 {1,1,0,0,0,0,…} -1 {1,1,0,0,1,0,…} … … 訓練データの例[30] D. Chiba, et al. “Detecting malicious websites by learning IP address features,” Proc. IEEE/IPSJ SAINT 2012.
目次
•
研究背景
•
研究目標
•
提案手法
•
性能評価
•
まとめ
性能評価 [テストデータセット]
•
テストデータセット
•
良性テスト
•
あるWebトラヒックから得られたFQDN
•
Google Safe Browsing API [17] で検査済
•
悪性テスト
•
公開の悪性サイトブラックリスト MDL [39]
•
既存ブラックリストで防御可能なものは除去
⇒
未知
の悪性サイトに対する評価
Feb. 8, 2013 Daiki Chiba, Goto Lab.