• 検索結果がありません。

データセット A の分類結果

ドキュメント内 Microsoft Word - cover.doc (ページ 79-82)

CCC DATAset 2009のマルウェア検体の分類結果をデンドログラムとして図5.2 に示

す.各葉はマルウェア検体におけるオリジナルコードの縮約命令列を表す.横軸は非類似 度となっており,左方で繋がっていれば類似した検体(クラスタ)同士であることを意味 している.縮約命令列の名前は”HASH ハッシュ値の先頭4文字”とした.またこのデー タセットに関しては,複数のオリジナルコードが存在したものには名前の末尾に識別番号

(00など)を付けて,各オリジナルコードを区別している.

当該データセットにおける393F,84E9,1D23(グループAと呼ぶ)は何らかの関連性を 持つとされており,7190,CD91(グループBと呼ぶ)もまた何らかの関連性を持つとされ

HASH_DF75

HASH_68AC

HASH_84E9.02

HASH_F8C1

HASH_D493

HASH_84E9.01

HASH_FDF3

HASH_1D23

HASH_393F

HASH_84E9.00

HASH_7190

HASH_CD91

0.5 0.6 0.7 0.8 0.9 1.0

D (1 − S)

5.2 データセットAのデンドログラム

ている.図5.2では,実際にグループAの393Fおよび84E9に関して類似度S = 0.47程 度の一致がみられた.

またグループBの 7190および CD91に関しても類似度 S = 0.29程度の一致がみら れ,その一致箇所には TCP 139/445番を用いた通信ロジックが含まれていた.さらに

5.4 データセットAの分類結果 67 7190 の検体には,他ホストへのスキャン活動後にIRCサーバへのスキャン結果通知用 のメッセージを作成するロジックが含まれていた.このスキャン結果に関するロジック は,EnterCriticalSection API [88]LeaveCriticalSection API [89]に挟まれており,実際 にIRCサーバとの通信を行うスレッドとの排他制御が行われている.一方で,CD91の検 体にも7190の検体と全く同じ他ホストへのスキャン活動を行うロジックが含まれていた が,IRCサーバへの通知に関わるロジックは存在しなかった.しかし,排他制御すべき処 理が存在しないにもかかわらず,EnterCriticalSection APIとLeaveCriticalSection APIを 連続して呼び出す処理は存在していた5.3.

5.3 7190検体とCD91検体の比較

これはあくまで推測であるが,7190の検体から IRC関連の機能を取り除き,感染活 動に特化させたマルウェアがCD91検体であり,クリティカルセクション関連APIの呼 び出しは,その際に削除し損じた処理であると考えられる.実際,CD91検体にだけは

autorun.infを悪用した比較的新しい感染活動に関するロジックが含まれており,こうした

状況からも,7190検体の後にCD91検体が開発されたと考えられる.

このように複数のマルウェアを解析する際に,本システムによりマルウェアを事前に分 類しておくことで,類似度が高いマルウェアを優先的に解析する事が可能になる.さら

に,機械語命令単位での共通部分や差分の明確化は,マルウェアの効率的な解析や,マル ウェア間の関連性の推定において,その一助となる.

ドキュメント内 Microsoft Word - cover.doc (ページ 79-82)