• 検索結果がありません。

修 士 論 文 概 要 書 Summary of Master’s Thesis

N/A
N/A
Protected

Academic year: 2022

シェア "修 士 論 文 概 要 書 Summary of Master’s Thesis"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)修 士 論 文 概 要 書 Summary of Master’s Thesis Date of submission: __1_/__26/_2012 (MM/DD/YYYY) 専攻名(専門分野) 情報理工学専攻 Department 研究指導名 Research guidance 研究題目 Title. 画像情報研究. 氏 名 Name 学籍番号 Student ID number. 市田 達也 CD. 5110B015-3. 指 導 教 員 Advisor. 甲藤. 二郎. 印 Seal. 特徴量の時間的な状態遷移を考慮したマルウェア感染検知手法に関する研究. 1. 本研究の背景と目的 昨今のインターネットの普及により,マルウェアの脅 威が広がっている.マルウェアとは悪意のあるソフトウ ェア(Malicious Software)の略称であり,感染すると個人 情報の流出やパソコンの乗っ取りなど我々の生活を脅 かす存在となっているため,早急に対策を講じる必要 がある.一般的な従来の感染検知はウィルス対策ソフ トによる検知であるが,既知のマルウェアの検知が中 心となっており未知のマルウェアに対しては感染検知 が難しい. マルウェアが感染したコンピュータは制御が乗っ取ら れることもあり,その上で動作するウィルス対策ソフトで は検知が難しいので,本研究ではコンピュータ外でも 検知できるように通信トラヒックに着目する.トラヒックデ ータは時系列変化も考慮できることから,マルウェアに 感染した後の挙動の状態遷移に着目し,パターン認 識を用いて,感染時トラヒックデータの状態遷移,正常 時トラヒックデータの状態遷移を識別する.正常時のト ラヒックデータとも比較することで,既存にない特徴を 持つ未知のマルウェアに対応した感染検知による安 心・安全なネットワークの実現を目的とする. 2. 状態遷移を考慮したマルウェア検知手法 既存の状態遷移を考慮した手法ではボット検知,異 常検知という部分的な対象しか考慮されておらず,多 種多様なマルウェアの感染検知を対象としていない. 2.1. 提案手法の概要 本研究では,マルウェア感染トラヒックの検知を目的 とし,そのための特徴量の時間的な状態遷移の表現 方法を提案する.提案手法は一定の時間間隔(タイム ススロット)毎に特徴量を抽出したトラヒックデータに対し ベクトル量子化を用いたクラスタリングによって各挙動 の状態に分類し,各挙動を表すクラスタ間の遷移を状 態遷移として表現するものである.さらに各クラスタの 状態遷移を状態遷移パターンとして扱い,感染・正常 の特徴が強いパターン順に高いパターンスコアを付与 する.そして感染・正常トラヒックの状態遷移パターン 群を生成し,特徴量の時間的な状態遷移を状態遷移 パターンという形で表現する. 2.2. 状態遷移の抽出 感染・正常別に各状態を生成するのではなく,感染・ 正常トラヒックが共通して参照できる共通コードブックを 生成する.まず特徴抽出後の感染・正常データを合わ. せてクラスタリングを行うことで共通コードブックを生成 する.次に各タイムスロットをベクトル量子化レベル数 分の共通コードブックに最近傍(NN)法で分類し,トラヒ ックデータに含まれる一連の 3 個のタイムスロットによる 状態遷移(3要素状態遷移)を抽出する. 2.3. 状態遷移パターンの生成 感染・正常の特徴が強く,パターン同士の重複がな いように状態遷移パターンを識別器に登録する.その ために状態遷移パターンそれぞれの感染・正常の特 徴の強さをパターンスコアで表現する.パターンスコア は3要素状態遷移の頻度に基づいて算出され,正常 なら正の,感染なら負の値を持つ.入力データを増長 させながらパターンスコアを加減算することで,状態遷 移パターンを生成する.パターンスコアが登録閾値を 越えたとき,そこまでの状態遷移と登録時のパターンス コアの組みを状態遷移パターンとして登録する.正常 データに対して正常の状態遷移パターン群,感染デ ータに対して感染の状態遷移パターン群を生成する. 2.4. 識別方法 生成した感染・正常の状態遷移パターン群を教師デ ータとして用いて,入力パターンとの距離によりパター ン比較を行う.その際,時系列パターン同士の比較・ 距離を算出できる動的計画法(Dynamic Programing)を 利用する(DP マッチング).入力パターンとの DP マッチ ングにより,登録されている最も距離が近い状態遷移 パターンを算出し,その状態遷移パターンの持つパタ ーンスコアを加算する.その後,入力パターンを増長し, パターンスコアの和が識別閾値を越えた時に判定する. また識別閾値 TH を越えなかった系列に関して,テスト 系列終了時点でのパターンスコアの和の正負によって 判定することは行わないことで,誤検知を減らすことを 考える.識別イメージを図1に示す.. 図1.識別イメージ.

(2) 3. 状態遷移を考慮したマルウェアトラヒック検知実験 3.1 実験概要 トラヒックデータにおける特徴量の時間的な状態遷 移がマルウェア感染検知に有効であるかを確認するた め,提案手法を実装した検知システムにおいて評価実 験を行った.本実験の概要を図 2 に示す.. れるわけではなく,トラヒックの系列終了による未判定 があるため,未判定確率を CR とすると, 感染データに対して TPR + FNR + CR = 1 正常データに対して TNR + FPR + CR = 1 が成り立つ. テストデータ 1,テストデータ 2,テストデータ 3 に対 する提案手法の識別率を表 2 に示す. 表2.提案手法の識別率. 識別対象. 識別率 % FNR 5.0% CR 2.8% TPR 86.6 % FNR 4.5% CR 8.96% TNR96.2 % FPR 3.15% CR 0.68% 表2より 90%前後の識別率で正しく識別できていること が示せた.そして誤検知率について感染トラヒックの TCP でのマルウェアの DL 挙動が正常トラヒックのファイ ル転送と類似性が高いこと,マルウェアの C&C サー バとの制御通信が正常の chat 通信などのテキスト通信 と類似性が高いことに FNR が関係していることが分か った.FPR に関しては,マルウェアの C&C サーバとの 制御通信と正常の chat 通信などのテキスト通信と類似 性が高いことだけが関係していた. 4. 状態遷移を考慮しない手法との精度比較 状態遷移を考慮しない検知手法との精度比較によ り,提案手法の有効性を示す.比較対象として,タ イムスロット毎に抽出し,クラスタリングにより識 別境界面を作成する識別方法(1),フロー単位で特徴 を抽出し,クラスタリングにより識別境界面を作成 する識別方法(2)と,状態遷移の頻度情報を用いない パターンスコア算出式を用いた手法(3)との精度比 較を行った.それぞれの手法の詳細はここでは割愛 する.実験諸元は 3.2 項と同じものを用いた.実験 結果として,識別率は提案手法が最も高かった.特 に(3)の手法との比較で,テストデータ2未知検体に 関して提案手法の方が TPR が 2.8%高く,FNR が 4.3%低かった.すなわち今回の未知検体のように, 同一挙動に滞在するデータが少なく,挙動の状態遷 移が頻繁なデータが多い場合,状態遷移情報を考慮 すると識別精度が向上することが示せた.また教師 データとしてパターン化されていない未知検体の状 態遷移に対して提案手法が有効であったとも言える. 5. まとめと今後の検討 マルウェア感染トラヒックを検知するための手段 として,トラヒックデータにおける特徴量の時間的 な状態遷移を考慮した識別のための,状態遷移の表 現方法を提案した.時間的な状態遷移を考慮しない 3 つの手法との精度比較を行い,未知のマルウェア を含め識別率において精度が向上し,時間的な状態 遷移のマルウェア感染検知への有効性を確認できた. 今後は使用するトラヒックデータ,識別器の構成, パラメータの検討をさらに進め,さらなる精度向上 を目指す.今回正しく識別できなかった挙動に関し て Boosting アルゴリズムの適用も検討する. テストデータ1 テストデータ2 テストデータ3. 図 2. 本実験の概要 3.2 実験諸元 本実験の実験諸元を以下に示す. 表1.パラメータの実験諸元 パラメータ タイムスロット幅 特徴量の組み合わせ ベクトル量子化レベル数 登録閾値 識別閾値. 実験に用いた値 1.0 秒 平均パケットサイズ SYN パケット割合 ACK パケット割合 16 20 45. 学習データ 感染データに CCCDATAset2011 マルウェア検体 14 種類の各単一感染トラヒック(未知検体を除く),正常デ ータに 1 種類ずつ動作させた正常サービスアプリケー ション 14 種類を用いた. テストデータ 学習データに使用していない学習データと同種のトラ ヒックから以下のテストデータ 1, テストデータ 2,テスト データ 3 を作成した. テストデータ 1 は,既存のマルウェア中心としたデータ であり,テストデータ 2 は未知検体に対して評価するた めのデータである.テストデータ 3 は同種の正常サービ スに対してのデータである. 3.3 実験結果と考察 本稿では識別器の精度評価として True Positive Rate,True Negative Rate(以下それぞれ TPR,TNR)を 用いる.TPR,TNR はそれぞれ,感染トラヒックを感染と 識別できた割合,正常トラヒックを正常と識別できた割 合である.誤検知指標としてその逆の False Positive Rate,False Negative Rate(以下それぞれ FPR,FNR)も 用いる.FPR は正常トラヒックを感染と識別してしまった 割合,FNR は感染トラヒックを正常と識別してしまった 割合である.本研究では,必ずしも正常・感染と判定さ. TPR 92.2.

(3)

参照

関連したドキュメント

[r]

会長:野村淳二氏 (パナソニック) 日本委員: 武部俊郎氏(東京電力) 武田晴夫氏(日立) 堤 和彦氏(三菱電機) 日本委員:

非財務データ 社会データの算定方法 指標

概 要 登録免許税の特例措置適用要件と、必要となる手続きを確認しましょう。

広く提供(但し機種限定)する体制を整備した。本研究の一部は、科学

なからずとも介護者の避難における意思決定に影響する可能性が考えられた。

ワールドワイドウェブ(WWW)セキュリティ技術 試験細目: 2. 次に掲げる各種法令に関して一般的な知識を有すること。 2)個人情報の保護に関する法律 第

概要: 近年,インターネットの普及により,マルウェアの脅威が広がっている.活動