修士論文概要書 Summary of Master’s Thesis

全文

(1)修士論文概要書 Summary of Master’s Thesis Date of submission: __1_/__26/_2012 (MM/DD/YYYY) 専攻名（専門分野）情報理工学専攻 Department 研究指導名 Research guidance 研究題目 Title. 画像情報研究. 氏名 Name 学籍番号 Student ID number. 市田達也 CD. 5110B015-3. 指導教員 Advisor. 甲藤. 二郎. 印 Seal. 特徴量の時間的な状態遷移を考慮したマルウェア感染検知手法に関する研究. １．本研究の背景と目的昨今のインターネットの普及により，マルウェアの脅威が広がっている．マルウェアとは悪意のあるソフトウェア(Malicious Software)の略称であり，感染すると個人情報の流出やパソコンの乗っ取りなど我々の生活を脅かす存在となっているため，早急に対策を講じる必要がある．一般的な従来の感染検知はウィルス対策ソフトによる検知であるが，既知のマルウェアの検知が中心となっており未知のマルウェアに対しては感染検知が難しい．マルウェアが感染したコンピュータは制御が乗っ取られることもあり，その上で動作するウィルス対策ソフトでは検知が難しいので，本研究ではコンピュータ外でも検知できるように通信トラヒックに着目する．トラヒックデータは時系列変化も考慮できることから，マルウェアに感染した後の挙動の状態遷移に着目し，パターン認識を用いて，感染時トラヒックデータの状態遷移，正常時トラヒックデータの状態遷移を識別する．正常時のトラヒックデータとも比較することで，既存にない特徴を持つ未知のマルウェアに対応した感染検知による安心・安全なネットワークの実現を目的とする．２．状態遷移を考慮したマルウェア検知手法既存の状態遷移を考慮した手法ではボット検知，異常検知という部分的な対象しか考慮されておらず，多種多様なマルウェアの感染検知を対象としていない． 2.1. 提案手法の概要本研究では，マルウェア感染トラヒックの検知を目的とし，そのための特徴量の時間的な状態遷移の表現方法を提案する．提案手法は一定の時間間隔(タイムススロット)毎に特徴量を抽出したトラヒックデータに対しベクトル量子化を用いたクラスタリングによって各挙動の状態に分類し，各挙動を表すクラスタ間の遷移を状態遷移として表現するものである．さらに各クラスタの状態遷移を状態遷移パターンとして扱い，感染・正常の特徴が強いパターン順に高いパターンスコアを付与する．そして感染・正常トラヒックの状態遷移パターン群を生成し，特徴量の時間的な状態遷移を状態遷移パターンという形で表現する． 2.2. 状態遷移の抽出感染・正常別に各状態を生成するのではなく，感染・正常トラヒックが共通して参照できる共通コードブックを生成する．まず特徴抽出後の感染・正常データを合わ. せてクラスタリングを行うことで共通コードブックを生成する．次に各タイムスロットをベクトル量子化レベル数分の共通コードブックに最近傍(NN)法で分類し，トラヒックデータに含まれる一連の 3 個のタイムスロットによる状態遷移(３要素状態遷移)を抽出する． 2.3. 状態遷移パターンの生成感染・正常の特徴が強く，パターン同士の重複がないように状態遷移パターンを識別器に登録する．そのために状態遷移パターンそれぞれの感染・正常の特徴の強さをパターンスコアで表現する．パターンスコアは３要素状態遷移の頻度に基づいて算出され，正常なら正の，感染なら負の値を持つ．入力データを増長させながらパターンスコアを加減算することで，状態遷移パターンを生成する．パターンスコアが登録閾値を越えたとき，そこまでの状態遷移と登録時のパターンスコアの組みを状態遷移パターンとして登録する．正常データに対して正常の状態遷移パターン群，感染データに対して感染の状態遷移パターン群を生成する． 2.4. 識別方法生成した感染・正常の状態遷移パターン群を教師データとして用いて，入力パターンとの距離によりパターン比較を行う．その際，時系列パターン同士の比較・距離を算出できる動的計画法(Dynamic Programing)を利用する(DP マッチング)．入力パターンとの DP マッチングにより，登録されている最も距離が近い状態遷移パターンを算出し，その状態遷移パターンの持つパターンスコアを加算する．その後，入力パターンを増長し，パターンスコアの和が識別閾値を越えた時に判定する．また識別閾値 TH を越えなかった系列に関して，テスト系列終了時点でのパターンスコアの和の正負によって判定することは行わないことで，誤検知を減らすことを考える．識別イメージを図１に示す．. 図１．識別イメージ.

(2) 3. 状態遷移を考慮したマルウェアトラヒック検知実験 3.1 実験概要トラヒックデータにおける特徴量の時間的な状態遷移がマルウェア感染検知に有効であるかを確認するため，提案手法を実装した検知システムにおいて評価実験を行った．本実験の概要を図 2 に示す．. れるわけではなく，トラヒックの系列終了による未判定があるため，未判定確率を CR とすると，感染データに対して TPR + FNR + CR = 1 正常データに対して TNR + FPR + CR = 1 が成り立つ．テストデータ 1，テストデータ 2，テストデータ 3 に対する提案手法の識別率を表 2 に示す．表２．提案手法の識別率. 識別対象. 識別率 % FNR 5.0% CR 2.8% TPR 86.6 % FNR 4.5% CR 8.96% TNR96.2 % FPR 3.15% CR 0.68% 表２より 90%前後の識別率で正しく識別できていることが示せた．そして誤検知率について感染トラヒックの TCP でのマルウェアの DL 挙動が正常トラヒックのファイル転送と類似性が高いこと，マルウェアの C&C サーバとの制御通信が正常の chat 通信などのテキスト通信と類似性が高いことに FNR が関係していることが分かった．FPR に関しては，マルウェアの C&C サーバとの制御通信と正常の chat 通信などのテキスト通信と類似性が高いことだけが関係していた． 4. 状態遷移を考慮しない手法との精度比較状態遷移を考慮しない検知手法との精度比較により，提案手法の有効性を示す．比較対象として，タイムスロット毎に抽出し，クラスタリングにより識別境界面を作成する識別方法(1)，フロー単位で特徴を抽出し，クラスタリングにより識別境界面を作成する識別方法(2)と，状態遷移の頻度情報を用いないパターンスコア算出式を用いた手法(3)との精度比較を行った．それぞれの手法の詳細はここでは割愛する．実験諸元は 3.2 項と同じものを用いた．実験結果として，識別率は提案手法が最も高かった．特に(3)の手法との比較で，テストデータ２未知検体に関して提案手法の方が TPR が 2.8%高く，FNR が 4.3%低かった．すなわち今回の未知検体のように，同一挙動に滞在するデータが少なく，挙動の状態遷移が頻繁なデータが多い場合，状態遷移情報を考慮すると識別精度が向上することが示せた．また教師データとしてパターン化されていない未知検体の状態遷移に対して提案手法が有効であったとも言える． 5. まとめと今後の検討マルウェア感染トラヒックを検知するための手段として，トラヒックデータにおける特徴量の時間的な状態遷移を考慮した識別のための，状態遷移の表現方法を提案した．時間的な状態遷移を考慮しない 3 つの手法との精度比較を行い，未知のマルウェアを含め識別率において精度が向上し，時間的な状態遷移のマルウェア感染検知への有効性を確認できた．今後は使用するトラヒックデータ，識別器の構成，パラメータの検討をさらに進め，さらなる精度向上を目指す．今回正しく識別できなかった挙動に関して Boosting アルゴリズムの適用も検討する．テストデータ１テストデータ２テストデータ３. 図 2. 本実験の概要 3.2 実験諸元本実験の実験諸元を以下に示す．表１．パラメータの実験諸元パラメータタイムスロット幅特徴量の組み合わせベクトル量子化レベル数登録閾値識別閾値. 実験に用いた値 1.0 秒平均パケットサイズ SYN パケット割合 ACK パケット割合１６ 20 45. 学習データ感染データに CCCDATAset2011 マルウェア検体 14 種類の各単一感染トラヒック(未知検体を除く)，正常データに 1 種類ずつ動作させた正常サービスアプリケーション 14 種類を用いた．テストデータ学習データに使用していない学習データと同種のトラヒックから以下のテストデータ 1, テストデータ 2，テストデータ 3 を作成した．テストデータ 1 は，既存のマルウェア中心としたデータであり，テストデータ 2 は未知検体に対して評価するためのデータである．テストデータ 3 は同種の正常サービスに対してのデータである． 3.3 実験結果と考察本稿では識別器の精度評価として True Positive Rate，True Negative Rate(以下それぞれ TPR，TNR)を用いる．TPR，TNR はそれぞれ，感染トラヒックを感染と識別できた割合，正常トラヒックを正常と識別できた割合である．誤検知指標としてその逆の False Positive Rate，False Negative Rate(以下それぞれ FPR，FNR)も用いる．FPR は正常トラヒックを感染と識別してしまった割合，FNR は感染トラヒックを正常と識別してしまった割合である．本研究では，必ずしも正常・感染と判定さ. TPR 92.2.

(3)

修 士 論 文 概 要 書 Summary of Master’s Thesis

修士論文概要書 Summary of Master’s Thesis