今後の課題 - 階層成長型自己組織化マップによるマルウェアのクラスタリング

7.2.1 特徴量の選定

本研究では動的解析でマルウェアが用いたすべてのAPIの使用回数を特徴量としたが, API の中にはクラスタリングのノイズとなるAPIも存在する．そのため, マルウェアごとにどのような特徴量が有効に作用しているのかを調査して, 特徴量の選定を行うことでより精度の高いクラスタリングが可能になる．

7.2.2 特徴量の連携

今回の実験ではAPIの関数名のみを特徴量としたクラスタリングを行った．その他にも関連研究で紹介したようにさまざまな特徴量を用いた研究が行われている．その特徴量の中から, 実用性を考慮した量の特徴量を選んで連携を行うことにより, クラスタリングの精度をさらに向上させることができる．

7.2.3 有効に作用した特徴量の調査

6.3.4節で述べたように有効な特徴量を調査することができる．本稿では各クラスタの詳細

な調査を行っていない．各クラスタを形成する際にどのような特徴量が重要であったかを調査することでAPIごとの重要度がわかり, 特徴量の選定に役立てることができる．

本修士論文を作成するにあたり,日頃よりご指導いただいた早稲田大学基幹理工学研究科の後藤滋樹教授に深く感謝いたします．また, 本研究を進めるにあたり, OG史虹波氏には, 実験方法, 参考文献, その他有益な情報のご提供と, 多大なご協力をいただき大変感謝いたします．

最後に, 研究室で共に過ごした後藤滋樹研究室の諸氏に感謝いたします．

[1] “G DATA MALWARE REPORT,” G DATA SECURITYLABS, https://public.

gdatasoftware.com/Presse/Publikationen/Malware_Reports/GData_PCMWR_H2_

2014_EN_v1.pdf

[2] 新井悠, 岩村誠, 川古谷裕平, 青木一史, 星澤裕二, “アナライジング・マルウェア―フリーツールを使った感染事案対処,”オライリージャパン, pp.1–17, December 2010.

[3] Cuckoo Sandbox, http://www.cuckoosandbox.org

[4] The GHSOM Project, http://www.ifs.tuwien.ac.at/~andi/ghsom/download.html [5] T. コホネン, “自己組織化マップ,”丸善出版, 東京, 2012.

[6] 金明哲, “Rによるデータサイエンス-データ解析の基礎から最新手法まで,”森北出版,東京, 2007.

[7] 田中雅博, 古河靖之, 谷野哲三, “自己組織化マップを利用したクラスタリング,” 電子情報通信学会論文誌, vol.J79-D-2, no.2, pp. 301–304 1986, Feb. 1996.

[8] マインドウエア総研, “SOM 活用のメリットとは,” http://www.mindware-jp.com/

basic/faq3.html, Dec. 14, 2013.

[9] A. Rauber, D. Merkl, M. Dittenbach, “The Growing Hierarchical Self-Organizing Map:

Exploratory Analysis of High-Dimensional Data,” IEEE Transactions on Neural Networks Vol.13 (6) , pp.1331–1341, 2002.

[10] FFRI Dataset 2013,http://www.iwsec.org/mws/2013/files/FFRI_Dataset_2013.pdf [11] Virus Total, https://www.virustotal.com/

[12] Kapersky, http://www.kaspersky.com

[13] “Rules for naming detected objects,” SECURELIST, http://www.securelist.com/en/

threats/detect?chapter=136

[14] Hongbo Shi, Tomoki Hamagami, Katsunari Yoshioka, Haoyuan Xu, Kazuhiro Tobe, Shigeki Goto, “Structural Classification and Similarity Measurement of Malware,” IEEJ Transactions on Electrical and Electronic Engineering Volume 9, pp.621–632, November 2014.

[15] 藤野朗稚,森達也, “自動化されたマルウェア動的解析システムで収集した大量のAPIコールログの分析,”コンピュータセキュリティシンポジウム2013論文誌, pp.618–625, 2013.

[16] 中村燎太,松宮遼, 高橋一志,大山恵弘, “Kullback-Leibler情報量を用いた亜種マルウェアの同定,” コンピュータセキュリティシンポジウム2013論文誌, pp.877–884, 2013.

[17] 青木一樹, 後藤滋樹, “マルウェア検知のためのAPIコールパターンの分析,” 電子情報通信学会総合大会講演論文集2014年, pp.179, 2014.

[18] 神薗雅紀,秋山満昭,笠間貴弘, 村上純一,畑田充弘,寺田真敏, “マルウェア対策のための研究データセット〜MWS Datasets 2015〜,”情報処理学会 Vol.2015-CSEC-70 No.6, pp.1-8, 2015.

[19] Yahui Yang, Dianbo Jiang, Min Xia, “Using Improved GHSOM for Intrusion Detection,”

JOURNAL OF INFORMATION ASSURANCE AND SECURITY (JIAS) 2010 Vol.5, pp.232–239, 2010.

[20] Faraz Ahmed, Haider Hameed, M.Zubair Shafiq, Muddassar Farooq, “Using Spatio-Temporal Information in API Calls with Machine Learning Algorithms for Malware De-tectioni,” 16th ACM Conference on Compurter and Communications Security, pp.55–62, 2009.

[21] Ashkan Aami, Babak Yadegari and Hossein Rahimi, Naser Peiravian, Sattar Hashemi, AliHamze, “Malware Detection Based on Mining API Calls,” Proceedings of the 2010 ACM Symposium on Applied Computing, pp. 1020–1025, 2010.

[22] 戸部和洋, 森達哉, 千葉大紀, 下田晃弘, 後藤滋樹, “実行ファイルに含まれる文字列の学習に基づくマルウェア検出方法,”マルウェア対策研究人材育成ワークショップ 2010, 2010.

ドキュメント内階層成長型自己組織化マップによるマルウェアのクラスタリング (ページ 36-41)