7.2.1 特徴量の選定
本研究では動的解析でマルウェアが用いたすべてのAPIの使用回数を特徴量としたが, API の中にはクラスタリングのノイズとなるAPIも存在する.そのため, マルウェアごとにどのよ うな特徴量が有効に作用しているのかを調査して, 特徴量の選定を行うことでより精度の高い クラスタリングが可能になる.
7.2.2 特徴量の連携
今回の実験ではAPIの関数名のみを特徴量としたクラスタリングを行った.その他にも関連 研究で紹介したようにさまざまな特徴量を用いた研究が行われている.その特徴量の中から, 実用性を考慮した量の特徴量を選んで連携を行うことにより, クラスタリングの精度をさらに 向上させることができる.
7.2.3 有効に作用した特徴量の調査
6.3.4節で述べたように有効な特徴量を調査することができる.本稿では各クラスタの詳細
な調査を行っていない.各クラスタを形成する際にどのような特徴量が重要であったかを調査 することでAPIごとの重要度がわかり, 特徴量の選定に役立てることができる.
本修士論文を作成するにあたり,日頃よりご指導いただいた早稲田大学基幹理工学研究科の 後藤滋樹教授に深く感謝いたします.また, 本研究を進めるにあたり, OG史虹波氏には, 実験 方法, 参考文献, その他有益な情報のご提供と, 多大なご協力をいただき大変感謝いたします.
最後に, 研究室で共に過ごした後藤滋樹研究室の諸氏に感謝いたします.
[1] “G DATA MALWARE REPORT,” G DATA SECURITYLABS, https://public.
gdatasoftware.com/Presse/Publikationen/Malware_Reports/GData_PCMWR_H2_
2014_EN_v1.pdf
[2] 新井 悠, 岩村 誠, 川古谷 裕平, 青木 一史, 星澤 裕二, “アナライジング・マルウェア―フ リーツールを使った感染事案対処,”オライリージャパン, pp.1–17, December 2010.
[3] Cuckoo Sandbox, http://www.cuckoosandbox.org
[4] The GHSOM Project, http://www.ifs.tuwien.ac.at/~andi/ghsom/download.html [5] T. コホネン, “自己組織化マップ,”丸善出版, 東京, 2012.
[6] 金 明哲, “Rによるデータサイエンス-データ解析の基礎から最新手法まで,”森北出版,東 京, 2007.
[7] 田中 雅博, 古河 靖之, 谷野 哲三, “自己組織化マップを利用したクラスタリング,” 電子情 報通信学会論文誌, vol.J79-D-2, no.2, pp. 301–304 1986, Feb. 1996.
[8] マインドウエア総研, “SOM 活用のメリットとは,” http://www.mindware-jp.com/
basic/faq3.html, Dec. 14, 2013.
[9] A. Rauber, D. Merkl, M. Dittenbach, “The Growing Hierarchical Self-Organizing Map:
Exploratory Analysis of High-Dimensional Data,” IEEE Transactions on Neural Networks Vol.13 (6) , pp.1331–1341, 2002.
[10] FFRI Dataset 2013,http://www.iwsec.org/mws/2013/files/FFRI_Dataset_2013.pdf [11] Virus Total, https://www.virustotal.com/
[12] Kapersky, http://www.kaspersky.com
[13] “Rules for naming detected objects,” SECURELIST, http://www.securelist.com/en/
threats/detect?chapter=136
[14] Hongbo Shi, Tomoki Hamagami, Katsunari Yoshioka, Haoyuan Xu, Kazuhiro Tobe, Shigeki Goto, “Structural Classification and Similarity Measurement of Malware,” IEEJ Transactions on Electrical and Electronic Engineering Volume 9, pp.621–632, November 2014.
[15] 藤野 朗稚,森 達也, “自動化されたマルウェア動的解析システムで収集した大量のAPIコー ルログの分析,”コンピュータセキュリティシンポジウム2013論文誌, pp.618–625, 2013.
[16] 中村 燎太,松宮 遼, 高橋 一志,大山 恵弘, “Kullback-Leibler情報量を用いた亜種マルウェ アの同定,” コンピュータセキュリティシンポジウム2013論文誌, pp.877–884, 2013.
[17] 青木 一樹, 後藤 滋樹, “マルウェア検知のためのAPIコールパターンの分析,” 電子情報通 信学会総合大会講演論文集2014年, pp.179, 2014.
[18] 神薗雅紀,秋山満昭,笠間貴弘, 村上純一,畑田充弘,寺田真敏, “マルウェア対策のための研 究データセット〜MWS Datasets 2015〜,”情報処理学会 Vol.2015-CSEC-70 No.6, pp.1-8, 2015.
[19] Yahui Yang, Dianbo Jiang, Min Xia, “Using Improved GHSOM for Intrusion Detection,”
JOURNAL OF INFORMATION ASSURANCE AND SECURITY (JIAS) 2010 Vol.5, pp.232–239, 2010.
[20] Faraz Ahmed, Haider Hameed, M.Zubair Shafiq, Muddassar Farooq, “Using Spatio-Temporal Information in API Calls with Machine Learning Algorithms for Malware De-tectioni,” 16th ACM Conference on Compurter and Communications Security, pp.55–62, 2009.
[21] Ashkan Aami, Babak Yadegari and Hossein Rahimi, Naser Peiravian, Sattar Hashemi, AliHamze, “Malware Detection Based on Mining API Calls,” Proceedings of the 2010 ACM Symposium on Applied Computing, pp. 1020–1025, 2010.
[22] 戸部 和洋, 森 達哉, 千葉 大紀, 下田 晃弘, 後藤 滋樹, “実行ファイルに含まれる文字列 の学習に基づくマルウェア検出方法,”マルウェア対策研究人材育成ワークショップ 2010, 2010.