フィッシングサイトの特徴を用いた検出手法に関する考察
宮澤 孝如† 寺田真敏‡ 土居範久† 中央大学理工学部情報工学科† 中央大学研究開発機構‡1
はじめに
1 ブラックリストに基づきフィッシングサイトを 検出する方式の場合,ブラックリストに登録され ていないフィッシングサイトを検出することはで きない.本研究では,この問題を解決するために, フィッシングサイトの存続期間は短いといったフ ィッシングサイト固有の特徴に着目した検出方式 を提案してきた[1].本稿では,検出精度向上のた め,新たにドメイン登録情報,ログイン判定,サ ーチエンジンキャッシュの3 つの特徴に着目した 検出方式を提案する.さらに,実際にフィッシン グサイトに手動でアクセスを行なった評価結果か ら3 つの特徴を用いた検出方式の有効性を示す.2
既存方式の課題
本節では,提案方式の前提となる文献1)に示す フィッシングサイト検出方式(以降,既存方式と 呼ぶ)と,既存方式の課題について述べる. 既存方式は,クライアントPCとWebサーバの間 に設置したプロキシサーバでHTTPリクエストの 内容を解析し,アクセスしたサイトが表 1に示す 特徴を有しているか否かを調査する.次に,その 調査結果を各項目毎に重み付けしたポイントに換 算した後,その積算値をWebサイトの危険度とす る.最終的に,Webサイトの危険度があらかじ 表 1 既存方式の調査項目 分類 調査項目 Netcraftサイト[2]から取得した Webサイトの稼働日数が短い Netcraft サ イ ト か ら 取 得 し た Web サイトのランクが低い Web サイトの 存続期間の特徴 WayBack Machineサイト[3 ]か ら取得した過去のWebページと の差異が大きい Web サイトへのアクセス回数が 少ない トップレベルドメイン(TLD),セ カンドレベルドメイン(SLD)名 が危険なドメイン名に属する ドメイン名の特徴 DNS サーバを用いた正引き,逆 引きに不整合がある 個人情報の詐取を 目的とする特徴 Web ページに個人情報の入力を促す文字を含む1Feasibility study for the detection approach of
"phishing site"
†Miyazawa Takayuki, Norihisa Doi, Faculty of Science and Engineering, Chuo University
‡Masato Terada, Research and Development Initiative, Chuo University め設定した閾値を超えた場合,フィッシングサイ トとみなす. この既存方式を用いた2006 年 3 月の評価結果 は,フィッシングサイト検出率85%,正規サイト 検出率 92%で検出率と誤検出率共に良好であっ た.しかし,2006 年 8 月~11 月に評価した際に は,フィッシングサイト検出率 100%に対し,正 規サイト検出率は 9%に留まり,正規サイトの誤 検出率が高い結果となった. 本稿で解決したい課題は,フィッシングサイト 検出率を維持しつつ,正規サイトの誤検出率を下 げる既存方式の改善にある.
3
追加調査項目を用いた検出方式の提案
本節では,既存方式の検出精度を向上する方式 として,既存方式に新たな調査項目を追加する方 式を提案する. 3.1 追加調査項目 (1) ドメイン登録情報 フィッシングサイトがドメイン名を取得してい る場合,ドメイン名を取得してからサイトを開設 するまでの期間が短い,ドメイン名の有効期間が 短いという傾向が見られる.これに対し,正規サ イトでは,サイト開設までの期間に余裕があり, 有効期間も長い傾向にある.本項目ではWhois か ら取得したサイトのドメイン名の登録年月日,ド メイン名の有効期限から特徴を調査する. (2) ログイン判定 フィッシングサイトにログイン入力フォームが 存在する場合,でたらめな ID やパスワードでロ グインできる傾向がある.これは,ID やパスワー ドを怪しまれずに搾取するための見せかけのログ イン入力フォームを用意しているだけに過ぎない からと思われる.一方,正規サイトでは正規ユー ザを識別するためにログイン入力フォームを用意 していることから,通常でたらめな ID やパスワ ードでログインできることはない.本項目では, アクセスしている Web サイトにログイン入力フ ォームが存在する場合,でたらめな ID やパスワ ードでログインを試みることで特徴を調査する. (3) サーチエンジンキャッシュ フィッシングサイトの存続期間が短いという特 徴は,検索ポータルサイト(以降,サーチエンジ ン)のキャッシュにWebページが登録される前に3-353
4W-2
情報処理学会第69回全国大会
閉鎖されてしまう可能性が高い.すなわち,サー チエンジンのキャッシュにWebページが存在しな い可能性が高くなる.これに対し,正規サイトは 存続期間が長く,利用頻度も高いことからサーチ エンジンに登録されているキャッシュ数も多いと 考えられる.本項目ではWebサイトのドメイン名 を検索キーに,Google[4]に登録されているキャッ シュ数を取得することで特徴を調査する. 0% 20% 40% 60% 80% 100% フィッシング 正規サイト 1週間以下 3年以下 7年以下 7年以上 ※ドメインがIP アドレスのサイトは除外 3.2 危険度の算出方法 フィッシングサイトであるか否かを判定するた めの危険度の算出方法は,式(1)の通りである. i n i i n w d w