• 検索結果がありません。

DNS レコードおよびプレフィックスの特徴を 用いたスパム検知法

N/A
N/A
Protected

Academic year: 2022

シェア "DNS レコードおよびプレフィックスの特徴を 用いたスパム検知法"

Copied!
36
0
0

読み込み中.... (全文を見る)

全文

(1)

2009 年度 修士論文

DNS レコードおよびプレフィックスの特徴を 用いたスパム検知法

提出日: 2010 年 2 月 5 日

指導:後藤滋樹教授

早稲田大学 大学院基幹理工学研究科 情報理工学専攻 学籍番号: 5108B008-8

石原 寛之

(2)

1 序論 5

1.1 研究の背景 . . . 5

1.2 研究の目的 . . . 6

1.3 本論文の構成. . . 7

2 spamメール 8 2.1 spamメール . . . 8

2.1.1 spamメールとは . . . 8

2.1.2 spamメールが送られる理由 . . . 8

2.1.3 spamメールによる影響 . . . 8

2.1.4 spamメールの現状 . . . 9

2.2 既存のspamメール対策法 . . . 10

2.2.1 送信ドメイン認証 . . . 10

2.2.2 greylist . . . 11

2.2.3 black list . . . 12

2.2.4 white list . . . 12

2.2.5 DNSBL (DNS Black List) . . . 13

2.2.6 ルールベースフィルタ . . . 13

2.2.7 Bayesian Filter . . . 13

3 SPF (Sender Policy Framework) 14 3.1 SPF (Sender Policy Framework) とは . . . 14

3.1.1 SPFレコード記述に関して . . . 14

3.1.2 SPFを利用した認証手順 . . . 17

4 提案手法 18 4.1 提案手法の概要 . . . 18

(3)

目次

4.1.1 提案手法1: DNSレコードを用いたspammer検出 . . . 18

4.1.2 提案手法2: spammer prefixによるspammerの検出 . . . 19

5 実証実験 20 5.1 実験に使用したデータ . . . 20

5.2 実験の環境 . . . 22

5.3 評価の方法 . . . 22

5.4 実験1: SPFの普及率の時間的変化 . . . 22

5.4.1 実験1の内容 . . . 22

5.4.2 実験1の結果と考察 . . . 24

5.5 実験2: spammer (spamメールが使用するドメイン) SPFの信頼性 . . . 24

5.5.1 実験2の内容 . . . 24

5.5.2 実験2の結果と考察 . . . 25

5.6 実験3: spammerが使用しているドメインのスコア . . . 26

5.6.1 実験3の内容 . . . 26

5.6.2 実験3の結果と考察 . . . 27

5.7 実験4: 提案手法1 DNSレコードを用いたspammer検出 . . . 27

5.7.1 実験4の内容 . . . 27

5.7.2 実験4の結果と考察 . . . 27

5.8 実験5: 提案手法2 spammer prefixを用いたspammer検出 . . . 28

5.8.1 実験5の内容 . . . 28

5.8.2 実験5の結果と考察 . . . 28

5.9 実験6: 提案手法と既存手法における検出したspammerの比較 . . . 29

5.9.1 実験6の内容 . . . 29

5.9.2 実験6の結果と考察 . . . 30

6 まとめ 31 6.1 結論 . . . 31

6.2 今後の課題 . . . 31

(4)

2.1 spamメール送信国ワースト12 . . . 9 2.2 spamメール送信地域別ワースト12 . . . 10 3.1 SPFを利用した認証手順 . . . 17

(5)

表一覧

3.1 SPFの主な機構 (mechanism) . . . 15

3.2 限定子(qualifier) . . . 15

3.3 versionによる記述例 . . . 16

3.4 scope . . . 16

5.1 IPアドレスの総数とspammer, legit, spamメール受信の数 . . . 21

5.2 実験マシンの仕様 . . . 22

5.3 SPFの普及率の変化 . . . 24

5.4 spammerにおけるSPFレコード記述率と信頼性 . . . 26

5.5 spammerが使用したドメインの評価結果 . . . 27

5.6 DNSレコードを用いたspammer検出 . . . 28

5.7 spammer prefixを用いたspammer検出 . . . 29

5.8 各手法における検出したspammerの比較 . . . 30

5.9 提案手法、既存手法を用いたspammer検出数 . . . 30

(6)

序論

本章では研究の背景と目的を述べる。

1.1 研究の背景

ブロードバンド、インターネットの普及に伴い、電子メールはビジネス、日常生活において様々 な有益な影響を与えており、今日においては欠かせない存在になっている。しかしのこの電子メー ルを利用した問題が起きている。symantecの報告では2000年から2009年にかけてのスパムメー ルの動向を振り返り、全電子メールに占めるスパムの割合は2000年には8%足らずだったのが、

現在では90%近くを占めるようになったと報告されている [1]。このように今日では電子メール を利用するユーザに対して大量なspamメール (迷惑メール) が送られる結果としてユーザに対 して様々な弊害を生むんでいる。この原因としてspamメール多くは広告メール等であり少ない コストで多大な広告効果があることが原因である。spammer (spamメールの送信者) がspam メールを送信する主な方法として、ボットネットと呼ばれるコンピュータウィルスに感染したコ ンピュータから知らない間にspamメールを無差別に送らせる手法と、spamメール業者が自身 で送信するためにサーバ、ネットワークなどインフラを用意してspamメールを送信する手法が

ある。MessageLabs [2]によると、2009年の年間スパム平均レートでは全体のメールに対して

87.7%がspamメールという結果が報告されている。またspamメールの内83.4%がボットネッ トを起因とするものと発表されている [3]。しかし専用のリソースを利用したspammerも見逃す 事が決してできない。特に正常なメールサーバとして機能してるように装い、送信者認証などに も対応しているspammerが現れており問題になっている。このようなspammerは様々な形態で インターネットの健全な運営を阻害する要因となる活動をするため、対策が求められている。

(7)

第 1 章 序論

1.2 研究の目的

2008年11月にアメリカのISP (InternetServicesProvider) であるMcColoが、 ボットネット の指令サーバの多くをホスティングしていたとして閉鎖された。ISS (Internet Security Systems) によると、Mccoloの閉鎖によってアメリカ発のspamメールは14%にまで減少した[4]。spam- merが一部のISPに密集してる可能性が高いことが分かる。一般的には専用のリソースを使用し てスパムメールを送信する場合には複数台のサーバやネットワーク使用する為にspammer自身 が特定のネットワークに集まる傾向があると考えられる。特に正常なメールサーバとして機能し てるように装い、送信者認証などにも対応しているspammerがいる。このためボットネットの 対応だけではspamメールをブロックすることが難しくなっている。そこで本研究は大規模な電 子メールのログ分析を通じて、ビジネスとして大量にspamメールを送信するspamメール事業 者の存在を明らかにするとともに、そのような事業者のインフラの発見方法とスパムフィルタリ ングへの応用を提案する。

(8)

1.3 本論文の構成

本論文は以下の章により構成される。

1章 序論

本研究の背景及び目的を述べる。

2章 spamメール

spamメール及びspamメールの既存の対策法について述べる。

3章 SPF (Sender Policy Framework)

SPF (Sender Policy Framework) について述べる。

4章 提案手法

提案手法について述べる。

5章 実験概要

実験の概要の説明と結果と考察を述べる。

6章 まとめ

本論文についてまとめを述べる

(9)

2

spam メール

本章ではspamメールの説明及びspamメールの既存の対策法について述べる。

2.1 spam メール

2.1.1 spamメールとは

spamメールの厳密な定義は無いが、一般的には受信者の意図を無視して送られて来る無差別 な大量一括送信メールの事を指す。spamメールの本文の内容としては、会員制出会い系サイト や会員制アダルトサイト、マルチ商法、商品の勧誘販売などの宣伝が大半を占める。別名迷惑メー ルとも呼ばれている。

2.1.2 spamメールが送られる理由

spamメールが送られる理由はspamメール自体がビジネスに直接繋がるものであるからであ る。多くのspamメールは宣伝、広告である。通常の宣伝、広告では対象人数が増えれば増える ほどコストは高くなるが、電子メールでは一定のコストで運用が可能であり対象人数はコスト に大きく依存しない。そこでより多くの人に宣伝を行い、その結果として得られた利益の一部を spamメール送信者にインセンティブとして支払うとするとspammerはより多くのspamメール を送ることで利益を得る確率が上がる。この理由がspamメールが無差別に大量に送られている 原因である。

2.1.3 spamメールによる影響

spamメールによる影響として以下のものが考えられる。

ウイルス感染

(10)

メールサーバの負荷増大により引き起こされる送受信遅延

個人情報の流出

詐欺などによる金銭的トラブル

個人の生産性の低下

2.1.4 spamメールの現状

ソフォス [5]の調査によると、2009年のspamメール送信国のワースト12は図 2.1 に示すよ うにアメリカが継続的に他国よりも多くのスパムを送信している結果となっている [6]。また、

地域別に見た場合には、図 2.2 に示すようにアジアが引き続き最大のスパム送信地域となってい る。2009年 4月〜 6月では、スパムメッセージの約 3分の 1がアジアより発信されており、そ の中でも韓国と中国が最大のスパム送信国となっている。

図 2.1: spamメール送信国ワースト12

(11)

第 2 章 SPAMメール

図 2.2: spamメール送信地域別ワースト12

2.2 既存の spam メール対策法

既存のspamメール対策法について説明する。

2.2.1 送信ドメイン認証

送信者認証技術は、あらかじめ個々の組織において組織内のメール送信者を認証するための情 報を公開しておき、各ドメインで送信者を認証し合う方式である。認証情報は主に各ドメインの DNS サーバに公開される。これにより送信元を偽って送られてくるスパム送信者を拒絶するこ とができる。ボットウィルスに感染したことが原因となって送信してくる多くのspamはこの情 報が登録されていない為に、送信者認証は有効な手段と考えられる。ただし、送信側と受信側の 両方が互いにこの方式に対応していないと完全には機能しないという欠点がある。以下に代表的 な送信者認証技術を挙げる。

SPF (Sender Policy Framework)

電子メールに使用されるプロトコルはSMTPと呼ばれるプロトコルを使用している。SMTP では差出人のメールアドレスを自由に設定する事ができる。spammer (迷惑メール送信者) が差 出人アドレスの偽装を行い、詐欺メールが横行して利用者を悩ませた。この偽装に対する一つの 対策としてSPF (Sender Policy Framework) がある。この技術では送信者のメールアドレスの ドメイン (@以降のアドレス部分) に関する偽装を検出する事が可能である。日本国内は携帯電

(12)

話事業者を初め多くの企業がSPFの導入が進んでいる。

DKIM (DomainKeys Identified Mail)

Yahoo!社[7]が提唱した方式で、メールシステムを管理する個々のメールに電子署名を添付し、

電子署名を検証することでメール送信元の偽称を防ぐ。DKIM の手順を以下に示す。

メール送信側で、送信元ドメインの電子署名生成に使用する秘密鍵とペアになる公開鍵を DNSサーバに公開する

送信側メールサーバで、送り出されるメールのヘッダと本文を基に電子署名を生成して添 付する

受信側にSMTP で送信する

受信側のメールサーバは、メールのFrom: からドメイン部のDNS サーバに公開鍵を問い 合わせる

送信側から取得した公開鍵により電子署名を検証し、送信者を認証する

送信側はDNS サーバにおいて、公開鍵と制御用の情報をTXT レコードとして公開し、メー ルヘッダと本文から作成した電子署名を、電子署名の検証に必要な暗号化方式などの情報と共に DomainKey-Signatureフィールドとして個々のメールに書き加える。受信側では、DomainKey-

Signature フィールドから署名したドメイン名と、From: フィールドかSender フィールドのド

メイン部が一致していることを確認したら、DomainKey-Signatureフィールドで指定された方 法でDNS クエリを実施し公開鍵を取得する。DKIM は、ヘッダに追加した電子署名と、その電 子署名の元になったメールヘッダと本文などが改変されない限り、転送した先でも認証処理が実 施できる。ゆえにSender ID の弱点の一つである転送に対応できるが、メールが配送途中に改変 された場合には電子署名を検証できなくなるという制限がある。

2.2.2 greylist

メール受信の際に送信元の情報をデータベースに登録し、初回の受信時にはメールは受信せず に一時的エラーを示すステータスコードを返す。その後、一定時間以上経ってから同じサーバか らメールが再送されてきたときに受信する方法である。

spammerの特徴として、大量のメールを短時間に送信することを重視して一時的エラーに対し

て再送を行わないという特徴があり、これを利用した手法である。最初の送信から一定時間以

(13)

第 2 章 SPAMメール

内の再送を拒否するのは、送信失敗から短時間で再送されるメールはspamメールの可能性が高 いからである。なお、メーリングリストなどはgreylistの対象にする必要がないことや、spam メール送信サーバでない通常のメールサーバの中にも一時的エラーに対して再送を行わない設定 になっているものもあることから、ホワイトリストなどの方法との併用が推奨される。

greylistを用いた際のメール受信までの処理の手順を以下に説明する。

1. クライアントのIPアドレス、送信者メールアドレス、受信者メールアドレスを一つの組み 合わせ(tripletと呼ぶ) とし、tripletを記録しておくためのデータベースを用意する 2. 接続してきたクライアントのtripletがデータベースにない場合は、tripletと接続時間を

データベースに記録する。その後、メールの本文を受け取、その一時的エラー (SMTPの 応答コード 4xx)を返し、再送を要求する

3. 接続してきたクライアントのtripletがデータベースにある場合には、現在の時間とtriplet の時間を比較し、一定時間経過していなければ一時的エラーを返し、再送を要求する 4. 接続してきたクライアントのtripletがデータベースに存在し、なおかつ一定時間経過して

いれば、そのメールを受信する

greylistによるspammerのフィルタリング機能は効果的であり、現在多くのメールサーバに導

入されている。しかしメールサーバへの負荷が増大する。また再送をしないメールサーバなどが あった場合正常なメールを受け取ることができないという問題点がある。

2.2.3 black list

spamメール送信者や不当なメールの中継を許しているサーバのIPアドレス、ドメインをspam- merリストとして登録を行う。リストに登録されているIPアドレス、ドメインからのメールの 受信を拒否することでspamメールを回避する。しかしspammer側のドメインの偽装、IPアド レスの頻繁な変更による対策によってblack listから外れてしまう問題があり定期的な更新が必 要となるために個人の管理では難しい。

2.2.4 white list

ブラックリストとは逆に、リストに登録されているIPアドレスからのメールの受信を許可す る方法。主な使用目的としては、メールフィルタの対象となってしまう正常なIPアドレスを救 済するために使われる。

(14)

2.2.5 DNSBL (DNS Black List)

DNSBLはspamメール送信者のIPアドレスを収集したデータベースである。DNSBLは

Spamhaus[9]、SORBS[10]、SpamCop[11]などによって提供されている。多種多様なDNSBLが 存在し、登録および抹消のポリシーがそれぞれ異なる。これらのブラックリストはリアルタイム に更新されることから、RBL (Realtime Blackhole List) とも呼ばれる。プロバイダなどはこれ らのブラックリストの提供者から最新版のリストの供給を受け、spamメール遮断に役立てる。

しかし、中にはspamメール送信者でない正常な利用者がブラックリストに登録されてしまい、

被害を受ける場合がある。米国のある企業がSpamhausのブラックリストに載せられたことに反 発して裁判を起こすなど[12]、訴訟問題にまで発展した例もあり、DNSBLの管理が大きな課題 となっている。

2.2.6 ルールベースフィルタ

メールのヘッダや本文におけるspamメールの特徴をルールとして記述しておき、そのルール に基づいて判別する方法。受信したメールの内容が、記述してあるルールにマッチした場合、ルー ルに対応したスコアを加算する。その結果が一定のスコア以上になるものをspamメールと判定 する。個人レベルでのブラックリストが実用的でなくなって以降に現れた方法であるが、以下の ような欠点がある。

スコアの調整は可能だが、ルールによる判定には限界がある

spamメール送信者が新しい手口を使ってきた場合には新たなルールが必要となる

2.2.7 Bayesian Filter

ナイーブベイズ分類器 (Naive Bayesian Classifier) を応用し、対象となるデータを解析・学習 して分類するフィルタである[13]。ナイーブベイズ分類器は独立性仮定と共にベイズ理論を適用 することに基づいた、単純な確率的分類器である。ベイジアンフィルタは、過去に受信したメー ルの内容からspamメールに現れる属性を抽出し、新たに受け取ったメールがspamメールであ る確率を求めて、判定を行うものである。既存のベイジアンフィルタでは、単語を属性とするの が一般的である。つまり、spamメールの本文中に現れる単語の出現確率を求めておき、新たに 受信したメールの本文中に含まれる単語からspamである確率を推定する。

(15)

3

SPF (Sender Policy Framework)

本章ではSPF (Sender Pllicy Framework) の技術を解説する。

3.1 SPF (Sender Policy Framework) とは

RFC4408[19]で定められている送信者認証技術の1つである。電子メールに使用されるプロト

コルはSMTPと呼ばれるプロトコルを使用している。SMTPでは差出人のメールアドレスを自 由に設定する事ができる為に、spammer(迷惑メール送信者)が差出人アドレスの偽装を行い利 用者に詐欺メールを送るという問題があった。この偽装に対する一つの対策としてSPF (Sender

Policy Framework) がある。この技術では送信者のメールアドレスのドメイン (@以降のアドレ

ス部分) に関する偽装を検出する事が可能である。一般的にはなりすましメール対策と呼ばれて いる。SPFはIPアドレスの詐称は難しいという前提のもとに策定されている。SPFを用いる とDNSサーバ上に記載される情報を取得するだけで認証を完了できる。SPF対応したドメイン にするには、そのドメインが属するDNSサーバ内のゾーンファイルに対して SPFレコード と 呼ばれる構文を追記することで容易に実装できる。日本国内では携帯電話事業者を初め多くの企 業がSPFの導入が進んでいる。

3.1.1 SPFレコード記述に関して

SPFレコードの形式は、最初にバージョン情報に続いて、送信ホストの情報を順次記述してい く。ホスト情報には、限定子 (qualifier) と機構 (mechanism) からなるホスト情報を示したコマ ンドか、修飾子 (modifier)のいずれかで指定される。

機構 (mechanism)

主な機構としては表 3.1 のものがある。

(16)

表 3.1: SPFの主な機構(mechanism)

機構 説明

all 常に適合

include ”:” に続くドメインに対して SPF チェックを実施

redirect ”:” に続くドメインに対して SPF チェックを実施 a ”:” に続くドメイン名の IP アドレス

mx MX RR で指定されたアドレス

ptr 接続 IP アドレスの逆引きしたドメイン名と一致するか ip4,ip6 ”:” に続くIP アドレス

exists ”:” に続くドメイン名が存在するか

認証結果に使われる限定子

主な認証結果に使用される限定子は表 3.2 のものがある。

表 3.2: 限定子(qualifier)

限定子 説明

+ ”+” Pass (適合) - Fail (失敗)

SoftFail (Failと Neutral の中間の意味で、認証には適合したとは言えない)

? Neutral (不完全状態、結果としては Noneと扱う)

versionによる違い

SPFにはversion1と2が存在する。version2に関しては表 3.3 の様にscopeが指定でき る。

scope:送信ドメイン名をどこから取得するかを判断する情報である。

scopeとしては表3.4 の機構がある。

DNSに公開されるSPFレコードの例を示す。以下の内容が指定されたドメインは「192.168.0.1

または192.168.0.2から送信された電子メールは信頼できるが、それ以外のIPアドレスからの電

子メールはドメインの偽装を行っている為に信頼できない」と宣言することになる。

(17)

第 3章 SPF (SENDER POLICY FRAMEWORK)

表 3.3: versionによる記述例 Version1 Version2

v=spf1 spf2.0/scope

表 3.4: scope

機構 説明

mfrom Fromから取得する(version1と同様)

pra メール本文のヘッダ部分から送信ドメイン名 (PRA) を取得する

IN MX 10 mail

IN TXT ”v=spf1 +ip4:192.168.0.1 +ip4:192.168.0.2 -all”

IN A 192.168.0.1 mail IN A 192.168.0.2

(18)

3.1.2 SPFを利用した認証手順

以下にSPFを利用した認証手順を図 3.1 と共に以下の手順で説明する。

1. メール送信側では、送信元ドメインのDNSサーバでSPFレコードにメールサーバのIPア ドレスを記述して公開する

2. 受信側のメールサーバは、メールのFrom: からドメイン部を取り出して、そのDNSサー バにSPFレコードの問い合わせを行う

3. 受信側のメールサーバは、SPFレコード内に記述のあるIPアドレスと送信側メールサー バのIPアドレスの照合を行う。

4. SPF記述情報と送信側メールサーバの情報が適合した場合に、送信者はドメインの偽りを

行っていないことが証明がされるため信頼できる送信者だと判別される。

図 3.1: SPFを利用した認証手順

(19)

4 章 提案手法

本章では本研究の提案手法に関して述べる

4.1 提案手法の概要

専用のリソースを使用してspamメールを送るspammerは複数台のサーバを利用することが 多い為、IPアドレスも同様にネットワーク単位で使用している可能性が高い。また研究の背景 で述べたように、送信者認証技術を利用して正常なシステムを装いspamメールを送ってくるspam- merがある。そのようなspammerを検出する手法として本研究では以下の手法を提案する。

1. DNSレコードを用いたspammer検出

2. IPアドレスのブロック毎のspammer割合に対するspammer prefixを用いたspammer検 出

4.1.1 提案手法1: DNSレコードを用いたspammer検出

anti-spam技術である送信者認証技術として導入されたSPFであるが、近年ではspamメール

を送信する側で悪用される例があるSPFを悪用する場合には、ドメインを取得した上でSPFを 導入し正常なシステムとして振る舞うことで送信者認証を欺く行為として使用されている。通常

spammerは1台のメールサーバでメールを送るのではなく、複数台のメールサーバを利用して

大量のspamメールを送信している事が多い。このような場合には、SPFレコード内に記述さ

れたprefix(ネットワーク単位でのIPアドレス群)の多くがspamメールを送信しているメー

ルサーバであると予測できる。またSPFレコードだけではなく、MXレコードに関しても複数 のメールサーバの設定が行われている可能性が高い。そこで提案手法1ではsmtpログより取得 したspamメールを送信してくるサーバのIPアドレスがメール送信に使用しているドメインに 対してSPFレコードとMXレコードの参照を行い、そこに記述されているIPアドレスもしく

(20)

はprefixに関してはspammerが送信を行っているものと推測する。このようにしてsmtpログ から発見したspammerから未検知のspammerのインフラを発見する手法を提案する。

spammer検出の流れ

smtpログよりSPFレコードの参照を行いspam prefixを作成する手順を以下に示す。本提案 手法の1次フィルターは、spammerが使用しているドメインよりSPFレコードとMXレコード を参照したものである。しかしドメインを偽装しているspammerが存在する為に1次フィルター には正常なSPFレコードとMXレコードの情報が含まれる。そこで本提案手法では正常な正常 なSPFレコードとMXレコードの情報を除くためにspammerのIPアドレスを含むprefixのみ を抽出する。

1. smtpログからspamメール、正常なメールの数をIPアドレスごとに集計する

2. 集計したIPアドレスの中からよりspamメールを送ってくるIPアドレスをspammerとし

て、そのspammerから送信してくる際に使用しているドメインを使用してSPFレコード

とMXレコードの参照を行い、IPアドレスもしくはprefixが取得できるまで再帰的にDNS サーバへ問い合わせを行う

3. 抽出したSPFレコードとMXレコードより参照したprefix、IPアドレスを1次フィルター とする

4. 記述ミスや、prefixの値として考えにくいものに関しては除く

5. 1次フィルターとspammerをマッチングさせることで1次フィルターからspammerを含 むIPアドレスもしくはprefixのみを抽出したものをspam prefixとする

4.1.2 提案手法2: spammer prefixによるspammerの検出

spammerが特定のネットワークから集中してメールを送信してくる事を意識して、すべての

ネットワークを/29のprefixとしてまとめ、spammerがprefix内で一定の割合で含まれている 場合には、このprefix内はspammerであると推定できる。そこで提案手法2としては、全ネッ トワークを/29のprefixで区切り、8個のIPアドレスのブロックとして考えた際に、各prefix にspammerの送信元IPアドレスが含まれる割合を計算してspam prefixとして定義してspam- merを検出する手法を提案する。

(21)

5 章 実証実験

本章ではSPFの普及率、信頼性の調査及び提案手法によるspammer検知に関する実験結果と考 察を述べる。

5.1 実験に使用したデータ

実験には協力者の方から提供して頂いた、ある企業網にて実験された2008年4から7月の4 カ月間と2009年3月の1ヵ月間のsmtpログを使用する。このsmtpログには、メール送信者の IPアドレスとメールの分類が記載されている。メールの分類は以下の4種類である。

spam: spamメールと判断された

ham: 正常なメールと判断された

grey: spamとも正常とも認識できるメールと判断された

greylist: greylistによって拒否された

session: 接続要求だけで、メールが送られなかった

smtpログからspammer (spamメールの送信者) 及びlegit (正規のメールユーザ) のIPアド レスを選別するため、以下の操作を行った。本研究では、以下の条件に当てはまるIPアドレス

をspammerとする。また本研究におけるメール送信とは送信側からメールを送信し、受信側で

メッセージを受信した事を指すため、greylistで拒否されたメールに関しては送信回数としては 0回であると解釈する。

メール送信回数が10回以上 かつ spamと判断された回数/メール送信回数 が0.9以上

メール送信回数が0回 かつgreylistされた回数が10回以上

(22)

一方、以下の条件に当てはまるIPアドレスをlegitとする。

メール送信回数が10回以上かつhamと判断された回数/メール送信回数 が0.9以上 また、以下の条件に当てはまるIPアドレスをspammer予備軍とする。

メール送信回数が0回かつgreylistによって10回未満拒否されている

送信したメールのうち9割がspamと判断されていればspammer、逆に9割がhamと判断さ れていればlegitとしている。メールの送信回数10回以上を条件としているのは、メール送信回 数が少なかったものがspammerとされるのを防ぐためである。例えば、メールを1回しか送っ ていないのに、その1回がspamと判断された場合などである。次にspammerと判断する2つ 目の条件は、1回もメールが送ることができていないのに何回もグレイリストで拒否されている 場合である。また、メール送信回数が0回かつgreylistによって10回未満拒否されているIPア ドレスに関してはspammerとは断定できないが一度もメールを受信できていない事から今後も greylistで回数が増えていくことで、spammerと判別される可能性が高くspammer予備軍と定 義した。以上の条件でspammerとlegit、greylistのリストを作る。各月において観測されたIP アドレスの総数と、抽出されたspammerとlegitの数、またspammerが送信してきたspamメー ル送信総回数、greylistを行った総回数を表 5.1 に示す。

表 5.1: IPアドレスの総数とspammer, legit, spamメール受信の数 smtpログ収集月 2009年3月

IPアドレスの総数 1,148,559

spammer 304,183

spammer予備軍 717,855

legit 5,048

spamメール送信総回数 91,589 greylist総回数 13,382,419

(23)

第 5 章 実証実験

5.2 実験の環境

実験に使用したマシンの仕様を表 5.2 に示す。

表 5.2: 実験マシンの仕様 OS Fedora Core 9

CPU Intel Xeon CPU E5430 2.66GHz Memory 12.0GB

5.3 評価の方法

本研究のspamメール検知の評価は以下の項目で行う。

False negative (検出漏れ) : spamメールをspamメールでないと判定する

False positive (誤検出) : spamメールでないものをspamメールと判定する

spamメールメッセージ数: spamメールのメッセージ総数

greylist数: greylistを行った総数

定性的には、False positiveが重要視される。False negativeの場合はspamメールを受信する だけだが、False positiveの場合は重要なメールがspamメールと判定されて破棄される恐れが あるためである。また本研究ではフィルターとして効果を評価する際に結果として何通のspam メールと何回のgreylistを検出できるという点が重要視される。なぜならば本来フィルターの効 果としては無駄なSMTPサーバへのセッションを減して、負荷を減らすことでメール配送の遅

延を少なくし受信者へspamメールを受信させない目的で利用するからである。本研究では、spamhaus.org[9]

が提供するDNSBLを使用したフィルタリングによって検出結果との比較を行い、提案手法と既 存手法との比較を行うことにした。

5.4 実験 1: SPF の普及率の時間的変化

5.4.1 実験1の内容

SPFの普及、つまりdomain管理者がSPFレコードの記述を行っているか。調査に当たって はある機関のsmtpログを使用した。SPFの記述率の変化を調べる為に2008年4月から7月ま

(24)

でsmtpログのfromアドレスの@以降のドメインを用いて、間隔をおよそ1年置きSPFレコー ドの記述が行われている同じデータを用いて計測した。実験1ではsmtpログの全ドメインと我 国のドメインであるJPドメインに対しても同様の計測を行った。計測手順は以下に示す。

1. smtpログよりfromアドレスの@以降のドメインを取得する

2. 取得したドメインに対してSPFレコード、MXレコード参照を行う

3. SPFレコードには様々な機構によって記述が行われているので、各々に対応した機構に基

づきIPアドレスを取得する。

4. MXレコードは一般的にメールサーバのドメイン名を登録していることが多い為MXレコー

ド内に記述されているドメインのIPアドレスを取得する

5. SPFレコードより得たIPアドレス、prefixに対してMXレコードより得たメールサーバ

のIPアドレスが対応しているかマッチングを行って調べる

(25)

第 5 章 実証実験

5.4.2 実験1の結果と考察

実験1の結果を表 5.3 に示す。2008年から2009年の1年間でのSPFレコードの記述率の変 化をみると、増加している結果が得られた。全体から見た割合としては2.3%の増加であるがsmtp ログの多くはspamメールという背景を考えると決して低い値ではない。純粋にドメイン数の増 加で見ると96,215個のドメインで新たにSPFレコード記述が増えたことになる。これは増加率 では161%となっており高い増加率が得られた。またJPドメインに関しては、2008年の時点 で15.6%と全ドメインに対して高い普及率となっているが、2009年での計測でも16.4%と増 加の結果となっており今後も普及していく可能性が高いと考えられる。

表 5.3: SPFの普及率の変化

調査項目 2008年11月 2009年11月 ドメイン総数 2,651,037 2,651,037 SPFレコードの記述があるドメイン数 156,800 253,015 (version1:version2) (155,807:993) (252,786:229)

記述率 (%)

SPFレコードの記述があるドメイン数/ドメイン数 7.2 9.5 JPドメイン総数 90,856 90,856 SPFレコードの記述があるJPドメイン数

14,136 15,686 普及率 (%)

SPFレコードの記述があるJPドメイン数/JPドメイン総数 15.6 16.4

5.5 実験 2: spammer (spam メールが使用するドメイン ) SPF の信頼性

5.5.1 実験2の内容

実験1ではsmtpログのすべてのドメインに対してSPFレコードの記述率について計測を行っ

たが表 5.1 で示すspammerが使用しているドメイン (spamメールを送信してくるドメイン) が

どの程度SPFレコードの記述を行い正しい記述を行っているのか計測を行った。実験2ではsmtp ログの2009年3月のデータを使用した。比較を行うためにsmtpログより受信したすべてドメ インに対しても同様の計測を行った。計測方法に関しては以下の通りある。

1. smtpログよりfromアドレスの@以降のドメインを取得する

(26)

2. 取得したドメインに対してSPFレコード、MXレコード参照を行う

3. SPFレコードには様々な機構によって記述が行われているので、各々に対応した機構に基

づきIPアドレスを取得する。

4. MXレコードは一般的にメールサーバのドメイン名を登録していることが多い為、MXレ

コード内に記述されているドメインのIPアドレスを取得する

5. SPFレコードより得たIPアドレス、prefixに対してMXレコードより得たメールサーバ

のIPアドレスが対応しているかマッチングを行う 5.5.2 実験2の結果と考察

実験2の結果を表 5.4 に示す。spammerが使用しているIPアドレスに対して、spammerが 使用しているドメイン数が少ない原因としては、複数のIPアドレスから同じドメインを使用し てメールしている為だと考えられる。つまりspammerがまとまったリソースを使用してspam メールを送信している結果である。また単一IPアドレスから複数のドメインを使用してメール を送ってきている結果が得られており、ネットワークだけではなくドメインに対して複数のリソー スを使用している事が分かった。spammerのSPFレコード記述率は全体のsmtpログのドメイ ンに比べて0.8%の差という結果となった。表5.1 からも分かるようにlegitは全体からみると少

なくspammerとspammer予備軍が大多数を占めるため差が小さい結果となっている考えられ

る。しかし、spammerの17.0%がSPFレコードの記述を行っているという結果は表 5.3 から 分かるように多くのドメインに対して比べた場合決して低い割合ではない。またSPFレコード の記述がある場合には99.3%の割合でMXレコードがSPFレコードにマッチしている結果とな

りspammerの記述しているSPFレコードの信頼性の高さが分かる結果となった。理由としては

送信者認証技術としてSPFが導入されるケースがある。主にドメイン偽装対策の技術であり、

その対応策としてspam業者が専用のドメインを取得して管理を行っていると考えると、SPFレ コードの記述の正確さが高いことの裏付けになる。つまりspammerの17%が専用のリソースを 使用して送信者認証技術に対応していることになる。

(27)

第 5 章 実証実験

表 5.4: spammerにおけるSPFレコード記述率と信頼性

内容 spammer smtpログ全体

送信に使用したIPアドレス数 296,790 1,148,559 送信に使用したドメイン数 119,354 276,375 SPFレコードに記述あるドメイン数 (version1, 2を含む) 20,289 49,435 MXレコードに記述あるドメイン数 107,032 244,696

SPF,MXレコードに記述あり 20,165 49,030

SPFレコード記述内容が正しい 20,154 49,003 SPFレコード記述率(%)

SPFレコードに記述あるドメイン数/送信に使用したドメイン数 17.0 17.8 MXレコード記述率 (%)

MXレコードに記述あるドメイン数/送信に使用したドメイン数 89.7 88.5 MXレコードがSPFレコードにマッチした割合 (%) 99.3 99.0

5.6 実験 3: spammer が使用しているドメインのスコア

5.6.1 実験3の内容

spammerの動作として正常なドメイン (gmail.comやyahoo.comなど) を偽り送信してくる ケースが考えられる。そこで本実験ではspammerが使用するドメインに対して以下の判定基準

を設け、Good domain、Bad domainとして評価を行う。以下の条件にあてはまるドメインを

Bad domainとする。

メール送信回数が10回以上 かつ spamと判断された回数がメール送信回数に対して90% 以上

メール送信回数が0回 かつgreylistされた回数が10回以上 一方、以下の条件に当てはまるドメインをGood domainとする。

メール送信回数が10回以上かつhamと判断された回数がメール送信回数に対して90%以 上

また、以下の条件に当てはまるドメインをBad domain予備軍とする。

メール送信回数が0回かつgreylistによって10回未満拒否されている

(28)

5.6.2 実験3の結果と考察

実験結果を表 5.5 に示す。spammerが使用しているドメインの中でGood domainと判別で きるドメインは全体から考えるとおよそ1%となっており、spammerが正常なドメインを使用 せずに独自のドメインを使用している割合が高いことが分かる。しかし依然としてspammerが ドメインを偽装してメールを送信しているという事実があるために、送信者認証技術の重要性は 今後も高くなっていくものだと考えられる。

表 5.5: spammerが使用したドメインの評価結果 smtpログ収集月 2009年3月

ドメインの総数 119,353

Bad domain 28,963

Bad domain予備軍 57,643

Good domain 1,128

5.7 実験 4: 提案手法 1 DNS レコードを用いた spammer 検出

提案手法1であるDNSレコードを用いたspammer検出を実証的に確認する。

5.7.1 実験4の内容

実験4では提案手法1を用いたspammer検出を行った。実験では/16未満のprefixに関して はprefix値として大きすぎると判断した。/16を閾値としたのは、spamhaus.org[9]が提供して

いるDNSBLでは最大prefixの値が/16であり、本研究において比較対象に合わせる意味も持つ。

spam prefix作成後に、このspam prefixとsmtpログをフィルタリングして検出したsmtpログ のスコアを参照して、spammer、spam予備軍、legit、spamメール送信総回数、greylist総回 数を調べた。また既存手法としてspamhaus.org[9]が提供するDNSBLを使用してフィルタリン グを行った。

5.7.2 実験4の結果と考察

実験4の結果を表5.6に示す。提案手法1では既存手法に比べてspammerおよびspammer予 備軍の検出数が多い結果となった。legitの検出数は既存手法に比べるとおよそ15倍の検出数と なっておりFalse positiveが目立つ結果となっている。この原因としては実験4ではprefixの値

(29)

第 5 章 実証実験

を/16未満のprefixに関しては除いたが、/16ではprefixの単位としてはネットワークで考える とかなり大規模なものであるため、このような結果になった可能性が高い。しかしspamメール 送信総回数では提案手法では既存手法に比べておよそ20倍のspamメールをブロックできる結 果となっており、検出したspammerの1つ1つが大量のspamメールを送信しているspammer でありこのような悪意のあるspammerの検出ができることは有益な手法として活用する事がで きると考えられる。

表 5.6: DNSレコードを用いたspammer検出 内容 提案手法 既存手法 IPアドレスの総数 1,148,559 1,148,559 検出IPアドレス数 5,760 1,599

spammer 1,381 437

spammer予備軍 2,832 799

legit 471 33

spamメール送信総回数 33,944 1,626 greylist総回数 68,704 26,843

5.8 実験 5: 提案手法 2 spammer prefix を用いた spammer 検出

5.8.1 実験5の内容

実験5では提案手法2を用いたspammer検出を行った。実験5ではprefixの中にspammerが 含まれる割合に対してspam prefixの定義を変更しており、各割合としては4/8, 5/8, 6/8の3 通りの基準でspam prefixを作成した。このspam prefixとsmtpログをフィルタリングして検 出したsmtpログのスコアを参照して、spammer、spam予備軍、legit、spamメール送信総回 数、greylist総回数を調べた。また既存手法としてspamhaus.org[9]が提供するDNSBLを使用 してフィルタリングを行った。

5.8.2 実験5の結果と考察

実験5の結果を表5.7に示す。実験5ではprefixの中にspammerが含まれる割合に対してspam

prefixの定義を変更している。spammerの割合が低くなればなるほど検出するspammerは多く

なった。提案手法2における最大のメリットはlegitの数が既存手法比べて小さく、spammerが 50%の割合でspam prefixとしてもlegitの検出数は3という結果からもわかるようにspammer

(30)

が特定のprefixに密集してspamメールを送信してきていることの裏付ける結果となっているこ とが実験結果となった。また提案手法2と既存手法のspammer検出数を比較したところspam- merの数に注目すると提案手法2が優れていることが分かるが、spamメール送信総回数で比べ てみると既存手法がおよそ3倍のspamメールを検出していることから、特にspamメールを多 く送信しているspammerを検出できるわけではないが、greylistの総回数で比べてると/29の

prefixでありながら既存手法より44579回greylist検出を行っていることになる。つまり提案手

法2で検出しているspammerの多くはgreylistで拒否された後に再送を行っていないspammer を多く検出できる事がわかる。

表 5.7: spammer prefixを用いたspammer検出

提案手法 4/8 提案手法 5/8 提案手法 6/8 既存手法 IPアドレスの総数 1,148,559 1,148,559 1,148,559 1,148,559 検出IPアドレス数 1,590 947 499 1,599

spammer 1,037 784 454 437

spammer予備軍 202 111 29 799

legit 3 1 1 33

spamメール送信総回数 569 504 131 1,626

greylist総回数 71,422 50,694 29,761 26,843

5.9 実験 6: 提案手法と既存手法における検出した spammer の比較

5.9.1 実験6の内容

実験6では実験4、5おいて提案手法、既存手法を用いて検出したspammerが同じspammer を検出したのか、異なるspammerを検出したのか実験を行った。実験では3通りの比較を行っ た。比較の組み合わせは以下の通りである。また実験6で使用した提案手法2のspam prefixの 定義としては50%以上spammerが含まれているprefixに関してはspam prefixとしてspammer を検出した結果を使用した。

提案手法1 (DNSレコードを用いたspammer検出)と既存手法(spamhaus.orgが提供する DNSBLを用いたspammer検出)これ以降、「提案1と既存」と表記する

提案手法2 (spammer prefixを用いたspammer検出)と既存手法 (spamhaus.orgが提供す るDNSBLを用いたspammer検出) これ以降、「提案2と既存」と表記する

(31)

第 5 章 実証実験

提案手法1 (DNSレコードを用いたspammer検出) と提案手法2 (spammer prefixを用い たspammer検出) これ以降、「提案1と提案2」と表記する

5.9.2 実験6の結果と考察

実験6の結果を表 5.8 に示す。また各手法におけるspammer検出数を表 5.9 に示す。提案手 法1と既存手法との比較を行った場合、350のspammerが異なる手法で検出できた結果となっ た。既存手法では表5.9 から分かるようにspammerの検出数は437と全体のおよそ80%が提案 手法1で検出できている結果となっている。提案手法2と既存手法に関してはおよそ50%の割

合で同じspammerの検出が行われた。次に提案手法1と提案手法2で比較を行った場合、99%

の割合で同じspammerを検出している結果となっており、手法としてのアプローチは異なるが 最終的に検出したspammerが同じspammerを検出することができるという結果であった。既 存手法だけではspammerのフィルタリングとしては有効的ではなく本研究で提案した手法など 様々な検出方法で多角的に検証を行う必要性があることが実験6から分かる。

表 5.8: 各手法における検出したspammerの比較

比較内容 提案1と既存 提案2と既存 提案1と提案2 検出したspammerが

同じspammerの数 350 229 1,021

表 5.9: 提案手法、既存手法を用いたspammer検出数 検出手法 提案手法1 提案手法2 既存手法

spammerの検出数 1,381 1,037 437

(32)

まとめ

本研究のまとめを述べる

6.1 結論

本研究では、年々増加していくspamメールの現状について言及し、spammerのspamメール 送信の手法として送信者認証技術を悪用するspammerが存在していることを実験を通して示し た。このような専用のリソースを確保して送信者認証を悪用し正常なシステムを装うことでspam メールを送信するspammerに対して、DNSレコードの情報を用いることで効率的にspammer のインフラを発見する手法と、spammerが一か所のネットワークの集中する特徴を利用して spam- merが潜むネットワークを予測する手法を提案した。実験の結果、提案手法ではspamhaus.org が提供するSBLに比べてspammerの検出数が高い結果となった。spammer検出に関しては1 つの手法が正しいというわけではなく、様々な方向よりspammerの特徴を見つけ出し評価を行っ ていく必要がある。特にspammerのリソースの変化は目覚ましいものがある為にspamメール 対策も同じ速度で変化していく必要がある。この中でドメイン偽装に対応するためにSPFの普 及は今後も高まっていくと予想される。将来的に送信者認証がメールサーバ管理において必須の 設定項目となる場合には、本提案手法は高い確率でspammerのインフラを発見することができ るようになるため有効的な手法と考えられる。

6.2 今後の課題

今後の課題として、本研究ではspammerのインフラよりISP毎にスコアをつけることで、個々

のspammerのprefixから大規模なISPレベルまでの検出が行えるのではないかと考えられる。

また提案手法2において本研究では/29のprefixのまとまりで実験を行ったが、より小さいpre- fixでまとめることでさらに精度の高いspammer検出が行う必要がある。同様に、本研究ではspam-

(33)

第 6章 まとめ

merの定義をメール送信10回以上かつ90%がspamメールもしくは、greylistで10回以上拒否 されたIPアドレスとしたが、spammerの定義さらに厳しくもしくは緩くすることでspammer 検知の変化の調査を行い、より効果的にspammerを検出できる敷居値を見つける事が求められ る。

(34)

本修士論文の作成にあたり日頃より御指導を頂いた早稲田大学理工学部の後藤滋樹教授に深 く感謝致します。また、研究の初期段階から終了まで多大なる御指導を頂きましたNTT サービ スインテグレーション基盤研究所の森達哉氏に深く感謝致します。最後に、研究を進める上で、

貴重なアドバイスを頂きました伊沢信太郎氏、鈴木幹也氏、土居幸一朗氏、時光潤氏、夏目祐輔 氏、板倉弘明氏、岸本和之氏、下田晃弘氏、田中祐樹氏、森田慎吾氏、魏元氏に深く感謝致しま す。さらに研究室で共に苦難を乗り越え、助け合い、励ましあった同期である石原寛之氏、梅原 和也氏、栢沼圭輔氏、小山田浩起氏、鶴貝和樹氏、田代賢治氏、出井勝弘氏、野上晋平氏、木佐 森幸太氏、藤原崇氏に心より感謝致します。また、頼りない先輩を一生懸命支えてくれた大村淳 己氏、尾崎吉彦氏、酒井孝将氏、高橋正綱氏、名倉俊哉氏、本嶋悠也氏、米山諒氏、石井翔氏、

川口敬氏、佐藤圭氏、高田綾香氏、高田和也氏、高野弘子氏、棚澤崇行氏、戸部和洋氏、野間敬 太氏に御礼申し上げます。

最後に、多大なる御協力を頂きました後藤研究室の諸氏に感謝致します。

(35)

参考文献

[1] syamantec 10年間におけるスパムに関するレポート

http://www.symantec.com/connect/blogs/2000-2009-spam-explosion

[2] メッセージラボ社

http://www.messagelabs.co.jp/

[3] メッセージラボインテリジェンス2009 年間レポート

http://www.messagelabs.co.jp/mlireport/2009_MLI_Annual.pdf

[4] McColo Takedown: Changes in International Spam Distribution and Asprox Botnet Ac- tivity

http://blogs.iss.net/archive/mccolo.html/

[5] ソフォス社

http://www.sophos.co.jp/

[6] ソフォス社 スパムの最新の傾向に関するレポート

http://www.sophos.co.jp/pressoffice/news/articles/2009/07/dirtydozenq209.

html/

[7] Yahoo!!

http://www.yahoo.com

[8] Symantec Corporation http://www.symantec.com/

[9] The Spamhaus Project http://www.spamhaus.org/

[10] SORBShttp://www.us.sorbs.net/

[11] SpamCop.nethttp://www.spamcop.net/

(36)

[12] $12 million ordered from anti-spam group http://www.msnbc.msn.com/id/14855085/

[13] Bayesian spam filtering http://en.wikipedia.org/wiki/Bayesian_spam_filtering [14] Graham,P. A Plan for Spam http://www.paulgraham.com/spam.html

[15] Route Views Archive Project Page http://archive.routeviews.org/

[16] IANA http://www.iana.org/

[17] MaxMind - GeoIP http://www.maxmind.com/app/ip-location [18] the new p0f http://lcamtuf.coredump.cx/p0f.shtml

[19] M. Wong,W. Schlitt,”Sender Policy Framework (SPF) for Authorizing Use of Domains in E-Mail, Version 1”,RFC 4408, April 2006. http://www.ietf.org/rfc/rfc4408.txt [20] 本嶋悠也 「IPアドレスの特徴を用いたspamメール判別方法」

早稲田大学理工学部コンピュータ・ネットワーク工学科 2008年度卒業論文, 2008.

[21] 関根 義明 「IPアドレスとホスト名の特徴によるspamメールの判別法」

早稲田大学大学院理工学研究科情報・ネットワーク専攻 2005年度修士論文, 2005.

[22] 藤井優尚 「経路情報に基づくスパムメールの判別方法」

早稲田大学大学院理工学研究科情報・ネットワーク専攻 2004年度修士論文, 2004.

[23] 澤谷雪子 三宅優「SMTPサーバにおけるDATAコマンド受信時でのスパムメール判別に 関する検討と大規模データによる評価」

IEICE Technical Report NS2009-41(2009-06). [24] Yugui「初めてのRuby」O’REILLY.

[25] 山西健司「データマイニングによる異常検知」共立出版.

[26] Randal L. Schwartsz, Tom Phoenix, brian d foy, 近藤嘉雪訳「初めてのPerl」O’REILLY.

[27] 渡部綾太, 愛甲健二「スパムメールの教科書」DATA HAUSE.

[28] W.Richard Stevens, 井上尚司監訳, 橘康雄訳「詳解TCP/IPプロトコル』」ソフトバンク, 1997.

参照

関連したドキュメント

試験体は 4 タイプである.タイプAでは全ての下フラン ジとウェブに,タイプ B 及び C では桁端部付近の下フラン ジ及びウェブに実橋において腐食した部材を切り出して用

に,レベル 2 地震動に対する液状化抵抗について検証した. 2.実験の概要 土試料として Fc=0%である 5 号相馬硅砂と 5 号,6 号,8

実験は,硫酸アンモニウム(NH 4 ) 2 SO 4 を用いて窒素 濃度として約 1000 ㎎/ℓとした被検水を使用し,回分 方式で行った。条件は表-1

2000 個, 2500 個, 4000 個, 4653 個)つないだ 8 種類 の時間 Kripke 構造を用いて実験を行った.また,三つ

ここで,図 8 において震度 5 強・5 弱について見 ると,ともに被害が生じていないことがわかる.4 章のライフライン被害の項を見ると震度 5

会社法 22

スライド5頁では

6-4 LIFEの画面がInternet Exproler(IE)で開かれるが、Edgeで利用したい 6-5 Windows 7でLIFEを利用したい..