DNS レコードおよびプレフィックスの特徴を用いたスパム検知法

(1)

2009 年度修士論文

DNS レコードおよびプレフィックスの特徴を用いたスパム検知法

提出日： 2010 年 2 月 5 日

指導：後藤滋樹教授

早稲田大学大学院基幹理工学研究科情報理工学専攻学籍番号： 5108B008-8

石原寛之

(2)

1 序論 5

1.1 研究の背景 . . . 5

1.2 研究の目的 . . . 6

1.3 本論文の構成. . . 7

2 spamメール 8 2.1 spamメール . . . 8

2.1.1 spamメールとは . . . 8

2.1.2 spamメールが送られる理由 . . . 8

2.1.3 spamメールによる影響 . . . 8

2.1.4 spamメールの現状 . . . 9

2.2 既存のspamメール対策法 . . . 10

2.2.1 送信ドメイン認証 . . . 10

2.2.2 greylist . . . 11

2.2.3 black list . . . 12

2.2.4 white list . . . 12

2.2.5 DNSBL (DNS Black List) . . . 13

2.2.6 ルールベースフィルタ . . . 13

2.2.7 Bayesian Filter . . . 13

3 SPF (Sender Policy Framework) 14 3.1 SPF (Sender Policy Framework) とは . . . 14

3.1.1 SPFレコード記述に関して . . . 14

3.1.2 SPFを利用した認証手順 . . . 17

4 提案手法 18 4.1 提案手法の概要 . . . 18

(3)

4.1.1 提案手法1: DNSレコードを用いたspammer検出 . . . 18

4.1.2 提案手法2: spammer preﬁxによるspammerの検出 . . . 19

5 実証実験 20 5.1 実験に使用したデータ . . . 20

5.2 実験の環境 . . . 22

5.3 評価の方法 . . . 22

5.4 実験1: SPFの普及率の時間的変化 . . . 22

5.4.1 実験1の内容 . . . 22

5.4.2 実験1の結果と考察 . . . 24

5.5 実験2: spammer (spamメールが使用するドメイン) SPFの信頼性 . . . 24

5.5.1 実験2の内容 . . . 24

5.5.2 実験2の結果と考察 . . . 25

5.6 実験3: spammerが使用しているドメインのスコア . . . 26

5.6.1 実験3の内容 . . . 26

5.6.2 実験3の結果と考察 . . . 27

5.7 実験4: 提案手法1 DNSレコードを用いたspammer検出 . . . 27

5.7.1 実験4の内容 . . . 27

5.7.2 実験4の結果と考察 . . . 27

5.8 実験5: 提案手法2 spammer preﬁxを用いたspammer検出 . . . 28

5.8.1 実験5の内容 . . . 28

5.8.2 実験5の結果と考察 . . . 28

5.9 実験6: 提案手法と既存手法における検出したspammerの比較 . . . 29

5.9.1 実験6の内容 . . . 29

5.9.2 実験6の結果と考察 . . . 30

6 _まとめ 31 6.1 結論 . . . 31

6.2 今後の課題 . . . 31

(4)

2.1 spamメール送信国ワースト12 . . . 9 2.2 spamメール送信地域別ワースト12 . . . 10 3.1 SPFを利用した認証手順 . . . 17

(5)

表一覧

3.1 SPFの主な機構 (mechanism) . . . 15

3.2 限定子(qualiﬁer) . . . 15

3.3 versionによる記述例 . . . 16

3.4 scope . . . 16

5.1 IPアドレスの総数とspammer, legit, spamメール受信の数 . . . 21

5.2 実験マシンの仕様 . . . 22

5.3 SPFの普及率の変化 . . . 24

5.4 spammerにおけるSPFレコード記述率と信頼性 . . . 26

5.5 spammerが使用したドメインの評価結果 . . . 27

5.6 DNSレコードを用いたspammer検出 . . . 28

5.7 spammer preﬁxを用いたspammer検出 . . . 29

5.8 各手法における検出したspammerの比較 . . . 30

5.9 提案手法、既存手法を用いたspammer検出数 . . . 30

(6)

序論

本章では研究の背景と目的を述べる。

1.1 研究の背景

ブロードバンド、インターネットの普及に伴い、電子メールはビジネス、日常生活において様々な有益な影響を与えており、今日においては欠かせない存在になっている。しかしのこの電子メールを利用した問題が起きている。symantecの報告では2000年から2009年にかけてのスパムメールの動向を振り返り、全電子メールに占めるスパムの割合は2000年には8％足らずだったのが、

現在では90％近くを占めるようになったと報告されている [1]。このように今日では電子メールを利用するユーザに対して大量なspamメール (迷惑メール) が送られる結果としてユーザに対して様々な弊害を生むんでいる。この原因としてspamメール多くは広告メール等であり少ないコストで多大な広告効果があることが原因である。spammer (spamメールの送信者) がspam メールを送信する主な方法として、ボットネットと呼ばれるコンピュータウィルスに感染したコンピュータから知らない間にspamメールを無差別に送らせる手法と、spamメール業者が自身で送信するためにサーバ、ネットワークなどインフラを用意してspamメールを送信する手法が

ある。MessageLabs [2]によると、2009年の年間スパム平均レートでは全体のメールに対して

87.7％がspamメールという結果が報告されている。またspamメールの内83.4％がボットネットを起因とするものと発表されている [3]。しかし専用のリソースを利用したspammerも見逃す事が決してできない。特に正常なメールサーバとして機能してるように装い、送信者認証などにも対応しているspammerが現れており問題になっている。このようなspammerは様々な形態でインターネットの健全な運営を阻害する要因となる活動をするため、対策が求められている。

(7)

第 1 章序論

1.2 研究の目的

2008年11月にアメリカのISP (InternetServicesProvider) であるMcColoが、ボットネットの指令サーバの多くをホスティングしていたとして閉鎖された。ISS (Internet Security Systems) によると、Mccoloの閉鎖によってアメリカ発のspamメールは14％にまで減少した[4]。spam- merが一部のISPに密集してる可能性が高いことが分かる。一般的には専用のリソースを使用してスパムメールを送信する場合には複数台のサーバやネットワーク使用する為にspammer自身が特定のネットワークに集まる傾向があると考えられる。特に正常なメールサーバとして機能してるように装い、送信者認証などにも対応しているspammerがいる。このためボットネットの対応だけではspamメールをブロックすることが難しくなっている。そこで本研究は大規模な電子メールのログ分析を通じて、ビジネスとして大量にspamメールを送信するspamメール事業者の存在を明らかにするとともに、そのような事業者のインフラの発見方法とスパムフィルタリングへの応用を提案する。

(8)

1.3 本論文の構成

本論文は以下の章により構成される。

第1章序論

本研究の背景及び目的を述べる。

第2章 spamメール

spamメール及びspamメールの既存の対策法について述べる。

第3章 SPF (Sender Policy Framework)

SPF (Sender Policy Framework) について述べる。

第4章提案手法

提案手法について述べる。

第5章実験概要

実験の概要の説明と結果と考察を述べる。

第6章まとめ

本論文についてまとめを述べる

(9)

第 2 章

spam _メール

本章ではspamメールの説明及びspamメールの既存の対策法について述べる。

2.1 spam メール

2.1.1 spamメールとは

spamメールの厳密な定義は無いが、一般的には受信者の意図を無視して送られて来る無差別な大量一括送信メールの事を指す。spamメールの本文の内容としては、会員制出会い系サイトや会員制アダルトサイト、マルチ商法、商品の勧誘販売などの宣伝が大半を占める。別名迷惑メールとも呼ばれている。

2.1.2 spamメールが送られる理由

spamメールが送られる理由はspamメール自体がビジネスに直接繋がるものであるからである。多くのspamメールは宣伝、広告である。通常の宣伝、広告では対象人数が増えれば増えるほどコストは高くなるが、電子メールでは一定のコストで運用が可能であり対象人数はコストに大きく依存しない。そこでより多くの人に宣伝を行い、その結果として得られた利益の一部を spamメール送信者にインセンティブとして支払うとするとspammerはより多くのspamメールを送ることで利益を得る確率が上がる。この理由がspamメールが無差別に大量に送られている原因である。

2.1.3 spamメールによる影響

spamメールによる影響として以下のものが考えられる。

• ^{ウイルス感染}

(10)

• メールサーバの負荷増大により引き起こされる送受信遅延

• ^{個人情報の流出}

• 詐欺などによる金銭的トラブル

• ^{個人の生産性の低下}

2.1.4 spamメールの現状

ソフォス [5]の調査によると、2009年のspamメール送信国のワースト12は図 2.1 に示すようにアメリカが継続的に他国よりも多くのスパムを送信している結果となっている [6]。また、

地域別に見た場合には、図 2.2 に示すようにアジアが引き続き最大のスパム送信地域となっている。2009年 4月〜 6月では、スパムメッセージの約 3分の 1がアジアより発信されており、その中でも韓国と中国が最大のスパム送信国となっている。

図 2.1: spamメール送信国ワースト12

(11)

第 2 章 SPAMメール

図 2.2: spamメール送信地域別ワースト12

2.2 既存の spam メール対策法

既存のspamメール対策法について説明する。

2.2.1 送信ドメイン認証

送信者認証技術は、あらかじめ個々の組織において組織内のメール送信者を認証するための情報を公開しておき、各ドメインで送信者を認証し合う方式である。認証情報は主に各ドメインの DNS サーバに公開される。これにより送信元を偽って送られてくるスパム送信者を拒絶することができる。ボットウィルスに感染したことが原因となって送信してくる多くのspamはこの情報が登録されていない為に、送信者認証は有効な手段と考えられる。ただし、送信側と受信側の両方が互いにこの方式に対応していないと完全には機能しないという欠点がある。以下に代表的な送信者認証技術を挙げる。

SPF (Sender Policy Framework)

電子メールに使用されるプロトコルはSMTPと呼ばれるプロトコルを使用している。SMTP では差出人のメールアドレスを自由に設定する事ができる。spammer (迷惑メール送信者) が差出人アドレスの偽装を行い、詐欺メールが横行して利用者を悩ませた。この偽装に対する一つの対策としてSPF (Sender Policy Framework) がある。この技術では送信者のメールアドレスのドメイン (@以降のアドレス部分) に関する偽装を検出する事が可能である。日本国内は携帯電

(12)

話事業者を初め多くの企業がSPFの導入が進んでいる。

DKIM (DomainKeys Identiﬁed Mail)

Yahoo!社[7]が提唱した方式で、メールシステムを管理する個々のメールに電子署名を添付し、

電子署名を検証することでメール送信元の偽称を防ぐ。DKIM の手順を以下に示す。

• メール送信側で、送信元ドメインの電子署名生成に使用する秘密鍵とペアになる公開鍵を DNSサーバに公開する

• 送信側メールサーバで、送り出されるメールのヘッダと本文を基に電子署名を生成して添付する

• 受信側にSMTP で送信する

• 受信側のメールサーバは、メールのFrom: からドメイン部のDNS サーバに公開鍵を問い合わせる

• 送信側から取得した公開鍵により電子署名を検証し、送信者を認証する

送信側はDNS サーバにおいて、公開鍵と制御用の情報をTXT レコードとして公開し、メールヘッダと本文から作成した電子署名を、電子署名の検証に必要な暗号化方式などの情報と共に DomainKey-Signatureフィールドとして個々のメールに書き加える。受信側では、DomainKey-

Signature フィールドから署名したドメイン名と、From: フィールドかSender フィールドのド

メイン部が一致していることを確認したら、DomainKey-Signatureフィールドで指定された方法でDNS クエリを実施し公開鍵を取得する。DKIM は、ヘッダに追加した電子署名と、その電子署名の元になったメールヘッダと本文などが改変されない限り、転送した先でも認証処理が実施できる。ゆえにSender ID の弱点の一つである転送に対応できるが、メールが配送途中に改変された場合には電子署名を検証できなくなるという制限がある。

2.2.2 greylist

メール受信の際に送信元の情報をデータベースに登録し、初回の受信時にはメールは受信せずに一時的エラーを示すステータスコードを返す。その後、一定時間以上経ってから同じサーバからメールが再送されてきたときに受信する方法である。

spammerの特徴として、大量のメールを短時間に送信することを重視して一時的エラーに対し

て再送を行わないという特徴があり、これを利用した手法である。最初の送信から一定時間以

(13)

第 2 章 SPAMメール

内の再送を拒否するのは、送信失敗から短時間で再送されるメールはspamメールの可能性が高いからである。なお、メーリングリストなどはgreylistの対象にする必要がないことや、spam メール送信サーバでない通常のメールサーバの中にも一時的エラーに対して再送を行わない設定になっているものもあることから、ホワイトリストなどの方法との併用が推奨される。

greylistを用いた際のメール受信までの処理の手順を以下に説明する。

1. クライアントのIPアドレス、送信者メールアドレス、受信者メールアドレスを一つの組み合わせ(tripletと呼ぶ) とし、tripletを記録しておくためのデータベースを用意する 2. 接続してきたクライアントのtripletがデータベースにない場合は、tripletと接続時間を

データベースに記録する。その後、メールの本文を受け取、その一時的エラー (SMTPの応答コード 4xx)を返し、再送を要求する

3. 接続してきたクライアントのtripletがデータベースにある場合には、現在の時間とtriplet の時間を比較し、一定時間経過していなければ一時的エラーを返し、再送を要求する 4. 接続してきたクライアントのtripletがデータベースに存在し、なおかつ一定時間経過して

いれば、そのメールを受信する

greylistによるspammerのフィルタリング機能は効果的であり、現在多くのメールサーバに導

入されている。しかしメールサーバへの負荷が増大する。また再送をしないメールサーバなどがあった場合正常なメールを受け取ることができないという問題点がある。

2.2.3 black list

spamメール送信者や不当なメールの中継を許しているサーバのIPアドレス、ドメインをspam- merリストとして登録を行う。リストに登録されているIPアドレス、ドメインからのメールの受信を拒否することでspamメールを回避する。しかしspammer側のドメインの偽装、IPアドレスの頻繁な変更による対策によってblack listから外れてしまう問題があり定期的な更新が必要となるために個人の管理では難しい。

2.2.4 white list

ブラックリストとは逆に、リストに登録されているIPアドレスからのメールの受信を許可する方法。主な使用目的としては、メールフィルタの対象となってしまう正常なIPアドレスを救済するために使われる。

(14)

2.2.5 DNSBL (DNS Black List)

DNSBLはspamメール送信者のIPアドレスを収集したデータベースである。DNSBLは

Spamhaus[9]、SORBS[10]、SpamCop[11]などによって提供されている。多種多様なDNSBLが存在し、登録および抹消のポリシーがそれぞれ異なる。これらのブラックリストはリアルタイムに更新されることから、RBL (Realtime Blackhole List) とも呼ばれる。プロバイダなどはこれらのブラックリストの提供者から最新版のリストの供給を受け、spamメール遮断に役立てる。

しかし、中にはspamメール送信者でない正常な利用者がブラックリストに登録されてしまい、

被害を受ける場合がある。米国のある企業がSpamhausのブラックリストに載せられたことに反発して裁判を起こすなど[12]、訴訟問題にまで発展した例もあり、DNSBLの管理が大きな課題となっている。

2.2.6 ルールベースフィルタ

メールのヘッダや本文におけるspamメールの特徴をルールとして記述しておき、そのルールに基づいて判別する方法。受信したメールの内容が、記述してあるルールにマッチした場合、ルールに対応したスコアを加算する。その結果が一定のスコア以上になるものをspamメールと判定する。個人レベルでのブラックリストが実用的でなくなって以降に現れた方法であるが、以下のような欠点がある。

• スコアの調整は可能だが、ルールによる判定には限界がある

• spamメール送信者が新しい手口を使ってきた場合には新たなルールが必要となる

2.2.7 Bayesian Filter

ナイーブベイズ分類器 (Naive Bayesian Classiﬁer) を応用し、対象となるデータを解析・学習して分類するフィルタである[13]。ナイーブベイズ分類器は独立性仮定と共にベイズ理論を適用することに基づいた、単純な確率的分類器である。ベイジアンフィルタは、過去に受信したメールの内容からspamメールに現れる属性を抽出し、新たに受け取ったメールがspamメールである確率を求めて、判定を行うものである。既存のベイジアンフィルタでは、単語を属性とするのが一般的である。つまり、spamメールの本文中に現れる単語の出現確率を求めておき、新たに受信したメールの本文中に含まれる単語からspamである確率を推定する。

(15)

第 3 章

SPF (Sender Policy Framework)

本章ではSPF (Sender Pllicy Framework) の技術を解説する。

3.1 SPF (Sender Policy Framework) とは

RFC4408[19]で定められている送信者認証技術の１つである。電子メールに使用されるプロト

コルはSMTPと呼ばれるプロトコルを使用している。SMTPでは差出人のメールアドレスを自由に設定する事ができる為に、spammer(迷惑メール送信者)が差出人アドレスの偽装を行い利用者に詐欺メールを送るという問題があった。この偽装に対する一つの対策としてSPF (Sender

Policy Framework) がある。この技術では送信者のメールアドレスのドメイン (@以降のアドレ

ス部分) に関する偽装を検出する事が可能である。一般的にはなりすましメール対策と呼ばれている。SPFはIPアドレスの詐称は難しいという前提のもとに策定されている。SPFを用いるとDNSサーバ上に記載される情報を取得するだけで認証を完了できる。SPF対応したドメインにするには、そのドメインが属するDNSサーバ内のゾーンファイルに対して SPFレコードと呼ばれる構文を追記することで容易に実装できる。日本国内では携帯電話事業者を初め多くの企業がSPFの導入が進んでいる。

3.1.1 SPFレコード記述に関して

SPFレコードの形式は、最初にバージョン情報に続いて、送信ホストの情報を順次記述していく。ホスト情報には、限定子 (qualiﬁer) と機構 (mechanism) からなるホスト情報を示したコマンドか、修飾子 (modiﬁer)のいずれかで指定される。

• ^機構 (mechanism)

主な機構としては表 3.1 のものがある。

(16)

表 3.1: SPFの主な機構(mechanism)

機構説明

all 常に適合

include ”:” に続くドメインに対して SPF チェックを実施

redirect ”:” に続くドメインに対して SPF チェックを実施 a ”:” に続くドメイン名の IP アドレス

mx MX RR で指定されたアドレス

ptr 接続 IP アドレスの逆引きしたドメイン名と一致するか ip4,ip6 ”:” に続くIP アドレス

exists ”:” に続くドメイン名が存在するか

• 認証結果に使われる限定子

主な認証結果に使用される限定子は表 3.2 のものがある。

表 3.2: 限定子(qualiﬁer)

限定子説明

+ ”+” Pass (適合) - Fail (失敗)

SoftFail (Failと Neutral の中間の意味で、認証には適合したとは言えない)

? Neutral (不完全状態、結果としては Noneと扱う)

• versionによる違い

SPFにはversion1と2が存在する。version2に関しては表 3.3 の様にscopeが指定できる。

scope:送信ドメイン名をどこから取得するかを判断する情報である。

scopeとしては表3.4 の機構がある。

DNSに公開されるSPFレコードの例を示す。以下の内容が指定されたドメインは「192.168.0.1

または192.168.0.2から送信された電子メールは信頼できるが、それ以外のIPアドレスからの電

子メールはドメインの偽装を行っている為に信頼できない」と宣言することになる。

(17)

第 3章 SPF (SENDER POLICY FRAMEWORK)

表 3.3: versionによる記述例 Version1 Version2

v=spf1 spf2.0/scope

表 3.4: scope

機構説明

mfrom Fromから取得する(version1と同様)

pra メール本文のヘッダ部分から送信ドメイン名 (PRA) を取得する

IN MX 10 mail

IN TXT ”v=spf1 +ip4:192.168.0.1 +ip4:192.168.0.2 -all”

IN A 192.168.0.1 mail IN A 192.168.0.2

(18)

3.1.2 SPFを利用した認証手順

以下にSPFを利用した認証手順を図 3.1 と共に以下の手順で説明する。

1. メール送信側では、送信元ドメインのDNSサーバでSPFレコードにメールサーバのIPアドレスを記述して公開する

2. 受信側のメールサーバは、メールのFrom: からドメイン部を取り出して、そのDNSサーバにSPFレコードの問い合わせを行う

3. 受信側のメールサーバは、SPFレコード内に記述のあるIPアドレスと送信側メールサーバのIPアドレスの照合を行う。

4. SPF記述情報と送信側メールサーバの情報が適合した場合に、送信者はドメインの偽りを

行っていないことが証明がされるため信頼できる送信者だと判別される。

図 3.1: SPFを利用した認証手順

(19)

第 4 章提案手法

本章では本研究の提案手法に関して述べる

4.1 提案手法の概要

専用のリソースを使用してspamメールを送るspammerは複数台のサーバを利用することが多い為、IPアドレスも同様にネットワーク単位で使用している可能性が高い。また研究の背景で述べたように、送信者認証技術を利用して正常なシステムを装いspamメールを送ってくるspam- merがある。そのようなspammerを検出する手法として本研究では以下の手法を提案する。

1. DNSレコードを用いたspammer検出

2. IPアドレスのブロック毎のspammer割合に対するspammer preﬁxを用いたspammer検出

4.1.1 提案手法1: DNSレコードを用いたspammer検出

anti-spam技術である送信者認証技術として導入されたSPFであるが、近年ではspamメール

を送信する側で悪用される例があるSPFを悪用する場合には、ドメインを取得した上でSPFを導入し正常なシステムとして振る舞うことで送信者認証を欺く行為として使用されている。通常

spammerは1台のメールサーバでメールを送るのではなく、複数台のメールサーバを利用して

大量のspamメールを送信している事が多い。このような場合には、SPFレコード内に記述さ

れたpreﬁx（ネットワーク単位でのIPアドレス群）の多くがspamメールを送信しているメー

ルサーバであると予測できる。またSPFレコードだけではなく、MXレコードに関しても複数のメールサーバの設定が行われている可能性が高い。そこで提案手法1ではsmtpログより取得したspamメールを送信してくるサーバのIPアドレスがメール送信に使用しているドメインに対してSPFレコードとMXレコードの参照を行い、そこに記述されているIPアドレスもしく

(20)

はpreﬁxに関してはspammerが送信を行っているものと推測する。このようにしてsmtpログから発見したspammerから未検知のspammerのインフラを発見する手法を提案する。

spammer検出の流れ

smtpログよりSPFレコードの参照を行いspam preﬁxを作成する手順を以下に示す。本提案手法の１次フィルターは、spammerが使用しているドメインよりSPFレコードとMXレコードを参照したものである。しかしドメインを偽装しているspammerが存在する為に１次フィルターには正常なSPFレコードとMXレコードの情報が含まれる。そこで本提案手法では正常な正常なSPFレコードとMXレコードの情報を除くためにspammerのIPアドレスを含むpreﬁxのみを抽出する。

1. smtpログからspamメール、正常なメールの数をIPアドレスごとに集計する

2. 集計したIPアドレスの中からよりspamメールを送ってくるIPアドレスをspammerとし

て、そのspammerから送信してくる際に使用しているドメインを使用してSPFレコード

とMXレコードの参照を行い、IPアドレスもしくはpreﬁxが取得できるまで再帰的にDNS サーバへ問い合わせを行う

3. 抽出したSPFレコードとMXレコードより参照したpreﬁx、IPアドレスを1次フィルターとする

4. 記述ミスや、preﬁxの値として考えにくいものに関しては除く

5. 1次フィルターとspammerをマッチングさせることで1次フィルターからspammerを含むIPアドレスもしくはpreﬁxのみを抽出したものをspam preﬁxとする

4.1.2 提案手法2: spammer preﬁxによるspammerの検出

spammerが特定のネットワークから集中してメールを送信してくる事を意識して、すべての

ネットワークを/29のprefixとしてまとめ、spammerがprefix内で一定の割合で含まれている場合には、このprefix内はspammerであると推定できる。そこで提案手法2としては、全ネットワークを/29のprefixで区切り、8個のIPアドレスのブロックとして考えた際に、各prefix にspammerの送信元IPアドレスが含まれる割合を計算してspam prefixとして定義してspam- merを検出する手法を提案する。

(21)

第 5 章実証実験

本章ではSPFの普及率、信頼性の調査及び提案手法によるspammer検知に関する実験結果と考察を述べる。

5.1 実験に使用したデータ

実験には協力者の方から提供して頂いた、ある企業網にて実験された2008年4から7月の4 カ月間と2009年3月の1ヵ月間のsmtpログを使用する。このsmtpログには、メール送信者の IPアドレスとメールの分類が記載されている。メールの分類は以下の4種類である。

• spam: spamメールと判断された

• ham: 正常なメールと判断された

• grey: spamとも正常とも認識できるメールと判断された

• greylist: greylistによって拒否された

• session: 接続要求だけで、メールが送られなかった

smtpログからspammer (spamメールの送信者) 及びlegit (正規のメールユーザ) のIPアドレスを選別するため、以下の操作を行った。本研究では、以下の条件に当てはまるIPアドレス

をspammerとする。また本研究におけるメール送信とは送信側からメールを送信し、受信側で

メッセージを受信した事を指すため、greylistで拒否されたメールに関しては送信回数としては 0回であると解釈する。

• ^{メール送信回数が}10回以上かつ spamと判断された回数/メール送信回数が0.9以上

• メール送信回数が0回かつgreylistされた回数が10回以上

(22)

一方、以下の条件に当てはまるIPアドレスをlegitとする。

• ^{メール送信回数が}10回以上かつhamと判断された回数/メール送信回数が0.9以上また、以下の条件に当てはまるIPアドレスをspammer予備軍とする。

• ^{メール送信回数が}0回かつgreylistによって10回未満拒否されている

送信したメールのうち9割がspamと判断されていればspammer、逆に9割がhamと判断されていればlegitとしている。メールの送信回数10回以上を条件としているのは、メール送信回数が少なかったものがspammerとされるのを防ぐためである。例えば、メールを1回しか送っていないのに、その1回がspamと判断された場合などである。次にspammerと判断する2つ目の条件は、1回もメールが送ることができていないのに何回もグレイリストで拒否されている場合である。また、メール送信回数が0回かつgreylistによって10回未満拒否されているIPアドレスに関してはspammerとは断定できないが一度もメールを受信できていない事から今後も greylistで回数が増えていくことで、spammerと判別される可能性が高くspammer予備軍と定義した。以上の条件でspammerとlegit、greylistのリストを作る。各月において観測されたIP アドレスの総数と、抽出されたspammerとlegitの数、またspammerが送信してきたspamメール送信総回数、greylistを行った総回数を表 5.1 に示す。

表 5.1: IPアドレスの総数とspammer, legit, spamメール受信の数 smtpログ収集月 2009年3月

IPアドレスの総数 1,148,559

spammer 304,183

spammer予備軍 717,855

legit 5,048

spamメール送信総回数 91,589 greylist総回数 13,382,419

(23)

第 5 章実証実験

5.2 実験の環境

実験に使用したマシンの仕様を表 5.2 に示す。

表 5.2: 実験マシンの仕様 OS Fedora Core 9

CPU Intel Xeon CPU E5430 2.66GHz Memory 12.0GB

5.3 評価の方法

本研究のspamメール検知の評価は以下の項目で行う。

• False negative (検出漏れ) : spamメールをspamメールでないと判定する

• False positive (誤検出) : spamメールでないものをspamメールと判定する

• spamメールメッセージ数: spamメールのメッセージ総数

• greylist数: greylistを行った総数

定性的には、False positiveが重要視される。False negativeの場合はspamメールを受信するだけだが、False positiveの場合は重要なメールがspamメールと判定されて破棄される恐れがあるためである。また本研究ではフィルターとして効果を評価する際に結果として何通のspam メールと何回のgreylistを検出できるという点が重要視される。なぜならば本来フィルターの効果としては無駄なSMTPサーバへのセッションを減して、負荷を減らすことでメール配送の遅

延を少なくし受信者へspamメールを受信させない目的で利用するからである。本研究では、spamhaus.org[9]

が提供するDNSBLを使用したフィルタリングによって検出結果との比較を行い、提案手法と既存手法との比較を行うことにした。

5.4 実験 1: SPF の普及率の時間的変化

5.4.1 実験1の内容

SPFの普及、つまりdomain管理者がSPFレコードの記述を行っているか。調査に当たってはある機関のsmtpログを使用した。SPFの記述率の変化を調べる為に2008年4月から7月ま

(24)

でsmtpログのfromアドレスの＠以降のドメインを用いて、間隔をおよそ1年置きSPFレコードの記述が行われている同じデータを用いて計測した。実験1ではsmtpログの全ドメインと我国のドメインであるJPドメインに対しても同様の計測を行った。計測手順は以下に示す。

1. smtpログよりfromアドレスの＠以降のドメインを取得する

2. 取得したドメインに対してSPFレコード、MXレコード参照を行う

3. SPFレコードには様々な機構によって記述が行われているので、各々に対応した機構に基

づきIPアドレスを取得する。

4. MXレコードは一般的にメールサーバのドメイン名を登録していることが多い為MXレコー

ド内に記述されているドメインのIPアドレスを取得する

5. SPFレコードより得たIPアドレス、preﬁxに対してMXレコードより得たメールサーバ

のIPアドレスが対応しているかマッチングを行って調べる

(25)

5.4.2 実験1の結果と考察

実験1の結果を表 5.3 に示す。2008年から2009年の1年間でのSPFレコードの記述率の変化をみると、増加している結果が得られた。全体から見た割合としては2.3％の増加であるがsmtp ログの多くはspamメールという背景を考えると決して低い値ではない。純粋にドメイン数の増加で見ると96,215個のドメインで新たにSPFレコード記述が増えたことになる。これは増加率では161％となっており高い増加率が得られた。またJPドメインに関しては、2008年の時点で15.6％と全ドメインに対して高い普及率となっているが、2009年での計測でも16.4％と増加の結果となっており今後も普及していく可能性が高いと考えられる。

表 5.3: SPFの普及率の変化

調査項目 2008年11月 2009年11月ドメイン総数 2,651,037 2,651,037 SPFレコードの記述があるドメイン数 156,800 253,015 (version1:version2) (155,807:993) (252,786:229)

記述率 (％)

SPFレコードの記述があるドメイン数/ドメイン数 7.2 9.5 JPドメイン総数 90,856 90,856 SPFレコードの記述があるJPドメイン数

14,136 15,686 普及率 (％)

SPFレコードの記述があるJPドメイン数/JPドメイン総数 15.6 16.4

5.5 実験 2: spammer (spam メールが使用するドメイン ) SPF の信頼性

5.5.1 実験2の内容

実験1ではsmtpログのすべてのドメインに対してSPFレコードの記述率について計測を行っ

たが表 5.1 で示すspammerが使用しているドメイン (spamメールを送信してくるドメイン) が

どの程度SPFレコードの記述を行い正しい記述を行っているのか計測を行った。実験2ではsmtp ログの2009年3月のデータを使用した。比較を行うためにsmtpログより受信したすべてドメインに対しても同様の計測を行った。計測方法に関しては以下の通りある。

1. smtpログよりfromアドレスの＠以降のドメインを取得する

(26)

2. 取得したドメインに対してSPFレコード、MXレコード参照を行う

3. SPFレコードには様々な機構によって記述が行われているので、各々に対応した機構に基

づきIPアドレスを取得する。

4. MXレコードは一般的にメールサーバのドメイン名を登録していることが多い為、MXレ

コード内に記述されているドメインのIPアドレスを取得する

5. SPFレコードより得たIPアドレス、preﬁxに対してMXレコードより得たメールサーバ

のIPアドレスが対応しているかマッチングを行う 5.5.2 実験2の結果と考察

実験2の結果を表 5.4 に示す。spammerが使用しているIPアドレスに対して、spammerが使用しているドメイン数が少ない原因としては、複数のIPアドレスから同じドメインを使用してメールしている為だと考えられる。つまりspammerがまとまったリソースを使用してspam メールを送信している結果である。また単一IPアドレスから複数のドメインを使用してメールを送ってきている結果が得られており、ネットワークだけではなくドメインに対して複数のリソースを使用している事が分かった。spammerのSPFレコード記述率は全体のsmtpログのドメインに比べて0.8％の差という結果となった。表5.1 からも分かるようにlegitは全体からみると少

なくspammerとspammer予備軍が大多数を占めるため差が小さい結果となっている考えられ

る。しかし、spammerの17.0％がSPFレコードの記述を行っているという結果は表 5.3 から分かるように多くのドメインに対して比べた場合決して低い割合ではない。またSPFレコードの記述がある場合には99.3％の割合でMXレコードがSPFレコードにマッチしている結果とな

りspammerの記述しているSPFレコードの信頼性の高さが分かる結果となった。理由としては

送信者認証技術としてSPFが導入されるケースがある。主にドメイン偽装対策の技術であり、

その対応策としてspam業者が専用のドメインを取得して管理を行っていると考えると、SPFレコードの記述の正確さが高いことの裏付けになる。つまりspammerの17％が専用のリソースを使用して送信者認証技術に対応していることになる。

(27)

表 5.4: spammerにおけるSPFレコード記述率と信頼性

内容 spammer smtpログ全体

送信に使用したIPアドレス数 296,790 1,148,559 送信に使用したドメイン数 119,354 276,375 SPFレコードに記述あるドメイン数 (version1, 2を含む) 20,289 49,435 MXレコードに記述あるドメイン数 107,032 244,696

SPF,MXレコードに記述あり 20,165 49,030

SPFレコード記述内容が正しい 20,154 49,003 SPFレコード記述率(％)

SPFレコードに記述あるドメイン数/送信に使用したドメイン数 17.0 17.8 MXレコード記述率 (％)

MXレコードに記述あるドメイン数/送信に使用したドメイン数 89.7 88.5 MXレコードがSPFレコードにマッチした割合 (％) 99.3 99.0

5.6 実験 3: spammer が使用しているドメインのスコア

5.6.1 実験3の内容

spammerの動作として正常なドメイン (gmail.comやyahoo.comなど) を偽り送信してくるケースが考えられる。そこで本実験ではspammerが使用するドメインに対して以下の判定基準

を設け、Good domain、Bad domainとして評価を行う。以下の条件にあてはまるドメインを

Bad domainとする。

• ^{メール送信回数が}10回以上かつ spamと判断された回数がメール送信回数に対して90％以上

• ^{メール送信回数が}0回かつgreylistされた回数が10回以上一方、以下の条件に当てはまるドメインをGood domainとする。

• ^{メール送信回数が}10回以上かつhamと判断された回数がメール送信回数に対して90％以上

また、以下の条件に当てはまるドメインをBad domain予備軍とする。

• ^{メール送信回数が}0回かつgreylistによって10回未満拒否されている

(28)

実験結果を表 5.5 に示す。spammerが使用しているドメインの中でGood domainと判別できるドメインは全体から考えるとおよそ1％となっており、spammerが正常なドメインを使用せずに独自のドメインを使用している割合が高いことが分かる。しかし依然としてspammerがドメインを偽装してメールを送信しているという事実があるために、送信者認証技術の重要性は今後も高くなっていくものだと考えられる。

表 5.5: spammerが使用したドメインの評価結果 smtpログ収集月 2009年3月

ドメインの総数 119,353

Bad domain 28,963

Bad domain予備軍 57,643

Good domain 1,128

5.7 実験 4: 提案手法 1 DNS レコードを用いた spammer 検出

提案手法1であるDNSレコードを用いたspammer検出を実証的に確認する。

5.7.1 実験4の内容

実験4では提案手法1を用いたspammer検出を行った。実験では/16未満のpreﬁxに関してはpreﬁx値として大きすぎると判断した。/16を閾値としたのは、spamhaus.org[9]が提供して

いるDNSBLでは最大preﬁxの値が/16であり、本研究において比較対象に合わせる意味も持つ。

spam preﬁx作成後に、このspam preﬁxとsmtpログをフィルタリングして検出したsmtpログのスコアを参照して、spammer、spam予備軍、legit、spamメール送信総回数、greylist総回数を調べた。また既存手法としてspamhaus.org[9]が提供するDNSBLを使用してフィルタリングを行った。

実験4の結果を表5.6に示す。提案手法1では既存手法に比べてspammerおよびspammer予備軍の検出数が多い結果となった。legitの検出数は既存手法に比べるとおよそ15倍の検出数となっておりFalse positiveが目立つ結果となっている。この原因としては実験4ではpreﬁxの値

(29)

を/16未満のpreﬁxに関しては除いたが、/16ではpreﬁxの単位としてはネットワークで考えるとかなり大規模なものであるため、このような結果になった可能性が高い。しかしspamメール送信総回数では提案手法では既存手法に比べておよそ20倍のspamメールをブロックできる結果となっており、検出したspammerの1つ1つが大量のspamメールを送信しているspammer でありこのような悪意のあるspammerの検出ができることは有益な手法として活用する事ができると考えられる。

表 5.6: DNSレコードを用いたspammer検出内容提案手法既存手法 IPアドレスの総数 1,148,559 1,148,559 検出IPアドレス数 5,760 1,599

spammer 1,381 437

spammer予備軍 2,832 799

legit 471 33

spamメール送信総回数 33,944 1,626 greylist総回数 68,704 26,843

5.8 実験 5: 提案手法 2 spammer preﬁx を用いた spammer 検出

5.8.1 実験5の内容

実験5では提案手法2を用いたspammer検出を行った。実験5ではprefixの中にspammerが含まれる割合に対してspam prefixの定義を変更しており、各割合としては4/8, 5/8, 6/8の3 通りの基準でspam prefixを作成した。このspam prefixとsmtpログをフィルタリングして検出したsmtpログのスコアを参照して、spammer、spam予備軍、legit、spamメール送信総回数、greylist総回数を調べた。また既存手法としてspamhaus.org[9]が提供するDNSBLを使用してフィルタリングを行った。

実験5の結果を表5.7に示す。実験5ではpreﬁxの中にspammerが含まれる割合に対してspam

preﬁxの定義を変更している。spammerの割合が低くなればなるほど検出するspammerは多く

なった。提案手法2における最大のメリットはlegitの数が既存手法比べて小さく、spammerが 50％の割合でspam preﬁxとしてもlegitの検出数は3という結果からもわかるようにspammer

(30)

が特定のpreﬁxに密集してspamメールを送信してきていることの裏付ける結果となっていることが実験結果となった。また提案手法2と既存手法のspammer検出数を比較したところspam- merの数に注目すると提案手法2が優れていることが分かるが、spamメール送信総回数で比べてみると既存手法がおよそ3倍のspamメールを検出していることから、特にspamメールを多く送信しているspammerを検出できるわけではないが、greylistの総回数で比べてると/29の

preﬁxでありながら既存手法より44579回greylist検出を行っていることになる。つまり提案手

法2で検出しているspammerの多くはgreylistで拒否された後に再送を行っていないspammer を多く検出できる事がわかる。

表 5.7: spammer preﬁxを用いたspammer検出

提案手法 4/8 提案手法 5/8 提案手法 6/8 既存手法 IPアドレスの総数 1,148,559 1,148,559 1,148,559 1,148,559 検出IPアドレス数 1,590 947 499 1,599

spammer 1,037 784 454 437

spammer予備軍 202 111 29 799

legit 3 1 1 33

spamメール送信総回数 569 504 131 1,626

greylist総回数 71,422 50,694 29,761 26,843

5.9 実験 6: 提案手法と既存手法における検出した spammer の比較

5.9.1 実験6の内容

実験6では実験4、5おいて提案手法、既存手法を用いて検出したspammerが同じspammer を検出したのか、異なるspammerを検出したのか実験を行った。実験では3通りの比較を行った。比較の組み合わせは以下の通りである。また実験6で使用した提案手法2のspam prefixの定義としては50％以上spammerが含まれているprefixに関してはspam prefixとしてspammer を検出した結果を使用した。

• ^提案手法1 (DNSレコードを用いたspammer検出)と既存手法(spamhaus.orgが提供する DNSBLを用いたspammer検出)これ以降、「提案1と既存」と表記する

• ^提案手法2 (spammer preﬁxを用いたspammer検出)と既存手法 (spamhaus.orgが提供するDNSBLを用いたspammer検出) これ以降、「提案2と既存」と表記する

(31)

• ^提案手法1 (DNSレコードを用いたspammer検出) と提案手法2 (spammer preﬁxを用いたspammer検出) これ以降、「提案1と提案2」と表記する

実験6の結果を表 5.8 に示す。また各手法におけるspammer検出数を表 5.9 に示す。提案手法1と既存手法との比較を行った場合、350のspammerが異なる手法で検出できた結果となった。既存手法では表5.9 から分かるようにspammerの検出数は437と全体のおよそ80％が提案手法1で検出できている結果となっている。提案手法2と既存手法に関してはおよそ50％の割

合で同じspammerの検出が行われた。次に提案手法1と提案手法2で比較を行った場合、99％

の割合で同じspammerを検出している結果となっており、手法としてのアプローチは異なるが最終的に検出したspammerが同じspammerを検出することができるという結果であった。既存手法だけではspammerのフィルタリングとしては有効的ではなく本研究で提案した手法など様々な検出方法で多角的に検証を行う必要性があることが実験6から分かる。

表 5.8: 各手法における検出したspammerの比較

比較内容提案1と既存提案2と既存提案1と提案2 検出したspammerが

同じspammerの数 350 229 1,021

表 5.9: 提案手法、既存手法を用いたspammer検出数検出手法提案手法1 提案手法2 既存手法

spammerの検出数 1,381 1,037 437

(32)

まとめ

本研究のまとめを述べる

6.1 結論

本研究では、年々増加していくspamメールの現状について言及し、spammerのspamメール送信の手法として送信者認証技術を悪用するspammerが存在していることを実験を通して示した。このような専用のリソースを確保して送信者認証を悪用し正常なシステムを装うことでspam メールを送信するspammerに対して、DNSレコードの情報を用いることで効率的にspammer のインフラを発見する手法と、spammerが一か所のネットワークの集中する特徴を利用して spam- merが潜むネットワークを予測する手法を提案した。実験の結果、提案手法ではspamhaus.org が提供するSBLに比べてspammerの検出数が高い結果となった。spammer検出に関しては１つの手法が正しいというわけではなく、様々な方向よりspammerの特徴を見つけ出し評価を行っていく必要がある。特にspammerのリソースの変化は目覚ましいものがある為にspamメール対策も同じ速度で変化していく必要がある。この中でドメイン偽装に対応するためにSPFの普及は今後も高まっていくと予想される。将来的に送信者認証がメールサーバ管理において必須の設定項目となる場合には、本提案手法は高い確率でspammerのインフラを発見することができるようになるため有効的な手法と考えられる。

6.2 今後の課題

今後の課題として、本研究ではspammerのインフラよりISP毎にスコアをつけることで、個々

のspammerのpreﬁxから大規模なISPレベルまでの検出が行えるのではないかと考えられる。

また提案手法２において本研究では/29のpreﬁxのまとまりで実験を行ったが、より小さいpre- ﬁxでまとめることでさらに精度の高いspammer検出が行う必要がある。同様に、本研究ではspam-

(33)

第 6章まとめ

merの定義をメール送信10回以上かつ90％がspamメールもしくは、greylistで10回以上拒否されたIPアドレスとしたが、spammerの定義さらに厳しくもしくは緩くすることでspammer 検知の変化の調査を行い、より効果的にspammerを検出できる敷居値を見つける事が求められる。

(34)

本修士論文の作成にあたり日頃より御指導を頂いた早稲田大学理工学部の後藤滋樹教授に深く感謝致します。また、研究の初期段階から終了まで多大なる御指導を頂きましたNTT サービスインテグレーション基盤研究所の森達哉氏に深く感謝致します。最後に、研究を進める上で、

貴重なアドバイスを頂きました伊沢信太郎氏、鈴木幹也氏、土居幸一朗氏、時光潤氏、夏目祐輔氏、板倉弘明氏、岸本和之氏、下田晃弘氏、田中祐樹氏、森田慎吾氏、魏元氏に深く感謝致します。さらに研究室で共に苦難を乗り越え、助け合い、励ましあった同期である石原寛之氏、梅原和也氏、栢沼圭輔氏、小山田浩起氏、鶴貝和樹氏、田代賢治氏、出井勝弘氏、野上晋平氏、木佐森幸太氏、藤原崇氏に心より感謝致します。また、頼りない先輩を一生懸命支えてくれた大村淳己氏、尾崎吉彦氏、酒井孝将氏、高橋正綱氏、名倉俊哉氏、本嶋悠也氏、米山諒氏、石井翔氏、

川口敬氏、佐藤圭氏、高田綾香氏、高田和也氏、高野弘子氏、棚澤崇行氏、戸部和洋氏、野間敬太氏に御礼申し上げます。

最後に、多大なる御協力を頂きました後藤研究室の諸氏に感謝致します。

(35)

参考文献

[1] syamantec 10年間におけるスパムに関するレポート

http://www.symantec.com/connect/blogs/2000-2009-spam-explosion

[2] メッセージラボ社

http://www.messagelabs.co.jp/

[3] メッセージラボインテリジェンス2009 年間レポート

http://www.messagelabs.co.jp/mlireport/2009_MLI_Annual.pdf

[4] McColo Takedown: Changes in International Spam Distribution and Asprox Botnet Ac- tivity

http://blogs.iss.net/archive/mccolo.html/

[5] ソフォス社

http://www.sophos.co.jp/

[6] ソフォス社スパムの最新の傾向に関するレポート

http://www.sophos.co.jp/pressoffice/news/articles/2009/07/dirtydozenq209.

html/

[7] Yahoo!!

http://www.yahoo.com

[8] Symantec Corporation http://www.symantec.com/

[9] The Spamhaus Project http://www.spamhaus.org/

[10] SORBShttp://www.us.sorbs.net/

[11] SpamCop.nethttp://www.spamcop.net/

(36)

[12] $12 million ordered from anti-spam group http://www.msnbc.msn.com/id/14855085/

[13] Bayesian spam ﬁltering http://en.wikipedia.org/wiki/Bayesian_spam_filtering [14] Graham,P. A Plan for Spam http://www.paulgraham.com/spam.html

[15] Route Views Archive Project Page http://archive.routeviews.org/

[16] IANA http://www.iana.org/

[17] MaxMind - GeoIP http://www.maxmind.com/app/ip-location [18] the new p0f http://lcamtuf.coredump.cx/p0f.shtml

[19] M. Wong,W. Schlitt,”Sender Policy Framework (SPF) for Authorizing Use of Domains in E-Mail, Version 1”,RFC 4408, April 2006. http://www.ietf.org/rfc/rfc4408.txt [20] 本嶋悠也「IPアドレスの特徴を用いたspamメール判別方法」

早稲田大学理工学部コンピュータ・ネットワーク工学科 2008年度卒業論文, 2008.

[21] 関根義明「IPアドレスとホスト名の特徴によるspamメールの判別法」

早稲田大学大学院理工学研究科情報・ネットワーク専攻 2005年度修士論文, 2005.

[22] 藤井優尚「経路情報に基づくスパムメールの判別方法」

早稲田大学大学院理工学研究科情報・ネットワーク専攻 2004年度修士論文, 2004.

[23] 澤谷雪子三宅優「SMTPサーバにおけるDATAコマンド受信時でのスパムメール判別に関する検討と大規模データによる評価」

IEICE Technical Report NS2009-41（2009-06）. [24] Yugui「初めてのRuby」O’REILLY.

[25] 山西健司「データマイニングによる異常検知」共立出版.

[26] Randal L. Schwartsz, Tom Phoenix, brian d foy, 近藤嘉雪訳「初めてのPerl」O’REILLY.

[27] 渡部綾太, 愛甲健二「スパムメールの教科書」DATA HAUSE.

[28] W.Richard Stevens, 井上尚司監訳, 橘康雄訳「詳解TCP/IPプロトコル』」ソフトバンク, 1997.

DNS レコードおよびプレフィックスの特徴を 用いたスパム検知法

2009 年度 修士論文