• 検索結果がありません。

中 村 邦 彦

N/A
N/A
Protected

Academic year: 2021

シェア "中 村 邦 彦"

Copied!
17
0
0

読み込み中.... (全文を見る)

全文

(1)

81巻 第2

2008

9

‑17 

実用的なベイジアンスパム フィルターシステム

中 村 邦 彦

は じ め に

筆者は先に一般利用者向けのスパムメール対策として,

Thunderbird

に組み 込まれた迷惑メールフィルターの特性を分析し,その機能を効果的に利用する する方法を提案した叫ただし,

Thunderbird

のベイジアンフィルターは日本 語の処理に不十分な点があり,その本来の性能を十分に発揮できていない。そ こで本稿では,日本語処理に優れたベイジアンフィルターを用いた迷惑メール 対策を利用環境別にいくつか提案することを試みた。この場合,メーラーとは 別にベイジアンフィルターを稼働させることになり,設定上でも,運用上でも 少々手間が増えることは確かであるが,フィルターの性能がよいだけに,いっ たん設定し,安定運用に入ってしまえば運用の手間は減少して行くので,長期 的には手間が減少するとも考えられる。使いやすく評価の高いものとして,こ こでは

POPfile[zJ

bsfilter[3l

を取り上げ,利用環境に合わせて次の

4

例 を 紹 介 する。

1 .   クライアント側で処理する

POP

サーバー対応システム

2. 

クライアント側で処理する

IMAP

サーハー対応システム

3. 

サーバー側で処理する複数の利用者向けシステム

4. 

複数のメールアカウントを一括して処理する個人向けシステム

ここで,

1

2

では

POPFile

を ,

3

4

では

bsfilter

を用いた。利用環境は,

(2)

クライアントマシンが

Windows

パソコン,サーバーは

Linux

である。その他,

メールサーバー

(MTA)

としては

Postfix,

メールのローカ)レ配送エージェン トは

procmail, IMAP

サーバーには

CourierIMAP

を使用している。

I

I  スパムフィルター構築事例

2. 1 クライアント側で処理する POP

サーバー対応システム

これはメールサーバーが

POP

に対応し,クライアントも

POPに対応してい

るケースである。フィルタ ーの

POPFile

POP

フロキシーとしてクライアン トパソコン上で動作させる。

POPというプロトコルの性質上,主としてメー

ルの読み書きに使用するパソコンが

1

台の場合に向いている。

POPFile

に対応 し た メ ー ラ ー と し て

POPFile

のサイトでは,

pochy, EdMax, 

電信八号,

EdMax

等を紹介しているが,ここでは

ALMail[4l

を使用する例を紹介する。

AL

Mail

はシェアウェアではあるが,学生,教育機関を対象にした送金免除制度 が あ り , か つ て は 香 川 大 学 で も よ く 使 わ れ て い た か ら で あ る 。 ま た

AL‑Mail

には

POPFile

のためのプラグイン

AL‑POPFile[sJ

があるので,

POPFile

の 使 い 勝 手はよい。

・POPFile

のインストール

インストールはセットアッププログラムに従って進めていけばよい。途中で 次のような,日本語分かち書きプログラムの選択ダイアログが表示される。

Kakasi: 漢字→かな(ローマ字)変換プログラム(推奨)

分かち書きの精度は

MeCabに比べると低い(ひらがなやカタカナで構

成されている単語の情報を持っていない)ですが,

MeCabに比べ辞書

サイズが小さくてすみます

(MeCab40MBに対して2MB

程度)。

Kakasiと辞書ファイルはインストーラに内蔵されています。

MeCab : Yet Another PartofSpeech and Morphological Analyzer 

(3)

Kakasi

よりもより正確な分かち書きを行うことができますが,辞書サイ ズが大きくなります

(40MB

程度)。

インストーラには内蔵されていません。

MeCab

オ プ シ ョ ン を 選 択 し た 場合,およそ

13MB

の フ ァ イ ル が イ ン タ ー ネ ッ ト よ り ダ ウ ン ロ ー ド さ れ,インストールされます。

内蔵パーサ:文字種による分割

外部プログラムを使わずに,文字の種類(漠字,ひらがな,カタカナな ど)だけをたよりに分かち書きを行います。

辞書を使用した分かち書きに比べ分かち書きの精度は落ちますが,辞書を 必要とせず,高速に動作します。

また,そのダイアログに,次のようにも書いてある。

※分かち書きの精度と

POPFile

の 分 類 精 度 の 間 に は 直 接 の 因 果 関 係 は な く,どのプログラムを使用した場合でも分類精度にはほとんど違いがない という結果が出ています。

気 に な る と こ ろ だ が , そ れ は 後 で 検 討 す る こ と に し て , こ こ は 推 奨 の

KAKASJ[5l

を選択しておくことにする。

・コンポーネントの選択

IMAP

を使いたい場合は

IMAP

をチェックする。このケースでば必要がない。

・バケツの作成

POPFile

は実はスパムメールを振り分けるだけのフィルターではない。メー

ルを内容により自動的に振り分けるツールであり,振り分け先のバケツを多数

持 つ こ と が で き る 。 デ フ ォ ル ト で は

spam, personal,  work,  other

4

つ が 作

(4)

成されるが,少なくとも

2つば必要なので,ここではspamとworkを残すこ

(!) 

とにする。

・AL‑Mail

のインストール

特に問題になるようなことはなく,

AL‑Mailをインストール後, AL‑POPFile

AL‑Mail

pluginフォルダーにコピーする。これを利用することにより,

サブジェクトに余分な文字を挿入させることなく,

POPFile

の判定に基づいて メールを

AL‑Mail

のフォルダーに自動的に振り分けることが可能になる。ま た ,

AL‑Mail

から

POPFileに誤判定を修正し学習させることができる。 POPFile

workとspam

のバケツにそれぞれ少なくとも

1

つ以上学習したメールがな いと,すべて

Unclassifiedに分類するので,まずは1

通ずつ学習させることを 勧める。

筆者はしばらくこのシステムを試用していたが,

POPFile

の判定はかなりよ いと言える。ときどき

POPFile

が正しくスパムと判定しているにもかかわらず

AL‑Mail

がスパムとして認識しない場合があった。調べてみると,その種のメ ー ル は サ ブ ジ ェ ク ト の 中 に

EOFコードが埋め込まれていた。 AL‑POPFile

EOFを 検 出 し た 時 点 で 処 理 を 中 止 し た た め に 振 り 分 け 処 理 が 行 わ れ て い な

かったのである。その問題は現在の

AL‑POPFile

では修正されている。

2.2 

クライアント側で処理する IMAPサーバー対応システム

メールサーハーが

IMAPに対応している場合は, POPFile

IMAP

機 能 を 利 用することにより,サーバーにあるメールボックス内でメールの振り分けを行 うことができる。メールを複数の異なるパソコンで読み書きする場合に適して いる。

IMAPを利用する場合は, POPFile

IMAPプロキシーとして働くので

はない。

POPFile

はメールクライアントとは独立に,定期的に処理をしている。

(1) 

バケツの数をある程度多くする方がよいとする説[9]があるが,ここでは単純に2つだ けにした。

(5)

IMAP

方式のメリット

・振り分けを学習させるには,メールクライアント側でメールを移動させる。

POPFile

UI

(ユーザーインターフェイス)を使う必要がない。

・振り分けは

POPFile

が定期的に行うので,ダウンロード時に待たされない。

・複数の環境からアクセスする場合でも,

POPFile

は一ヵ所に設置するだけで よい。

IMAP

方式のデメリット

・定期的な振り分けの前にアクセスすると,その時点では振り分けられていな い(更新間隔の初期値は

20

秒になっている)。

POPFile

起動中はひとつの

IMAP

コネクションが開いたままになる。

POPFile

のインストールは,コンポーネントの選択画面で

IMAP

をチェック することを除いて

POP

サーバーの場合と同じである。

POPFile

インストール後の設定は

UI

から次のように行う。

詳 細 設 定 の

imap̲enabled

1

に ,

pop3̲enabledを0

にして

POPFile

を再 起動する。

•設定ページの IMAP で次の設定をする。

・IMAP

サーバーのホスト名

・IMAP

サーバーのポート番号

・SSL

が利用できる場合は

SSL

を使用する

・IMAPアカウントのユーザー名

・IMAP

アカウントのパスワード

フォルダーリストの更新ボタンを押す

•監視フォルダー 1 を設定。通常は INBOX を指定して適用ボタンを押す

•各バケツに分類されたメールの移動先を設定

•適用ボタンを押す

フォルダーリストの更新

(6)

メールクライアントには

Thunderbird

を使ったが,

IMAP

対応のメーラーで あれば利用可能である。

IMAP

サーハーには

Courier‑IMAP

を使った。

スパムフォルダーは

Thunderbird

では

INBOX.Junkになる。スパムでないも

のを

INBOX

に残すことにして

POPFile

Unclassifiedを未分類というフォルダ

ーに置くことにする。

Thunderbird

で「未分類」フォルダーを作ると,

POPFile

内では文字化けが発生して「INBOX.&ZypSBphe ‑」のように表示されたが,

そのままでうまく動作した。監視フォルダー,ハケッと移動先フォルダーは次 のように設定した。

監視フォルダー

1 INBOX 

'spam' 

バケツに分類されたメールの移動先

→  INBOX.Junk  'unclassified' 

バケツに分類されたメールの移動先

→ 

INBOX.&ZypSBphe‑

(未分類)

'work' 

ハケツに分類されたメールの移動先 → 

INBOX 

この状態で

POPFile

を起動しておく。振り分けの学習は

Thunderbird

から,

未分類になったもの,判定が間違っているものを正しいフォルダーに移動する ことにより行える。したがって,通常の利用では

POPFile

UIを開く必要が

なく,使い勝手はよい。なお,メールを

POPFile

UI

で再分類しても,実際 のメールは移動しない。

2.3 

サーバー側で処理する複数の利用者向けシステム

ここでは多数の利用者がそれぞれ固有のベイジアンフィルターを利用できる 環境を作成する。ベイジアンフィルターとしては

bsfilter

を使う。メールのロ ーカル配送に

procmail

を使い,メールが到着した時に

bsfilter

にかけてスパム か否かを判定し,結果をヘッダーに追加する。

procmail

はその結果により,ス パムであればスパムフォルダーヘ振り分ける。

bsfilter

のインストールは,

Debianetch

ではパッケージが用意されているの

(7)

でそれを利用した。

bsfilter

ruby

で書かれているので,

rubyも必要である。

bsfilter

は日本語の分かち書きの方法として

bigram,block, MeCab[7l, ChaSen,  KAKASIを サ ポ ー ト し て い る 。 こ こ で はKAKASI

を利用した。

ruby

から

KAKASIを呼び出すインターフェイスlibkakasiruby1. 8

もD

ebian

のパッケー

ジに含まれている。

bsfilter

は標準では個人のホームデイレクトリー内に.

bsfilter

というサブデイ レクトリーを作成し,そこにデータベースと設定ファイルを置く。

設定ファイル

bsfilter.conf

の内容

jtokenizer kakasi  insertflag  insert‑probability  spam‑cutoff 0.  7 

insertflag

に よ り メ ー ル ヘ ッ ダ ー に

"XSpamFlag: 

" が 追 加 さ れ る 。 値 は

YesまたはNo

である。

Insertprobabilityによりメールヘッダーに, "X‑Spam‑

Probability : 0. 5"

のようにスバム確率が追加される。

spamcutoff

によりスパム の判定基準を設定する。ここでは

0.7

にしたが,これは最初に簡単なテストを 行って決めた。今のところこれでうまく行っているように見える。

個人の.

procmailrcには次の記述を追加する。

:o  fw 

/usr/bin/bsfi 1 ter ‑‑pipe 

:o 

AX‑Spam‑Flag:Yes 

(8)

Junk/ 

メールの読み書きは

IMAP

対応のメーラーを使えば問題ないが,メール振り 分けの学習をどうするかが問題である。いくつか検討したがフリーのウェブメ ールツールの

Squirrelmail[ioJ

SpamButtons[lll

というプラグインがあり,これ を使うことにした。これを組み込むと

Squirrelmail

の操作画面に「スパム」と

「スパムでない」という

2

つのボタンが追加され(図

1)'

判定が間違っている 場合には学習させることができる。学習は判定が間違っている場合にのみ行わ せた。

1 Spam̲Button

プラグインにより

SquirrelMail

に追加されたボタン

ウェブサーバーから個人のデータを更新することになるので,

sudo

を使っ て

bsfilter

を 利 用 者 の 権 限 で 実 行 で き る よ う に す る 。 設 定 は

Spam̲Button

config.php

に記述する。

スパムとして学習させるコマンド(実際には

1

行に記述する)

sudo ‑u ###USERNAME### /usr/bin/bsfilter 

‑‑homedir=/home/###USERNAME###/. bsfilter ‑u ‑s 

非スパムとして学習させるコマンド(実際には

1

行に記述する)

sudo ‑u ###USERNAME### /usr/bin/bsfilter 

‑‑homedir=/home/###USERNAME###/. bsfilter  ‑u ‑c 

###USERNAME###

は,実行時に実際のユーザー名に置き換えられる。

(9)

/etc/sudoers

への追加

www‑data  ALL=(ALL)  NOPASSWD:  /usr/bin/bsfilter 

Spam̲Buttons

か ら 学 習 さ せ る と 次 の よ う な 奇 妙 な 日 本 語 が 表 示 さ れ て 微 笑 ましい。

「順調にスパムじゃないのように届け出ました」

このシステムでは,通常は

Thunderbird

を使うことを想定している。メール は

Thunderbird

を 起 動 し た と き に は す で に 分 類 さ れ て い る が , そ の 分 類 が 間 違っているときはウェブブラウザーで

Squirrelmail

を呼び出して修正しなけれ ばならない。その点は使い勝手が悪いが,操作は該当するメールをチェックし てボタンをクリックするだけなので操作性は悪くない。学習が進めば誤判定 は 少 な く な る の で 実 用 上 は 許 さ れ る 範 囲 で あ る 。 も っ と も , メ ー ラ ー は

Squirrelmail

だけで十分という場合は

Thunderbird

を使う必要はないし,学習が 進むまでは

Squirrelmail

をメインに使うという対応も考えられる。

多数の利用者に利用させるシステムでは,スパムフィルターを使わない利用 者への配慮が必要になるかもしれない。その場合は初期設定でスパムボタンを 表示しないようにしておき,希望者だけが表示できるようにすればよい。その 修正の例を示す。

Squirrelmail

defaut.pref

に次の行を追加する。

sb̲enable̲or̲disable=O 

・オプション設定のページに

SpamButtonを使うか使わないかのオプションを

追加

function spam̲buttons̲display ̲options̲do () 

の中

(10)

$sb̲enable̲or̲disable = getPref($data̲dir,  $username, 

'sb̲enable̲or̲disable',  $sb̲enable̲or̲disable); 

$my̲optpage̲values[]  = array( 

name , 

' . '  caption  ' '  type 

=〉 'sb̲enable̲or̲disable',

=〉̲("Spam Button Enable"), 

=〉 SMOPT̲ TYPE̲BOOLEAN,  'initial̲value'=$sb̲enable̲or̲disable, ' '  refresh  =〉 SMOPT ̲REFRESH̲NONE, 

ヽ ` ' ー •9

config.phpの$show̲spam̲buttons̲on̲message̲list =l ; 

となっているところを 修 正

$show̲spam̲buttons̲on̲message̲list = getPref($data̲dir,  $username,  'sb̲enable̲or̲disable',  $sb̲enable̲or̲disable); 

2.4 

複数のメールアカウントを一括して処理する個人向けシステム 通常なら

2.3

のようなシステムでよいのだが,箪者の場合は複数のメールア ドレスがあり,それぞれにベイジアンフィルターを用意して学習させるのは手 間である。そこですべてのメールを専用のアカウントに集めてそこに判定用の 共通のデータベースを作成し,個々のアカウントのメールの判定はそのデータ ベースを利用して行うようにした。

設定は個々に処理する場合とほぼ同じであるので省略する。

実際にすべてのメールをひとつのアカウントに集めなくても,判定用のデー

タベースだけを共通にすることも考えられるが,今回はーカ所に集めて学習さ

せた。このようにすればすべてのメールについての学習をーカ所で行うことが

できてよいのだが,異なるアカウントにコピーして配送するだけでもヘッダー

(11)

表 1 5 ヵ月間のスパム確率の頻度 スパム確率

0.0   0.1   0.2   0.3~

0.4   0.5   0.6  

非スパム

1,332 

158  147  175  912  1,728 

126  13,989  96,460  llO, 721 

部分が修正されてしまう。そのため,学習用のアカウントでは正しく判定され ていても,個々のアカウントでは誤判定される場合がまれに発生する。

このシステムは

200711

月末から使い始めた。

12

月 は ト レ ー ニ ン グ 期 間 として除外し,

20081

月から

5

月までの

5

ヵ月間のスパム判定率を求めた ところ

99.9%

であった。スパムでないものでスパムと判定されたものは,サ ブジェクトなし,本文なしなどの学生からの無作法なメールの他, C言語のソ ースプログラムを含むもの,本文に

csv

形式のデータを含むものなどがあっ た。プログラムやデータは少量でも添付ファイルにする方がよさそうである。

l

にスパム,非スパムのスパム確率の頻度を示す。網掛けは誤判定にあた る。ただし,これはスパム確率

0.7

を閾値にして学習させた結果であることに 注意してほしい。

なお,このシステムでは,これまで学習させたメールはスパムが

181

通,非 スパムが

65

通,データベース内の登録単語数は

23,343,

データベースのサイ ズは約

2.3MB

になっている。

分 か ち 書 き ツ ー ル に よ る 違 い

分かち書きツールによる違いを検討してみた。

(12)

3.  1

処 理 速 度

MeCab

のウェブサイトには「平均的に

ChaSen,Juman, KAKASIより高速に

動作します」と書いてある

oKAKASIより速いのであれば使ってみたいと思っ

て速度を比較してみた。メールは日本語と英語を合わせて

2,000

通を用意し て ,

bsfilter

で処理した結果を示す。

2 bsfilter

における分かち書きツールの比較 比較項目

bigram  KAKASI  MeCab 

単語学習(秒)

30.9  36.5  58.6  DB

更新

8.1  6.9  6.8 

学習時間

39.0  43.4  65.4 

英語単語数

17,611  17,611  17,611 

日本語単語数

38,412  30,971  29,182  DBサイズ(KB) 5,244  4,984  4,944 

これで見る限り,筆者の環境では

MeCabはKAKASIより遅い。後に見るよ

うに分かち書きの精度が高いので余分な単語が少なくなり,データベースのサ イズは小さくなるが,単語学習には約 1 .

6

倍の時間がかかっている。

3.2 

分かち書きの精度

POPFileにおいて,分かち書きツールの違いはフィルターの精度に出ないと

いう報告がある

[15]

。これは意外な感じがする。そこでその分かち書きツール を比較してみた。元にしたのは次のような簡単なメールである。

Subject: 通常のメール

香川一郎様

いつもお世話になっています。

この度はスパムメールの実験に協力いただきありがとうございます。

このメールは普通のメールのつもりです。

よろしくお願いいたします。

(13)

香川大学経済学部 中村邦彦

これを

POPFile

の内部パーサーと

KAKASI

に か け た も の を 比 べ た の が 表

3

である。

3 POPFile

の内部パーサーと KAKASIによる分かち書き単語

POPFile Internal  KAKASI 

いいたします

いたします

いただきありがとうございます いただきありがとうございます

いつもお いつもお

この この

になっています になっています

の の

のつもりです のつもりです

i

よろしくお よろしくお

スパムメール スパムメール

メール メール

—• 良〖 一月〖

学部

願 願い

協力 協力

経済 経済学部

香川 香川

実験 実 験

世話 世 話

大学 大学

中村 中村

通常 通 常

度 度

普通 普 通

邦彦 邦彦

様 様

(14)

後で示すように,さすがに

MeCab

は少し違うが,

POPfile

の内部パーサーと

KAKASI

の分かち書きの結果はほとんど同じである。

次に,

bsfile

POPFile

の学習単語を比較してみた

oKAKASI

の結果を処理 したものを表

4

に ,

MeCab

の結果を処理したものを表

5

に示す。表の 0 印は 学習されたことを表す。「願い」は

bsfilter

では「願」として学習された。

4 bsfilter

POPFile

による学習単語の比較

1 KAKASI  bsfilter  POPFile 

いたします

いただきありがとうございます

いつもお この ゜ ゜

になっています

のつもりです

よろしくお

スバムメール

゜ ゜

メール ゜ ゜

—• 良〖

゜ ゜

願い 願

協 力

゜ ゜

経 済 学 部

゜ ゜

香川

゜ ゜

実 験

゜ ゜

世話 ゜ ゜

大 学中村

゜ ゜ ゜ ゜

通 常

゜ ゜

゜ ゜

普 通

゜ ゜

邦彦 ゜ ゜

様 ゜

(15)

5 bsfilter

POPFile

による学習単語の比較

2 MeCab  bsfilter  POPFile 

ありがとう

いたし ゜

いただき ゜

いつも ゜

お願い ゜ ゜

お世話 この ゜ ゜ ゜

ござい ゜

つもり です ゜ ゜

なっ ゜

に の は

ます ゜

よろしく ゜

スパムメール

゜ ゜

メール ゜ ゜

—· 良〖

゜ ゜

協力

経済学部香川香川大学

実験 通常 普通 邦彦

中村

゜ ゜ ゜ ゜ ゜ ゜ ゜ ゜ ゜ ゜ ゜ ゜ ゜ ゜ ゜ ゜ ゜ ゜ ゜

(16)

意外なのは,

bsfilter

は ひ ら が な の 単 語 を 学 習 し な い 傾 向 が 強 い こ と で あ る。この例では学習したひらがな語は「つもり」だけである。実際,筆者の使 用している

bsfilter

の学習済み単語の中にはひらがなを含むものは皆無であっ た。それに対して

POPFile

はひらがな語をよく学習しているが,

1

字の単語は 漠字であろうとひらがなであろうと捨てているように見える。

以上から,

POPFile

において,内部パーサーと

KAKASI

の間で差が出ない理 由は明らかである。一方,

MeCabとKAKASIとで異なるのはひらがなを含む

語だけと言ってよい。両者で差が出ないというのなら,ひらがな語はスパム判 定への寄与が小さいと言えるのではないか。ひらがな語を全く学習していない

bsfilter

が好成績をあげていることからもその可能性は高いと言えよう。

w

む す び

ベイジアンフィルターを利用したスパムメール振り分けシステムをいくつか 紹介した。フィルターは日本語環境に十分対応しているものを使えば,かなり の好成績でスパムを排除できることが確認できた。ベイジアンフィルターによ るスパムの振り分け

[12][13] [14]

は,理論的にはすっきりしているが,いざ実装し よ う と す る と さ ま ざ ま な 工 夫 が 必 要 に な る 。 本 稿 で 取 り 上 げ た

POPFileと bsfilter

についてだけでも,確率の計算方法,日本語メールそのものの取り扱 い,日本語の分かち書き,学習する単語の選択等において,それぞれ独自のエ 夫が施されている。また,それを実際に使用する場合はユーザーインターフェ イスを工夫する必要もある。

今回調べてみて意外だったのは,筆者の使用している

bsfilter

KAKASI

に よるフィルタリングシステムは,好成績をあげているにもかかわらず,ひらが な語をまったく学習していなかったことである。一方で,ひらがな語を多く学 習している

POPFileMeCab

のシステムは

KAKASIを使った場合と差がない

と言う。ひらがな語の扱い方を検討してみる余地がありそうである。

(17)

参 考 文 献

中村邦彦,「Thunderbirdの迷惑メールフィルター」,香川大学総合情報センター年報,

5

号 ,

2008

2

2]  John Graham‑Cumming, "POPFile" : http://getpopfile.org/ 

3]  nabeken,  bsfilter  / bayesian  spam  filter / ベ イ ジ ア ン ス パ ム フ ィ ル タ ": http://  bsfilter .org/ 

] AL‑Mail : http://www.almaiLcorn/ 

] AL‑POPFile  (ALMail 32用プラグイン): http://www  c. .rosstech.eo.jp/alpopfile/  6]  KAKASI 漠字→かな(ローマ字)変換プログラム: http://kakasi.namazu.org/ 

7]  MeCab : Yet  Another  Part-of~Speech~nd Morphological  Analyzer : http://mecab  sourceforge.net/ 

8]  ChaSen

形態素解析器:

http://chasenlegacy  s ..ourceforge jp/ 

9]  popfileの設定方法: http://www.tatsuya.dnsalias. corn/cgibin/soho/index. php ?popfile  [10]  SquinelMail:  http://www.squinelmail.org/ 

[11]  Spam̲Buttons SquirrelMail Plugin : http://www . .squirrelmaiLorg/plugin̲ view. php?id 242  [12]  Paul Graham,  "A Plan For Spam" : http://www.paulgraham.com/spam.html 

[13]  Gary  Robinson,  "Spam  Detection" : http://radio.weblogs.com/Ol01454/stories/2002/09/l6/  spamDetection.html 

[14]  Gary Robinson,  "A Statistical  Approach to  the  Spam Problem" : http://www.linuxjournal  corn/article.php?sid 6467 

[15]  POPFile/Accuracy : http://amatubu.sla.jp/?POPFile/Accuracy 

表 1 5 ヵ月間のスパム確率の頻度 スパム確率 0.0   0.1   0.2   0.3~  0.4   0.5   0.6   非スパム1,33 2 158 147 175 912 1,728  1 2 6  1 3 , 9 8 9  9 6 , 4 6 0  l l O ,  7 2 1  部分が修正されてしまう。そのため,学習用のアカウントでは正しく判定され ていても,個々のアカウントでは誤判定される場合がまれに発生する。 このシステムは 2 0 0 7 年 1 1 月末から使い始めた。 1 2
表 5 b s f i l t e r と POPFile による学習単語の比較 2 MeCab  b s f i l t e r  P O P F i l e  ゜ ありがとう ゜しいたし ゜いただき ゜いつも ゜お願い ゜ ゜お世話この ゜ ゜ ゜ござい ゜つもりて です ゜ ゜ ゜なっ ゜にの は ます ゜よろしく ゜スパムメール ゜ ゜メール ゜ ゜—· 良〖 ゜ ゜協力経済学部 香川 香川大学 実験 通常 度 普通 邦彦中村 ゜ ゜゜ ゜゜ ゜゜ ゜゜ ゜゜ ゜゜ ゜ ゜ ゜ ゜ ゜ ゜様 ゜

参照

関連したドキュメント

Bでは両者はだいたい似ているが、Aではだいぶ違っているのが分かるだろう。写真の度数分布と考え

エッジワースの単純化は次のよう な仮定だった。すなわち「すべて の人間は快楽機械である」という

汚染水の構外への漏えいおよび漏えいの可能性が ある場合・湯気によるモニタリングポストへの影

断するだけではなく︑遺言者の真意を探求すべきものであ

場会社の従業員持株制度の場合︑会社から奨励金等が支出されている場合は少ないように思われ︑このような場合に

以上の基準を仮に想定し得るが︑おそらくこの基準によっても︑小売市場事件は合憲と考えることができよう︒

本制度では、一つの事業所について、特定地球温暖化対策事業者が複数いる場合

大村 その場合に、なぜ成り立たなくなったのか ということ、つまりあの図式でいうと基本的には S1 という 場