spamメールの現状と対策の動向:2. 技術的側面から見たspamメール対策 2.3 フィルタリング
4
0
0
全文
(2) 2. 技術的側面から見た spam メール対策 3. フィルタリング. ベイジアンネットワークの例 確率変数のセット. 確からしさ. 情報 処理 学会 会員 無料 女性 出会 情報 処理 学会 無料 女性 出会 情報 処理 学会 会員 処理. 女性. 会員 無料. 出会. の時は. 低い. の時は. 高い. の時は. 低い. の時は. 高い. 先験的事象 情報処理学会からのお知らせ 学生会員の1研究会会費無料化申請受付中 の時は. 情報 処理 学会 会員 無料. ?. 確率変数のセットと先験的事象からある確率変数の条件付確率を求める. 図 -1 ベイジアンネットワーク. ンを辞書に持たせるという手法が検討されている.別の. ティックの選択方法」は「合わない奴は捨てる」か「変. 見方をすれば,それだけ人間の単語認識の能力は奥が深. 数変換して無理やり合わす」とかいろいろあるらしい.. く,認識という分野の研究成果もそこまでは及ばないと. 「統計的ではない」という理由でその辺の手法の定式化. も言える.単語を単語として認識させない手法はほかに. は放置されているような気もする.ちなみに前述の理. もあり,たとえば HTML のコメント文で単語を分断す. 由でどのような特徴を抽出しているかは隠蔽されたまま. る手法もよく見られる.さらには単一の文字でバナーを. であるが,たとえば,ベイジアンフィルタと連動して辞. 作って商品名を表示する例もある.spam メール対策で. 書に登録されていない文字列の出現を特徴の 1 つとし. ベイジアンフィルタの歩んでいる道はかなり険しい.. て扱うヒューリスティックフィルタもあるかもしれない.. また,spam メールの中にランダムな単語列を含ませ. アイディアはいくらでも出てくるがフィルタの性能はそ. るという方法も散見される.これは,ベイジアンフィル. の取捨選択に大きく左右されるものと思われる. 「ヒュー. タは辞書に登録された単語の出現傾向で判定をしている. リスティックの観点を外そうとすればするほど普通の. ので,そもそもの情報にノイズを入れてしまえというア. メール文面から離れていくので検出が容易になる」とい. プローチである.判定が狂うという側面もあるが,そう. う指摘もある.だが,各製品がどのような特徴抽出をし. いうランダム文字列を含む spam メールを spam メール. ているかはプロプライエタリの壁に阻まれて具体的に知. として学習させるとベイジアンフィルタの辞書がダメに. ることは困難である.. なるという 2 次被害が出る.ランダムな単語列を判定 して取り除くアプローチも登場しているが,ランダムな 文字列でなくとも,ニュース記事の最後に URL を 1 行. 【パターンマッチフィルタ】. これもヒューリスティックの一部と捉えることが可. 記載した spam メールさえ出現してきている.そういう. 能かもしれないが,統計手法を介さずに,単純にパター. 意味では spammer はベイジアンフィルタを十分に研究. ンにマッチしたものを叩き落とす/素通しするタイプの. し警戒している感がある.. フィルタをパターンマッチフィルタという.正規表現を. ここまでに述べた辞書に登録された単語の出現傾向だ. 積み上げるタイプの製品が何種類か出ているが,問題は. けから判定を行うベイジアンフィルタは「ナイーブな」. その正規表現を誰が書くのかである.サイト,ドメイン,. ベイジアンフィルタと呼ばれている.. ユーザの 3 層でそれぞれ設定が可能なフィルタも存在. 【ヒューリスティックフィルタ】. メールの本文から個々の観点で特徴抽出をし,それを 積み上げて spam メールかどうかを判定するフィルタで ある.前述のようなベイジアンフィルタとの融合型もあ るが,他の統計手法を利用したものもいくつか出てき ている. 「spam メールの抽出に都合の良いヒューリス. するが,ベースになるパターンをベンダが提供したとし ても,結局はユーザや管理者が適切な正規表現を書ける かどうかに最終的な性能が依存する.. 【協調型フィルタ】. spam メールのディジタルシグネチャ等の情報を多く のサイトで共有し,同じ文面,同じ種類のものが届い IPSJ Magazine Vol.46 No.7 July 2005. 759.
(3) 特集. spam メールの現状と対策の動向. spam データベース. メールの配送. spam情報の 共有. spamの登録 MTA/MDA. spam情報の 共有. spam情報の 共有 MUA. spam DB. MTA/MDA. spam DB. MTA/MDA. MUA. MUA. spam DB. spamの判定 MUA. MUA. ユーザが 判断. MUA MUA. MUA. MUA. 図 -2 協調型フィルタ. た際に spam メールを排除しようとするフィルタである. ることで spammer によるアドレスの流通自体を無意味. (図 -2) .オープンソースの spam フィルタとして有名な. にする手法.別のアドレスからある自分のアドレスへの. SpamAssasin に含まれている Razor という仕組みなどが. spam メールが来ても受け付けない.自分のメールアド. これに該当する.個人レベルの spam メールの定義の違. レスに付加情報を埋め込むわけだが,米国では AT&T が. いを吸収することはできないが,同時に大量に配送され. 特許を持っており,日本にはずばりそのものに対応する. る spam メールに対しては,ピックアップから情報の共. 特許は見当たらず,かわりに暗号を埋め込むものについ. 有までが十分な速さで行われれば非常に有効な対策とな. ての特許がいくつか存在し,昨年 11 月から今年 3 月ま. る.最近ではヒューリスティックな解析結果を共有した. で NTT が「privango」という名称で公開実験をしてい. り,ヒューリスティックの構成そのものを共有するタイ. たものがこれに相当する.わざわざ暗号を使って認証し. プのものもあるらしい.かといって,個人の spam メー. なくても,あて先と自分のどのアドレスが対応するのか. ルの定義を反映しているベイジアンフィルタの辞書を単. の対応表がきちんと管理されていればフィルタとして実. 純に共有するのはあまり良いアイディアではない.中に. 装可能である.ホワイトリストの進化形と見ることもで. は 135 万人超のユーザコミュニティから情報を収集す. きる.. る協調型フィルタ製品も存在するようである.. 【自動確認付きホワイトリスト】. メールの送り主に対して「本当にメールを送りたいな らもう 1 度送ってね」というメールを返し,それに返. ■ フィルタの進化 【ベイジアンフィルタと日本語】. 英語対応で作られたベイジアンフィルタに日本語の. 答した送り主だけを送信許可リストに登録し,次からは. 文章を処理させると,漢字 1 文字を「単語」として扱. 普通に送信を許可する仕組み.メーリングリストのアド. うようになっているものも,そもそも扱えないものもあ. レス登録確認の手続きに類似している.単純で効果は. り,それらの場合には判定の精度はあまり期待できな. 抜群だが,メールで本人確認をする外部のサービスなど,. い.日本語の文章を単語に分解するには結局日本語文. 相手がどのアドレスからメールを送ってくるか分からな. 字列を単語に分離する仕組みと日本語の辞書が必要に. い場合には何らかの救済措置が必要になる.. なる.実際に日本語の辞書を使って文章を単語に分解. 【Channeled Address】. あて先アドレスごとに専用の自分のアドレスを用意す. 760. 46 巻 7 号 情報処理 2005 年 7 月. してベイジアンフィルタを構成している例もある.メー ルの文章をベイジアンフィルタで処理する場合はこの 辞書の言語依存の問題のほかにも,MIME で base64 や.
(4) 2. 技術的側面から見た spam メール対策 3. フィルタリング quoted-printable でエンコードされている文書のデコー. ルが溜っていることもあるが,やはりウイルスフィル. ドや,HTML で書いてある場合には実体参照(entity). タの処理と MUA によるパターンマッチのフォルダ振り. の復号などが前処理として必要になる.MIME multipart. 分け処理と spam 判定をやっている処理の重さが,ノー. を使っている場合には再帰的に MIME パートの入れ子. ト PC の非力な環境で顕在化しているように見える.こ. 構造に従ってデコードが必要になる場合がある.さらに. のような環境はどこの組織にもありそうだが,休み明け. は,MIME のメールの文章は ISO-2022-JP 以外の異なる. の朝,仕事を始めようとしている時の大きなタイムロス. 文字コードで書かれている場合があるので,文字コード. に閉口してメールを処理するメインの環境を切り替え. の変換が前処理に必要になることもあろう.問題はこれ. るに至っている.高機能なフィルタリング機能を備えた. らの処理をきちんとやらないと,せっかく日本語の辞書. MUA の実用上の課題としてもうしばらく見守る予定で. を積んで正しく単語として扱えたとしても,ちっとも効. ある.. 果が上がらないことにある.世間で評価の高いベイジア ンフィルタのソースコードを読んでみると,実はこれら の前処理がしっかりしていることが多い.ただし,手の 込んだ処理は同時に負荷の原因にもなっている.. 【ヒューリスティックフィルタとベイジアンフィ ルタの融合】. ■ コンテンツフィルタのこれから 研究ベースでは単語ではなくマルコフ過程で生成し た単語列に対して条件付き確率のネットワークを適用し たマルコフィアンフィルタの spam メールに対する有効 性も調べられているが,結果を見るといまひとつであ. 前 述 の「 ナ イ ー ブ な 」 ベ イ ジ ア ン フ ィ ル タ は. る.ヒューリスティックをベースにベイジアンではな. spammer の数々の妨害手段の前にすでに突破されてし. い統計手法を組み合わせた製品も出てきており,コン. まっている.だが,ベイジアンフィルタにはもう可能性. テンツフィルタはまだまだこの先どうなるかは見えない. がないのかと言えばそうではない.ベイジアンフィル. が,せっかくなのであえていくつか予想を立ててみよう.. タの扱う確率変数には離散的であること以外に特に大. spam メール対策にもいろいろあるが,現状フィルタの. きな制限はない.ということは,ヒューリスティックで. 機能はクライアント側に集中して実装されているように. 抽出したいろいろな特徴もベイジアンフィルタの内部で. 見える.サーバとクライアントの能力バランスは太陽の. 確率変数として扱うことが可能である.現在のベイジア. 活動周期と同じくらいの長周期で振動しているように見. ンフィルタは確率変数として辞書の単語の出現傾向だけ. えるので,今後はサーバ側に実装するフィルタ機能が少. を扱うのではなく,ヒューリスティックを確率変数とし. しずつ伸びてくることが予想される.もちろん,クライ. て含める拡張をもしてきていると思われる.だが,どこ. アント側の負荷の増大がこの動きを加速する可能性はあ. を見て判定しているのかを明かした途端にそこにノイズ. る.ユーザ数の多いメールで顕在化した問題点は,より. を入れられることが容易に推察できるためか,オープン. ユーザ数の少ないアプリケーションで次々に顕在化して. ソースのフィルタリングソフトウェアを除くと,多くの. いくだろう.spam メールに対するコンテンツフィルタ. 製品ではベイジアンフィルタであること以上の情報開示. は対症療法であり,そこに本質的な問題解決を求めるの. をしていない.特徴抽出の部分は隠蔽されたままである.. は間違いである.だが,その QOL(Quality Of Life)を. 【MUA の実装】. 向上させる効果は否定し難いものがある.spam メール が問題化しなかったら,ベイジアンフィルタがこれだけ. いまどきの MUA は,ホワイトリスト機能もパターン. 有名になることもなかったかもしれない.実は筆者も十. マッチ機能も,ベイジアンフィルタも搭載している.実. 数年前には統計力学を少々かじっていた人間である.こ. 装の差は多少あるものの,ユーザの手元にある MUA. の分野からどのような面白い技術の応用が出てくるかは. にはフィルタ技術が集積されている.それもこれも,. とても楽しみなことである.今後も spam メールがこれ. spam メールの定義が人によって違うことをカバーしよ. 以上ひどい状況にならないよう祈りながら見守っていき. うとした結果に見える.だが,扱うメールの数が多い場. たい.. 合には MUA の負荷がかなり気になる.筆者は 1 日 400 ∼ 800 通のメールを受信しており,トラブルに備えて. 3 種類の MUA 環境でそれを処理しているが,最近特に 気になっているのはノート PC 上の MUA で,POP サー バからメールを取得する際に 1 通あたりほぼ 1 秒程度. 参考文献 1)Graham, P.: A Plan for Spam, http://www.paulgraham.com/spam.html (2002). 2)Oliver, J.: Using Lexigraphical Distancing to Block Spam, MIT SPAM Conference (2005). (平成 17 年 6 月 16 日受付). の時間を消費している.すでにフォルダに大量のメー IPSJ Magazine Vol.46 No.7 July 2005. 761.
(5)
関連したドキュメント
性」原則があげられている〔政策評価法第 3 条第 1
●大気汚染防止対策の推 進、大気汚染状況の監視測 定 ●悪臭、騒音・振動防止対 策の推進 ●土壌・地下水汚染防止対 策の推進
■横置きタンクについては、H26.12を目処に撤去を実施予定。.. 対策
当面の施策としては、最新のICT技術の導入による設備保全の高度化、生産性倍増に向けたカイゼン活動の全
予測の対象時点は、陸上競技(マラソン)の競技期間中とした。陸上競技(マラソン)の競 技予定は、 「9.2.1 大気等 (2) 予測 2)
対策 現状の確認 自己評価 主な改善の措置 実施 実施しない理由 都の確認.
・災害廃棄物対策に係る技術的支援 都民 ・自治体への協力に向けた取組