• 検索結果がありません。

修 士 論 文 概 要 書 Summary of Master’s Thesis

N/A
N/A
Protected

Academic year: 2021

シェア "修 士 論 文 概 要 書 Summary of Master’s Thesis"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

修 士 論 文 概

Summary of Master’s Thesis

Date of submission: 1/31/2012 専攻名(専門分野)

Department 情報理工

Name 高野弘子

指 導 教 員 Advisor

後藤滋樹

印 Seal 研究指導名

Research guidance 情報システム工学研究

学籍番号 Student ID

number 5110B076-4

研究題目

Title ブログにおけるコメントスパムの収集と分析

概要

ブログは手軽な情報発信ツールとして広まって いるが、そのためにブログを使用したスパム行為も 存在し、多くのユーザーにとって大きな問題となっ ている。その中の1つとして、自身のブログの宣伝 や検索エンジンの掲載順位を上げる目的で URL を含めたコメントを大量に複数のブログに投稿する コメントスパムがあげられる。

これを防ぐ方法として、主に禁止ワードによるフ ィルタリングやコメント文字列に対する特徴解析が 研究されてきたが近年は普通のコメントに見せかけ たコメントスパムが増えてきている。

今回はこれらのコメントでもスパムと判定できるよ うに、ほぼすべてのスパムコメントが何らかのプログ ラムを使用し、自動的に書き込まれていることを利 用し、フィルタリングでは防ぎにくいスパムコメントを 発見・収集することを目的とし実験を行った。

1 ブログ 1.1 ブログとは

ブログとは本来「Web」と日記という意味の「Log」

を合わせた造語「Weblog」のことである。日々の行 動記録やニュースに対する自分の見解などを、

HTML 等の知識を必要とせず手軽に発信すること ができるため Web における主要な情報発信の場 の一つとなっている。

1.2 ブログにおけるスパム行為

ブログには他のブログ運営者の交流の手段とし てトラックバックやコメントなどの機能があるが、これ を利用してスパムを行う行為がある。スパムを行う 理由として自分のサイトへ誘導すること以外にも Google などの検索エンジンにおいて検索結果の 上位に入れる目的がある。サイトの持つリンク数が 掲載順位の指標の 1 つとされているため、リンクが 作成されるこれらのスパムは消されずに残っている だけでスパマーの目的は達成される。

1.3 既存のスパム対策

主なブログサービス提供会社では禁止ワードを 使ったフィルタリングやブラックリストによる IP アド レスのアクセス禁止、自動巡回ツールによる投稿を 防ぐための画像認証等の対策を講じている。また、

[2] の研究のようにスパムメールで大きな効果を上 げているベイジアンフィルタを適用する研究もある。

しかし、フィルタリング等の対策をすり抜けるスパム コメントも多く存在している。コメント本文は正規の コメントと見分けがつかないが、付随している URL をたどると出会い系サイトや情報商材の販売サイト に遷移するなど通常のスパムコメントと変わらない。

今回はこれらのスパムを効率よく収集する実験を 行った。

2 提案手法

他のスパムメールと同じく、コメントスパムにおい ても自動ツールが使用されているため、スパマー が投稿するコメントは数種類のパターンがありこそ すれ、ほぼ同一のものである。これを利用し、複数 のブログからコメントのみを収集し、同一のコメント を見つけることで、フィルタリングでは識別が難しい スパムも発見できると考えた。

また2つ目の特徴として、巡回ツールは古い記 事にもコメントを投稿することがあげられる。活発に 行動を行なっている運営者はスパムコメントをすぐ 消してしまうため、こうした放置されたブログなどの スパムが集まっているブログに絞って収集を行う。

2.1 スパムコメントの種類

ブログから抽出したコメントは本文の他に HTML ファイルのファイル名、コメントが投稿された記事の 作成日時、コメント本文、コメントの投稿日時、投稿 者名、付随する URL 情報を付けて1つのレコード とする。このうち、コメント本文と投稿者名・URL の どちらかが同一のものが複数異なるブログに投稿 されていた場合、スパムコメントとして定義する。ま た集まったスパムコメントを以下の3つのカテゴリに 分ける。

カテゴリ 1 アダルト系や金銭に関する単語などを 含む、一見してスパムとわかるもの

カテゴリ 2 カテゴリ 1 のようなフィルタリングされや すい単語を含まないが自分のサイトへ誘導するも の

カテゴリ 3 誘導の言葉を持たず、自身のサイトへの 誘導の言葉もないもの

3 評価実験 3.1 実験の概要

今回は検索キーワードを変えてブログを検索し、抽 出されたコメントデータを3種類取得し 3 度の実 験・分析を行った。

(2)

データ A カテゴリ 3 のコメントとして有名な文章を 検索キーワードとし、得られた 100 件のブログそれ ぞれの記事すべてから得られたコメントを集めたも の

カテゴリ 2 カテゴリ 1 のようなフィルタリングされや すい単語を含まないが、自分のサイトへ誘導するも の

カテゴリ 3 誘導の言葉を持たず、自身のサイトへの 誘導の言葉もないもの

データ B データ A との比較対象として、最新の検 索キーワードランキングの上位の単語を使い、デ ータ A と同様にしてコメントを集めたもの

データ C データ A から得られた全スパムコメント を検索キーワードとし、ヒットした上位 20 件のブロ グページから抽出したコメントを集めたもの また、それぞれのデータから得られた情報を表 1 に まとめる。

実験 1 ではデータ A とデータ B を得られた総 コメント数と総スパムコメント数との比較を行い、ス パムが残っているブログに絞ってデータを取得す る有用性を検証した。また、この方法でカテゴリ 3 のコメントスパムが取得できることを示す。

表 1: データ A・B・C から得られた情報

データ名 総コメント数 総スパムコメント数

A 4,788 288

B 106,721 46

C 8547 1,257

実験 2 ではデータ A とデータ C を得られた URL から比較し、スパマーの持つ複数のブログの 存在を検証した。

実験3ではデータ A とデータ C をコメントの種 類から比較し、得られたスパムコメントを検索キーワ ードとし、HTML ファイルを分析することについての 有用性を検証した。

3.2 実験 1

表 2: データ A・データ B のコメント構成

コメントの種類 データ A データ B 正規のコメント 4,500 106,675

1 34 29

2 102 9

3 152 8

表 1 により得られたスパムコメントをカテゴリ別に 数えたものを表 2 に示す。

予想通り、ブログによってスパムの量はかなりの 開きがあることがわかった。データ B は頻繁にブロ グを更新する運営者のブログが含まれているため、

データ A と比べてファイル数や総コメント数は多い がスパムはすぐに消されてしまう。また、表 2 より、フ ィルタリングでは認識しにくいカテゴリ3のコメントも 取得できていることも分かった。

3.3 実験 2

データ A において得られたスパムコメントに付随し

た URL の数と、同様にデータ C で得られた URL の数をカテゴリ別に比較した結果が表 3 である。総 数から見れば 15 倍の URL を取得できたが、その 多くがカテゴリ 1 であった。しかし、増えた URL の 殆どが CNAME レコードであり、IP アドレスで比較 するとあまり変化はなかった。一方、カテゴリ2・3で の URL は微増であり、あまり新たな URL を見つけ ることが出来なかった。

3.4 実験3

実験 3 では提案手法における「繰り返すことでど れだけスパムコメントを新たに取得できるか」を評 価する。結果は表 3 のようになった。データ A のフ ァイル数は 820 個、データ C のファイル数は 894 個と、HTML ファイルの数はあまり変わらないが得 られたデータの種類は約 3 倍となった。 また、

データ A のスパムコメントは同じ時期に投稿された ものが多かったがデータ C では 2011 年に投稿さ れた新しいスパムコメントも発見することができた。

表 3: コメント件数による比較

カテゴリ データ A データ C

1 13 87

2 29 64

3 17 30

合計 58 181

4 結論

本論文ではフィルタリングされやすい単語や自 分のサイトへの誘導を含まないスパムも含め、効率 的にコメントスパムを収集する方法を提案した。実 験を行った結果、スパムコメントが消されずに残っ ているブログを中心にコメントを収集したほうが効 率よくスパムコメントを集めることができることが証 明できた。また、そこで得られたスパムコメントを検 索キーワードとして繰り返すことで、1つのコメントを 使って収集を行うより効率よくコメントを集められる ことがわかった。

5 今後の課題

収集したコメントの量が大きくなりすぎると同じレコ ードを探すのに悪影響が出てしまうので収集や正 規のコメントを識別するアルゴリズムが必要である。

またブログサービス提供会社によってテンプレート は異なるため、得られた HTML ファイルを読み取 れないことが往々にしてあった。サービス提供会社 によらずコメントのみを抽出する研究も存在する[3]

が実装には至らなかった。

参考文献

[1] 中村健二, 田中成典, 「カテゴリ分類と時系列 情報に基づくブログスパム判定手法の提案」, 情 報処理学会論文誌 49(3), pp.1119-1130, 2008.

[3] 吉田光男, 乾孝司, 「ブログ記事集合を用いた ポストとコメントとの自動分離抽出手法の提案」, 情 報処理学会研究報告. データベース・システム研 究会報告 2009-DBS-149(20), pp.1-8, 2009.

参照

関連したドキュメント

従来方式[1]では,レイヤ間予測として TM の逆処理 である Inverse Tone Mapping(ITM)による 1 対 1

1 つの認証画面内に 1 種類の画像だけを表示するように

これらの点に着目しながら HydLa

また実際に Slope thresh を 20 に設定し,CUBIC に親 和性を持つ改良型 TCP と CUBIC を競合させると,図 4.(右)のように CUBIC の

1 Mobile IPv6 について 1.1 Mobile IPv6 の機能 インターネットで通信に用いられるIP アドレスは、

和音認識 フレームごとに DNCOF ベクトルを求めていくと, 楽曲全体にわたり図 3 のような DNCOF ベクトルの 時系列が得られる.図 3

研究の背景と目的 近年,インターネットなどの通信技術の発達によ り,機密情報を扱う業務もネットワーク上で行われる

2.センサネットワークにおける同期型 MAC プロトコルに関する研究動向 同期型 MAC プロトコルとして,SMAC プロトコル, adaptive SMAC プロトコル,UMAC プロトコルの