• 検索結果がありません。

評価用データ

ドキュメント内 ( ). (ページ 58-63)

第 4 章 コピー文字列検出に基づ いた splog filterいたsplog filter

4.4 評価用データ

第 4 章 コピー文字列検出に基づいたsplog filter

input: ブログコンテンツ b, 最小コピー文字列長 l suffix array A

output: ブログコンテンツb のコピー文字列長 begin

set 0 to all components of C for i=l+ 1 to |b| do

for j = 1 to i−l

s←s(bj:i, A), e←e(bj:i, A)

C[i]←max(C[j], cpl(s, f(s, e)) +C[j]) end

end

return C[|b|] end

図 4.7: コピー長計算アルゴ リズム

在の実装では,関係データベースに部分文字列とその頻度を登録して用 いている.

4.4.2 Labeled entries

収集したブログ(webページを)を目視し splog/blogの判定を行い,計

21,668件のラベル付きリストを作成した.まず,表4.1 ,表4.2に示すよ

うにsplogを分類し,それぞれの具体例を準備した.次に,3名の作業者

に分類と例を提示し,splog判定を行わせた.判断がつかない場合は,同

一bloggerの過去のブログエントリまで確認し,不自然な点がないかを確

認した上でラベリングを行った.表4.3に,得られたラベル付きリストの CSP別のblog,splog数を示す.

splogは一見しただけでは自動生成コンテンツであるとは気づかれない

ように作られている.しかし ,その特徴的傾向に注目すれば明らかに不 自然な点がわかるようになる.その結果,過去のブログエントリを確認 する必要なく,単一ブログエントリのテキストだけから判断がつくよう になった.このようにして著者が作業者のラベリング結果を添削し ,作

業者のsplog検出を教育しつつラベリング作業を行った.

4.4.3 Unlabel entries

この21,668件以外に,splog/blogラベルが付いていない同期間のブロ

グコンテンツを含め 50,000件収集し ,実験に用いた.

4.4.4 Search API

データ収集期間に話題となった語をサーチエンジンより収集した.単 語の収集を行った期間は 2007年10月1日から2008年2月6日までであ る.使用したサーチエンジンは以下のとおりである.

1. http://kizasi.jp/

2. Yahoo!検索ランキング

http://searchranking.yahoo.co.jp/

3. テクノラティジャパン:人気のブログ検索キーワード http://feeds.technorati.jp/trjcf/keyword ranking/

4. gooキーワード ランキング

http://ranking.goo.ne.jp/keyword/

第 4 章 コピー文字列検出に基づいたsplog filter 5. 注目キーワード はてなダ イアリー

http://d.hatena.ne.jp/hotkeyword

こうして収集した単語(13,733語)を検索クエリーとして検索APIで検 索結果を収集した.検索を行った期間は2008年2月6日から2008年2月 8日である.使用した検索APIは以下のとおりである.

1. livedoorブログ検索 2. gooブログ検索 3. Nifty @search 4. Namaan

5. Yahooブログ検索 6. Technoratiブログ検索 7. Googleブログ検索 8. エキサイトブログ 9. So-netブログ検索

検索結果として最初のページに表示されるページのスニペットを収集し た.検索結果として表示される部分,つまり,APIが返すXMLのうち,

<ITEM>中の,<description>の中身を収集する.検索クエリーによっ ては,検索結果が標準の検索結果表示数に満たないことが多かったため,

返ってくる件数は一定ではなかった.

このようにして,検索結果約100万件分のコーパスを作成した.ただ し,この内容には重複が非常に多くある.異なる検索エンジンで同一ペー ジを表示することは容易に想定できるし ,異なる検索クエリーに対して も同一ページを検索結果の上位に表示することは考えられるからである.

このような方法でコーパスを構築する理由は,splog生成ツールが,こ のような方法でsplogを生成していると予想されるからである.表 4.1の splogの種類のうち,word salad,search resultなどはこのような手法で 生成を行っていると思われるため,元となる文書を収集することでコピー 検知を行う.

こうして作成したベンチマークテストデータを用いて,提案するフィ ルタリング手法でblog/splog判定を行う.今回はデータとしてブログエ ントリの本文のみを対象とする.

CSP blog splog livedoor Blog 2208 936

gooブログ 1297 119

LOVELOG 68 8

Yahoo!ブログ 1935 59

アメーバブログ 4029 306

JUGEM 1144 523

ココログ 713 341

FC2ブログ 762 1155

ヤプログ! 1616 40

Seesaaブログ 148 1065

はてなダ イアリー 273 14 ウェブリブログ 325 19

teacup.ブログ 484 48

So-net blog 244 93

忍者ブログ 447 41 ド リコムブログ 45 0 楽天広場 950 98 AOLダ イアリー 44 1

Iza! 61 5

CURURU 3 0

Cnet 1 0

計 16797 4871

表 4.3: CSP別splog含有率

第 4 章 コピー文字列検出に基づいたsplog filter

図 4.8: CSP別splog含有率

ドキュメント内 ( ). (ページ 58-63)