評価用データ

第 4 章コピー文字列検出に基づいた splog filterいたsplog filter

4.4 評価用データ

第 4 章コピー文字列検出に基づいたsplog ﬁlter

input: ブログコンテンツ b, 最小コピー文字列長 l suﬃx array A

output: ブログコンテンツb のコピー文字列長 begin

set 0 to all components of C for i=l+ 1 to |b| do

for j = 1 to i−l

s←s(b_j:i, A), e←e(b_j:i, A)

C[i]←max(C[j], cpl(s, f(s, e)) +C[j]) end

end

return C[|b|] end

図 4.7: コピー長計算アルゴリズム

在の実装では，関係データベースに部分文字列とその頻度を登録して用いている．

4.4.2 Labeled entries

収集したブログ（webページを）を目視し splog/blogの判定を行い，計

21,668件のラベル付きリストを作成した．まず，表4.1 ，表4.2に示すよ

うにsplogを分類し，それぞれの具体例を準備した．次に，3名の作業者

に分類と例を提示し，splog判定を行わせた．判断がつかない場合は，同

一bloggerの過去のブログエントリまで確認し，不自然な点がないかを確

認した上でラベリングを行った．表4.3に，得られたラベル付きリストの CSP別のblog，splog数を示す．

splogは一見しただけでは自動生成コンテンツであるとは気づかれない

ように作られている．しかし，その特徴的傾向に注目すれば明らかに不自然な点がわかるようになる．その結果，過去のブログエントリを確認する必要なく，単一ブログエントリのテキストだけから判断がつくようになった．このようにして著者が作業者のラベリング結果を添削し，作

業者のsplog検出を教育しつつラベリング作業を行った．

4.4.3 Unlabel entries

この21,668件以外に，splog/blogラベルが付いていない同期間のブロ

グコンテンツを含め 50,000件収集し，実験に用いた．

4.4.4 Search API

データ収集期間に話題となった語をサーチエンジンより収集した．単語の収集を行った期間は 2007年10月1日から2008年2月6日までである．使用したサーチエンジンは以下のとおりである．

1. http://kizasi.jp/

2. Yahoo!検索ランキング

http://searchranking.yahoo.co.jp/

3. テクノラティジャパン：人気のブログ検索キーワード http://feeds.technorati.jp/trjcf/keyword ranking/

4. gooキーワードランキング

http://ranking.goo.ne.jp/keyword/

第 4 章コピー文字列検出に基づいたsplog ﬁlter 5. 注目キーワードはてなダイアリー

http://d.hatena.ne.jp/hotkeyword

こうして収集した単語(13,733語)を検索クエリーとして検索APIで検索結果を収集した．検索を行った期間は2008年2月6日から2008年2月 8日である．使用した検索APIは以下のとおりである．

1. livedoorブログ検索 2. gooブログ検索 3. Nifty @search 4. Namaan

5. Yahooブログ検索 6. Technoratiブログ検索 7. Googleブログ検索 8. エキサイトブログ 9. So-netブログ検索

検索結果として最初のページに表示されるページのスニペットを収集した．検索結果として表示される部分，つまり，APIが返すXMLのうち，

<ITEM>中の，<description>の中身を収集する．検索クエリーによっては，検索結果が標準の検索結果表示数に満たないことが多かったため，

返ってくる件数は一定ではなかった．

このようにして，検索結果約100万件分のコーパスを作成した．ただし，この内容には重複が非常に多くある．異なる検索エンジンで同一ページを表示することは容易に想定できるし，異なる検索クエリーに対しても同一ページを検索結果の上位に表示することは考えられるからである．

このような方法でコーパスを構築する理由は，splog生成ツールが，このような方法でsplogを生成していると予想されるからである．表 4.1の splogの種類のうち，word salad，search resultなどはこのような手法で生成を行っていると思われるため，元となる文書を収集することでコピー検知を行う．

こうして作成したベンチマークテストデータを用いて，提案するフィルタリング手法でblog/splog判定を行う．今回はデータとしてブログエントリの本文のみを対象とする．

CSP blog splog livedoor Blog 2208 936

gooブログ 1297 119

LOVELOG 68 8

Yahoo!ブログ 1935 59

アメーバブログ 4029 306

JUGEM 1144 523

ココログ 713 341

FC2ブログ 762 1155

ヤプログ！ 1616 40

Seesaaブログ 148 1065

はてなダイアリー 273 14 ウェブリブログ 325 19

teacup.ブログ 484 48

So-net blog 244 93

忍者ブログ 447 41 ドリコムブログ 45 0 楽天広場 950 98 AOLダイアリー 44 1

Iza! 61 5

CURURU 3 0

Cnet 1 0

計 16797 4871

表 4.3: CSP別splog含有率

第 4 章コピー文字列検出に基づいたsplog ﬁlter

図 4.8: CSP別splog含有率

ドキュメント内 ( ). (ページ 58-63)

第 4 章 コピー文字列検出に基づ いた splog filterいたsplog filter

4.4 評価用データ

4.4.2 Labeled entries

4.4.3 Unlabel entries

4.4.4 Search API

第 4 章コピー文字列検出に基づいた splog filterいたsplog filter