第 4 章 コピー文字列検出に基づ いた splog filterいたsplog filter
4.4 評価用データ
第 4 章 コピー文字列検出に基づいたsplog filter
input: ブログコンテンツ b, 最小コピー文字列長 l suffix array A
output: ブログコンテンツb のコピー文字列長 begin
set 0 to all components of C for i=l+ 1 to |b| do
for j = 1 to i−l
s←s(bj:i, A), e←e(bj:i, A)
C[i]←max(C[j], cpl(s, f(s, e)) +C[j]) end
end
return C[|b|] end
図 4.7: コピー長計算アルゴ リズム
在の実装では,関係データベースに部分文字列とその頻度を登録して用 いている.
4.4.2 Labeled entries
収集したブログ(webページを)を目視し splog/blogの判定を行い,計
21,668件のラベル付きリストを作成した.まず,表4.1 ,表4.2に示すよ
うにsplogを分類し,それぞれの具体例を準備した.次に,3名の作業者
に分類と例を提示し,splog判定を行わせた.判断がつかない場合は,同
一bloggerの過去のブログエントリまで確認し,不自然な点がないかを確
認した上でラベリングを行った.表4.3に,得られたラベル付きリストの CSP別のblog,splog数を示す.
splogは一見しただけでは自動生成コンテンツであるとは気づかれない
ように作られている.しかし ,その特徴的傾向に注目すれば明らかに不 自然な点がわかるようになる.その結果,過去のブログエントリを確認 する必要なく,単一ブログエントリのテキストだけから判断がつくよう になった.このようにして著者が作業者のラベリング結果を添削し ,作
業者のsplog検出を教育しつつラベリング作業を行った.
4.4.3 Unlabel entries
この21,668件以外に,splog/blogラベルが付いていない同期間のブロ
グコンテンツを含め 50,000件収集し ,実験に用いた.
4.4.4 Search API
データ収集期間に話題となった語をサーチエンジンより収集した.単 語の収集を行った期間は 2007年10月1日から2008年2月6日までであ る.使用したサーチエンジンは以下のとおりである.
1. http://kizasi.jp/
2. Yahoo!検索ランキング
http://searchranking.yahoo.co.jp/
3. テクノラティジャパン:人気のブログ検索キーワード http://feeds.technorati.jp/trjcf/keyword ranking/
4. gooキーワード ランキング
http://ranking.goo.ne.jp/keyword/
第 4 章 コピー文字列検出に基づいたsplog filter 5. 注目キーワード はてなダ イアリー
http://d.hatena.ne.jp/hotkeyword
こうして収集した単語(13,733語)を検索クエリーとして検索APIで検 索結果を収集した.検索を行った期間は2008年2月6日から2008年2月 8日である.使用した検索APIは以下のとおりである.
1. livedoorブログ検索 2. gooブログ検索 3. Nifty @search 4. Namaan
5. Yahooブログ検索 6. Technoratiブログ検索 7. Googleブログ検索 8. エキサイトブログ 9. So-netブログ検索
検索結果として最初のページに表示されるページのスニペットを収集し た.検索結果として表示される部分,つまり,APIが返すXMLのうち,
<ITEM>中の,<description>の中身を収集する.検索クエリーによっ ては,検索結果が標準の検索結果表示数に満たないことが多かったため,
返ってくる件数は一定ではなかった.
このようにして,検索結果約100万件分のコーパスを作成した.ただ し,この内容には重複が非常に多くある.異なる検索エンジンで同一ペー ジを表示することは容易に想定できるし ,異なる検索クエリーに対して も同一ページを検索結果の上位に表示することは考えられるからである.
このような方法でコーパスを構築する理由は,splog生成ツールが,こ のような方法でsplogを生成していると予想されるからである.表 4.1の splogの種類のうち,word salad,search resultなどはこのような手法で 生成を行っていると思われるため,元となる文書を収集することでコピー 検知を行う.
こうして作成したベンチマークテストデータを用いて,提案するフィ ルタリング手法でblog/splog判定を行う.今回はデータとしてブログエ ントリの本文のみを対象とする.
CSP blog splog livedoor Blog 2208 936
gooブログ 1297 119
LOVELOG 68 8
Yahoo!ブログ 1935 59
アメーバブログ 4029 306
JUGEM 1144 523
ココログ 713 341
FC2ブログ 762 1155
ヤプログ! 1616 40
Seesaaブログ 148 1065
はてなダ イアリー 273 14 ウェブリブログ 325 19
teacup.ブログ 484 48
So-net blog 244 93
忍者ブログ 447 41 ド リコムブログ 45 0 楽天広場 950 98 AOLダ イアリー 44 1
Iza! 61 5
CURURU 3 0
Cnet 1 0
計 16797 4871
表 4.3: CSP別splog含有率
第 4 章 コピー文字列検出に基づいたsplog filter
図 4.8: CSP別splog含有率