DocRank の内部動作

リスト 2. 12 URL の適合度を NaiveBayes 分類器で評価する

2.5 Word 、 PDF 、その他のリンクを持たないドキュメントをランク付けする

2.5.2 DocRank の内部動作

この重要度の指標の選択には大きな自由度があるが、使い物になるようにするためには、新

H

行列の要素は以下の

2

つの性質を満たさなくてはならない。

•

^{すべて正の数}

•

すべての行において値の和が

1

となる

我々の指標が成功するかどうかは、処理しようとするドキュメントの種類による。リスト

2.15

の

DocRankMatrixBuilder

^{クラスは、}

Word

ドキュメントにおける

H

行列を生成する。

リスト

2.15 DocRankMatrixBuilder

：テキストドキュメントをコンテンツに基づいてランク付けする public class DocRankMatrixBuilder implements CrawlDataProcessor {

private final int TERMS_TO_KEEP = 3;

private int termsToKeep =0;

private String indexDir ; private PageRankMatrixH matrixH ; public void run () {

try {

IndexReader idxR = IndexReader . open ( FSDirectory . getDirectory ( indexDir ));

matrixH = buildMatrixH ( idxR );

} catch ( Exception e) {

throw new RuntimeException (" Error : ", e );

} }

// Collects doc ids from the index for documents with matching doc type

// ドキュメントタイプがマッチするドキュメントのI Dを収集する

private List < Integer > getProcessedDocs ( IndexReader idxR ) throws IOException { List < Integer > docs = new ArrayList < Integer >();

for ( int i = 0, n = idxR . maxDoc (); i < n; i ++) { if ( idxR . isDeleted (i) == false ) {

Document doc = idxR . document (i );

if ( eligibleForDocRank ( doc . get (" doctype ") ) ) { docs . add (i );

} } }

return docs ; }

// インデックスエントリは適格か？

private boolean eligibleForDocRank ( String doctype ) {

return ProcessedDocument . DOCUMENT_TYPE_MSWORD . equalsIgnoreCase ( doctype );

}

private PageRankMatrixH buildMatrixH ( IndexReader idxR ) throws IOException { // 取得、パースされたコンテンツのU R Lのみ考慮する

List < Integer > allDocs = getProcessedDocs ( idxR );

PageRankMatrixH docMatrix = new PageRankMatrixH ( allDocs . size () );

for ( int i = 0, n = allDocs . size (); i < n; i ++) { for ( int j = 0, k = allDocs . size (); j < k; j ++) {

double similarity = 0.0 d;

Document docX = idxR . document (i );

String xURL = docX . get (" url ");

if ( i == j ) {

// 自分自身へのリンクを防ぐ

docMatrix . addLink ( xURL , xURL , similarity );

} else {

TermFreqVector x = idxR . getTermFreqVector (i , " content ");

TermFreqVector y = idxR . getTermFreqVector (j , " content ");

similarity = getImportance (x. getTerms () ,

x. getTermFrequencies () , y. getTerms () , y. getTermFrequencies ());

// add link from docX to docY // d o c Xからd o c Yへのリンクを追加する Document docY = idxR . document (j );

String yURL = docY . get (" url ");

docMatrix . addLink ( xURL , yURL , similarity );

} } }

docMatrix . calculate ();

return docMatrix ; }

// ドキュメントXから見たドキュメントYの重要度を計算する private double getImportance ( String [] xTerms , int [] xTermFreq ,

String [] yTerms , int [] yTermFreq ){

// xTerms は、1番目のドキュメントの頻出語

Map < String , Integer > xFreqMap = buildFreqMap ( xTerms , xTermFreq );

2.5 Word

、

PDF

、その他のリンクを持たないドキュメントをランク付けする

59

// yTerms は、2番目のドキュメントの頻出語

Map < String , Integer > yFreqMap = buildFreqMap ( yTerms , yTermFreq );

// sharedTerms は、2つの集合の積集合

Set < String > sharedTerms = new HashSet < String >( xFreqMap . keySet ());

sharedTerms . retainAll ( yFreqMap . keySet ());

double sharedTermsSum = 0.0;

// 対照ではないことに注意。XとYを入れ替えれば異なる値になる。同じ値であるなら別だが。 double xF , yF ;

for ( String term : sharedTerms ) { xF = xFreqMap . get ( term ). doubleValue ();

yF = yFreqMap . get ( term ). doubleValue ();

sharedTermsSum += Math . round ( Math . tanh ( yF / xF ));

}

return sharedTermsSum ; }

private Map < String , Integer > buildFreqMap ( String [] terms , int [] freq ) { int topNTermsToKeep = ( termsToKeep == 0)? TERMS_TO_KEEP : termsToKeep ; Map < String , Integer > freqMap

= TermFreqMapUtils . getTopNTermFreqMap ( terms , freq , topNTermsToKeep );

return freqMap ; }

}

我々の仕組みは

2

つの重要な要素からなっている。まず、タームと頻度のペアからなる

Lucene

のタームベクトル（

term vectors

）を用いていること。ここで

Lucene

によるドキュメントのインデックス化について復習しておこう。初めにドキュメントのテキストをパースして、次に解

析（

analyze

）して、最後にインデックス化する。解析フェーズでテキストはトークン（ターム）

出現回数）

の比を求める。ドキュメント

X

のコンテキストにおけるドキュメント

Y

の重要度は、これらの比をすべて足し合わせて

tanh

（

Math.tanh

）をとり、

Math.round

で丸めたものである。これらの計算の最終結果は、

H

行列中の行

X

、列

Y

の要素となる。

ここで

tanh

を用いたのは、

2

つのドキュメント間において、ある特定のタームが重要度を決定するのによい指標であるかどうかを測りたいがためである。実際の値がいくつになるかには関心がない。手ごろな上限下限をもって重要度の値を維持できればそれでよい。

tanh

は

0

から

1

の

bsh % oracle.search("nvidia", 5, dr);

Search results using Lucene index scores:

Query: nvidia

Document Title: NVIDIA shares plummet into cheap medicine for you!

Document URL: file:/c:/iWeb2/data/ch02/spam-biz-02.doc --> Relevance Score: 0.4582 ___________________________________________________________

Document Title: Nvidia shares up on PortalPlayer buy

Document URL: file:/c:/iWeb2/data/ch02/biz-05.doc --> Relevance Score: 0.3240 ___________________________________________________________

Document Title: NVidia Now a Supplier for MP3 Players

Document URL: file:/c:/iWeb2/data/ch02/biz-04.doc --> Relevance Score: 01944 ___________________________________________________________

Document Title: Chips Snap: Nvidia, Alter a Shares Jump

Document URL: file:/c:/iWeb2/data/ch02/biz-06.doc --> Relevance Score: 01852 ___________________________________________________________

Search results using combined Lucene scores and page rank scores:

Query: nvidia

Document URL: file:/c:/iWeb2/data/ch02/biz-05.doc --> Relevance Score: 0.03858 Document URL: file:/c:/iWeb2/data/ch02/spam-biz-02.doc --> Relevance Score: 0.03515 Document URL: file:/c:/iWeb2/data/ch02/biz-04.doc --> Relevance Score: 0.02925 Document URL: file:/c:/iWeb2/data/ch02/biz-06.doc --> Relevance Score: 0.02233 ___________________________________________________________

図

2.11

インデックスとランキングを用いて、

Word

^{ドキュメントを}

“nvidia”

^{で検索する}

間の値を出力するため、最後の丸め操作によって、タームが無視されるか重要度

1

単位として採用されるかが決まる。これらの関数を用いた理由はここにある。

図

2.11

を見ると

“nvidia”

を検索したときに

biz-05.doc

ファイルが最も高くランクされていることがわかる。これは正規の（スパムではない）ファイルで、確かに

nvidia

に関係したものだ。

ドキュメント数が少ないためスパムファイルも生き残っているが、効果はあった。

とテーブル

B

が存在するとしよう。これらはテーブル

C

を通じて関連を持っている。よくある場面だ。具体的にいうと、ユーザテーブル、グループテーブルがあって、もうひとつユーザとグループのそれぞれの

ID

を保持することによって両者をつなげるテーブルがあるようなものだ。結果として、グループごとのユーザを表現するグラフや、ユーザが属するグループを表現するグラフができあがる。エンティティをリンクでつないでいる場面を目にしたら、それは

DocRank

アルゴリズムやその類型を試す機会だと常に考えよう。実験をためらってはいけない。この種の問題に唯一無二の正解なんてない。ときにその結果

ドキュメント内 24 2 Google Lucene PageRank Lucene 2.1 Lucene Lucene Lucene IR Lucene Lucene data/ch02/ Google 3 NVidia 1 Lance Armstrong (ページ 35-39)

リスト 2. 12 URL の適合度を NaiveBayes 分類器で評価する

2.5 Word 、 PDF 、その他のリンクを持たないドキュメントをラ ンク付けする

2.5.2 DocRank の内部動作

H

2

•

•

1

2.15

DocRankMatrixBuilder

Word

H

2.15 DocRankMatrixBuilder

2.5 Word

PDF

59

2

Lucene

term vectors

Lucene

analyze

Lucene

2.15

getImportance

X

Y

1

X

Y

intersection

2

Y

Y

X

X

X

Y

tanh

Math.tanh

Math.round

H

X

Y

tanh

2

tanh

0

1

2.11

Word

“nvidia”

1

2.11

“nvidia”

biz-05.doc

nvidia

Lucene

DocRank

biz-05.doc

PageRank

DocRank

DocRank

A

B

C

ID

DocRank

2.5 Word 、 PDF 、その他のリンクを持たないドキュメントをランク付けする