• 検索結果がありません。

リンク情報に基づく検索エンジンの比較

N/A
N/A
Protected

Academic year: 2022

シェア "リンク情報に基づく検索エンジンの比較"

Copied!
15
0
0

読み込み中.... (全文を見る)

全文

(1)九州大学学術情報リポジトリ Kyushu University Institutional Repository. リンク情報に基づく検索エンジンの比較 樺島, 結城 九州大学大学院システム情報科学府. 廣川, 佐千男 九州大学情報基盤センター. http://hdl.handle.net/2324/1560187 出版情報:データ工学ワークショップ(DEWS)論文集. 第13回 (A2-3), pp.1-8, 2002-05-15. The Institute of Electronics, Information and Communication Engineers : IEICE バージョン: 権利関係:.

(2) リンク情報に基づく 検索エンジンの比較 樺島結城† 廣川佐千男‡ † 九州大学大学院システム情報科学府 ‡ 九州大学情報基盤センター.

(3) 発表内容 背景 研究の目的 入次数と出次数での比較 オーソリティー度とハブ度での比較 まとめと今後の課題. 1.

(4) 背景 „Web空間には情報が氾濫 →有用な情報も多く存在する が、必要な情報を見つけ出 すのが困難. Web空間 検索. 検索結果 検索エンジン. ユーザは検索エンジンを 用いて情報を探す. キーワード ユーザ 2.

(5) 検索結果の重複 検索結果上位10件の重複数 (4つの検索エンジンに対し7のキーワード). „検索エンジンも複数あり、 違いが大きい. 総URL数:231. „利用する際に感じる 違い を評価できないか?. 使用した検索エンジン. Alta Vista, goo, google Yahoo!(カテゴリ検索,ページ検索) 3.

(6) 本研究の目的 目的:リンク情報を利用して検索エンジン の比較を行う 実験内容 z. 四つの検索エンジンに対して比較 1. 2.. 入次数、出次数での比較実験 オーソリティー度、ハブ度での比較実験. 4.

(7) 基底集合 逆リンク. 初期集合 (検索結果の 上位100件). 順リンク. 基底集合 基底集合についての隣接行列 を分析の対象とする(検索空間) 5.

(8) 入次数と出次数 入次数(indegree). 注目!. −各ページに対するリンクの数 多くのページからリンクされているペー ジはそれだけ注目されているといえる. 出次数(outdegree) −各ページからのリンク数 多くのページをリンクしているページは 多くの情報を持っているといえる 物知り! 6.

(9) 実験1:入次数、出次数での比較. 7.

(10) 問題点 問題点 キーワードとは関係のない内容のリンクの数まで評価されてしまう. 各リンクを客観的に評価する必要がある. 8.

(11) オーソリティー度とハブ度 オーソリティー度(authority) −各ページをリンクしているページのハブ度の和。. ハブ度(hub) −各ページがリンクしているページのオーソリティー度の和。. これらを反復計算により求めることで、各リンク に客観的な評価を与える. 9.

(12) 実験2:オーソリティー度、ハブ度での比較. 10.

(13) まとめと今後の課題 まとめ −入次数、出次数を用いて検索エンジンを比較 −ランキングの手法であるオーソリティー度、ハ ブ度を検索エンジンの比較に導入. 今後の課題 −より多くの検索空間での比較 −検索空間でのクラスタの抽出 −リンク情報以外の、別な側面からの検索エンジ ンの比較 11.

(14) 12.

(15) HITSアルゴリズム HITSアルゴリズム オーソリティー度およびハブ度を反復計算によって求める。 具体的には、検索空間におけるリンク情報の隣接行列をA、オーソリ ティー度、ハブ度のベクトルをそれぞれx,yとすると、下記1〜3の手 順をx,yが収束するまで反復することで求められる。 初期値として、x,yは値がすべて1のベクトルとする。 1:xk=Atyk−1 2:yk=Axk 3:xk,yk を正規化する. 13.

(16)

参照

関連したドキュメント

は じ め に Web

以降では,パターン集合 F P ∈ {F, G, C} に対して 手法 M を適用することで得られるレシピフローグラフ の n 次元ベクトル表現の集合を F P n M = { −→ r M n | r ∈

4 提案手法

のが典型的なユーザーの使い方であり、 「検索式を使っ た検索は全体の 10% 程度であり、正しく記述されない ことが多い」 、

以上,今回開発した試作システムの概要と活用例について解説したが,今後はさらにソフト面の

この汎化操作により、関連文書に対する網羅性の高い概念への汎化が行われることになる。その

システムの実装 のアルゴリズムによって出力された値を印象尺度の 評定スケール( 段階評価値)に換算し,式()を

らにより、コーパ スに現れる多数の単語列から複合語を抽出す るための という評価関数 0+ において すでに提案されている。