見つかった Web ページに対して、重要度を計算し、その値の大きいものから

HTML (2/2)

2. 見つかった Web ページに対して、重要度を計算し、その値の大きいものから

利用者の要求を満足する Web ページの検索

1. 検索要求として与えられた単語を含む

与えられた単語を含む Web ページを見つける方法

検索用辞書による方法

– 辞書1: 語語の番号

– 辞書2: 文書の番号語の番号(のリスト) – 辞書3: 語の番号文書の番号(のリスト)

•

クローラが

Web

ページを訪れる度に、

1. 辞書1によりそのページに入っている語が既に登録されているかを調べる。未登録ならば新しい語の番号を与えて登録。

2. 辞書2を更新。

全てWebページを訪れたあと、辞書２から辞書３を生成。

•

ある語が与えられると、

1. 辞書1により、語の番号に変換される。

各 Web ページの重要度

•

検索質問に含まれる語が全て含まれる

Web

ページでもその重要度は異なる。

– 主要な話題なのか、枝葉の話題なのか – そのページ自身の信頼度

1.

語の分布に基づく方法

• TF (Term Frequency)

• IDF (Inverse Document Frequency)

2. Web

ページ中での取扱に基づく方法

• タイトルや見出し語になっているか、太文字や大きな字体になっているかなど。

3.

リンクの参照関係に基づく方法

• GoogleにおけるPageRank手法

■

Web ページの重要度

語の分布に基づく方法 (1/2)

• TF (Term Frequency) ：語の出現回数

• 同じ文書の中で出現回数の多い語ほど重要であると考える。

自動車

鉄道

ロケット自動車自動車

•

左の例では、「鉄道」

や「ロケット」よりも「自動車」が重要。

•

質問に「自動車」が含まれる場合には、「鉄道」や「ロケット」が質問に含まれる場合よ

Web ページの重要度

語の分布に基づく方法 (2/2)

• IDF (Inverse Document Frequency):

ある語が登場する文書の数の逆数

• ある文書に偏って出現する語ほど重要であると考える。

果物野菜

なすレモン果物トマト果物

野菜

•

「果物」「野菜」よりも「レモン」「なす」「トマト」の方が偏って登場しているので、重要度が高い

• N/DF(W)

で計算。

DF(W)

は単語Ｗの出現する文書数、

N

は全文書数。

■

PageRank 法 (1/3)

• Google において、以下のように入力するとその Web ページに対してリンクが張られている Web ページがわかる。

– link:

調べたい

URL

–

例：

http://www.ynu.ac.jp/

へのリンク

• リンクされた数はその Web ページの「人気度」

を表すと考えられる。

• また、人気度が高い Web ページからのリンクは、

他のページからのリンクよりも人気度に影響を

与えると考えられる。

PageRank 法 (2/3)

Page A (人気度100)

Page B (人気度10)

Page C (人気度2) D

E F

F E

Page D

Page E

Page F 50p

50p

5p 5p

1p 1p

人気度

50

人気度

50+5+1

 56

人気度

5+1

 6

■

PageRank 法 (3/3)

• より正確にはランダムサーファモデルによる、確率過程でモデル化される。

–

ある一定確率

e

でランダムに別の

Web

ページを選択する。

–

確率

(1-e)

で現在の

Web

ページ内のリンクを等確率で

辿る。

• Web ページ p の PageRank R(p) は次の式を繰り返し適用して求めることができる。











 q

q e R

n p e

R outdegree( )

) ) (

1 ( )

(

まとめ

• 分散処理システムとそのモデル

• World Wide Web

• インターネットの「入り口」

• 検索型サービスの実例 Google

• 検索型サービスの情報収集（クローラ）

• Google はどうやって「良さそうな」情報を見つけるか？

演習

1. Web ブラウザに URL を入力すると表

ドキュメント内 Microsoft PowerPoint - IntroCompSciTech-MoriT pptx (ページ 49-58)

見つかった Web ページに対して、重要 度を計算し、その値の大きいものから

HTML (2/2)

2. 見つかった Web ページに対して、重要 度を計算し、その値の大きいものから

利用者の要求を満足する Web ページ の検索

1. 検索要求として与えられた単語を含む

与えられた単語を含む Web ページを 見つける方法

•

Web

•

各 Web ページの重要度

•

Web

1.

2. Web

3.

Web ページの重要度

語の分布に基づく方法 (1/2)

• TF (Term Frequency) ：語の出現回数

• 同じ文書の中で出現回数の多い語ほど 重要であると考える。

•

•

Web ページの重要度

語の分布に基づく方法 (2/2)

• IDF (Inverse Document Frequency):

ある語が登場する文書の数の逆数

• ある文書に偏って出現する語ほど重要で あると考える。

•

• N/DF(W)

DF(W)

N

PageRank 法 (1/3)

• Google において、以下のように入力するとそ の Web ページに対してリンクが張られている Web ページがわかる。

– link:

URL

–

http://www.ynu.ac.jp/

• リンクされた数はその Web ページの「人気度」

を表すと考えられる。

• また、人気度が高い Web ページからのリンクは、

他のページからのリンクよりも人気度に影響を

与えると考えられる。

PageRank 法 (2/3)

50

50+5+1

 56

5+1

 6

PageRank 法 (3/3)

• より正確にはランダムサーファモデルによる、確 率過程でモデル化される。

–

e

Web

–

(1-e)

Web

• Web ページ p の PageRank R(p) は次の式を繰り 返し適用して求めることができる。









 q

q e R

n p e

R outdegree( )

) ) (

1 ( )

(

まとめ

• 分散処理システムとそのモデル

• World Wide Web

• インターネットの「入り口」

• 検索型サービスの実例 Google

• 検索型サービスの情報収集（クローラ）

• Google はどうやって「良さそうな」情報を見つ けるか？

演習

1. Web ブラウザに URL を入力すると表

2. 見つかった Web ページに対して、重要度を計算し、その値の大きいものから

利用者の要求を満足する Web ページの検索

与えられた単語を含む Web ページを見つける方法

• 同じ文書の中で出現回数の多い語ほど重要であると考える。

• ある文書に偏って出現する語ほど重要であると考える。

• Google において、以下のように入力するとその Web ページに対してリンクが張られている Web ページがわかる。

• より正確にはランダムサーファモデルによる、確率過程でモデル化される。

• Web ページ p の PageRank R(p) は次の式を繰り返し適用して求めることができる。

• Google はどうやって「良さそうな」情報を見つけるか？