小田耕平名城大学理工学部情報工学科 GOOGLE を支える技術

(1)

GOOGLE

を支える技術

名城大学理工学部情報工学科小田耕平

(2)

書籍紹介

 Google

を支える技術

－巨大システムの内側の世界技術評論社

西田圭介著

(3)

Google

とは

 Web

検索エンジン

 1998

年に米国の二人の学生によって作られた。



いかに役立つ情報を見つけられるかを重視。

(4)

役立つ情報を見つけるために

(1)

 Page Rank

役にたつページはあちこちからリンクされている



概念

 各webページは自分の点数を持つ

 他のページにリンクすると、自分の点数を配分する。

 自分の点数は、他のページからもらった点数の合計で決まる。

(5)

役立つ情報を見つけるために

(2)



概念図

1

10

6

2 8

1

1 1

2

1 5

3

1

5 3

4 4

(6)

役立つ情報を見つけるために

(3)



アンカーテキスト

リンクに付けられた文字列

ユーザーがそれを検索しようとした時にだけ意味を持つ



例

名城大学はいい大学だね。

(7)

役立つ情報を見つけるために

(4)



単語

(

単語情報

)

による検索

web

ページに含まれるすべての単語を記録複数の単語で検索



例

“

京都大学

”

“

大学京都

”

(8)

前半まとめ



役立つ情報を見つけるためには

 Page Rank



アンカーテキスト



単語による検索

(9)

検索エンジンのしくみ

(1)



検索エンジンの基本構造

検索エンジン

利用者検索

サーバ ^{インデックス}

検索

バックエンド

インターネット

(10)

検索エンジンのしくみ

(2)



検索サーバ

 利用者との通信を管理する

 利用者からのリクエストを解析し、行うべき処理を判断する。

 インデックスから必要な情報を管理する。

 結果を見やすくレイアウトし、利用者に送り出す。

利用者

検索サーバ

インデックス

(11)

検索エンジンのしくみ

(3)



検索バックエンド

インデックス

インターネットクローリング

クローラ

リポジトリインデックス生成

構造解析

単語処理

リンク処理

ランキング

(12)

検索エンジンのしくみ

(5)



インデックス

データを安全に格納する。

求められたデータを高速に見つける。

インデックス

リンク情報

ドキュメント情報

単語情報

(13)

検索エンジンのしくみ

(6)



インデックスの構造

検索語大学

タイトル名城大学

URL http://meijo/

キー値1 大学 101

キー値

11 名城大学

21 http://meijo/

キー値1 値2

101 11 21

(14)

効率化をはかるポイント



あらかじめ検索バックエンドによって

web

ページの情報を解析しておく。



インデックスに格納する際に数値を使って格納を行う。



３つの構造の連携

(15)

まとめ



検索エンジンのしくみ



検索サーバ



検索バックエンド



インデックス

(16)

小田耕平 名城大学理工学部情報工学科 GOOGLE を支える技術

を支える技術

書籍紹介

を支える技術

－巨大システムの内側の世界 技術評論社

西田圭介 著

とは

検索エンジン

年に米国の二人の学生によって作られた。

いかに役立つ情報を見つけられるかを重視。

役立つ情報を見つけるために

役にたつページはあちこちからリンクされている

概念

役立つ情報を見つけるために

概念図

役立つ情報を見つけるために

アンカーテキスト

リンクに付けられた文字列

ユーザーがそれを検索しようとした時にだけ意味 を持つ

例

名城大学はいい大学だね。

役立つ情報を見つけるために

単語

単語情報

による検索

ページに含まれるすべての単語を記録 複数の単語で検索

例

京都 大学

大学 京都

前半まとめ

役立つ情報を見つけるためには

アンカーテキスト

単語による検索

検索エンジンのしくみ

検索エンジンの基本構造

検索エンジンのしくみ

検索サーバ

検索エンジンのしくみ

検索バックエンド

検索エンジンのしくみ

インデックス

検索エンジンのしくみ

インデックスの構造

効率化をはかるポイント

あらかじめ検索バックエンドによって

ページの 情報を解析しておく。

インデックスに格納する際に数値を使って格納を 行う。

３つの構造の連携

まとめ

検索エンジンのしくみ

検索サーバ

検索バックエンド

インデックス

ご清聴ありがとうございました。

小田耕平名城大学理工学部情報工学科 GOOGLE を支える技術

－巨大システムの内側の世界技術評論社

西田圭介著

ユーザーがそれを検索しようとした時にだけ意味を持つ

ページに含まれるすべての単語を記録複数の単語で検索

京都大学

大学京都

ページの情報を解析しておく。

インデックスに格納する際に数値を使って格納を行う。