人間とコンピュータインターネット検索

(1)

人間とコンピュータインターネット検索

1 月 10 日：インターネット検索とは

1 月 17 日：インターネット検索の使い方 1 月 24 日：インターネット検索の内側

授業資料

http://ir.cs.yamanashi.ac.jp/~ysuzuki/man-machine/index.html

(2)

インターネット検索の内側



先週 1 週間のニュース



ロボット型検索エンジンの使い方

 goo

 Google



ロボット型検索エンジンの仕組み

 スパイダ

 インデクサ

 ランキングアルゴリズム



全文検索エンジン　 Namazu

(3)

先週 1 週間のニュース



ほとんど Wikipedia 専門のサーチエンジン「

Wikiseek 」発表

 http://internet.watch.impress.co.jp/cda/news/2007/01/17/14476.html



Microsoft 、「 Virtual Earth 」に欧州 100 都市以上の鳥瞰画像を追加

http://internet.watch.impress.co.jp/cda/news

/2007/01/23/14550.html

(4)

ロボット型検索エンジンの使い方

 何を検索したいのかをよく考える

 目的のページの作成者はどんな単語を使うかを想像する

 検索エンジンの表示順位を想像する

 見つからなかったら同義語で検索する

 AND OR NOT検索をする

 コアラ　AND 動物

 コアラ　OR koala

 コアラ –ネット -ADSL

(5)

一度検索して見つからなかったら



同義語で検索する

 シソーラス検索

 http://www.gengokk.co.jp/thesaurus/

 用語辞典

 http://e-words.jp/　IT用語辞典



検索されたページを読んで使えそうな専門用語

を見つけ，その専門用語で検索する

(6)

goo で検索してみよう

http://www.goo.ne.jp

 ウェブ，辞書，画像，登録サイト，ブログ，教えて!，カテゴリー，タウンページ，地図，路線

 検索オプションを使う

 いろいろな検索オプションを使う

 http://search.goo.ne.jp/advanced.jsp

 教えて！goo

 みんなの疑問、みんなで解決！

 ブログの検索

 キャッシュページを見てみる

 Webサーバーが一時的に利用できない場合や頻繁に書き換えを行っているWebページを見るときに便利

(7)

Google で検索してみよう http://www.google.co.jp

 I’m Feeling Luckyを使う

 会社のホームページを見る

 検索オプションを使う

 いろいろな検索オプションを使う

 関連ページを検索する

 検索結果の関連ページリンク

 キャッシュページを見てみる

 Webサーバーが一時的に利用できない場合や頻繁に書き換えを行っているWebページを見るときに便利

 分野を絞って検索する（カテゴリー別Google!)

 その他

 荷物検索，会社情報検索，株価検索，辞書検索，路線検索

(8)

Google で Google を検索すると



80 億ページ以上の Web ページから



0.2 秒で



753,000,000 ページを抽出

(9)

もしも Google が

 1台のPCで処理をしていて

 前もってWebページをインデックス化していないとしたら

 1ページあたり2.5x10^-11秒で検索しなければならない

 40GHzのCPUの1クロック内に1ページの検索を終える

 無理！！

] [

10 5

. 000 2

, 000 ,

000 ,

8

2 . 0 ]

[ 80

] [

2 .

0 ₁₁

ページ秒億

秒 ₋

×

=

] /

[ 400

000 ,

] 40 [

2 . 0

] [

80 億　ページ秒

秒

ページ

億 = =

(10)

ロボット型検索エンジンの仕組み 1

データ収集部

（クローラー，スパイダー）

文書フィルタ部

インデクサ部

検索サーバー部

Webページ

インデックスファイル

フロントエンド部

検索語句結果表示

(11)

ロボット型検索エンジン

1. データ収集部：スパイダ（クローラ）と呼ばれる自動プログラムを使ってWebサイトのページをダウンロードする

2. 文書フィルタ部：文字コードの修正，タグの削除

3. インデクサ部：ページの可視部分を抽出し，キーワード，

タイトル，リンク，などの重要な情報を用いてページ解析する．

4. 検索サーバー部：データベースにWebサイトの解析結果を追加し，ユーザが検索可能な状態にする．ランキングアルゴリズムにより，検索結果の順位が決定される

5. フロントエンド部：ユーザーが使いやすいユーザーインターフェース

(12)

データ収集部（スパイダ）



ウェブ上のリンクをたどって情報を収集すること



ウェブ（蜘蛛の巣）のリンク（糸）をたどって目的の情報（獲物）を捕らえる　→　スパイダ（蜘蛛）



ウェブ上をはい回る　→　クローラー（ crawler ）

(13)

文書フィルタ部



Web ページの文字コードを統一する

 文字コード：JIS,Shift-JIS,EUC-JP,UTF-7,UTF-8



HTML や XML などのタグの除去

 <B>デジタル</B>カメラ　→　デジタルカメラ



各種文書フォーマットの変換

 PDF，PowerPoint，Word，Excelの中を検索するため

(14)

インデクサ部



検索したいコンテンツをあらかじめ検索しやすい形のファイルに変換するプログラム



各コンテンツを形態素解析技術を用いて単語を分解し，それらの単語をインデックスファイルに記録する



N-gram を用いる方法もある

(15)

検索サーバー部



検索語とインデックスの照合

 速く

 余計なページは排除し

 必要なページを抽出する

 適合度の高い順に検索結果を並べる

(16)

フロントエンド部



検索オプションを用意

 AND, OR, NOT

 絞り込み（ドメイン指定，文書種類の指定など）



検索結果の表示

 見やすく

 繰返し検索しやすく

 スポンサーの宣伝も入れる

(17)

形態素解析　

^{（インデクサ）}



形態素　＝　意味を担う最小の言語要素



形態素解析

 単語の出現形から原形を求める処理（英語など）

 solving solve + ing → （進行形）

 easier easy + er → （比較級）

 problems problem + s → （複数）

 単語分割と語の活用（日本語など）

 日本的 → 日本＋的

 言語モデル → 言語＋モデル

 使い込む → 使う＋込む

(18)

形態素解析の手法　



最長一致法



分割数最小法



例：畜産物価格安定法



畜産物｜価格｜安定｜法

(19)

最長一致法　



文字列の先頭から解析を始め，後続する可能性がある単語が複数あるときは，最長の単語を選択して先に進む



　畜産物｜価格｜安定｜法



　畜産　　　価　　　安

(20)

分割数最小法　



入力文字列を構成する単語の総数が最小になる解釈を優先する方法



例：言語学入門講座



○　 (3) 　言語学｜入門｜講座



× 　 (4) 　言語｜学｜入門｜講座



× 　 (4) 　言語学｜入｜門｜講座

(21)

Google の中身（ちょっとだけ）



Google の検索結果の順位付け

 如何にすれば自分の作ったページを高順位に表示させられるか．

 Googleは何を基準に検索結果を順位付けしている

のか



PageRank とその他のランキングアルゴリズム

(22)

SEO:Search Engine Optimization SEM:Search Engine Marketing

 昔：店が客を探す　（ダイレクトメールなど）

 今：客が店を探す

 客に見つけてもらう工夫が必要

 人間が読みやすいページからロボットが読みやすいページへ？

 ロボット（検索エンジン）に見つけてもらわなければ始まらない．

 Googleの検索結果の上位15位に入らなければその会社

（店）はこの世に存在していないのも同じ

(23)

Google 八分



Google で本来なら上位に表示されるはずの

ウェブサイトやウェブページが、検閲などにより

検索の対象から外れるよう操作され、検索の結

果に表示されない状態（ウィキペディアより）

(24)

キーワード（検索語）の埋め込み方（ Google に好かれるには）



キーワード : w が入力された時，検索結果の上位に表示されるためには

 キーワード w を　

 Webページのタイトル内に使う

 イメージファイル名，ALT属性，title属性に使う

 大きな字で表示する

 トップページからのリンクで使用する

 別のサイトや内部サイトへのリンクテキストで使用する

 メジャーなサイトへのリンクで使用する

 などなど

(25)

キーワード（検索語）の埋め込み方

（ Google に好かれるには）　続き



last modified （最終更新日）ヘッダを使う



HTML の構文誤りのない Web ページを作る



1 つのファイルのサイズを大きくしない（ 20k バイト以下）



HTML ファイル中のテキストの比率を高くする



などなど

(26)

検索エンジンの様々な工夫

(27)

データ収集部での工夫

（スピード）



複数のコンピュータでデータ収集



重要なページを選んでデータ収集

 リンクが深いページはチェックしない



頻繁に更新している Web ページは頻繁に

チェック

(28)

文書フィルタ部での工夫



文字コードの自動識別



テキスト以外の文書からテキストを抽出

（ PDF,Word,PowerPoint,Excel など）

(29)

インデックス生成での工夫



インデックスに登録する文字列の決定



活用語から原形に変換



表記のゆれの吸収



インデックスに登録する文字列の高速検索手法

 情報検索特論　授業資料

 http://ir.cs.yamanashi.ac.jp/~ysuzuki/ir/ir.html　の2005年6月7 日～2005年7月12日

(30)

検索サーバー部での工夫 PageRank



学術論文の重要度

 他の研究論文から何度引用されているかによって評価できる



Web ページの重要度

 他のWebページからのハイパーリンクの数で評価できる

(31)

PageRank の式

85 .

0 )

1 0

( :

1 :

) 1 (

PageRank 1

: ) 1 (

PageRank :

) (

) ) (

) (

) 1 (

) 1 ( (

) 1

( )

(

通常制動係数　

ンクの数から外に向けられるリ

ページ

のページ

<

+ +

+

−

=

d d

T T

C

T T

PR

A A

PR

Tn C

Tn PR

T C

T d PR

d A

PR 

WebページAのPageRankはWebページAにリンクしている各ページのPageRankを，それぞれのページからの外向きリンク数で割った値の総和

(32)

PageRank の概念図　 1

A

B

ページBをページAよりも重要なページと見なすハイパーリンク

ハイパーリンク

(33)

PageRank の概念図　 2 　

A

B

ページBをページAよりも重要なページと見なすハイパーリンク

ハイパーリンク

たくさんの外部リンクを持つページ

(34)

フロントエンド部での工夫



検索画面

 検索オプションの充実



検索結果の画面

 どれが目的のページかを判断しやすくする

 広告

 妥当な広告

 目につきやすく

 じゃまにならない



個人仕様

(35)

個人で手軽に使える検索システム Namazu



URL: http://www.namazu.org



自分の管理している Web サイト内の検索



Google なども利用可能

(36)

インターネット検索での注意



Web に書いてあることを鵜呑みにしない

 検索結果をいくつか読んでみる

 できれば他のメディアでも確認する



フィッシング詐欺ページに注意



いろいろな検索サイトで検索を試してみる



検索サイトの「使い方」のページをよく読む

 検索方法が頻繁に改良されているので，たまには読み直す

(37)

授業資料

http://ir.cs.yamanashi.ac.jp/~ysuzuki/man- machine/index.html

参考にした文献

 インターネット　最強の検索術　関裕司著　リブロス刊

 SearchWiki



http://www.shikencho.com/search/

 GOOGLE HACKS オライリー・ジャパン

 SPIDERING HACKS オライリー・ジャパン

(38)

レポート



現在のインターネット検索に付け加えてほしい機能とその理由を書いてください（ 500 文字以上

1000 文字以下）

(39)

レポート（提出期限，提出方法）



提出期限　 1 月 31 日 17:00



提出方法

 Email

 [email protected] 宛て

 Subject（件名）：　人間とコンピュータ　レポート

 本文の最初に学籍番号と名前を書くこと

 レポート用紙

 A3号館5階K514号室の前のレポート入れ

 表紙に学籍番号，名前，「人間とコンピュータ」を書くこと

人間とコンピュータ インターネット検索