• 検索結果がありません。

人間とコンピュータ インターネット検索

N/A
N/A
Protected

Academic year: 2022

シェア "人間とコンピュータ インターネット検索"

Copied!
39
0
0

読み込み中.... (全文を見る)

全文

(1)

人間とコンピュータ インターネット検索

1 月 10 日:インターネット検索とは

1 月 17 日:インターネット検索の使い方 124 日:インターネット検索の内側

授業資料

http://ir.cs.yamanashi.ac.jp/~ysuzuki/man-machine/index.html

(2)

インターネット検索の内側

先週 1 週間のニュース

ロボット型検索エンジンの使い方

goo

Google

ロボット型検索エンジンの仕組み

スパイダ

インデクサ

ランキングアルゴリズム

全文検索エンジン  Namazu

(3)

先週 1 週間のニュース

ほとんど Wikipedia 専門のサーチエンジン「

Wikiseek 」発表

http://internet.watch.impress.co.jp/cda/news/2007/01/17/14476.html

Microsoft 、「 Virtual Earth 」に欧州 100 都市以上の鳥瞰画像を追加

http://internet.watch.impress.co.jp/cda/news

/2007/01/23/14550.html

(4)

ロボット型検索エンジンの使い方

何を検索したいのかをよく考える

目的のページの作成者はどんな単語を使うかを想像 する

検索エンジンの表示順位を想像する

見つからなかったら同義語で検索する

AND OR NOT検索をする

コアラ AND 動物

コアラ OR koala

コアラ –ネット -ADSL

(5)

一度検索して見つからなかったら

同義語で検索する

シソーラス検索

http://www.gengokk.co.jp/thesaurus/

用語辞典

http://e-words.jp/ IT用語辞典

検索されたページを読んで使えそうな専門用語

を見つけ,その専門用語で検索する

(6)

goo で検索してみよう

http://www.goo.ne.jp

ウェブ,辞書,画像,登録サイト,ブログ,教えて!,カテ ゴリー,タウンページ,地図,路線

検索オプションを使う

いろいろな検索オプションを使う

http://search.goo.ne.jp/advanced.jsp

教えて!goo

みんなの疑問、みんなで解決!

ブログの検索

キャッシュページを見てみる

Webサーバーが一時的に利用できない場合や頻繁に書き換 えを行っているWebページを見るときに便利

(7)

Google で検索してみよう http://www.google.co.jp

I’m Feeling Luckyを使う

会社のホームページを見る

検索オプションを使う

いろいろな検索オプションを使う

関連ページを検索する

検索結果の関連ページリンク

キャッシュページを見てみる

Webサーバーが一時的に利用できない場合や頻繁に書き換 えを行っているWebページを見るときに便利

分野を絞って検索する(カテゴリー別Google!)

その他

荷物検索,会社情報検索,株価検索,辞書検索,路線検索

(8)

Google で Google を検索すると

80 億ページ以上の Web ページから

0.2 秒で

753,000,000 ページを抽出

(9)

もしも Google が

1台のPCで処理をしていて

前もってWebページをインデックス化していないとしたら

1ページあたり2.5x10-11秒で検索しなければならない

40GHzのCPUの1クロック内に1ページの検索を終える

無理!!

] [

10 5

. 000 2

, 000 ,

000 ,

8

2 . 0 ]

[ 80

] [

2 .

0 11

ページ 秒 億

×

=

=

] /

[ 400

000 ,

000 ,

000 ,

] 40 [

2 . 0

] [

80 億 ページ 秒

ページ

億 = =

(10)

ロボット型検索エンジンの仕組み 1

データ収集部

(クローラー,スパイダー)

文書フィルタ部

インデクサ部

検索サーバー部

Webページ

インデックス ファイル

フロントエンド部

検索語句 結果表示

(11)

ロボット型検索エンジン

1. データ収集部:スパイダ(クローラ)と呼ばれる自動プロ グラムを使ってWebサイトのページをダウンロードする

2. 文書フィルタ部:文字コードの修正,タグの削除

3. インデクサ部:ページの可視部分を抽出し,キーワード,

タイトル,リンク,などの重要な情報を用いてページ解析 する.

4. 検索サーバー部:データベースにWebサイトの解析結果 を追加し,ユーザが検索可能な状態にする.ランキング アルゴリズムにより,検索結果の順位が決定される

5. フロントエンド部:ユーザーが使いやすいユーザーインタ ーフェース

(12)

データ収集部(スパイダ)

ウェブ上のリンクをたどって情報を収集すること

ウェブ(蜘蛛の巣)のリンク(糸)をたどって目的 の情報(獲物)を捕らえる → スパイダ(蜘蛛)

ウェブ上をはい回る → クローラー( crawler )

(13)

文書フィルタ部

Web ページの文字コードを統一する

文字コード:JIS,Shift-JIS,EUC-JP,UTF-7,UTF-8

HTML や XML などのタグの除去

<B>デジタル</B>カメラ → デジタルカメラ

各種文書フォーマットの変換

PDF,PowerPoint,Word,Excelの中を検索するため

(14)

インデクサ部

検索したいコンテンツをあらかじめ検索し やすい形のファイルに変換するプログラム

各コンテンツを形態素解析技術を用いて 単語を分解し,それらの単語をインデック スファイルに記録する

N-gram を用いる方法もある

(15)

検索サーバー部

検索語とインデックスの照合

速く

余計なページは排除し

必要なページを抽出する

適合度の高い順に検索結果を並べる

(16)

フロントエンド部

検索オプションを用意

AND, OR, NOT

絞り込み(ドメイン指定,文書種類の指定など)

検索結果の表示

見やすく

繰返し検索しやすく

スポンサーの宣伝も入れる

(17)

形態素解析 

(インデクサ)

形態素 = 意味を担う最小の言語要素

形態素解析

単語の出現形から原形を求める処理(英語など)

solving solve + ing (進行形)

easier easy + er (比較級)

problems problem + s (複数)

単語分割と語の活用(日本語など)

日本的 → 日本 + 的

言語モデル → 言語 + モデル

使い込む → 使う + 込む

(18)

形態素解析の手法 

(インデクサ)

最長一致法

分割数最小法

例:畜産物価格安定法

畜産物|価格|安定|法

(19)

最長一致法 

(インデクサ)

文字列の先頭から解析を始め,後続する可能性 がある単語が複数あるときは,最長の単語を選 択して先に進む

 畜産物|価格|安定|法

 畜産   価   安

(20)

分割数最小法 

(インデクサ)

入力文字列を構成する単語の総数が最小 になる解釈を優先する方法

例:言語学入門講座

○  (3)  言語学|入門|講座

×   (4)  言語|学|入門|講座

×   (4)  言語学|入|門|講座

(21)

ランキングアルゴリズム

Google の中身(ちょっとだけ)

Google の検索結果の順位付け

如何にすれば自分の作ったページを高順位に表示さ せられるか.

Googleは何を基準に検索結果を順位付けしている

のか

PageRank とその他のランキングアルゴリズム

(22)

SEO:Search Engine Optimization SEM:Search Engine Marketing

昔:店が客を探す (ダイレクトメールなど)

今:客が店を探す

客に見つけてもらう工夫が必要

人間が読みやすいページからロボットが読みやすい ページへ?

ロボット(検索エンジン)に見つけてもらわなければ始まらな い.

Googleの検索結果の上位15位に入らなければその会社

(店)はこの世に存在していないのも同じ

(23)

Google 八分

Google で本来なら上位に表示されるはずの

ウェブサイトやウェブページが、検閲などにより

検索の対象から外れるよう操作され、検索の結

果に表示されない状態 (ウィキペディアより)

(24)

キーワード(検索語)の埋め込み 方( Google に好かれるには)

キーワード : w が入力された時,検索結果の上位 に表示されるためには

キーワード w を 

Webページのタイトル内に使う

イメージファイル名,ALT属性,title属性に使う

大きな字で表示する

トップページからのリンクで使用する

別のサイトや内部サイトへのリンクテキストで使用する

メジャーなサイトへのリンクで使用する

などなど

(25)

キーワード(検索語)の埋め込み方

( Google に好かれるには) 続き

last modified (最終更新日)ヘッダを使う

HTML の構文誤りのない Web ページを作る

1 つのファイルのサイズを大きくしない( 20k バイト以 下)

HTML ファイル中のテキストの比率を高くする

などなど

(26)

検索エンジンの様々な工夫

(27)

データ収集部での工夫

(スピード)

複数のコンピュータでデータ収集

重要なページを選んでデータ収集

リンクが深いページはチェックしない

頻繁に更新している Web ページは頻繁に

チェック

(28)

文書フィルタ部での工夫

文字コードの自動識別

テキスト以外の文書からテキストを抽出

( PDF,Word,PowerPoint,Excel など)

(29)

インデックス生成での工夫

インデックスに登録する文字列の決定

活用語から原形に変換

表記のゆれの吸収

インデックスに登録する文字列の高速検索手法

情報検索特論 授業資料

http://ir.cs.yamanashi.ac.jp/~ysuzuki/ir/ir.html の2005年6月7 日~2005年7月12日

(30)

検索サーバー部での工夫 PageRank

学術論文の重要度

他の研究論文から何度引用されているかによって評 価できる

Web ページの重要度

他のWebページからのハイパーリンクの数で評価で きる

(31)

PageRank の式

85 .

0 )

1 0

( :

1 :

) 1 (

PageRank 1

: ) 1 (

PageRank :

) (

) ) (

) (

) 1 (

) 1 ( (

) 1

( )

(

通常 制動係数 

ンクの数 から外に向けられるリ

ページ

の ページ

の ページ

<

<

+ +

+

=

d d

T T

C

T T

PR

A A

PR

Tn C

Tn PR

T C

T d PR

d A

PR

WebページAのPageRankはWebページAにリンクしている 各ページのPageRankを,それぞれのページからの外向き リンク数で割った値の総和

(32)

PageRank の概念図  1

A

B

ページBをページAよりも重要なページと見なす ハイパーリンク

ハイパーリンク

(33)

PageRank の概念図  2  

A

B

ページBをページAよりも重要なページと見なす ハイパーリンク

ハイパーリンク

たくさんの 外部リンクを 持つページ

(34)

フロントエンド部での工夫

検索画面

検索オプションの充実

検索結果の画面

どれが目的のページかを判断しやすくする

広告

妥当な広告

目につきやすく

じゃまにならない

個人仕様

(35)

個人で手軽に使える検索システム Namazu

URL: http://www.namazu.org

自分の管理している Web サイト内の検索

Google なども利用可能

(36)

インターネット検索での注意

Web に書いてあることを鵜呑みにしない

検索結果をいくつか読んでみる

できれば他のメディアでも確認する

フィッシング詐欺ページに注意

いろいろな検索サイトで検索を試してみる

検索サイトの「使い方」のページをよく読む

検索方法が頻繁に改良されているので,たまには読 み直す

(37)

授業資料

http://ir.cs.yamanashi.ac.jp/~ysuzuki/man- machine/index.html

参考にした文献

インターネット 最強の検索術 関裕司著 リブロス刊

SearchWiki

http://www.shikencho.com/search/

GOOGLE HACKS オライリー・ジャパン

SPIDERING HACKS オライリー・ジャパン

(38)

レポート

現在のインターネット検索に付け加えてほしい機 能とその理由を書いてください( 500 文字以上

1000 文字以下)

(39)

レポート(提出期限,提出方法)

提出期限  1 月 31 日 17:00

提出方法

Email

[email protected] 宛て

Subject(件名): 人間とコンピュータ レポート

本文の最初に学籍番号と名前を書くこと

レポート用紙

A3号館5K514号室の前のレポート入れ

表紙に学籍番号,名前,「人間とコンピュータ」を書くこと

参照

関連したドキュメント

 膵の神経染色標本を検索すると,既に弱拡大で小葉

 Schwann氏細胞は軸索を囲む長管状を呈し,内部 に管状の髄鞘を含み,Ranvier氏絞輪部では多数の指

(問5-3)検体検査管理加算に係る機能評価係数Ⅰは検体検査を実施していない月も医療機関別係数に合算することができる か。

題が検出されると、トラブルシューティングを開始するために必要なシステム状態の情報が Dell に送 信されます。SupportAssist は、 Windows

FSIS が実施する HACCP の検証には、基本的検証と HACCP 運用に関する検証から構 成されている。基本的検証では、危害分析などの

採取容器(添加物),採取量 検査(受入)不可基準 検査の性能仕様や結果の解釈に 重大な影響を与える要因. 紫色ゴムキャップ (EDTA-2K)

荒天の際に係留する場合は、1つのビットに 2 本(可能であれば 3

脅威検出 悪意のある操作や不正な動作を継続的にモニタリングす る脅威検出サービスを導入しています。アカウント侵害の