人間とコンピュータ インターネット検索
1 月 10 日:インターネット検索とは
1 月 17 日:インターネット検索の使い方 1 月 24 日:インターネット検索の内側
授業資料
http://ir.cs.yamanashi.ac.jp/~ysuzuki/man-machine/index.html
インターネット検索の内側
先週 1 週間のニュース
ロボット型検索エンジンの使い方
goo
ロボット型検索エンジンの仕組み
スパイダ
インデクサ
ランキングアルゴリズム
全文検索エンジン Namazu
先週 1 週間のニュース
ほとんど Wikipedia 専門のサーチエンジン「
Wikiseek 」発表
http://internet.watch.impress.co.jp/cda/news/2007/01/17/14476.html
Microsoft 、「 Virtual Earth 」に欧州 100 都市以上の鳥瞰画像を追加
http://internet.watch.impress.co.jp/cda/news
/2007/01/23/14550.html
ロボット型検索エンジンの使い方
何を検索したいのかをよく考える
目的のページの作成者はどんな単語を使うかを想像 する
検索エンジンの表示順位を想像する
見つからなかったら同義語で検索する
AND OR NOT検索をする
コアラ AND 動物
コアラ OR koala
コアラ –ネット -ADSL
一度検索して見つからなかったら
同義語で検索する
シソーラス検索
http://www.gengokk.co.jp/thesaurus/
用語辞典
http://e-words.jp/ IT用語辞典
検索されたページを読んで使えそうな専門用語
を見つけ,その専門用語で検索する
goo で検索してみよう
http://www.goo.ne.jp
ウェブ,辞書,画像,登録サイト,ブログ,教えて!,カテ ゴリー,タウンページ,地図,路線
検索オプションを使う
いろいろな検索オプションを使う
http://search.goo.ne.jp/advanced.jsp
教えて!goo
みんなの疑問、みんなで解決!
ブログの検索
キャッシュページを見てみる
Webサーバーが一時的に利用できない場合や頻繁に書き換 えを行っているWebページを見るときに便利
Google で検索してみよう http://www.google.co.jp
I’m Feeling Luckyを使う
会社のホームページを見る
検索オプションを使う
いろいろな検索オプションを使う
関連ページを検索する
検索結果の関連ページリンク
キャッシュページを見てみる
Webサーバーが一時的に利用できない場合や頻繁に書き換 えを行っているWebページを見るときに便利
分野を絞って検索する(カテゴリー別Google!)
その他
荷物検索,会社情報検索,株価検索,辞書検索,路線検索
Google で Google を検索すると
80 億ページ以上の Web ページから
0.2 秒で
753,000,000 ページを抽出
もしも Google が
1台のPCで処理をしていて
前もってWebページをインデックス化していないとしたら
1ページあたり2.5x10-11秒で検索しなければならない
40GHzのCPUの1クロック内に1ページの検索を終える
無理!!
] [
10 5
. 000 2
, 000 ,
000 ,
8
2 . 0 ]
[ 80
] [
2 .
0 11
ページ 秒 億
秒 −
×
=
=
] /
[ 400
000 ,
000 ,
000 ,
] 40 [
2 . 0
] [
80 億 ページ 秒
秒
ページ
億 = =
ロボット型検索エンジンの仕組み 1
データ収集部
(クローラー,スパイダー)
文書フィルタ部
インデクサ部
検索サーバー部
Webページ
インデックス ファイル
フロントエンド部
検索語句 結果表示
ロボット型検索エンジン
1. データ収集部:スパイダ(クローラ)と呼ばれる自動プロ グラムを使ってWebサイトのページをダウンロードする
2. 文書フィルタ部:文字コードの修正,タグの削除
3. インデクサ部:ページの可視部分を抽出し,キーワード,
タイトル,リンク,などの重要な情報を用いてページ解析 する.
4. 検索サーバー部:データベースにWebサイトの解析結果 を追加し,ユーザが検索可能な状態にする.ランキング アルゴリズムにより,検索結果の順位が決定される
5. フロントエンド部:ユーザーが使いやすいユーザーインタ ーフェース
データ収集部(スパイダ)
ウェブ上のリンクをたどって情報を収集すること
ウェブ(蜘蛛の巣)のリンク(糸)をたどって目的 の情報(獲物)を捕らえる → スパイダ(蜘蛛)
ウェブ上をはい回る → クローラー( crawler )
文書フィルタ部
Web ページの文字コードを統一する
文字コード:JIS,Shift-JIS,EUC-JP,UTF-7,UTF-8
HTML や XML などのタグの除去
<B>デジタル</B>カメラ → デジタルカメラ
各種文書フォーマットの変換
PDF,PowerPoint,Word,Excelの中を検索するため
インデクサ部
検索したいコンテンツをあらかじめ検索し やすい形のファイルに変換するプログラム
各コンテンツを形態素解析技術を用いて 単語を分解し,それらの単語をインデック スファイルに記録する
N-gram を用いる方法もある
検索サーバー部
検索語とインデックスの照合
速く
余計なページは排除し
必要なページを抽出する
適合度の高い順に検索結果を並べる
フロントエンド部
検索オプションを用意
AND, OR, NOT
絞り込み(ドメイン指定,文書種類の指定など)
検索結果の表示
見やすく
繰返し検索しやすく
スポンサーの宣伝も入れる
形態素解析
(インデクサ)
形態素 = 意味を担う最小の言語要素
形態素解析
単語の出現形から原形を求める処理(英語など)
solving solve + ing → (進行形)
easier easy + er → (比較級)
problems problem + s → (複数)
単語分割と語の活用(日本語など)
日本的 → 日本 + 的
言語モデル → 言語 + モデル
使い込む → 使う + 込む
形態素解析の手法
(インデクサ)
最長一致法
分割数最小法
例:畜産物価格安定法
畜産物|価格|安定|法
最長一致法
(インデクサ)
文字列の先頭から解析を始め,後続する可能性 がある単語が複数あるときは,最長の単語を選 択して先に進む
畜産物|価格|安定|法
畜産 価 安
分割数最小法
(インデクサ)
入力文字列を構成する単語の総数が最小 になる解釈を優先する方法
例:言語学入門講座
○ (3) 言語学|入門|講座
× (4) 言語|学|入門|講座
× (4) 言語学|入|門|講座
ランキングアルゴリズム
Google の中身(ちょっとだけ)
Google の検索結果の順位付け
如何にすれば自分の作ったページを高順位に表示さ せられるか.
Googleは何を基準に検索結果を順位付けしている
のか
PageRank とその他のランキングアルゴリズム
SEO:Search Engine Optimization SEM:Search Engine Marketing
昔:店が客を探す (ダイレクトメールなど)
今:客が店を探す
客に見つけてもらう工夫が必要
人間が読みやすいページからロボットが読みやすい ページへ?
ロボット(検索エンジン)に見つけてもらわなければ始まらな い.
Googleの検索結果の上位15位に入らなければその会社
(店)はこの世に存在していないのも同じ
Google 八分
Google で本来なら上位に表示されるはずの
ウェブサイトやウェブページが、検閲などにより
検索の対象から外れるよう操作され、検索の結
果に表示されない状態 (ウィキペディアより)
キーワード(検索語)の埋め込み 方( Google に好かれるには)
キーワード : w が入力された時,検索結果の上位 に表示されるためには
キーワード w を
Webページのタイトル内に使う
イメージファイル名,ALT属性,title属性に使う
大きな字で表示する
トップページからのリンクで使用する
別のサイトや内部サイトへのリンクテキストで使用する
メジャーなサイトへのリンクで使用する
などなど
キーワード(検索語)の埋め込み方
( Google に好かれるには) 続き
last modified (最終更新日)ヘッダを使う
HTML の構文誤りのない Web ページを作る
1 つのファイルのサイズを大きくしない( 20k バイト以 下)
HTML ファイル中のテキストの比率を高くする
などなど
検索エンジンの様々な工夫
データ収集部での工夫
(スピード)
複数のコンピュータでデータ収集
重要なページを選んでデータ収集
リンクが深いページはチェックしない
頻繁に更新している Web ページは頻繁に
チェック
文書フィルタ部での工夫
文字コードの自動識別
テキスト以外の文書からテキストを抽出
( PDF,Word,PowerPoint,Excel など)
インデックス生成での工夫
インデックスに登録する文字列の決定
活用語から原形に変換
表記のゆれの吸収
インデックスに登録する文字列の高速検索手法
情報検索特論 授業資料
http://ir.cs.yamanashi.ac.jp/~ysuzuki/ir/ir.html の2005年6月7 日~2005年7月12日
検索サーバー部での工夫 PageRank
学術論文の重要度
他の研究論文から何度引用されているかによって評 価できる
Web ページの重要度
他のWebページからのハイパーリンクの数で評価で きる
PageRank の式
85 .
0 )
1 0
( :
1 :
) 1 (
PageRank 1
: ) 1 (
PageRank :
) (
) ) (
) (
) 1 (
) 1 ( (
) 1
( )
(
通常 制動係数
ンクの数 から外に向けられるリ
ページ
の ページ
の ページ
<
<
+ +
+
−
=
d d
T T
C
T T
PR
A A
PR
Tn C
Tn PR
T C
T d PR
d A
PR
WebページAのPageRankはWebページAにリンクしている 各ページのPageRankを,それぞれのページからの外向き リンク数で割った値の総和
PageRank の概念図 1
A
B
ページBをページAよりも重要なページと見なす ハイパーリンク
ハイパーリンク
PageRank の概念図 2
A
B
ページBをページAよりも重要なページと見なす ハイパーリンク
ハイパーリンク
たくさんの 外部リンクを 持つページ
フロントエンド部での工夫
検索画面
検索オプションの充実
検索結果の画面
どれが目的のページかを判断しやすくする
広告
妥当な広告
目につきやすく
じゃまにならない
個人仕様
個人で手軽に使える検索システム Namazu
URL: http://www.namazu.org
自分の管理している Web サイト内の検索
Google なども利用可能
インターネット検索での注意
Web に書いてあることを鵜呑みにしない
検索結果をいくつか読んでみる
できれば他のメディアでも確認する
フィッシング詐欺ページに注意
いろいろな検索サイトで検索を試してみる
検索サイトの「使い方」のページをよく読む
検索方法が頻繁に改良されているので,たまには読 み直す
授業資料
http://ir.cs.yamanashi.ac.jp/~ysuzuki/man- machine/index.html
参考にした文献
インターネット 最強の検索術 関裕司著 リブロス刊
SearchWiki
http://www.shikencho.com/search/
GOOGLE HACKS オライリー・ジャパン
SPIDERING HACKS オライリー・ジャパン
レポート
現在のインターネット検索に付け加えてほしい機 能とその理由を書いてください( 500 文字以上
1000 文字以下)
レポート(提出期限,提出方法)
提出期限 1 月 31 日 17:00
提出方法
[email protected] 宛て
Subject(件名): 人間とコンピュータ レポート
本文の最初に学籍番号と名前を書くこと
レポート用紙
A3号館5階K514号室の前のレポート入れ
表紙に学籍番号,名前,「人間とコンピュータ」を書くこと