WWWとブラウザの過去，現在，未来

(1)

ポータルサイトと

検索エンジン

(2)

ポータルサイト

・ポータルサイト(Portal Site)

→最初にアクセスするWebページ。

・広告やEC取引仲介サービスにより収入を得る。

・検索エンジン、情報サービス、e-マーケットプレイス、

業界系などに分類されるが、近年、SNSの台頭がめざ

ましい。

・全世界ではGoogleがトップシェアをとるが、

国に依存して、ポータルサイトの状況はかなり異なる。

(3)

代表的な検索エンジンと

シェアの推移

(4)

２つの検索エンジン

• ディレクトリ型検索エンジン(Yahoo!) （人手で作成されたディレクトリ（カテゴリ）に沿って検索。ユーザがWebサイトをYahoo！に登録，審査，承認されればディレクトリ登録（２－３週間）。情報が厳選されているので検索結果の質は高い。でも即時性に劣る。 • ロボット型全文検索エンジン(Google)

Web自動巡回ソフト(robot, crawler, spider)がWebデータを収集し（2004．12で８０億ページ）、インデクス（索引付き）DB を作成し検索に利用する。即時性があるが検索結果が膨大。

テキスト一致度やPageRank（良いページからリンクされてい

るページはやはり良いページ）などによりWebページをランキング。

(5)

1996年 Yahoo！JAPAN

・インターネットユーザーがまだまだ珍しかった時代・1996年4月 Yahoo! JAPAN スタート・検索機能のみ・38万PV/Day（1996年5月）

1998年 Yahoo！JAPAN

・（情報）サービス登場・サービスは検索ボックスの下にまとめて表示・1500万PV(1998.9)

(6)

2001年 Yahoo！JAPAN

検索＋サービスお薦めのサービスをトピックスの下に表示サービスに重点が移り始めるサービス数＞50 1億ページを突破！（2000.7） 2億ページを突破！（2001.8）

2003年 Yahoo！JAPAN

サービスの占めるスペースが拡大 メールやカレンダーなど個人ツール の入り口が、トピックス上にまとまり Yahoo! BBの枠も大きく設ける

(7)

Yahoo! JAPAN 10年間の

ページビュー（PV）の推移

2010年以降:Yahoo!は検索エンジンからほぼ撤退し、情報サービスとしてのポータルサイトとなる。 http://www.yahoo.co.jp/ 2014.12 月間総ページビュー（PV）数は約606億PV、スマートフォンで約273億PV。30億PV／日。 http://ir.yahoo.co.jp/jp/individual/marketandusage.html

(8)

GOOGLE 誕生

1.サーゲイ・ブリン（スタンフォード大学，CS）が博士課程でデータマイニングの研究を進める。 2.Webデータに興味を持つラリー・ペイジ（ロシア人）が参画 3.２人で1.5万ドル(１６０万円)のお金を出して，TB(テラバイト) オーダーのHDDを購入して実験を進める。 4.ビジネスプランを申請。 5.サンマイクロシステム社が＄１０万（１０５０万円）出資 6.ベンチャーキャピタルが２５００万ドル（２６億円）出資 7.１９９８年９月：GOOGLE（グーグル：10の100乗を示す英単語「googol」に由来）

(9)

GOOGLE アドワーズ広告（後で詳細）

• ビジネスモデル：他のサイトが検索サイトから総合サイトにモデルチェンジする中、GOOGLEは検索一筋。売上高の９９％＝インターネット広告→現在は９５％程度 • バナー広告→検索連動型広告＝アドワーズ広告（売上高５０％）＋アドセンス広告（売上高４９％）アドワーズ(Adwords:Ad＝広告＋words＝キーワード)広告検索キーワードに関連する広告を検索結果表示ページの上側と右側にテキスト表示（上１枠＋右８枠＝最大９枠。それ以降の広告は次ページ以降）． →最近は、画面の上側と下側（ユーザへの配慮）・テキスト表示：検索速度が遅くなってはいけない・広告表示場所は上側と右（下）側に定め、検索結果閲覧を邪魔しない・ポップアップ広告はユーザが不快になる恐れがあるので禁止。

・クリック単価(CPC: Cost Per Click)×クリック率(CTR: Cick Through Rate)

で表示順位決定。CPCだけで決める広告主主導になりすぎるため。

・さらにCTRが0.5%を下回ると広告が抑制され，そのまま改善しない場合はステータスが「無効」になり取り下げられる。

（広告主への配慮）

クリック課金型広告（PPC (Pay Per Click)広告）

→クリックされた場合のみ広告料金が発生

クリック単価（７円～１万円）を設定しクリック数に応じて支払う１日当たりの上限金額設定可能。

(10)

GOOGLE アドセンス広告

• Webサイトを持つ人がアドセンスに無料登録

• 登録されたWebサイトを解析し掲載すべき広告を

決定し掲載

• その広告がクリックされれば、Webサイト登録者と

GOOGLEに広告料が二分されて入る

• 利益率は低いが、世界中が広告媒体となる。

(11)

現在の主要検索エンジン

2018/12/14はここから

ディレクトリ型ロボット型

Yahoo! (USA)

Yahoo! Directory

(2014.12.31中止） YST→ Bing(2010)

Yahoo! Japan

Yahoo! Category

(2018.3.29中止） YST→Google(2010)

Google

Dmoz→中止（２０１１） Google

(12)

ニールセン･オンライン、検索サービス利用動向レポート「MegaView Search」 http://www.netratings.co.jp/news_release/2010/05/Newsrelease20100527.html

(13)

現在、世界40カ国の検索エンジのシェア(1)

http://www.globalmarketingchannel.com/press/pdf/20121120.pdf

(14)

現在、世界40カ国の検索エンジのシェア(2)

(15)

韓国発「NAVER まとめ」の（日本における）月間訪問者数が1,300万人を突破（2009年7月より日本語サービス開始）

(16)

ニールセン: 日本のネットサービス利用者数ランキング1

(17)

(18)

(19)

検索結果の表示順位

「Googleの人気の秘密 (http://www.google.co.jp/intl/ja/why_use.html)」

• PageRankについて PageRankは、ウェブの膨大なリンク構造を用いて、その特性を生かします。ページＡからページＢへのリンクをページAによるページBへの支持投票とみなし、Googleはこの投票数によりそのページの重要性を判断します。しかしGoogleは単に票数、つまりリンク数を見るだけではなく、票を投じたページについても分析します。「重要度」の高いページによって投じられた票はより高く評価されて、それを受け取ったページを「重要なもの」にしていくのです。こうした分析によって高評価を得た重要なページには高いPageRank （ページ順位）が与えられ、検索結果内の順位も高くなります。 PageRankは Googleにおけるページの重要度を示す総合的な指標であり、各検索に影響されるものではありません。むしろ、PageRankは複雑なアルゴリズムにしたがったリンク構造の分析にもとづく、各ウェブページそのものの特性です。もちろん、重要度が高いページでも検索語句に関連がなければ意味がありません。そのためにGoogleは洗練されたテキストマッチ技術を使って、検索に対し重要でなおかつ、的確なページを探し出します。

(20)

PageRank

多くの良質なページからリンクされている

ページは、やはり良質なページである

(21)

B A １．被リンク数(単純人気度） _{１つのWebページからリンクされているA} よりも、２つのWebページからリンクされているBの方がPageRank値が高い SPAMページ、内輪推薦に対応できない D C B A ２．リンク元の被リンク数１つのWebページからリンクされている Cより２つのWebページからリンクされているDの方が信用できる。よって、CからリンクされているAよりも、DからリンクされているBの方がPageRank値は高い B A ３．リンク元ページでのリンク数 Aのリンク元はリンクが２つあるが、Bのリンク元はリンクが一つであり、より厳選された推薦であるので、 AよりBの方がPageRank値は高い

(22)

PageRank値の計算方法

１．リンク構造を隣接行列で表現する。 aij = 1 if (ページ i からページ j へのリンクが「ある」場合) 0 if (ページ i からページ j へのリンクが「ない」場合) ２． PageRank は「どれだけリンクしているか」ではなく「どれだけリンクされているか」を重視しているので、転置行列を作成し(行と列を入れ替えること)、さらにそれぞれの列 (column)ベクトルの総和が 1 (全確率)になるようにそれぞれのリンク数(すなわち、非零要素数)で割る（推移確率行列）。３．推移確率行列の最大固有値に属する固有ベクトルを求め、これがPageRank値になる。

(23)

PageRankの計算例題

左図グラフのようなWebがあるとする．問１どのWebサイトが評判が高いかを直感で示せ．問２下記の手順でPageRank値を求め，問１と比較せよ１．隣接行列２．転置行列３．推移確率行列４．方程式を立てる５．固有値，固有ベクトル，正規化（＝ページランク）

R= (1/4, 7/36, 2/9, 1/12, 1/4)

(24)

１．隣接行列 X = 0 1 1 1 0 0 0 1 0 1 0 1 0 0 1 0 0 1 0 1 1 0 0 0 0 ２．転置行列 X t= 0 0 0 0 1 1 0 1 0 0 1 1 0 1 0 1 0 0 0 0 0 1 1 1 0 Aがどのノードと連結しているか？ Aがどのノードから連結されているか３．推移確率行列 M = 0 0 0 0 1 1/3 0 1/2 0 0 1/3 1/2 0 1/2 0 1/3 0 0 0 0 0 1/2 1/2 1/2 0 Aノードから他ノードへ推移する確率を求めるために，列単位で正規化を行う

PageRankの計算過程（１）

(25)

４．推移確率行列の最大固有ベクトルをRとすると MP=λR

PageRankの計算過程（2）

0 0 0 0 1 1/3 0 1/2 0 0 1/3 1/2 0 1/2 0 1/3 0 0 0 0 0 1/2 1/2 1/2 0 r_A r_B r_C r_D r_E = λ r_A r_B r_C r_D r_E グラフが強連結（グラフ上の任意の2点間に有向路が存在する）の時は，λ＝１となるので， MP=Rを解けばよい r_A r_B r_C r_D r_E 1 7/9 8/9 1/3 1 = ５．Rを正規化する (要素の総和（＝４）で各要素を割る） R= (1/4, 7/36, 2/9, 1/12, 1/4)

(26)

PageRankの計算例題1

（各自やってみること）

(27)

(28)

キーワード検索と全文検索

• キーワード検索： Webページに登録されたキーワードが検索対象。 ○検索が高速。 ○検索結果にゴミが少ない。 ×キーワード登録が手間。 ×検索漏れが多い（デジカメ≠デジタルカメラ） • 全文検索： Webページ内のすべての文字が検索対象。ほとんどのサーチエンジンが採用逐次検索方式：Webページの先頭から順番に文字列照合インデックス方式：事前にWebページを分析し索引情報（語句、Webページ）を作成して利用する

(29)

インデックス検索方式に基づく

全文検索(フルテキストサーチ）

データ収集部（ロボット，スパイダー，クローラ）文書フィルタ部インデクサ部検索サーバー部フロントエンド部、ユーザ検索語句結果表示 Webページ群文字コードの統一，タグの除去インデックス(索引）の作成インデックスファイル検索語句とインデックスファイルとの照合 Webデータを収集

(30)

• 19inchラック（210cmH

x 60cmW x 75cmD）に

1UのPC80台を設置。

(Rackable Systemsの

技術：ラックの全面と背

面の両方に奥行半分の

PCを設置)

• 2 Fast Ethernet Switch

/ 筐体

• 4筐体をGigaEtherにて

接続し１クラスタを構成。

空調 2x44port Fast Ethernet Switch PC ラック前面に２０台裏面に２０台 PC ラック前面に２０台裏面に２０台空調 2x44port Fast Ethernet Switch PC ラック前面に２０台裏面に２０台 PC ラック前面に２０台裏面に２０台

１２０００台(2004?)のサーチエンジンサーバー

８０CPU×１５０ラック

(31)

Google のデータセンタ

外観は巨大な工場のよう内部には大量のコンピュータ全部で 2250 万台という噂（サーバの日本国内市場規模は 50 万台）電力使用量 2 億 6 千万ワット

(32)

(33)

サーバー台数と収集されたWebページ数の推移

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 A ug -98 F eb -99 A ug -99 F eb -00 A ug -00 F eb -01 A ug -01 F eb -02 2001.3 8000台 2000.12 Biglobe 　　　　　と提携 1998.8 ３０台 1999.6 Netscapeと提携 2000.6 Yahoo!と提携平均３３台/日で増加２億４億６億８億１０億１２億１４億収_集 W e b ページ数 P C 台数１６億１８億２０億 2001.4 @Niftyと提携

(34)

（Web巡回）ロボット

（クローラー，スパイダー）の仕組み

①手作業により収集すべきWebページ（URL)を登録

(URL: Uniform Resource Locator→インターネット上に存在する情報資源(文書や画像など)の場所を指し示す記述方式)

②登録されているURLにアクセスしWebページを収集

③そのWebページに記載されているリンクを辿って

Webページを収集

④リンクを辿る深さを制限してデータ収集

１サーバーに100以上のロボット

100x12000=120万以上のロボットが巡回

(35)

全文検索からのインデックス生成の困難さ

英語：区切り記号として空白がある

→インデックス生成容易

日本語：区切り記号としての空白がない

漢字仮名交じり文

→インデックス生成困難

さとうとしお

_{→漢字変換すると}

さとうとしお（佐藤敏夫）

さとうとしお（砂糖と塩）

(36)

日本語形態素解析

形態素（意味を持つ最小の文字列） 大きな地震が来ないことを祈ります。基本的アルゴリズム ①入力文の先頭文字列と最長一致する辞書項目＝先頭候補 ②先頭候補に続きく部分と最長一致辞書項目＝２番目候補 ③先頭候補と２番目候補との接続可否を検査。接続可なら3番目候補へ（×あります・です，○ありません・でしょうか） ④接続不可の時、２番目候補をより短い別の候補に置換して再度接続検査 ⑤２番目候補がなくなれば、先頭候補に後戻りしてより短い候補に置換して同様の処理を続ける ○索引ファイルサイズが小さく検索時間は速い ○辞書で照合しており，検索ノイズが少ない ×事前に辞書の構築が必要．大きな地震が来ないことを祈ります。連体詞名詞格助詞動詞語幹助動詞活用語尾形式名詞格助詞動詞語幹活用語尾助動詞句読点

(37)

代表的な日本語形態素解析ツール

茶筌システム

• 奈良先端科学技術大学院大学情報科学研究科

自然言語処理学講座(松本研究室)

で開発

• http://chasen.naist.jp/hiki/ChaSen/

から

自由にダウンロードして使用可能

• 実行してみましょう！

「

大きな地震が来ないことを祈ります。」を

Chasen に入力すると？

(38)

Nグラム方式

• Gram(グラム）：ギリシャ語で［書かれたもの］ Nグラム：N文字先頭からN文字の文字列を1単位とし，1文字ずつずらしてN文字列を索引とし，その出現位置情報ともに登録する方式 • N=2として「文字列の検索処理」にNグラム方式を適用すると「(1)文字」「(2)字列」「(3)列の」「(4)の検」「(5)検索」「(6)索処」「(7)処理」「(8)理」と分解し, インデックスファイルに登録する（数字は出現位置）．「検索」を入力すると→（５）で見つかる「検索処理」を入力すると→「検索」と「処理」の両方が含まれ、かつその出現位置が2ずれているもの→(5)と(7)でみつかる ○形態素解析では辞書が必要．Nグラムでは機械的に処理が可能 ○検索漏れが少ない ×索引ファイルサイズが大きくなり，検索時間が遅くなる ×検索ノイズが多い（入社式は4月1日本社で行われた→2グラム？で検索される）

(39)

検索エンジンによる

(40)

On-page factors ＋ Off-page factors

• Webページの評価（検索順位をあげる） → On-page factors（ページ内要因）＋ Off-page factors（ページ外要因） • ページ内要因：Webページ内の情報（キーワード出現回数，キーワードの配置，<title>タグ， <h1>-<h6>タグ，サイト内リンクなど）を評価 • ページ外要因：リンク分析（数，質，関連性，時間，信頼性）＋アンカーテキストによりページを評価

(41)

On-page factors （テキスト要素の最適化1）

テキストの論理構造，コンテンツを明確化 →クローラに好まれるWebサイトの制作 →本来のHTMLの利用 ①スタイルシート(CSS)やJavaScriptは外部ファイルにする（論理構造と視覚情報は分離する） ②キーワード抽出箇所：タイトル，見出し，第1段落，最終段落，各段落の最初と最後(<meta>タグは，90年代，評価対象であったが，スパムに多用されたため，現在は無視される） ③ <title>タグ：ページ遷移に沿ってキーワードを具体化（海外旅行→欧州旅行→パリ3日間）．全ページに同じキーワードは駄目（共通キーワードは可）偏ったキーワード（ecサイトで，商品名orショップ名だけをキーワードとする）は駄目．キーワードの個数は１－２個（ネット利用者調査より）不必要に類似キーワードを繰り返さない_{→スパム行為}

(42)

テキスト要素の最適化2

④見出しタグ<hx>：文章論理構造（h1:標題，h2:部，h3:章，h4:節，h5:項，h6:小見出し）．クローラは<h1>重視→<h1>を多用するとスパムと判断される ⑤画像タグ<img>：クローラは画像理解できないので， alt属性に画像を説明する適切なキーワードを記載（例）グーグルバナーの表示 <a href="http://www.google.co.jp/"> <img src = http://www.google.com/logos/Logo_40wht.gif

border="0" alt="Google" align="middle" width="128" height="53"> </a>

(43)

Off-page factors （リンクの評価１：重要度）

• リンク分析：数，質，関連性，信頼性，時間の総合評価（ページランクアルゴリズムはリンク分析の一部にしかすぎない） • ページランクアルゴリズム：被リンクの数と質の評価＋アンカーテキスト（10年前. miserable failure）重要度に課題：Web全体からみた重要度であって，特定話題（検索クエリー）からみた重要度ではない．信頼度に課題：スパムに弱い． • 関連性：relevance(A,B)＞relevance(A,C)

（Teoma(Subject Specific Popularity), WiseNut(Context Sensitive Link Analysis) 等のGoogleキラーと呼ばれた新興検索エンジンが提唱（その後衰退）．Googleは関連性を後日導入．

http://internet.watch.impress.co.jp/www/article/2002/0403/teoma.htm

※新重要度＝数×質×関連性

Cコンビニ

(44)

リンクの評価２：信頼性

• 重要度だけでは，大量のWebサイトを巧妙に開設し，そこからリンクを張りページランクをあげる事は依然可能． • 信頼性：友達の友達は信用．その友達の友達は？その友達の友達は？？という考え方．審査により予め信頼できるWeb サイト群を決め，そこから信頼値を割り当てる．重要度信頼度 • 時間：開設期間が長い程，信頼性は高い．急激なリンク数の増加は不自然であり信頼性を低くする．優良？スパム？新規？マニア？ Yahoo研究者のTrustRank: http://www.vldb.org/conf/2004/RS15P3.PDF Googleは2005年にTrustRankを商標化したが、現在は使用中止？（別のアルゴリズム採用？）

(45)

(46)

Web上の広告

• バナー広告

元来「垂れ幕」の意帯状の広告画像が宣伝用の垂れ幕を連想

• キーワード広告

検索キーワードに関連するWebサイトを提示クリック回数で広告効果が計れる

(47)

キーワード広告(1)

• 1999年Altavistaによって試みられる

• 広告枠をオークションで売り、クリックされた

分だけ広告料を課金

• ユーザのニーズに合った広告が期待できる

• 現在は数十億ドル規模のビジネスに

(48)

キーワード広告(2)

• オーバーチュア

スポンサードサーチ

http://www.jp.overture.com/

• Googleアドワーズ

https://adwords.google.co.jp/select/

• キーワードへの入札(クリック単価)

– 「W杯」¥51～¥9 「ワールドカップ」¥71～¥9 – 「就職活動」¥425～¥35 – 「キャッシング」¥2146～¥35 「融資」¥1282～¥35 – 「慶応」¥32～¥9

(49)

キーワード広告(3)

• オーバーチュア：入札金額で表示順位が決まる

– 順位付け：クリック単価上限の高い順 – 実際のクリック単価：一つ下位のクリック単価＋１円

• Google：広告のクリック率も加味した表示順位

– 順位付け：クリック単価上限×クリック率の高い順 – 実際のクリック単価：一つ下位のクリック単価上限×クリック率÷自広告のクリック率＋１円

(50)

GOOGLE アドワーズ広告１

• ビジネスモデル：他のサイトが検索サイトから総合サイトにモデルチェンジする中、GOOGLEは検索一筋。売上高の９９％＝インターネット広告 • バナー広告→検索連動型広告＝アドワーズ広告（売上高５０％）＋アドセンス広告（売上高４９％）アドワーズ(Adwords:Ad＝広告＋words＝キーワード)広告検索キーワードに関連する広告を検索結果表示ページの上側と右側にテキスト表示（上１枠＋右８枠＝最大９枠。それ以降の広告は次ページ以降）．（ユーザへの配慮）・テキスト表示：検索速度が遅くなってはいけない・広告表示場所は上側と右側に定め、検索結果閲覧を邪魔しない・ポップアップ広告はユーザが不快になる恐れがあるので禁止。

・クリック単価(CPC: cost per click)×クリック率(CTR: click through rate)

で表示順位決定。CPCだけで決める広告主主導になりすぎるため。

・さらにCTRが0.5%を下回ると広告が抑制され，そのまま改善しない場合はステータスが「無効」になり取り下げられてしまいます。

（広告主への配慮）

クリック課金型広告（PPC (pay per click)広告） →クリックされた場合のみ広告料金が発生

クリック単価（７円～１万円）を設定しクリック数に応じて支払う１日当たりの上限金額設定可能。

(51)

CPCは常に変動クリック単価（CPC)＝次ランクの（CPC上限×CTR)÷自分のCTR ＋１ →次ランクと同等になるためのCPC＋１円 →次ランクに勝つための最低価格負けた時のCPCは最低価格７円（例題）ワイン会社 A社 CPC上限２００円 B社 CPC上限１００円問１：（A社CTR，B社CTR)＝（３％，３％）の時のA社とB社のCPCは？問２：（３％，５％）の時のA社とB社のCPCは？問３：（３％，８％）の時のA社とB社のCPCは？

GOOGLE アドワーズ広告２

(52)

例題回答

表示順位：評価値＝クリック単価×クリック率問１（A社CTR，B社CTR)＝（３％，３％）各社最大評価値比較 A社 200 X 3% > B社 100 X 3% A社が1位，B社が2位 1位 A社 (100x3%[B社のCTR])÷3%[A社のCTR]+1＝100+1=101円 2位 B社 7円（最低クリック単価）問２（A社CTR，B社CTR)＝（３％，5％）各社最大評価値比較 A社 200 X 3% > B社 100 X 5% A社が1位，B社が2位 1位 A社 (100x5%[B社のCTR])÷3%[A社のCTR]+1＝167+1=168円 2位 B社 7円（最低クリック単価）問３（A社CTR，B社CTR)＝（３％，8％）各社最大評価値比較 A社 200 X 3% < B社 100 X 8% B社が1位，A社が2位 1位 B社 (200x3%[A社のCTR])÷8%[B社のCTR]+1＝75+1=76円 2位 A社 7円（最低クリック単価）

(53)

アドワーズ広告練習問題１

CPC（円）

CTR(％）

A社

300

2.0 B社

210

5.0 C社

200

2.0 D社

200

4.0 E社

190

4.0

１．掲載順位，各社のCPCを求めよ．２．A社が一位になるには，CPCをいくらに設定すべきか？

WWWとブラウザの 過去，現在，未来

ポータルサイトと

検索エンジン

ポータルサイト

・ポータルサイト(Portal Site)

→最初にアクセスするWebページ。

・広告やEC取引仲介サービスにより収入を得る。

・検索エンジン、情報サービス、e-マーケットプレイス、

業界系などに分類されるが、近年、SNSの台頭がめざ

ましい。

・全世界ではGoogleがトップシェアをとるが、

国に依存して、ポータルサイトの状況はかなり異なる。

代表的な検索エンジンと

シェアの推移

２つの検索エンジン

1996年 Yahoo！JAPAN

1998年 Yahoo！JAPAN

2001年 Yahoo！JAPAN

2003年 Yahoo！JAPAN

Yahoo! JAPAN 10年間の

ページビュー（PV）の推移

GOOGLE 誕生

GOOGLE アドワーズ広告（後で詳細）

GOOGLE アドセンス広告

• Webサイトを持つ人がアドセンスに無料登録

• 登録されたWebサイトを解析し掲載すべき広告を

決定し掲載

• その広告がクリックされれば、Webサイト登録者と

GOOGLEに広告料が二分されて入る

• 利益率は低いが、世界中が広告媒体となる。

現在の主要検索エンジン

2018/12/14はここから

Yahoo! (USA)

Yahoo! Japan

Google

現在、世界40カ国の検索エンジのシェア(1)

現在、世界40カ国の検索エンジのシェア(2)

検索結果の表示順位

PageRank

多くの良質なページからリンクされている

ページは、やはり良質なページである

PageRank値の計算方法

PageRankの計算例題

R= (1/4, 7/36, 2/9, 1/12, 1/4)

PageRankの計算過程（１）

PageRankの計算過程（2）

PageRankの計算例題1

（各自やってみること）

キーワード検索と全文検索

インデックス検索方式に基づく

全文検索(フルテキストサーチ）

• 19inchラック（210cmH

x 60cmW x 75cmD）に

1UのPC80台を設置。

(Rackable Systemsの

技術：ラックの全面と背

面の両方に奥行半分の

PCを設置)

• 2 Fast Ethernet Switch

/ 筐体

• 4筐体をGigaEtherにて

接続し１クラスタを構成。

１２０００台(2004?)のサーチエンジンサーバー

８０CPU×１５０ラック

Google のデータセンタ

サーバー台数と収集されたWebページ数の推移

（Web巡回）ロボット

（クローラー，スパイダー）の仕組み

①手作業により収集すべきWebページ（URL)を登録

②登録されているURLにアクセスしWebページを収集

③そのWebページに記載されているリンクを辿って

Webページを収集

④リンクを辿る深さを制限してデータ収集

１サーバーに100以上のロボット

100x12000=120万以上のロボットが巡回

全文検索からのインデックス生成の困難さ

英語：区切り記号として空白がある

→インデックス生成容易

日本語：区切り記号としての空白がない

漢字仮名交じり文

WWWとブラウザの過去，現在，未来

_{→漢字変換すると}

さとうとしお（佐藤敏夫）

さとうとしお（砂糖と塩）

アドワーズ広告練習問題１