• 検索結果がありません。

学と産の連携による基盤ソフトウェアの先進的開発:8.100億規模のWebページ収集・分析への挑戦

N/A
N/A
Protected

Academic year: 2021

シェア "学と産の連携による基盤ソフトウェアの先進的開発:8.100億規模のWebページ収集・分析への挑戦"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)特集. 産. の連携による基盤ソフトウェアの先進的開発. { 第2部 }. 100 億規模 の. Web ページ収集・分析への 挑戦 村岡 洋一 *1 山名 早人 *1 赤羽 匡子. *3. 萩原 純一. 8. *1 早稲田大学理工学術院 *2 米国富士通研究所. 松井くにお *2 橋本三奈子 *3. *3 富士通(株) *4 アクセラテクノロジ(株). *4. 情 報 の高 信 頼 蓄 積・. と. 検 索 技 術 等 の開 発. 学. ●. インターネット上から高速に Web ページを収集するた. Web ページ数は,2006 年 11 月時点で 537 億ページ. めには,複数の PC を用いて並列に収集を行わなければ. ● A. ● B. ● S. と推測されている. ● T. ● R. ● A. ● C. ● T. ならない.我々はこの Web クローラを合計 70 台の PC. 1). .我々は,2004 年 1 月~ 2006 年. で動作させた.また,さまざまな種類のバックボーンを. 7 月の間に,全世界の 5,548 万台の Web サーバからテ. 用いるため 70 台の PC を都内 5 拠点に分散設置した.. キストのみを対象に収集を行い,ユニークな Web ペー.  開発した分散収集型 Web クローラでは, インターネッ. ジ数として約 144.5 億ページを収集した.また,収集. ト上に分散設置されたロボットセットと呼ばれる Web. 済み Web ページに対して,トップレベルドメイン分布, 記述言語分布,Web サーバの地理的位置の解析,バッ. クローラをインテグレーションサーバが集中管理する (図 -1) .インテグレーションサーバは,分散されたロ. クリンク解析や PageRank 計算を進め,Web 空間の. ボットセット間において Web ページを重複して収集し. 現状分析を行った.さらに,Web ページの解析がビジ. ないための制御を行う.. ネスに利用可能であることを示すために,企業の Web.  インテグレーションサーバは収集開始時に投入された. サイト上の活動を可視化する e 企業調査プロトタイプ. 起点 URL のリストを,収集を担当するロボットセット ごとに振り分けて配信する.担当分の起点 URL のリス. を構築し,企業の特徴,戦略,評判などの抽出を行った.. トを受け取ったロボットセット側では,起点 URL から リンクを辿りながら Web ページを収集する.リンク先. 分散収集型 Web クローラ. が自身の担当する範囲内ならば自身で収集を行い,範囲.  Web ページを収集するためのプログラムを一般的に. に送る. これらのリンク情報は, インテグレーションサー. Web クローラあるいは Web ロボットと呼んでいる.. バで再び担当するロボットセットごとに振り分けられ,. 外であればそのリンク情報をインテグレーションサーバ. インテグレーションサーバマシン. 起動制御 起点URLリスト 担当分管理リスト. インテグレーションサーバ. 収集状況 担当分起点URL 担当分管理リスト. 収集制御サーバ DB サーバ. 収集プロセス. メタ情報+ 担当外リンクURL. メタデータ. 収集状況. 表示. DB ホスト情報取得サーバ. ロボットセット5 ロボ ットセッロボ ト3ットセット4 ロボ ッ トセッ ト2 ロボットセット1 インターネット. 図 -1 分散収集型 Web クローラ 情報処理 Vol.49 No.11 Nov. 2008. 1277.

(2) { 第 二 部} 情 報 の高 信 頼 蓄 積・検 索 技 術 等 の開 発. 特集. 学. と. 産. の連携による基盤ソフトウェアの先進的開発. 機能. 仕様. サスペンド機 同一サイトに対して一定時間継続して収集し 能 た場合,一定時間収集をサスペンド.. K e e p - A l i v e Keep-Alive が生きている間は連続して収集し, 機能. 切られた場合は一定時間収集をサスペンド.. CGI ページか. CGI ページからのリンクについては,収集ホッ らのホップ数 プ数を指定値に制限. 制限機能 IP アドレスに. 1 つの IP アドレスで複数のサブドメインを構 築している Web サイトに対して,同時に複数. よる収集制限 の収集プロセスが集中してアクセスを行わな 機能 いように収集プロセス数の上限を設定.. robots.txt の robots.txt の ク ロ ー ラ 排 除 規 約 に 対 し て g o o g l e b o t googlebot が独自に拡張を行った正規表現に 互換機能. よる記述方法に対応.. 収集間隔の動 実際のネットワーク状況(回線速度および通 的算出機能 信品質)から収集間隔を自動的に調整. 表 -1 負荷低減機能. 図 -2 収集先リアルタイム表示. それらを担当するロボットセットへ配信される.. 収集を行う.これは,無限にリンクを辿り続けないよう にするためであり,たとえば,起点 URL からリンクを. 【 収集先 Web サーバのリアルタイム表示 】. 辿る回数を 10 ホップ等に制限する.しかし,日記サイ. 図 -2 は,本 Web クローラがサポートしている収集. トのように動的に生成されるページが収集途中に出現し. 先リアルタイム表示機能による表示例であり,世界のど. た場合,日記中のカレンダーを辿り続けることで内容を. こに存在する Web サーバを対象に収集しているかが一. 持たない Web ページを指定制限ホップ数に達するまで. 目で理解できる.図中では,収集ページ数が多い順に棒. 収集してしまう.このような動的に生成される Web ペー. グラフを赤,青,黄で表示している.なお,Web サー. ジに対する収集は相手の Web サーバに与える負荷が大. バの設置位置特定のために,IP2Location 社の IP ─経. きいため,できるだけ無駄なアクセスを減らす必要があ. 度・緯度─国名・市名変換テーブル. ☆1. を用いて,IP ア. ドレスから経度・緯度情報への変換を行っている.. る.そこで, 本 Web クローラでは CGI ページからのホッ プ数を起点からのホップ数とは別に制限する仕組みを導 入した.. 【 Web サーバに対する負荷軽減 】.  robots.txt の googlebot 互 換 機 能 は,Google 社.  収集にあたっては,高速収集と相手 Web サーバへの. が 提 唱 す る robots.txt の 記 述 方 法 へ の 対 応 で あ る.. 負担軽減といった相反する事項の両立が必要であり,相. ンプリメントした.以下では特徴的な機能について詳述. robots.txt は,http://www.waseda.jp/robots.txt の ように Web サーバの直下に配置するテキストファイル であり,指定フォーマットを用いて排除すべき Web ク ローラや収集除外ページを記述できる.Google 社で は,従来の robots.txt の記述法にはない,正規表現を 用いた Web クローラ排除記述を採用しており,多くの Web サーバで利用されデファクトとなっている.たと えば,「disallow: /*.asp$」のような正規表現を用いる. する.. ことができる..  CGI ページからのホップ数制限は,Web サーバへの.  収集間隔の動的算出は,回線速度の遅いサーバや通信. 負荷を軽減するために,動的に生成されるページを大. エラーが発生するサーバに対して,収集間隔を自動的に. 量にアクセスしないように設けた制限である.一般に. 長くすることで負荷を減らすことを目的としたものであ. Web クローラでは,リンクを辿る回数を制限した上で. る.特に,CGI を多用して重い処理を行っているサー. 手 Web サーバの能力に合わせた収集制御が重要とな る.具体的には,同一の Web サーバに対して短時間に 複数回アクセスしたり,長期間にわたって連続して収集 を行うと収集先の Web サーバに負荷を与えることにな る.開発した分散収集型 Web クローラでは,Web サー バに対する負荷を軽減するために表 -1 に示す機能をイ. バへの負荷を抑えることを目指した.具体的には,以下 ☆1. http://www.ip2location.com/ ※連絡先:〒 169-8555 東京都新宿区大久保 3-4-1 早稲田大学理工 学術院 電話番号:03-5286-3503 [email protected]. 1278. 情報処理 Vol.49 No.11 Nov. 2008. の計算式を用いて収集間隔を算出(計算機パラメータは 表 -2)している..

(3) 8. 100 億規模 の Web ページ収集・分析への 挑戦 説明. 収集間隔の調整. 通信品質による遅延最大 遅延最大値 2 値(秒).. 1サイト5万ページに上限設定 15. 目標とする回線速度 (Byte/s).. Robots.txtの Googlebot 互換 IP アドレスによる 収集制御. 10. 直近 10 リクエスト中の タイムアウト,通信断, 送受信エラーの回数.. 5. 1 Q. 4. 08 20. 3. Q. Q. 07 20. 2 Q. 07 20. 1. 07 20. 4. Q. Q. 07 20. 3. 06 20. 2. Q. Q. 06 20. 1 Q. 06 20. 4 20. 06. 3. Q. 20. 05. 2. Q. Q. 05 20. 1. 05 20. Q. Q. 20. 05. 3. 1 Q. 04. 04. 20. 20. 4. 0. 表 -2 収集間隔設定のためのパラメータ. 04. エラー回数. 左記に加え10∼80 秒の間で動的調整. 10秒+6時間収集5時間サスペンド. CGI ページからのホップ数制限. 20. 目標速度. 15 秒. 20. 実際の回線速度(Byte/s). 直近 10 リクエストの平 均値で算出.. 実効速度. 5 秒. 1 秒. 25. 2. 回線速度による遅延最大 値(秒).. Q. 遅延最大値 1. 04. 最少の収集間隔(秒).. 20. 最小間隔値. Q. 項目. 図 -3 苦情件数の推移. robots.txt に 関する苦情 11%. 大負荷の訴え・アクセス停止要求」である.2 番目に多. その他 5%. いのは,Web クローラの動作の説明や収集理由の説明 過大負荷の 訴え・アクセ ス停止要求 62%. を求めるものである.これらの中には Web クローラの バグ報告も含んでいる.robots.txt に関する苦情では, 先に述べたように「googlebot 互換の形式に対応して いない」といった苦情や,「robots.txt を変更しても収 集を継続している」といったものが多い.特に後者は,. 実効速度. Web サーバ管理者側で Web クローラによる収集を排 除しようとして robots.txt を書き換えたにもかかわら ず収集が継続することに対する苦情である.Web ペー ジを収集する直前に毎回 robots.txt を確認するのは, オーバヘッドが大きく,我々の Web クローラは,当初, 24 時間ごとに再確認を行っていた.しかし,こうした 苦情を教訓に現在では 6 時間ごとに再確認を行っている.. 目標速度.  図中のその他には「業務上のデータが誤って収集さ. 収集理由 説明の要求 22%. 図 -4 苦情内容の分類. 収集間隔 = 最小間隔値 + 遅延最大値1 × 1.0 −        + 遅延最大値 2 ×. エラー回数 10. .. れた形跡があるので削除してほしい」といった要望 や, 「Web クローラのエージェント名を詐称して我々の. 図 -3 は,我々が設けている苦情受付窓口に電子メー. Web クローラ名を名乗る第三者の Web クローラがも. ルにより寄せられた苦情件数を 3 カ月ごとに集計した. たらす問題への対応」を含んでいる.特に後者の問題に. ものである.2005Q1 ∼ 2005Q2 にかけて苦情件数の. 対しては,Web クローラを動作させている PC の IP ア. ピークが現れていることからも分かるように,単純に. ドレスを公開し, 苦情を受け付ける前に当該 Web クロー. 収集間隔を長くしただけでは苦情を減らすことができ. ラの IP アドレスを確認してもらうことが重要である.. なかった.一方で,CGI ページからのホップ数制限や. 1 サイトあたりの収集 Web ページ数の上限設定,収集 間隔の動的算出は苦情件数の削減に一定の効果があるこ とが分かる.. 100 億超の Web ページ収集  2004 年 1 月∼ 2006 年 7 月に合計で 14,456,201,906 ページの収集を行った. 収集対象はテキストのみである.. 【 クロールに対する苦情 】  クロールに対する苦情は,図 -4 に示すように大きく. 4 つに分類できる.全体の 6 割以上を占めるのが「過. Web ページの収集にあたっては,2004 年 1 月の収集開 始時に,筆者らが保有していた com,org,edu,net, uk,jp,us,ca,at の 9 つのトップレベルドメイン(TLD) 情報処理 Vol.49 No.11 Nov. 2008. 1279.

(4) { 第 二 部} 情 報 の高 信 頼 蓄 積・検 索 技 術 等 の開 発. 特集. 学. と. 産. の連携による基盤ソフトウェアの先進的開発. 発見した Webサーバ数:13,468万台 発見したWEB アクセス済み:8,116万台 収集済み:5,548万台. 14,456,201,906 ページ. アクセスで きず: きず: 2,568万 2,568万台 台. robots.txt により 全体がアクセス 禁止 : 256万台. TLD. 国名. .com. -. イタリア語 1.29%. ポルトガル語 0.51%. ロシア語 0.43%. 平均ページ/ サーバ. 4,070,092,124 38.05%. 339. -. 890,604,259. 8.33%. .de. ドイツ. 878,838,449. 8.22%. 459. .org. -. 745,984,032. 6.97%. (※). .jp. 日本. 543,654,556. 5.08%. 609. .ru. ロシア. 407,169,769. 3.81%. (※). .pl. ポーランド. 321,209,334. 3.00%. .uk. イギリス. 240,244,507. 2.25%. -. 232,132,978. 2.17%. オランダ. 215,722,380. 2.02%. .de. .cn. 中国. 185,907,711. 1.74%. 以外の平均). .it. イタリア. 156,657,707. 1.46%. .kr. 韓国. 151,025,640. 1.41%. .us. アメリカ. 143,135,686. 1.34%. .fr. フランス. 129,326,495. 1.21%. .nl. アラビア語 0.55%. 割合. .net. .edu. 図 -5 発見した Web サーバの内訳. 取得ページ数. other. -. 169. 185 (.com, .net, .jp,. 1,385,290,926 12.94%. 表 -3 Web ページの TLD 分布. ドイツ語 2.97% スペイン語 3.82% 韓国語 4.46%. よりクローラによるアクセスが禁止されていた.残り約. 5,000 万台については未アクセスである(図 -5).  2006 年 7 月時点において Netcraft 社(http://www. netcraft.co.uk/)が発表している統計情報によれば, 全世界の Web サーバ数は約 8,761 万台であり,我々 のクローラは,Netcraft 社が把握している Web サーバ 数の約 1.5 倍の Web サーバを発見することに成功して いる.  なお,2007 年 9 月からは, 日本語 Web ページを 1 ペー. 図 -6 com ドメインの記述言語分布. ジ以上含む Web サーバ約 150 万サーバを対象に 1 カ月 ごとの更新収集を行っている. から合計約 600 万の Web サーバリストを起点として 設定した.起点からは最大 15 ホップ先までを収集し, 新規に発見した Web サーバは起点として随時追加を. 収集された Web ページの解析. 行った..  解析では,2006 年 7 月までに収集された 144.5 億.  2006 年 7 月時点において,世界中で発見した Web. Web ペ ー ジ の 中 か ら 10,696,996,553 ペ ー ジ(Web サーバ台数は 47,674,832 台)を対象として解析を行っ ☆ 3,2) た .表 -3 にトップレベルドメイン(TLD)ごと の Web ペ ー ジ 数 の 分 布 と Web サ ー バ あ た り の 平 均 Web ページ数を示す.表 -3 に示されるように,ドメ インによって Web サーバあたりの平均 Web ページ数 が大きく異なることが分かる.従来,1 台あたりの平 均 Web ページ数は 200 ページ前後と考えられていた 3),4) が ,com,de,jp ドメインでは平均 Web ページ. サーバ数は約 13,468 万台であり,内 8,116 万台の収集 を完了した.なお,8,116 万台のうち,実際に収集でき たのは 5,548 万台であり,2,568 万台(収集済みサーバ の約 32%)はすでに IP アドレスが存在しない等の理由 からアクセスができなかった. ☆2. .また,256 万台(収. 集済み Web サーバの 3%)については,/robots.txt に. ☆2. IP アドレスが存在しない理由は,Web サーバがなくなった以外 にアンカータグ内に記述された Web サーバのホスト名に誤りがある 等の理由が考えられる. ☆3. ディスク故障等により一部のデータが利用できなくなり,解析に あたっては 107 億ページを利用している.. 1280. 情報処理 Vol.49 No.11 Nov. 2008. 数が大きくなっていることが確認された. 【 記述言語の分布 】  図 -6 に com ドメインの Web ページの記述言語の分.

(5) 8. 100 億規模 の Web ページ収集・分析への 挑戦. 図 -7 Web サーバの地理的位置の分布. TLD. ドメイン名の説明. 日本語ペー 当該国内で ジの割合 の設置率. .jp. 日本. 90.3%. .to. トンガ王国(南太平洋の島). 59.2%. .st. サントメ・プリンシペ民主共和国 (西アフリカの島). 33.1%. .gs. サウスジョージア・サウスサンド ウィッチ諸島(南大西洋の諸島). 29.0%. .bz. ベリーズ(中央アメリカ). 29.0%. 94.1% 0.1% 未満. ページの 1/3 程度しか収集できないことが分かる. 【 Web サーバの地理的位置の分布 】  IP2Location 社の IP ─経度・緯度変換テーブルを利. 0.1%. 用して,Web サーバの設置位置の分布を求めた結果を. 未満. 図 -7 に示す.図中の「Unknown」は,設置場所を特. 0.1% 未満. 0.3%. 表 -4 日本語ページを多く持つ ccTLD. 定できない Web サーバ数であり,全体の約 34% を占 める.設置場所が特定できない理由は,ドメインから. IP アドレスの解決ができなかった,もしくは IP ─経度・ 緯度変換テーブルでのエントリがなかったことによる. 図に示されるように Web サーバは北米,欧州,日本を. 布を示す. ☆4. 定システム. .記述言語の判定は,ベイシス社の言語判. ☆5. を利用しており,判定対象言語は,英語,. 日本語,中国語,フランス語,韓国語,スペイン語,ド イツ語,イタリア語,ロシア語,ポルトガル語,アラ ビア語の 11 言語である.11 言語に判別できなかった 言語は,その他として分類される.図 -6 に示すように,. Web ページ記述言語では英語が圧倒的シェアを占めて おり 47.77% となっている.一方,日本語は第二言語と なっており 18.29% を占める.   ま た, 日 本 語 で 記 述 さ れ た Web ペ ー ジ の う ち, 53.6% は com ド メ イ ン に 存 在 し,jp ド メ イ ン に は 35.4%,その他のドメインに 11.0% が存在しているこ とが分かった.すなわち,日本語 Web ページを収集す るために jp ドメインのみを対象としても日本語 Web. 中心に設置されている.  表 -4 は,同一 TLD 内の Web サーバから発信される. Web ページに対して,日本語ページの割合が多い国コー ドトップレベルドメイン(country code Top Level Domain : ccTLD)のトップ 5 である.表には,当該国・ 地域内に設置されている Web サーバの割合も示す. 表 -4 に示されるように,jp ドメインを除いた ccTLD では, Web サーバの 99% 以上が当該国以外に設置されてい る. すなわち, 日本語ページの割合が大きくても, 当該国・ 地域内から Web ページが発信されているわけではなく, 日本語ページの割合が多いから親日国であるということ にはならない.このように,言語分布と共に地理的位置 分布を用いることにより,詳細な解析が可能となる. 【 PageRank の分布 】 5). ☆4. TLD ごとの収集済み Web サーバ比率は一定ではないため,全収 集 Web ページを対象とした言語分布を求めた場合,偏りが発生する と考えられる.このため,特定の地域や言語に依存しない com ドメ インの言語分布を調査した. ☆5. http://www.basistech.co.jp/language-identification/.   図 -8 に Web サ ー バ 単 位 で PageRank. を 計 算 し,. 最大値を 10 として正規化した PageRank の分布を示す.. x 軸 に PageRank 値,y 軸 に x 軸 で 示 さ れ る 範 囲 の PageRank 値を持つ Web サーバ数を示す.PageRank 計算時の dumping factor(リンクを辿る確率)は,文 情報処理 Vol.49 No.11 Nov. 2008. 1281.

(6) 学. と. 産. の連携による基盤ソフトウェアの先進的開発 れたページを用い,企業の Web サ. 10000000 10000000. イト上の活動を可視化する「e 企業. 1000000 1000000. 調査プロトタイプシステム」を試作 した(図 -9) .. 100000 100000. Count Count.  本システムでは,企業 Web サイ. 10000 10000. トに対する基本的な情報を提供す. 1000 1000. る「組織情報」 ,Web サイト上の活 動を概観するための「レーダチャー. 100 100. ト」 ,当該企業の特徴を表現する「特. 10 10 1. 徴語」,評判情報を表示するための. 1. 0.0000-0.0099 0.0000-0.0099 0.2700-0.2799 0.2700-0.2799 0.5400-0.5499 0.5400-0.5499 0.8100-0.8199 0.8100-0.8199 1.0800-1.0899 1.0800-1.0899 1.3500-1.3599 1.3500-1.3599 1.6200-1.6299 1.6200-1.6299 1.8900-1.8999 1.8900-1.8999 2.1600-2.1699 2.1600-2.1699 2.4300-2.4399 2.4300-2.4399 2.7000-2.7099 2.7000-2.7099 2.9700-2.9799 2.9700-2.9799 3.2400-3.2499 3.2400-3.2499 3.5100-3.5199 3.5100-3.5199 3.7800-3.7899 3.7800-3.7899 4.0500-4.0599 4.0500-4.0599 4.3200-4.3299 4.3200-4.3299 4.5900-4.5999 4.5900-4.5999 4.8600-4.8699 4.8600-4.8699 5.1300-5.1399 5.1300-5.1399 5.4000-5.4099 5.4000-5.4099 5.6700-5.6799 5.6700-5.6799 5.9400-5.9499 5.9400-5.9499 6.2100-6.2199 6.2100-6.2199 6.4800-6.4899 6.4800-6.4899 6.7500-6.7599 6.7500-6.7599 7.0200-7.0299 7.0200-7.0299 7.2900-7.2999 7.2900-7.2999 7.5600-7.5699 7.5600-7.5699 7.8300-7.8399 7.8300-7.8399 8.1000-8.1099 8.1000-8.1099 8.3700-8.3799 8.3700-8.3799 8.6400-8.6499 8.6400-8.6499 8.9100-8.9199 8.9100-8.9199 9.1800-9.1899 9.1800-9.1899 9.4500-9.4599 9.4500-9.4599 9.7200-9.7299 9.7200-9.7299 9.9900-10.0000 9.9900-10.0000. { 第 二 部} 情 報 の高 信 頼 蓄 積・検 索 技 術 等 の開 発. 特集. PageRank PageRank. 「評判タブ」 ,当該サイト内のコンテ ンツを分類して表示する「サイト内 コンテンツタブ」 ,リンク関係をも とに抽出した関連サイトを表示す る「関連サイトタブ」を機能として. 図 -8 PageRank の分布. 持つ. 【 競争企業に対する比較調査 】  競争関係にあると思われる有名企業数社をピックアッ プし,差異の有無の調査を主に「レーダチャート」を比 較分析した.  レーダチャートは,図 -10 に示すように,7 角形で表 される.内周から外周に向けて 0 ∼ 100 点の点数付け を行い,50 点を登録された全企業の平均値とした.平 均値に対して,少ないものはマイナス(0 点方向へ) , 多いものはプラス(100 点方向へ)とした. 図 -9 e 企業調査プロトタイプ.   「静的ページ数」は調査対象 Web サイト内の静的な ページ数を示す. 「動的ページ数」は調査対象 Web サ イト内で動的に生成されるページ数を示す.「被リンク. 献 5)と同様 0.85 を用いている.PageRank は, Web ペー. 数」は,調査対象 Web サイトに対して張ってあるリン. ジ間のリンク構造をもとに計算した Web ページの重要. ク数を示す. 「外部へのリンク数」は,調査対象 Web. 度を測る値であり,値が大きいほど多くの有用な Web. サイトから,調査対象 Web サイト以外の他の企業やド. ページから支持されていることを示す.Google 社では,. メインの Web サイトに張ってあるリンク数を示す. 「サ. この値をランキングに用いている.. イト内リンク数」は調査対象 Web サイト内に閉じたリ.  PageRank は, 本 来,Web ペ ー ジ 単 位 で 計 算 す. ンク数を示す.「リンク数」は調査対象 Web サイトが. べ き で あ る が, こ こ で は 計 算 量 を 抑 え る た め,Web. 持つすべてのリンク数であり, 「外部へのリンク数」と. サーバ間のリンクのみを用いて Web サーバ単位での. 「サイト内リンク数」の合計である. 「画像点数」は,調. PageRank を計算した.図に示すように PageRank 値 の分布はべき乗則(power-law)に従っている.なお, PageRank が 1.5 付近にピークが出ているのは,大量 のスパム Web サーバによるものである.. 査対象 Web サイト内に含まれる画像の数である.  図 -10 に示す A 社と B 社のレーダチャートは,電気 系の同業 2 社のものである.図に示されるように,電 気系の同業 2 社間においても Web ページの作りが大き く異なることが分かる.実際に当該 Web ページにアク. e 企業調査プロトタイプの構築. セスしたところ,A 社はユーザビリティを高めるために.  Web ページの解析が企業の特徴,戦略,評判などの. ツ中心の従来型の Web ページであることが分かった.. 抽出に役立ち,ビジネスに利用可能であることを示すた. このように,企業の Web ページのリンク数や関連性の. めに,収集済みの Web ページのうち,日本語で記述さ. 分析により,企業活動をある程度推測できる.. 1282. 情報処理 Vol.49 No.11 Nov. 2008. サイト内リンクが多いのに対し,B 社は静的なコンテン.

(7) 8. 100 億規模 の Web ページ収集・分析への 挑戦. 静的ページ数 動的ページ数. 画像点数. 被リンク数. リンク数. サイト内リンク数. 外部へのリンク数. (1)A 社 静的ページ数 動的ページ数. 画像点数. 被リンク数. リンク数. サイト内リンク数. 外部へのリンク数. (2)B 社 図 -10 A 社と B 社の Web ページ解析. 図 -11 技術移転. 技術移転  本研究の成果は図 -11 に示されるように商用クローラ システム(図左上)やリンク解析ツール(図右上)に技 術移転されている.また,e 企業調査フレームワークは,. Web サービスを用いて Web アプリケーション(図下) に組み込まれ利用が進んでいる.  なお,本研究によって得られた解析データ(言語分 布,Web サーバ地理的位置分布,Web ページ間最短 経路探索,フォワードリンク・バックリンク探索)は,. http://www.yama.info.waseda.ac.jp/e-society/ に おいて公開されている. 参考文献 1)Hirate, Y. and Yamana, H. : Web Structure in 2005, Proc. of. the 4th Workshop on Algorithms and Models for the WebGraph, Springer-Verlag, LNCS 4936, pp.36-46 (2008). 2)童  芳,平手勇宇,山名早人:全世界の Web サイトの TLD・言語 分布・地理的設置位置の特定,日本データベース学会論文誌,Vol.7, No.1, pp.31-36 (2008). 3)Lawrence, S. and Giles, C. L. : Searching the World Wide Web, Science, Vol.280, No.5360, pp.98-100 (1998). 4)Lawrence, S. and Giles, C. L. : Accessibility of Information on the Web, Nature, Vol.400, pp.107-109 (1999). 5)Page, L., Brin, S., Motwani, R. and Winograd, T. : The PageRank Citation Ranking : Bringing Order to the Web, Proc. of the 7th WWW Conf., pp.161-172 (1998). (平成 20 年 7 月 30 日受付). 村岡 洋一(正会員) [email protected] 1971 年イリノイ大学電子計算機学科博士課程修了.Ph.D. 日本電 信電話公社電気通信研究所を経て 1985 年早稲田大学理工学部教授. 1995 年同大理工学術院教授.同大副総長,本会副会長など歴任,本 会フェロー. 山名 早人(正会員) [email protected] 1993 年早稲田大学大学院・理工学研究科博士課程修了.博士(工 学).1993 ∼ 2000 年電総研.2000 年早稲田大学・理工学部助教授. 2005 年同大理工学術院教授,現在に至る.データマイニング,情報 検索,並列分散処理の研究に従事. 松井くにお(正会員) [email protected] 1980 年静岡大学工学部情報工学科卒業.同年(株)富士通研究所入社. 2003 年東京工業大学大学院情報理工学研究科後期課程修了.博士(工 学).2007 年より米国富士通研究所勤務.自然言語処理,情報検索 の研究開発に従事.本会理事を歴任. 橋本三奈子(正会員) [email protected] 1984 年東京女子大学文理学部日本文学科卒業.同年富士通(株)入 社.1984 ∼ 97 年情報処理振興事業協会(現,情報処理推進機構)出 向.富士通復帰後,情報検索システム,インターネット収集クローラ, 検索支援辞書開発に従事. 赤羽 匡子 [email protected] 1988 年宇都宮大学農学部農業経済学科卒業.同年富士通(株)入社. 1995 ∼ 99 年科学技術振興事業団(現,科学技術振興機構)客員.富 士通復帰後,大規模検索支援電子辞書開発,情報検索システム開発 に従事. 萩原純一(正会員) [email protected] 1993 年早稲田大学大学院・理工学研究科修士課程修了.同年(株)富 士通研究所入社.1995 ∼ 2001 年富士通(株).2001 年アクセラテ クノロジ(株)設立に携わり,現在に至る.並列化コンパイラ・情報 検索の研究開発に従事.. 情報処理 Vol.49 No.11 Nov. 2008. 1283.

(8)

図 -10 A 社と B 社の Web ページ解析  本研究の成果は 図 -11 に示されるように商用クローラ システム(図左上)やリンク解析ツール(図右上)に技 術移転されている.また, e 企業調査フレームワークは, Web サービスを用いて Web アプリケーション(図下) に組み込まれ利用が進んでいる.  なお,本研究によって得られた解析データ(言語分 布, Web サーバ地理的位置分布, Web ページ間最短 経路探索,フォワードリンク・バックリンク探索)は, http://www.yama.in

参照

関連したドキュメント

会 員 工修 福井 高専助教授 環境都市工学 科 会員 工博 金沢大学教授 工学部土木建設工学科 会員Ph .D.金 沢大学教授 工学部土木建設 工学科 会員

関東総合通信局 東京電機大学 工学部電気電子工学科 電気通信システム 昭和62年3月以降

1991 年 10 月  桃山学院大学経営学部専任講師 1997 年  4 月  桃山学院大学経営学部助教授 2003 年  4 月  桃山学院大学経営学部教授(〜現在) 2008 年  4

清水 悦郎 国立大学法人東京海洋大学 学術研究院海洋電子機械工学部門 教授 鶴指 眞志 長崎県立大学 地域創造学部実践経済学科 講師 クロサカタツヤ 株式会社企 代表取締役.

会長 各務 茂夫 (東京大学教授 産学協創推進本部イノベーション推進部長) 専務理事 牧原 宙哉(東京大学 法学部 4年). 副会長

【対応者】 :David M Ingram 教授(エディンバラ大学工学部 エネルギーシステム研究所). Alistair G。L。 Borthwick

東京大学大学院 工学系研究科 建築学専攻 教授 赤司泰義 委員 早稲田大学 政治経済学術院 教授 有村俊秀 委員.. 公益財団法人

市民社会セクターの可能性 110年ぶりの大改革の成果と課題 岡本仁宏法学部教授共編著 関西学院大学出版会