IPSJ SIG Technical Report Vol.2013-GN-86 No.9 Vol.2013-CDS-6 No /1/16 Web 1,a) 2 2 Web Web Web Web Web Web Web Web Web Web Web Web Web Web Web A

(1)

ユーザキャッシュを利用した

Web

アーカイブの構築

若菜勇気

1,a)

長谷川大

2

佐久田博司

2 概要：インターネットにおいて日々変化し続けるWebページを後世に残すために，各組織がWebアーカイブに取り組んでいる．WebアーカイブではWebページを自動的に探索するクローラを用いてアーカイブを行っている．しかし現状のWebアーカイブではWebページを収集するクローラでは静的リンクを辿りWebページを収集しているため，ブラウザやサーバで動的に生成される深層Webのコンテンツがアーカイブできない問題がある．そこで本稿ではクローラだけではアーカイブが困難であったWebページのアーカイブを目的とし，ローカルのユーザキャッシュとクローラで収集されたアーカイブを統合したWeb アーカイブを提案する．ユーザキャッシュは動的に生成されるWebコンテンツ等，多くの深層Webのコンテンツが保存されている．そのため提案手法ではより収集率の高いWebアーカイブを構築することが可能である．システムの有用性を示すために深層Webのコンテンツを含むWebページにおいて，コンテンツの取得数に関して従来のクローラのみの場合のアーカイブとの比較を行った．その結果，本システムでは外部サイトのAPIで生成された画像ファイルや，サーバで動的に生成されたテキストファイルなどのアーカイブが可能であることを確認した．キーワード：Webアーカイブ，グループウェア，ローカルプロキシ

Construction of the Web Archive Using User Cash

Abstract: To leave web contents on Internet, which are changing on every day, to posterity, many

organi-zations are working on archiving them. The web archive has been conducted by using web crawlers. The conventional web crawlers, however, only search web pages by following links written on html files and can only collect static web contents. Therefore, the contents so called the Deep Web, which are dynamically generated on web browsers or on servers, are not archived by the crawlers. In this paper, to successfully archive the Deep Web along with the static contents, we propose a novel archiving system that integrates contents retrieved by a web crawler and from user cashes. The user caches store the Deep Web when users accessed them and the contents were dynamically generated. Therefore, by using user cashes the system can create a web archive with higher reproducibility. To evaluate archive performance, we compared our system with a conventional crawler on the number of contents successfully archived from a web page that contains the Deep Web contents. As results, we confirmed that our proposed system could collect the larger number of contents; especially picture files generated by using API of the outside sites and text files generated on server-side.

Keywords: Web Archive, Groupware, Local Proxy

1. はじめに

デジタルメディアの普及とともに，インターネットでは

1 _{青山学院大学大学院理工学研究科}

Graduate School of Science and Engineering, Aoyama Gakuin University

2 _{青山学院大学理工学部}

Department of Science and Engineering, Aoyama Gakuin University a) _{[email protected]} 常に膨大なWebページが，それを利用するユーザによって，作成・更新・削除されている．日々変わりゆくWeb ページを後世に残すために，各組織がWebアーカイブに取り組んでいる．アメリカのInternet Archiveでは1996 年から一貫して，世界中のWebページの収集を行っている[2]．日本ではその役目を国立国会図書館が担い，WARP という事業として国内のWebアーカイブを行っている[7]．このようなグローバルなWebアーカイブでは，世界，国

(2)

内と非常に大きな規模でWebアーカイブを展開している．

Webアーカイブでは，Webの膨大な情報を収集するため

に，Webページを探索するクローラを用いてWebページ

の収集を行っている．しかしクローラだけでは深層Web

に存在するようなWebページのアーカイブが困難である．

深層Web（Deep Web）とは，JavaScript等で動作する動

的コンテンツや，どのWebページからもリンクの貼られていないWebページなどを指す[4]．深層Webの存在によりWeb全体のアーカイブは難しく，Webアーカイブを構築する課題となっている．加えて，国家単位で行われているWebアーカイブでは，このようなコンテンツの存在や更新時間などの関係でWebページを網羅的に保存することは困難である．そこで本研究では，インターネットを利用するユーザのインターネットへのアクセスデータに着目する．本稿ではこれらのデータをユーザキャッシュと定義する．ユーザキャッシュには，クローラで収集することが難しい動的コンテンツなどのWebページが含まれている．提案手法ではユーザキャッシュとクローラで収集したWeb情報を組み合わせることで，より詳細なWebアーカイブの構築が可能であると考えられる. 本稿では第二章で深層Webの性質について述べる．第三章において現状のWebアーカイブの問題点について述べる，第四章で具体的な提案システムについて説明する，提案したシステムについて第五章で実験と結果を述べ，第六章で提案手法の考察を述べる．

2. 深層 Web

深層Webは，検索エンジン等で利用されているクローラ等では辿り着けない領域に存在するWebのリソースを指す[1]．Webの深い領域に存在するWebのリソースは， Webページ同士のリンク関係を辿り，Webページを自動的に収集するクローラには収集が難しい．深層Webとして定義されるWebページは以下の4つに分けられる． ( 1 )静的なリンクが存在しないWebページ ( 2 )データベースから動的に生成されるWebページ ( 3 ) Flash等で構成されたWebページ ( 4 )パスワード認証が必要なWebページ (1)はDynamic htmlなどで生成されるWebページなどを指し，Ajaxなどの技術が昨今発展していく中で増加傾向にある．(2)は，ショッピングサイトなどのデータベースに問い合わせを行った結果，動的にレスポンスが生成される

Webページを指す．現状深層Webに存在するWebページ

群の中でも数としては大きな母数を持っている[5][10][3]． (3)は動画共有サイトなどで生み出されるAdobe Flashなどの動画コンテンツなどが該当する．動画コンテンツはひとつのファイル容量が大きく，深層Webに存在するWeb ページの容量として最大規模である．(4)はSNSやECサイトなどにおけるパスワード認証(HTTPSやBASIC認証等)を必要とするWebページを指す．このWebページは主に個人情報を取り扱うWebページなどに適用されることが多いこともあり，取り扱いが難しいWebページでもある． 2.1 Webアーカイブにおける深層Web Webアーカイビングは，基本的にWebページを自動的に収集するロボットであるクローラを用いてアーカイビングされている．そのため，検索エンジンと同じように深層 WebのWebページ群をインデックシング，収集する必要性がある．さらにWebアーカイブのクローラには，提供するWebアーカイビングシステムにおいて再現性のある形でWebページを閲覧できるようにする収集，アーカイブコンテンツ用に保存する技術が必要である．例えばアメリカのInternet Archiveが提供しているWayback Machine[2]

では，アーカイブされたWebページが時系列順に保存され，それらのWebページは再現性のある形でWayback Machineを通して閲覧することが可能である．ここで述べる再現性とは，Webページがある特定の時間にブラウザで閲覧したものと，保存されたWebアーカイブとを比較し，変化のない形で保存することを指す．

3. 既往の Web アーカイブ

Internet Archiveのような大きなWebアーカイブでは，

非常に幅広い範囲のWebページを収集することができている．しかしながら，クローラがたどり着く領域がアーカイブの収集限界であり，更新時間によってはWebのアーカイブを行えていないものも多く存在する．そのため，閲覧したかった過去のWebページが残っていないということがある．そこでWebアーカイブには国家単位より比較的小規模で行われるものが多いローカルなWebアーカイブも多く提案されている[11]．ローカルWebアーカイブの一つとして，HTTPアクセスの際にブラウザが保存するWeb ページのキャッシュを保存するWebアーカイブシステムがある．王らはユーザの各PCのキャッシュをP2Pにより分散的に管理することで，仮想的に一つのWebアーカイブを作りだすWebアーカイブを構築した[6]．このような P2Pを利用するWebアーカイブは中央サーバを介さないためコスト削減やWebアクセスの高速化を行うことができる[8]．しかしこのようなシステムはあくまでキャッシュの共有による履歴保存システムの側面が強く，Webページの網羅的なアーカイブには適さない．そのため，ユーザキャッシュを収集したWebアーカイブは履歴保存サービスのように，断片的な形でしかデータが残らない．クローラなどによるWebページ収集の軸がなければ，網羅的な Webアーカイブにはキャッシュ情報だけでは不十分である[9]．前述したようなキャッシュ共有システムなどのロー

(3)

カルなWebアーカイブでは，グループ内において柔軟な設計を行うことができるメリットがあり，国家単位で行うには難しいWebアーカイブの構築をすることができる[9]．

4. 提案手法

本手法ではクローラによる収集したWebアーカイブにユーザキャッシュを統合する．ユーザキャッシュには多くの深層Webのコンテンツが存在する．そのためクローラにより収集されたアーカイブを軸にユーザキャッシュを加えることで，より詳細なWebアーカイブを構築することができる． 4.1 手法の概要アーカイブサーバクローラサーバインターネット ①インターネットへアクセス ④静的コンテンツを収集 ③保存したキャッシュをアーカイブサーバへ送信 ⑤アーカイブサーバへ Web_{ページを送信} ⑥クローラとプロキシにより収集されたWebページを結合ローカルプロキシ ②動的コンテンツを含めた Web_{ページをキャッシュとして保存} 図1 システムの概略図ここでは本システムの具体的な実装について説明する．開発したWebアーカイブシステムの概略図を図1に示す．本Webアーカイブシステムはそれぞれ以下のような構成で構築される． ( 1 )クローラサーバ: ロボットによるWebページの自動収集 ( 2 )ローカルプロキシサーバ : ユーザキャッシュの自動収集 ( 3 )アーカイブサーバ: 上記のデータ統合と閲覧，及びその他認証処理等各サーバの詳細な動作に関してこれ以降説明を行う． 4.2 クローラサーバの動作クローラサーバではロボットにより，Web上に存在する Webページを自動的に収集，アーカイブデータ用に保存する処理を行う．本システムではWebページを探索，収集するクローラとしてオープンソースのHeritrix*1_を用い

る．Heritrixとは，Internet Archiveが開発しているWeb

*1 _{https://webarchive.jira.com/wiki/display/Heritrix/Heritrix}

アーカイブ用のクローラである．Internet Archiveが運営

するWayback Machineでは，実際にHeitrixを用いてWeb

ページのアーカイブを行っている．このクローラは，通常の検索エンジンにおけるクローラとは異なり，Webのアーカイビングに特化した作りとなっている．クローラは収集したWebページを，Heritrix特有のファイル形式である WARC形式でアーカイブコンテンツ用に保存する． 4.2.1 WARCファイル図2 WARCファイルのフォーマット:header部

WARCファイルはInternet ArchiveがWebアーカイブの標準規格として採用しているフォーマットである． WARCファイルのフォーマットはファイルの先頭に書き込まれるheader部(図2)と，複数のアーカイブしたファイルのbody部(図3)に分けられる． header部は，WARCファイルが初めて生成される際に WARCファイルのトップに書き込まれる．ファイル名ごとにハッシュ値と更新時間がヘッダー部に存在する．これにより，WARCファイルの一意性を保証することが可能である．図3 WARCファイルのフォーマット:body部 body部では，各ファイルごとにレスポンスヘッダーと

(4)

レスボンスボディがWARCファイルに書き込まれる．なお，HTTPアクセスにおけるリクエストとレスポンスそれぞれに対して，WARCファイルへの書き込みが行われる． body部に関してもheader部と同様に，一意なファイル情報が書き込まれたことを示すためにハッシュ値と更新時間が与えられる． header部とbody部のフォーマットは，アーカイブ統合処理をする際に重要となる．これはクローラアーカイブと，ローカルアーカイブがともにWARC形式のフォーマットでファイルの形で統合される必要がある．統合アーカイブはWARCによる共通のフォーマットにより，Webブラウザで時系列順に閲覧することが可能となる． 4.2.2 クローリング方法アーカイブサーバクローラサーバ WARCが一定量増加したか？クローリングスクリプト起動 Heritrixによるアーカイブの保存クローラアーカイブ指定ドメインの保存容量を送信収集された WARC_を送信 Yes No 図4 クローリングのフローチャートクローラは一定量のWebページが収集されると再び指定されたドメインに対してWebページのクローリングを開始する．本システムのクローリングは，ユーザが設定した一定量のWebアーカイブの情報が変更にあった場合にのみ再クローリングを行う．クローリングのライフサイクルを図4に示す．クローラサーバは一定時間ごとにアーカイブサーバより，指定ドメインの更新コンテンツ量の観測データが受信される．クローラサーバは観測データを受信すると，ユーザが指定した一定量のWebページの書き換えが行われていた場合に，最初に設定した条件と同じ条件でクローラによるWeb ページの収集を行う．このクローリングにより保存された Webアーカイブのデータ群は，クローラサーバに保存されたと同時にアーカイブサーバへ送信される． 4.3 ローカルプロキシの動作ローカルプロキシの動作概略図を図5と各スレッドにおけるオブジェクトのシーケンスを図6に示す．ローカルプロキシは，クライアントマシンがHTTPアクセスをするごとにそれをトラップする．トラップされたリクエスト，レスポンスは，各スレッドにより特定の処理がなされる．各スレッドの役割についてProxy，Storage，Receptionと

Warcの順に述べる．キャッシュ Proxy Storage Reaction

Web

アーカイブサーバメタデータメタデータ認証情報メタデータ SQLite 圧縮アーカイブファイルリクエストレスポンス _認証付加送信保存取得ファイルを圧縮付加キャッシュID の付与図5 ローカルプロキシの動作 :Storage

:Proxy :Warc :Reaction Archive

アーカイブサーバへプロキシ認証プロキシ認証成功とキャッシュID送信キャッシュID保存キャッシュID問い合わせメタデータ付与キャッシュID付与キャッシュ送信圧縮命令 ID付与定期的に圧縮されたアーカイブを送信レスポンスを保存レスポンスを送信図6 ローカルプロキシのレスポンスシーケンス図 Proxyスレッドでは，取得したリクエスト，レスポンスのそれぞれに対して，アーカイブデータ用にヘッダーに更新時間やキャッシュIDを付与する．キャッシュIDとは，各クライアントマシン上のキャッシュファイルに一意にセットされるIDである．これはアーカイブサーバでの統合処理を行う際に利用される．このIDは各キャッシュのHTTPボディにセットされている値からハッシュ値と

(5)

して算出されるため，同じキャッシュの保存を防ぐ目的でも利用される．ローカルプロキシではProxyスレッドにより，起動時に各クライアントマシンごとにハッシュ値によるノード番号が付与される．これにより，クライアントマシンがアーカイブマシンにユーザキャッシュを送信する際に，どのノードがどのキャッシュをアーカイビングしたのか管理することができる． Storageスレッドは各ユーザキャッシュにメタデータが付加された後，そのデータをデータベースに保存する．データベースには，指定されたドメインごとにWebページのキャッシュが保存される．これらの保存されたユーザキャッシュは一定量が保存されると，Reactionスレッドにより自動的にファイルが圧縮・アーカイブ化され，アーカイブサーバ上に送信される． ReactionスレッドとWarcスレッドは任意のタイミングで動作する．WarcはWARCフォーマット用にファイルを変換する処理を行う．なお，アーカイビングしたいWeb ページはユーザが指定したドメイン名ごとに行う．もし，リファラーに対して，同じドメイン名を持たない場合はホスト名をさらにチェックする．ユーザが指定したドメイン名をリファラーもしくはホスト名にもつファイルがキャッシュとしてデータベースに保存される． 4.3.1 ユーザキャッシュの保存保存されるユーザキャッシュは二つの種類に分別される． ( 1 )ユーザが指定したドメインに一致するWebページ ( 2 )それ以外のWebページ (1)のは，ローカルプロキシソフトウェアをユーザが起動した際に設定する．ユーザはWeb上に存在するドメイン名（例．www.aoyama.ac.jp）をローカルプロキシソフトウェアに設定することで，ローカルプロキシは指定されたドメイン名をトップレベルドメインとするWebページを， (2)により生成される通常のキャッシュデータベースとは別の形式で保存する．この場合のキャッシュファイルはレスポンスボディのみならず，レスポンスヘッダーを別ファイルでデータベースに保存する． 4.3.2 ユーザキャッシュの送信ローカルのデータベースに保存されたキャッシュはユーザが指定したドメイン名ごとに保存されている．これらの Webページが一定量に達すると，ローカルディレクトリを監視するスレッドがそれを補足する．次に，これらのドメイン名ごとに保存されたファイルはtar.gz形式で圧縮される．圧縮されたファイルはハッシュIDを付与された状態で，アーカイブサーバへ送信される． 4.4 アーカイブサーバの動作 4.4.1 アーカイブサーバの概要アーカイブサーバでは，クローラサーバとローカルプロキシで収集されたWebページの統合処理を定期的に行う．統合処理を行うタイミングは，クローラサーバによって収集されたWebページに対して，一定比率のWebページが統合された際に行う．アーカイブサーバはクローラサーバにクローラを動作するように指示する． 4.4.2 統合処理ここではローカルアーカイブとクローラアーカイブとを統合する処理について説明する．ここで述べるローカルアーカイブとは，ローカルプロキシから送信されたWeb アーカイブファイルである．これはクローラサーバのアーカイブファイルと区別するためにここでは呼称している． ( 1 )ローカルプロキシで収集されたアーカイブファイルを展開する ( 2 )ローカルアーカイブ内の各ファイルのURLとボディ部をクローラサーバで収集したファイルと照合する ( 3 )照合結果が同じファイルと判定された場合はファイルの変更はしないで(2)へ ( 4 )照合結果が異なる場合にはファイルの情報を上書きする ( 5 )作業中のWARCファイルが一定量を超えた場合新たにWARCファイルを作成する ( 6 ) (1)∼(5)をファイルがなくなるまで繰り返す基本的に上記のようなファイルチェックを繰り返しを行う．統合処理の途中でファイルが到着した場合，更新時間によってはそのファイルも同時に統合処理を行う．動的に生成されるWebページ関しては，URLが異なっていてもファイルの内容は変わらない場合がある．そのため，特別大きいWebページ以外はボディ部まで全文一致によるファイルの確認を行う．統合後のファイルは後述するWayback で閲覧できるように任意のディレクトリに保存される． 4.4.3 Waybackによるアーカイブの閲覧図7 WaybackによるWebアーカイブの閲覧本システムにより収集されたWebページは前述した WARC形式で保存されている，WARC形式にフォーマットされたアーカイブファイルは，インターネット・アーカ

(6)

表1 実験用環境 Webブラウザ Firefox 17.0.1 テスト用Webサイト外部サイトのAPI用いた商品注文サイト Webサイト開発言語 PHP，JavaScript Webクローラ Heritrix 3.1.1 LAN 100BASE-TX イブがオープンソースで提供しているWayback*2_というソフトウェアにより，ブラウザ上で閲覧することが可能である．任意のディレクトリに保存されたWARCファイルは， Waybackによる検索エンジンにURLを指定することで，時系列順に閲覧できる(図7)．しかし，保存されたWebページの中にはWaybackでは閲覧不可能なデータも存在する．そのためWaybackでの閲覧不可のWebページに関しては別途アーカイブ検索システムを用意した．

5. 実験と結果

本稿で開発したWebアーカイブシステムの評価を行うため，Webコンテンツ収集実験を行った．実験では深層 WebにおけるWebページがアーカイブされているか，そのWebページの取得数を提案手法とクローラのみ場合と比較する実験である．Webコンテンツ収集実験では前述した二つの手法において，深層WebのWebコンテンツの取得数について比較を行う．なお，深層WebのWebコンテンツについては第二章を参照されたい．図8 本システムとクローラのみの場合でのWebページ取得数の比較実験で使用したWebサイトと，Webブラウザの環境は表1のとおりである．試験用WebサイトはでPHPと JavaScriptにより動的にWebページが生成される．この試験用Webサイトは一般のWebサービスのように，サーバ上のデータべースに保存されたWebコンテンツを，フォームなどのクライアントからのリクエストにより生成されるレスポンスを返す．なお，試験用WebサイトではWebブ *2 _{http://archive-access.sourceforge.net/projects/wayback/} ラウザのキャッシュを無効にした状態で，一度だけWebブザウザ上からアクセスした．本稿で開発したシステムとクローラのみの場合とでの Webページ取得数の差を図8に示す．このグラフでは二つの収集方法において，HTTPHeaderの要素である Content-LengthによりWebページを分別して集計している．本実験では比較する対象のアーカイブとしてHeritrix3.1.1で収集されたWebページを比較対象とした．

6. 考察

本章ではWeb取得比較実験により得られた結果を考察する．加えて，ユーザがローカルプロキシを使用する際に HTTPアクセスにおけるアクセス実験について述べる．これはユーザが通常時のWebアクセスに比べ，ローカルプロキシを使用した際にどの程度アクセス速度に影響が出るか調査する． 6.1 提案手法の深層Web取得数について Webコンテンツ収集実験で収集されたWebコンテンツの数の違いについて説明する．どちらの収集方式においてもtext/html形式のファイルは双方の環境においても取得できる差はほとんどなかった．ただし，PHPファイルによりローカル側でレスポンスを受け取ることによって生成されるindex.htmlファイルに関しては提案手法でのみ取得できた．しかしながら，同様に取得できるはずのtext/css に関してはクローラ単体では取得できなかった．これは text/css形式のファイルが，サーバ上のPHPのフレームワークによって動的に生成されたことが起因している．各 image形式のファイルに関しては顕著な結果となった．これは外部サイトのAPIにより生成されるWebコンテンツである．外部サイトで生成されるWebコンテンツは非同期アクセスなどによりWebページが読み込まれた後，改めて実行される処理が行われる場合がある．Webページが遅れて取得されることが要因になり，クローラ単体では取得できなかったと言える．そのため，Webページの大部分を構成するこれらの画像ファイルはユーザキャッシュなくしては取得できなかった．その他のファイルでは，JavaScript などのAjaxを利用したWebページが取得できた．ここで取得できたWebコンテンツも前述したJavaScriptのライブラリにより生成されるファイルであった．ただし，クローラのみの環境ではJavaScript関連のファイルは一つも取得できず，Webページのfaviconのみを取得するにしか至っていない．ユーザキャッシュによるWebページの収集は深層Webのコンテンツの収集に大きく寄与している．その結果本手法ではユーザキャッシュとクローラの組み合わせによりWebアーカイブの密度を高めることができた．

(7)

6.2 ローカルプロキシにおけるHTTPアクセス遅延プロキシ使用時と未使用時におけるHTTPアクセスの比較を図9に示す．実験で使用したWebサイトと，Webブラウザの環境は第五章の表1と同様である．レスポンタイムの比較実験では，レスポンスとして80個のWebコンテンツが処理されるまでの時間を計測した．なお，本実験ではWebブラウザによるキャッシュ機能は無効にしている．各環境におけるアクセス時間はプロキシ使用時が2.250秒であり，通常時は1.357秒であった．このアクセス時間の差は．プロキシによるキャッシュIDの問い合わせとユーザキャッシュの保存による遅延の差である．提案手法では通常時と比べ，取得されるファイルによらず，各レスポンス処理において概ね1.5，6倍ほど時間がかかっている．これによるアクセス遅延は，常にユーザキャッシュを保存するようにローカルプロキシが動作すると，ユーザにとって若干のストレスになり得るかもしれない．しかし提案手法ではすべてのアクセスをキャッシュするわけでなく，普段利用する際はWebブラウザのキャッシュ機能により緩和されることもあり，使用にそこまで問題がある数字ではないと言える．図9 プロキシ使用時と未使用時のHTTPレスポンスタイムの比較

7. おわりに

本稿では、ユーザキャッシュとクローラアーカイブを統合するWebアーカイブシステムを提案した．評価実験として，深層Webの取得実験とローカルプロキシのHTTP アクセス実験を行い，本システムが深層Webのアーカイブに有効性があることを示した．しかし，ユーザキャッシュによる動的に生成されるWebコンテンツはユーザのアクセスタイミングによって，アーカイブに偏りが生じてしまう可能性がある．そのためユーザキャッシュの収集に応じてリクエストを動的に生成することによってアーカイブの偏りを減らすことで，より収集率の高いWebアーカイブを構築することが今後の課題である．参考文献

[1] A. Ntoulas，P. Zerfos and J. Cho: “Downloading Tex-tual Hidden Web Content through Keyword Queries”， In Proc. of JCDL2005，pp.100-109，Denver, USA，2005. [2] Internet Archive，http://archive.org/index.php [3] M. lvarez，J. Raposo，A. Pan，F. Cacheda，F. Bellas and

B. Carneiro:“Crawling the Content Hidden Behind Web Forms”，In Proc. of Int. Conf. on Computational Science and Its Applications, Vol.4706，pp.322-333，Berlin, Hei-delberg, 2007.

[4] M.K. Bergman: “The Deep Web: Surfacing Hidden Value.”，J. of Electronic Publishing，Vol.7，No.1，2001． [5] P. Wu，J.R. Wen，H. Liu and W.Y. Ma: “Query

Se-lection Techniques for Eﬃcient Crawling of Structured Web Sources”，In Proc. of the 22nd Int. Conf. on Data Engineering，p.47，Atlanta, GA, 2006.

[6] 王亮，圭博川原，徹浅見.ユーザのキャッシュ情報を活用した分散型ウェブアーカイブシステムの構成.電子情報通信学会ソサイエティ大会講演論文集，Vol. 2008，No. 2， p. 70，2008. [7] 国立図書館インターネット資料収集保存事業， http://warp.da.ndl.go.jp/search/ [8] 武晋辻下，俊矢子安，秀輝島田，隆浩小板，健哉佐藤. p2p webキャッシュ共有システムの高効率化の提案.全国大会講演論文集，Vol. 72，No. 3，pp. 3―255，2010. [9] 柊和佑，阪口哲男，杉本重雄.分割・統合可能な組織内web アーカイブシステムの構成方法.情報知識学会誌，Vol. 18，No. 1，pp. 47―57，2008. [10] 舟橋卓也，上田高徳，平手勇宇，山名早人.商用検索エンジンの検索結果では取得できないランキング下位部分の収集・解析.日本データベース学会論文誌，Vol. 7，No. 1， p.37-42，2008． [11] 吉川晃生，阪口哲男.閲覧履歴を用いた個人用webアーカイブシステム.情報科学技術フォーラム一般講演論文集， Vol. 3，No. 2，pp. 109―110，2004.

IPSJ SIG Technical Report Vol.2013-GN-86 No.9 Vol.2013-CDS-6 No /1/16 Web 1,a) 2 2 Web Web Web Web Web Web Web Web Web Web Web Web Web Web Web A

ユーザキャッシュを利用した

Web

アーカイブの構築

若菜 勇気

長谷川 大

佐久田 博司

Construction of the Web Archive Using User Cash

1.

はじめに

2.

深層 Web

3.

既往の Web アーカイブ

4.

提案手法

Web

5.

実験と結果

6.

考察

7.

おわりに

若菜勇気

長谷川大

佐久田博司