大学内ウェブページのアーカイビングネコ印二百科事典 040825

(1)

大学内ウェブページのアーカイビング

名古屋大学附属図書館医学部分館情報サービス掛岡本正貴

1. はじめに

ここでは、学術情報の収集・発信の企画として、大学内で公開されているウェブページの保存と、保存したページの公開について考える。

2. 保存の必要性

大学図書館たるもの、学内で生産された学術情報についてはすべて把握し、収集・保存に務めるべし。と、言ってはみたものの、実際には紙媒体の資料ですら収集が追いつかないのが昨今の状況である。さらに、電子媒体に目を向けてみると、学内のウェブサイトにはさまざまな学術情報が提供されているが、その内容について図書館はあまり把握していない。せいぜい図書館に関係するページにリンクをはるくらいで、ウェブページの保存など考えたことがない、というのが大方の現状であろう。

実際、大学内にどれくらいウェブサイトがあるか正確に把握しているのは、ネットワークの管理者くらいである。ましてや、その中にどれだけ学術資料が掲載され、そして教官の異動や組織再編等で消えていったかは、皆目見当がつかない。

こうした学内で生産されるウェブ上の学術資料の収集・保存については、これまで、大学内のどの組織も真剣に取り組んでこなかったようである。しかし、図書館の使命として、そうした電子情報を収集・保存し、何らかの形で提供することがこれからは必要になってくると思われる。

これについて、アメリカのWayback Machineのように、公開されているウェブページを収集・保存する大規模プロジェクトがすでに実現しており、各大学のウェブページも収集されているのだから、わざわざ行う必要はない、という意見もある。しかし、この Wayback Machineが今後も継続して公開され続けるという保証はない。また、ページの収集頻度が一定しない、学内限定公開のページは収集されない、といった問題があるので、やはり自力で収集を行ったほうが望ましいと考える。

3. 技術的問題

3.1. ^収集形態

ウェブページの保存については、大きく分けて2種類の方式がある。一つは、先に述べたWayback Machineのように、公開されているウェブページをすべて収集し、保存する方式である。もう一つは、国立国会図書館のWARPに代表されるように、特定のサイトについて許諾を得て収集する方式である。

大学においては、学内の情報を収集・保存することが目的なため、前者のようにすべて

(2)

収集することが望ましいと考える。具体的には、検索ロボットを走らせ、学内ドメインに限定してリンクをたどり、すべてのウェブページを収集することになる。現在はwgetなど、ウェブページを自動巡回してダウンロードするプログラムがいくつか存在するので、こうしたものを用いるとよいだろう。実際、大学の規模にもよるが、現在のマシンの性能からいくと、数十万円程度のサーバでも、学内のすべてのページを巡回・収集することは充分可能と思われる。

ただし、こうした自動巡回プログラムでは、Javaやデータベース等で動的に生成されるページは取得することができない。そのため、こうしたページの保存は、別のプログラムを開発するか、個々のサイトと交渉してデータベースのコピーを保存するなど、別の手段を検討する必要があるだろう。

3.2. 保存形態

プログラムによりダウンロードされたウェブページは、そのページのURLや収集した日時等の情報を付与し、ハードディスクに保存されることになる。大学の規模にもよるが、すべてのページを取得すると、ギガバイト単位になるものと思われる。そのため、ハードディスクには充分な余裕をもたせる必要があるだろう。

こうして取得されたページは、当面はそのままハードディスクに保存することになるだろうが、長期的には、冗長化して万一の場合に備えるとか、磁気テープなど、劣化に強い媒体に保存するといった手段を考慮する必要がある。

3.3. 提供形態

最初に、どのような形で提供するかだが、取得したページはそのままの形で公開するのが、著作権的にみても一番妥当と思われる。

また、取得したページの中には、学内限定公開のページもあるはずなので、その部分をうまく切り分けることができれば、広く一般に公開することができるだろうが、それが難しい場合は、学内限定公開とするしかないだろう。

具体的な提供方法として、一番簡単なのは、各部局別のインデックスを作成し、それを選択すると何月何日に取得したページの一覧を表示、という形にすることだろう。さらに、現在の各部局のページへのリンクを並べ、現在のページにもジャンプできるようにするのも面白いかもしれない。

また、Wayback MachineのようにURLからの検索機能もあったほうがよいだろうし、 Namazu等の全文検索エンジンを用いてインデックスを作成し、キーワードで検索する機能もあれば便利だろう。このあたりは、先行事例を参考にして、一番よい提供方法は何か、よく検討する必要がある。

4. 問題点

4.1. 組織的問題

(3)

まず、こうしたウェブページの保存を行うにあたって、大学内での了解をとりつける必要がある。学内のウェブページを管理する委員会があれば、そうした委員会に働きかける必要があるし、ない場合には、大学本部及び各部局と調整を行うことになるだろう。

その際、ウェブページの著作権が問題となると思われるが、これについてはいくつかの解決方法がある。たとえば、Wayback Machineのように、原則としてすべて収集を行い、著作権者からの申し出があった場合に削除する、という方法がある。また、個々のウェブページは検索ロボットが巡回して取得するのだが、ダウンロードを許可しない場合は、この検索ロボットを拒否する設定を記述してもらう、という方法もある。こうした権利に関する問題はかなりデリケートな部分を含むので、注意深く検討する必要がある。

また、収集対象がウェブページということもあり、情報処理センター等、学内のネットワークを管理する機関や情報関連の部局と調整を行う必要がある。場合によっては、技術的支援を仰いだり、あるいは共同でウェブページの保存にあたることを検討してもよいだろう。

さらに、実際に検索ロボットが巡回すると、収集先のサーバに負荷をかけることになるので、そのあたりの了解をとっておく必要もあると思われる。

4.2. 予算的問題

先に「3.1. 収集形態」でも述べたが、ウェブページの収集そのものに関しては、数十万円程度のサーバで充分である。当面、公開を考えないのであれば、ウェブページ収集プログラムの開発や当座の保存のためのハードディスクを加えても、百万円ほどで充分と思われる。

次に、保存されたページ公開するためのサーバや、検索・公開のためのプログラムの開発は、データの量にもよるが、おそらく数百万円の規模になるだろう。

また、データの増加量は、ウェブページを取得する頻度によって異なるが、いずれにせよデータはどんどん蓄積されていくので、それに対応が可能なよう、継続的な予算要求をしていく必要がある。

5. まとめ

以上、大学内で公開されているウェブページのアーカイビングの可能性について検討してみた。技術的には、ウェブページの収集についてはさほど問題なく実現できるが、保存や公開は、予算の問題とあわせて検討する必要があると思われる。また、組織的問題の解決には、著作権問題を中心として、いくつかの困難が予想される。

しかし、本当の問題は、今、この時点でも、学内のウェブページで公開されていた学術資料が消えつつあるのに、それに対して図書館員が危機意識を持っていないことである。まずはこうした図書館員の意識を変えること、ウェブページの学術情報としての重要性をきちんと認識することが、この企画を進めるにあたって、最初に必要なことになるだろう。

(2004.8^作成)

大学内ウェブページのアーカイビング ネコ印 二百科事典 040825

大学内ウェブページのアーカイビングネコ印二百科事典 040825