• 検索結果がありません。

大学内ウェブページのアーカイビング ネコ印 二百科事典 040825

N/A
N/A
Protected

Academic year: 2018

シェア "大学内ウェブページのアーカイビング ネコ印 二百科事典 040825"

Copied!
3
0
0

読み込み中.... (全文を見る)

全文

(1)

大学内ウェブページのアーカイビング

名古屋大学附属図書館医学部分館情報サービス掛 岡本 正貴

1. はじめに

ここでは、学術情報の収集・発信の企画として、大学内で公開されているウェブページ の保存と、保存したページの公開について考える。

2. 保存の必要性

大学図書館たるもの、学内で生産された学術情報についてはすべて把握し、収集・保存 に務めるべし。と、言ってはみたものの、実際には紙媒体の資料ですら収集が追いつかな いのが昨今の状況である。さらに、電子媒体に目を向けてみると、学内のウェブサイトに はさまざまな学術情報が提供されているが、その内容について図書館はあまり把握してい ない。せいぜい図書館に関係するページにリンクをはるくらいで、ウェブページの保存な ど考えたことがない、というのが大方の現状であろう。

実際、大学内にどれくらいウェブサイトがあるか正確に把握しているのは、ネットワー クの管理者くらいである。ましてや、その中にどれだけ学術資料が掲載され、そして教官 の異動や組織再編等で消えていったかは、皆目見当がつかない。

こうした学内で生産されるウェブ上の学術資料の収集・保存については、これまで、大 学内のどの組織も真剣に取り組んでこなかったようである。しかし、図書館の使命として、 そうした電子情報を収集・保存し、何らかの形で提供することがこれからは必要になって くると思われる。

これについて、アメリカのWayback Machineのように、公開されているウェブページを 収集・保存する大規模プロジェクトがすでに実現しており、各大学のウェブページも収集 されているのだから、わざわざ行う必要はない、という意見もある。しかし、この Wayback Machineが今後も継続して公開され続けるという保証はない。また、ページの収 集頻度が一定しない、学内限定公開のページは収集されない、といった問題があるので、 やはり自力で収集を行ったほうが望ましいと考える。

3. 技術的問題

3.1. 収集形態

ウェブページの保存については、大きく分けて2種類の方式がある。一つは、先に述べ たWayback Machineのように、公開されているウェブページをすべて収集し、保存する方 式である。もう一つは、国立国会図書館のWARPに代表されるように、特定のサイトにつ いて許諾を得て収集する方式である。

大学においては、学内の情報を収集・保存することが目的なため、前者のようにすべて

(2)

収集することが望ましいと考える。具体的には、検索ロボットを走らせ、学内ドメインに 限定してリンクをたどり、すべてのウェブページを収集することになる。現在はwgetな ど、ウェブページを自動巡回してダウンロードするプログラムがいくつか存在するので、 こうしたものを用いるとよいだろう。実際、大学の規模にもよるが、現在のマシンの性能 からいくと、数十万円程度のサーバでも、学内のすべてのページを巡回・収集することは 充分可能と思われる。

ただし、こうした自動巡回プログラムでは、Javaやデータベース等で動的に生成される ページは取得することができない。そのため、こうしたページの保存は、別のプログラム を開発するか、個々のサイトと交渉してデータベースのコピーを保存するなど、別の手段 を検討する必要があるだろう。

3.2. 保存形態

プログラムによりダウンロードされたウェブページは、そのページのURLや収集した日 時等の情報を付与し、ハードディスクに保存されることになる。大学の規模にもよるが、 すべてのページを取得すると、ギガバイト単位になるものと思われる。そのため、ハード ディスクには充分な余裕をもたせる必要があるだろう。

こうして取得されたページは、当面はそのままハードディスクに保存することになるだ ろうが、長期的には、冗長化して万一の場合に備えるとか、磁気テープなど、劣化に強い 媒体に保存するといった手段を考慮する必要がある。

3.3. 提供形態

最初に、どのような形で提供するかだが、取得したページはそのままの形で公開するの が、著作権的にみても一番妥当と思われる。

また、取得したページの中には、学内限定公開のページもあるはずなので、その部分を うまく切り分けることができれば、広く一般に公開することができるだろうが、それが難 しい場合は、学内限定公開とするしかないだろう。

具体的な提供方法として、一番簡単なのは、各部局別のインデックスを作成し、それを 選択すると何月何日に取得したページの一覧を表示、という形にすることだろう。さらに、 現在の各部局のページへのリンクを並べ、現在のページにもジャンプできるようにするの も面白いかもしれない。

また、Wayback MachineのようにURLからの検索機能もあったほうがよいだろうし、 Namazu等の全文検索エンジンを用いてインデックスを作成し、キーワードで検索する機能 もあれば便利だろう。このあたりは、先行事例を参考にして、一番よい提供方法は何か、 よく検討する必要がある。

4. 問題点

4.1. 組織的問題

(3)

まず、こうしたウェブページの保存を行うにあたって、大学内での了解をとりつける必 要がある。学内のウェブページを管理する委員会があれば、そうした委員会に働きかける 必要があるし、ない場合には、大学本部及び各部局と調整を行うことになるだろう。

その際、ウェブページの著作権が問題となると思われるが、これについてはいくつかの 解決方法がある。たとえば、Wayback Machineのように、原則としてすべて収集を行い、 著作権者からの申し出があった場合に削除する、という方法がある。また、個々のウェブ ページは検索ロボットが巡回して取得するのだが、ダウンロードを許可しない場合は、こ の検索ロボットを拒否する設定を記述してもらう、という方法もある。こうした権利に関 する問題はかなりデリケートな部分を含むので、注意深く検討する必要がある。

また、収集対象がウェブページということもあり、情報処理センター等、学内のネット ワークを管理する機関や情報関連の部局と調整を行う必要がある。場合によっては、技術 的支援を仰いだり、あるいは共同でウェブページの保存にあたることを検討してもよいだ ろう。

さらに、実際に検索ロボットが巡回すると、収集先のサーバに負荷をかけることになる ので、そのあたりの了解をとっておく必要もあると思われる。

4.2. 予算的問題

先に「3.1. 収集形態」でも述べたが、ウェブページの収集そのものに関しては、数十 万円程度のサーバで充分である。当面、公開を考えないのであれば、ウェブページ収集プ ログラムの開発や当座の保存のためのハードディスクを加えても、百万円ほどで充分と思 われる。

次に、保存されたページ公開するためのサーバや、検索・公開のためのプログラムの開 発は、データの量にもよるが、おそらく数百万円の規模になるだろう。

また、データの増加量は、ウェブページを取得する頻度によって異なるが、いずれにせ よデータはどんどん蓄積されていくので、それに対応が可能なよう、継続的な予算要求を していく必要がある。

5. まとめ

以上、大学内で公開されているウェブページのアーカイビングの可能性について検討し てみた。技術的には、ウェブページの収集についてはさほど問題なく実現できるが、保存 や公開は、予算の問題とあわせて検討する必要があると思われる。また、組織的問題の解 決には、著作権問題を中心として、いくつかの困難が予想される。

しかし、本当の問題は、今、この時点でも、学内のウェブページで公開されていた学術 資料が消えつつあるのに、それに対して図書館員が危機意識を持っていないことである。 まずはこうした図書館員の意識を変えること、ウェブページの学術情報としての重要性を きちんと認識することが、この企画を進めるにあたって、最初に必要なことになるだろう。

(2004.8作成)

参照

関連したドキュメント

これらの協働型のモビリティサービスの事例に関して は大井 1)

少子化と独立行政法人化という二つのうね りが,今,大学に大きな変革を迫ってきてい

これらの先行研究はアイデアスケッチを実施 する際の思考について着目しており,アイデア

大きな要因として働いていることが見えてくるように思われるので 1はじめに 大江健三郎とテクノロジー

この chart の surface braid の closure が 2-twist spun terfoil と呼ばれている 2-knot に ambient isotopic で ある.4個の white vertex をもつ minimal chart

つの表が報告されているが︑その表題を示すと次のとおりである︒ 森秀雄 ︵北海道大学 ・当時︶によって発表されている ︒そこでは ︑五

「系統情報の公開」に関する留意事項

2021年9月以降受験のTOEFL iBTまたはIELTS(Academicモジュール)にて希望大学の要件を 満たしていること。ただし、協定校が要件を設定していない場合はTOEFL