香川大学ウェブページ全文検索システム-香川大学学術情報リポジトリ

(1)

香川大学経済論叢第73巻第3号 2000年12月 211-233

香川大学ウェブページ全文検索システム

中村邦彦

I

はじめに

香川大学情報処理センターの

www

サーバーが大学公式サーバーになったのが，

1

9

6

年

4

月であった。それから約

1

年半を経過した

1

9

8

年秋，学内の

www

サーバーの数も増加しているようなので，そろそろ学内ホームページの検索サービスを始めたいと考えた。また，情報処理センターとしては学内にどれだけのサーバーがあり，どの程度のホームページがあるのか，ある程度把握 (2) しておく必要も感じていた。少々試行錯誤したが， Namazuを中心にした検索システムができたので，

1

9

8

年

1

2

月末にこれを公開した。一応公開はしたものの，インデックスの更新は気が向いたときに行うという程度で，十分にメンテナンスをしないでいた。その後，

2

0

年の春頃だったと思うが，いわゆるなまず本の著者，馬場肇氏のホームページを見ていたところ，香川大学が Namazuの利用機関のひとつとして紹介されていることに気がついた。こうなったからには少しはまじめにメンテナンスをしないといけないと感じ， Namazuソフトウェアの更新を含め，少々システムに手を入れ，併せてこのシステムの現状を文書として残しておくことにした。 Namazuは現在，中小規模の日本語全文検索システムとしてはもっとも人気 (1) 筆者は香川大学公式

www

サーバーの管理者であり，情報処理センター長でもある。 (2 ) 高木哲氏が開発した日本語全文検索ソフトウェアの名前である。 (3) http://www..kusastro.kyoto-u..ac.j p/~baba/wais/other-syst巴mhtml非free jp

(2)

212 香川大学経済論叢 662 のあるソフトウェアであり，

1

9

8

年秋頃にはすでに高い評価を得ていたので，検索エンジンとして Namazuを採用することに迷いはなかったが， Namazu 自身にはウェブページを収集する機能がない。ウェブページを収集するソフトウェアをロボットまたはプリフェッチャーと呼ぶが，こちらの方は定番と言えるようなよいソフトウェアが公開されていないので，いくつか試した上で必要な修正を加えて利用している。まずこれを第2節で紹介する。第3節では簡単に Namazuの導入と設定を紹介する。第 4節ではこのシステムをヒューレツトノfッカード社のUNIXマシンへ移植した例を紹介する。最後に第5節でこれまでの利用状況を紹介し，その特徴と問題点などを検討する。

I

ウェプページの収集 2. 1 httpdown (4) 学内のウェブページを収集するために最初に試したのは httpdownであっ (5) た。これは Namazuの作者高林哲氏が， Namazuの説明書の中で紹介していたことによる。プログラムは C++で記述しである。 Linuxへのインストールには問題はなかったが，実際に使うには大きな問題があった。まず自分のサイトで収集テストをした後，実際に学内のページを収集してみたところ，多数のサーバーで長時間の接続待ちになってしまった。そのあげくに接続できないというエラーになる。このようになるサーバーは決まって次のような状況であった。 • pingに対する応答がない。 • httpの標準ポートである 80番ポートに接続を試みると，決まって約13分間待たされたあげくにエラーになる。 • tracerouteで調べると，途中のルーターから先の応答がなくなるものの，な (4 ) くまがいまさあき氏 ([email protected])作成のウェブページを収集するソフトウェア。 http:j jwwwmechatronics.mech.tohoku， ac.j pj~kumagaijbinsj

kumajhttpdown 30" html

(5 ) 現在の説明書ではなく， namazu-1.30時代のもの。今でも次のURLで見ることができる。 http: j jwwwinfomartorj.pjn-dbjworkjnamazu-13，0 8jdocjiajmanual.html

(3)

663 香川大学ウェプページ全文検索システムかなか終了しない。つまりエラーにはならない状態である。 $ /usr/sbin/traceroute 133.92110.128 traceroute to 13392110.128(13392110128)， 30 hops max， 38 byte packets 133 92..13.1 (13392131) 1.076 ms 0..798 ms 0.864 ms 2 133..92.6.8 (1339268) 5.075 ms 3964 ms 3.844 ms 3 本** 4

*

5

*

6

*

以下続く図1 接続に待たされるサーバーへのtracerout巴 -213 でたらめな

I

P

アドレスではこうはならないので，この状況になるのは，かつて存在したことのあるサーバーで，収集時点では存在していないか，稼動していないサーバーであると推測される。httpdownは，収集すべきウェブページをファイノレ単位に管理しており，サーバーごとに管理しているのではない。したがって未収集のページがあれば，それが現在接続できないサーバー上のページかどうかをチェックすることなく取得を試みるので，これらのサーバー上のすべてのページについて

1

3

分間待たされることになる。このようなページが学内にどの程度あるのかわからないので，そのままでは収集がいつ終わるのか予想が困難であった。そこで，適当に待ったところでサーバーに接続できなければ強制的に打ち切るようにプログラムを修正することにした。待たされるのはソケットライブラリ connectの呼び出し部分である。プログラムはブロックモードでかかれているため， connect関数から制御が戻ってくるまで待たされることになる。これを非ブロックモードに書き換えればスマートなのだが，そうなると他のソケット関数呼び出しも非ブロックモードに書き換えなければならなくなって大変なので，ここは簡単にSIGALRM割り込みと sigsetjmpを使うことにした。つまり， connectを呼び出す前にタイマーを設定しておき，設定時刻前に戻ってくればタイマーをリセットして処理を続ける。戻って来なければタイマーによる割り込みをかけ，タイマーをリセットするとともに，connectを呼び出す前の状態に復帰し， connectできなかったことにして処理を続けるので

(4)

-214ー香川大学経済論叢 664 ある。非inc1ude<setjmp.h> 非inc1ude<signaLh> static sigjmp buf env; static void contimeout (int sig)

1 *

割り込み処理関数本/ siglongjmp (env， -1); if (sigsetjmp (env，

SIGALRM)

= =0) {

I

本環境保存または復元

*

1

signal

(SIGALRM

， contimeout);

1 *

SIGALRM

のわりこみ処理関係を登録

*

1

alarm (10);

1 *

タイマーの設定

*

1

else {

1 *

ここへ来たら問題の処理が時間切れになったということ

*

1

alarm (0);

1 *

タイマーをリセット

*

1

errno

=

ETIMEDOUT;

1 *

エラーが起きたことにして呼び出し元へ復帰

*

1

return ; 問題の処理をここで呼び出す alarm(O);

1 *

時間内に終了したらタイマーをリセットして処理を続ける本/ 図2 タイマーにより強制終了させるプログラムの骨組みこうして何とか学内のウェブページを収集できるようにはなったが，他にも問題があった。 httpdownは見つかったリンク先から順にダウンロードするようになっているため，アクセスが特定のサーバーに対して集中的に行われる傾向が強い。サーバーの中には能力の低いものもあるようなので集中的なアクセスは避けたい。そのためには1ファイルを取得するたびに休憩するという手があるが，そうすると収集に時間がかかる。またhttpdownは，毎回すべてのウェブページをdownloadするようになっている。ファイルの日付を見て，それが新しくなっていたときだけdownloadするようにしたい。そのためにWVI

パ

Nのプロトコルである HTTPにはIf-Modified-Sinceというヘッダーが用意されているのである。そこで次の候補に当たってみることにした。 1 1 1 1 1 1 寸 1 1 1

(5)

665 香川大学ウェブページ全文検索システム

215-2..2 htdig

(6)

実はLinuxのDebianディストリビューションにはht:/ /digという，ウェブページの収集から，インデックスの作成，ウェブPからの検索までをやってくれるフリーソフトウェアが存在する。ちょっと試してみたところ，なかなかよくできている。残念ながら日本語には対応していないのでそのままでは使えないが，ウェブページを収集するだけなら日本語も英語もないのでその部分を利用することを考えた。 ht: / /digのページ収集部分のプログラム名はhtdigなので，以下htdigという場合はその意味である。 htdigには次のような機能があった。 -取得するページのURLはサーバーごとに管理されており，接続できないサーノてーは以後そのウェブページを取得しに行かない。・一つのサーバーにアクセスが集中しないようにスケジュールしている0 .取得後に更新されていないページは再取得しない。・ロボット排除規格に準拠している。長い接続待ちになるサーバーの問題はもちろんそのままだが， htdigは一つのサ}パーについて1回待つだけなので，待てないほどの時間ではない。 htdig はウェブページを収集し，インデックスを作成して次のステージにそれを渡している。そのため収集したページをそのままの形で保存することはせず，わずかに先頭部分をテキストとして残すだけである。まずはこれを修正し，収集したページをそのままディスクに保存するようにした。ht:/ /dig全体はC++で記述されており，複数のプログラムとそれを構築するためのライブラリーから構成されている。実際に欲しいのはhtdigだけであるが，面倒なので最初に全体を構築した後，必要な修正を行い，htdigだけを再構築することにした。htdigはクラス Documentで，収集したウェブページを管理している。一方ウェブページを実際に取得するのはクラス Retrieveである。取得したページをそのまま ( 6 ) http://wwwhtdigorg/

(6)

216 香川大学経済論叢 666 ディスクに保存するメンバー関数をRawWriteOとして，クラスDocumentに追加した。そして，あるページを取得した直後にRawWrite

0

を呼び出すようにクラス Retrieveを修正した。付随して，保存先の

PATH

を設定ファイルで指定できるようにも修正した。最初に使ったNamazuL3では，検索結果にはファイノレの更新時刻は表示されなかったので，考慮しなかったが，Namazu2..0ではそれが表示されるようになったので，後に収集したファイルのタイムスタンプをオリジナルファイルのタイムスタンプと同じに設定するようにした。また，htdigの最初に使ったパージョンでは，デフォJレトではすべてのファイルを収集し， htdig，.confで収集しないファイルの拡張子を指定するようになっていたが，こちらは収集するファイノレはテキストファイルに限定しようとしていたので不便であった。そこで収集するファイルの拡張子を指定するように修正した。つまり， htdigの設定ファイノレhtdig，confの中で bad_extensionsとして収集しないファイノレの拡張子を列挙するようになっていたものを修正して，収集するファイノレをvalid_ extensionsとして指定するようにした。ところが， htdig-3L5では， valid_ extendionsの指定が組み込まれたので，現在はこの修正は不要になった。長い時間接続待ちになるサーバーの問題は

1

サーバーにつき一回で済むようにはなったものの，現在では毎日収集することにしたのでhttpdownで行ったのと同様の強制打ち切りの修正を追加した。待ち時聞は数秒でよいと思、っていたが，実際には反応の遅いサーバーがあるので現在は

1

0

秒間待つようにしてある。 2.3 wget いくつか試した結果，現在はht:/ /digのウェブページ収集プログラムhtdig (7) を修正して使うことにしたのだが， httpdownとhtdig以外ではwgetもやや詳 (7) Hrvoje Niksic， Gordon Matzigkeitらが開発したウェブページ収集プログラム。 Debianディストリビューションのパッケージを利用した。最新版は次のところから入手できる。 ftp://prep ai.mi.tedu/pub/gnu/wget/

(7)

667 _{香川大学ウェブページ全文検索システム} 217-しく調査したので簡単に紹介しておく。

wget

のよい点、としては次の点があげられる。・ページの最終更新日を取得しており，それ以後更新されていないものは再収集しない。

• r

o

b

o

t

s

.

t

x

t

に対応している。一方，問題点としては次の点がある。・収集する範囲がうまく設定できない。

wget

は，

www

サーバーはすべて

DNS

に登録されているものと仮定しているらしく，収集範囲をドメイン名で指定する。したがってホスト名を比較するときは

FQDN

の右端から比較する。一方

I

P

アドレスで収集範囲を指定すると，比較はアドレスの左端から行うことになるので，そのままでは収集する範囲を指定することはできなかった。・ページ収集の順序は見つかったページの順に取得していくため，アクセスが特定のサーバーに集中しやすい。・接続待ちで長く待たされる点は他のプログラムと同じである。 2.4 その他のロボットなどここで紹介したもの以外にもロボットやプリフェッチャーと呼ばれるソフトウェアがある。いくつかは試したが本格的なロボットは機能が多すぎて，却って収集したページをそのまま保存してくれるものは少ないようである。これから使うなら，

w

g

e

t

a

l

か

WWWcp

あたりがよいのではないかと考えている。両者ともに

P

e

r

l

で書かれているので，文字列の取り扱いが容易であり，修正もしやすいであろう。簡単にその特徴を紹介しておく。

(

1 )

w

g

e

t

a

l

・吉岡恒夫

(

t

s

u

n

e

o

@

r

i

j

4 u

.

o

r

j

p

Q

W

F

0

1

3

3 @

n

i

f

t

y

.

n

e

j

p

)

作のプリフェッチャー。 -ノンプロッキングモードで動作する。

(8)

-218- 香川大学経済論叢 668

.

I

f

-Modified-Sinceヘッダーにより，更新されたページのみ取得することが可能。 • URL : http:j jopenlahringgrjpjtsuneojsoftjwwgetalljwwgetalLhtml (2)WWW cp ・油谷龍志郎氏(ABRAYER Rewsirow)の作 .幅優先探索をする。

・

I

f

-

Modified-Sinceヘッダーにより，更新されたページのみ取得することが可能。 • URL: http:jjwww.fUij4u.orjpj~rewsirowjWWWcpjWWWcp html

I

Namazu

の導入と設定

Namazuをi386系 Linuxにインストールするのは簡単であるし，書籍やウェブページでも紹介されているので，ここでは本システムに固有のことを中心に簡単に説明する。Debianの場合はすでにディストリビューションの中に必要なパッケージが含まれている。更にdselectというツールを使うと，同時に必要なパッケージを教えてくれるので，一括してインストールできる。ただし，最新安定版ディストリビューションである potatoに含まれているのは nam-(8) azu-L3.0であるので， 2..0以降のパージョンを使いたいときは配布元から取得するする必要がある。 RedHatの場合もパッケージが用意されているが，デイ (9) ストリビューションには含まれていないので，取り寄せなければならない。本システムでは，最初はパージョン1..3..0を使ったが， 2000年春から 2，，0..4を使っている。Debianでapt-getを使って最新パージョンをインストーJレする場合は，jetcjaptjsources..listの最後に ( 8) http:j jwwwnamazu..orgjdebianjdistsjpotatojmainjbinary-i386jまたはftp:jjftp namazu.orgjnamazujdebianjdistsjpotatojmainjbinary-i386j ( 9 ) http://www namazu..orgjredhatji386j

(9)

669 香川大学ウェブページ全文検索システム -219ー deb ftp:jjftp..namazu..orgjnamazujdebianjpotato main を追加しておくことにより，インターネット経由で直接インストールすることも可能である。本システムの構成では，次のパッケージが必要になる。 namazu 2_204-Li386deb namazu2-index -tools_204-LalLdeb libnkf -per LL92-Ldeb kakasi-dic231-2..deb kakasi 2..3.1-2..deb lib

f

i

1

e-mmagic-perl_L06-LalLdeb libkakasi2 2..3..1-2deb libtext守kakasi-per LL 04-Li386deb perl-5.0はすでに導入されているものとしているが，その他pdfファイルも検索対象にしたい場合はpdf形式のファイルをテキストに変換するフィノレター pdftotextが必要になる。 Debianではそれが含まれるパッケージxpdLO引90 -4..debとそのパッケージが必要とするライブラリーパッケージtllibLLO-2.. debが必要になる。以上でNamazu自身の導入は一応できたことになる。設定ファイlレである mknmzrcを修正するまでもなく，インデックスを作成する jvarjlibjnamazuj indexに移って mknmz ドキュメントのおいてある PATH のようなコマンドからmknmzを実行すればインデックスが作成される。なお，日本語のドキュメントの場合は，環境変数 LANG に ja~P..eucJP 等の日本語ロケールを設定しておく必要がある。

(10)

220- 香川大学経済論叢動作確認は namazuキーワードとコマンドを入力して，検索結果がうまく表示されればよい0 .パフォーマンスの比較 670

Debianノfッケージのデフォルトの設定では modulej 1kfと kakasiが使わ

れる。

Namazuは日本語解析に kakasiまたは Chasenを使うことができる。文献には kakasiの方が速いと書いてあるがどの程度違うのか，また，処理の高速化のために独立した kakasiではなくモジュール版の kakasiが使われている。こ (10) れらの組み合わせを比較してみた。その結果を図に示す。速い遅い chasen， module_nkf 75 28 kakasi， module_nkf 28 98 module_kakasi， nkf隣綴霊祭器滋kilitil25..84 module_kakasi， module_nkf O 10 20 30 40 50

ω

70 80 図 mknmzにおけるkakasichasenの選択とモジュール使用の効果 kakasiとchasenでは随分処理速度に差がある。 chasenは形態素解析を行っているので， kakasiに比べて生成されるキーワード数が 1割程度少なく，無意味なキーワードが減少しているようである。使う側から見れば無意味なキー (10) この測定に使たのはPentiumPro 200MHz x 2， RAM 64MB， 9GB Ultra2SCSCハードディスクをもっマシンである。

(11)

671 香川大学ウェブページ全文検索システム -221ーワードがあろうがなかろうが，検索に使うキーワードがあればよいわけだから，結局この程度の規模のシステムでは，chasenを使うメリットはそう大きくはないであろう。それよりも kakasiであればすべてのインデックスを再構築するのに約3時間で済むが， chasenを使うとそれが9時間になる。するとインデックスの作成を夜中に初めた場合，朝になっても終わらないことになってしまうので困る。ウェブから検索できるようにするには

www

サーバーを起動しておく必要がある。Debianの場合は namazu.cgiは/usr/lib/cgi-bin/にインストールされるので，それが利用可能になるように設定する。検索ページは最初のページだけはお知らせなども含めて別に作ったが，あとはほとんどNamazuに用意されたものを使用した。以下，実際に使ってみて気の付いたことを

2

つ述べる。 • Metaタグと Authorフィールド N amazu 2..0..4では通常のウェブページの検索結果は次のようになる。 1 N akamura's Office(スコア:20) 著者:不明日イす:Sun， 30 Jul 2000 17:50:02 中村研究室香川大学ホームページ全文検索サービス香川大学のインターネット利用状況学外に接続している回線の混み具合が5分間隔、で表示されます。授業のお知らせ (i mode対応)情報処理センターPCの利用状況各P http://wwwec.kagawa-u..ac..jp/~nakamura/(2，087 bytes) 図4a Namazuによる検索結果の表示図

4a

のように2..0では著者フィールドが表示されるようになったが，学内のほとんどのページは「不明」と表示されてしまう。せっかくだからどのように書けば著者フィールドが表示されるようになるのかをHTMLファイルの場合について調べた。ひとつはADDRESSタグ炉内に書かれた email アドレスである。

(12)

-222ー香川大学経済論叢くADDRESS>nakamura@e

c

.

.kagawa-u..acjpく/ADDRESS> このように書いてある場合は次のように表示される。 1. Nakamura's office(スコア:20) 著者:nakamura@eckagawa-uacjp 日付:Sun， 30 Jul 2000 17:50:02 672 中村研究室香川大学ホームページ全文検索サービス香川大学のインターネット利用状況学外に接続している回線の混み具合が5分間隔で表示されます。授業のお知らせ(i mode対応)情報処理センターPCの利用状況各P http://www.ec.kagawa-u.ac-jp/~nakamura/(2.087 bytes) 図4b Namazuによる検索結果の表示この場合，次のうちのどの形式を使っても，表示は同じである。

くADDRESS>中村邦彦nakamura@e

c

.

kagawa-uacjp</ ADDRESS>

くADDRESS>中村邦彦 (nakamura@e

c

.

kagawa-u.a

c

.

jp)</ADDRESS>

もう一つはMETAタグ?を使った場合である。くHEAD> くMETAName =“author" Content =“中村邦彦"> くTITLE>Nakamura's 0伍ceく/TITLE> く/HEAD> この場合は次のように，表示される。 1 Nakamura's0伍ce(スコア:20) 著者:中村邦彦日fす:Sun， 30 Jul 2000 17:50:02 中村研究室香川大学ホームページ全文検索サービス香川大学のインターネット利用状況学外に接続している回線の混み具合が5分間隔で表示されます。授業のお知らせ (i -mode対応)情報処理センターPCの利用状況各P http:/ /wwwec.kagawa-u acjp/~nakamura/(2，087 bytes) 図4c Namazuによる検索結果の表示 METEタグで著者名を表示させるには， mknmzでインデックスを作成するときにMETAタグオプションを指定し，更に設定ファイ 1レmknmzrcで authorフィー1レドを利用するように設定しなければならない。ところが，

(13)

673 香川大学ウェブページ全文検索システム 223 ADDRESSタグと METAタグの両方が指定されていると次のように表示されてしまう。 N akamura's0伍ce(スコア:20) 著者:nakamura@ec kagawa-u ac jp中村邦彦日イ寸:Sun， 30 Jul 2000 17:50:02 中村研究室香川大学ホームページ全文検索サービス香川大学のインターネット利用状況学外に接続している回線の混み具合が5分間隔で表示されます。授業のお知らせ(i -mode対応)情報処理センターPCの利用状況各P http:/ /www eckagawa-u.acjp/~nakamura/(2 ，087 bytes) 図4d Namazuによる検索結果の表示そこでこのシステムでは，その処理をしているフィルターhtml..plを修正して， META要素による authorが設定されている場合はそれだけを使うように修正している。 -ファイル形式の判定の問題 Namazuはインデックスを作成するとき，あるファイJレの内容がどのような形式の内容であるかをファイルの拡張子だけで判定しているのではなく，実際の内容を見て判断しており，その判断に File-MMagic というプログラムを使っている。ところがこれが正しい HTMLファイノレを間違って Plain Textファイノレと判断してしまうことがあることに気が付いた。調べてみるとく!DOCTYPE HTML < ! doctype html < ! DOCTYPE html <HEAD < head <TITLE < title <html <HTML 図 File-MMagicでHTML と判断されるファイJレ

File-MMagicの判断の根拠になっている magicファイル (Debianでは/usr/ share/misc/magic)には， HTMLファイルとはファイノレの先頭からオフセッ

トOで図5のうちのどれかで始まっているものとして定義されている。

実際に判断を間違われたファイルを見ると確かにく!Doctype… … とかくHtml>になっていた。 HTMLの仕様では，タグは大文字小文字に関係がな

(14)

-224- 香川大学経済論叢 674 。1) いことになっているので，くHtml>でトもくhTml>でもかまわないはずだが， Nam-azuに間違われては困るので，タグは大文字か小文字に統ーした方がよい。

IV HP-UX

マシンへの移植

このシステムは現在，情報管理学科サーバーで運用している。これはたまたま筆者がそのサーバーの管理をまかされているからできたことで，いささか本来の学科サーバーの趣旨には沿わない面がある。そこでこれを情報処理ゼンターのHP-UXマシンに移植することを試みた。この場合はソースファイルからコンパイルしなければならない。まず，次のソースファイルを集める。 File-MMagic-L06_targz Text-Kakasi -L04.targz htdig_

3 .

.

L

5

.

t

ar山gz kakasL23..1tar..gz libtext -kakasi -perLl.04

.

t

ar. gz namazu2_20A

.

t

ar.gz nkCL92targz xpdCO“90.orig.tar..gz フリーのgccよりは， HPが開発したものがよいだ、ろうという単純な理由から「可能ならHP-UXに付属するCコンパイラーを使う」ことにして作業を始めたのだが， htdigはC++で記述されていたので， C++コンパイラーが必要になった。ところが，センターのHP-UXにはC++コンパイラーがなかった。調べてみると最初からシステム仕様書に含まれていなかった。仕様書では GNUのg++でもよいことになっていたので，業者は経費節約のためにg++ を納品したようだ。そこで業者のインストーlレしたg++でコンパイルしたが (11) HTML 401の仕様書 3..2.1Elemntsには次のように記述しである Element names are always case-insensitive

(15)

675 香川大学ウェブページ全文検索システム 225-基本的なライブラリーが揃つてなくてコンパイルできない状態だ、った。そこで HP-UXのフリーソフトアーカイブから，最新のgcc-2..95.. 2-sd-11.. 00.. depot を取り寄せてインストーノレした。これはうまく働いてくれた。htdigはもちろん先に説明した修正を適用している。その他のプログラムはCで書かれていたので， HP-UX付属のCコンパイラーでコンパイルした。テストしたところでは一応問題なく動いているように見えたので，本物のデータでインデックスの作成を行ったところ，途中でOut of memoryのエラーになった。メモリーの使い方を見てみると，まだスワップ領域がほとんど使われていなかった。マシンの設定に問題があるのではないかと納入業者である NECに問い合わせたところ， 1プロゼスあたりの最大データセグメントサイズを64MBに設定しているという回答であった。そこでこれを2倍の 128MBに拡大して実行してみたが，まだoutof memoryになった。

L

i

nuxでは同じデータで使用メモリーは68MBであったので，コンパイラーが悪いのではないかと考え， gccで再コンパイルしてからやり直したところ今度は正常に終了した。最大使用メモリーは約110MB程度で収まっていた。一方，処理速度はというと，

L

i

nuxマシンより 2..3倍も時聞がかかっている。 moduleJ 1kfを使っていないとはいえ，かなり遅い。通常はページ収集に1時間，インデックス作成に3時間程度かかっているので，これを HP-UXで実行すると，全体で8時聞かかってしまうことになる。これでは深夜に始めて夜明けまでには終わらないことになる。処理時間だけではなく，メモリーを大量に消費することも問題である。結局このシステムを HP-UXで運用することは断念した。

V

現状と課題

この検索システムがどのように利用されているかを見てみる。まず，このシステムがウェブページを収集している学内の

www

サーバー数を表に示す。ただし，ここでカウントされているのは，香川大学のトップレベルホームページから，学内のリンクが存在するサーバーだけである。したがって，学外のサー

(16)

226ー香川大学経済論議ノてーから直接リンクされていても，学内のサーバーからのリンクがないと，ここにはあがってこない。なお，経済学部が以前ウェブサーバーとして利用していたアドレスではサーバーが移転したというメッセージだけを表示するようになっているので，これは実質的にウェブサーバーとは言えないとして除外している。情報処理センターへの申請書によると，現在ブア部局台数センター 3 教育 8 法 4 経済 6 農 4 工 10 教養 1 図書館 4 事務 2 言十 42 676 イアウオーlレの外から

TCP8

0

番ポートへのアク表1 サービス対象になっセスを認、めているマシンは

4

9

台となっている。ただている

www

サーし，ざっと調べたところ，すべてが稼動しているわノTーの数けではなく，実際に稼動しており，かつ検索対象から漏れているホストは数台程度と見ている。参考のために，

2

0

年

5

月

1

5

日に行った調査では

8

0

番の

TCP

ポートを聞いているホストは全部で

1

9

8

であったことを紹介しておく。最近ではルーターやハブ，プリンターなどがウェブブラウザーで接続できるようになってきているので，かなり大きな数字になっているが，こちらで把握しているルーターとスイッチ，そのとき学生が使っていたとみられるページャーを合わせると半数近くになるので，リンクのない学内専用サーバーが

5

0

台程度はあると推測される。インデックスが作成されているファイルの総数は約

1

6

，

5

0

ページ，ファイ/レサイズの合計は約

165MB

である。次に，過去

2

0

ヵ月間の検索件数の月別グラフを示す。ただし，このデータは

2

0

0 /

2 /

2

1

5

4 :

:

0から

3 /

51

4 :

5までの記録が欠落している。この間，ログ

の書き込みエリアがなくなっていたことに気がつかなかったためである。また，ログにはテストのためのアクセス記録も含まれている。その他，停電や工事等でシステムが利用できなかった時聞があるが，一切補正していないのでお断りしておく。まず，全体の検索件数が少ないと感ずるが，これまでは月に数回しかデータを更新していなかったことも影響しているかもしれない。この2年間ともに 6

(17)

227-ー香川大学ウェブページ全文検索システム 677 これは学期末試験勉強のため，授業担当月7月の検索件数が多くなっている。教官名，授業科目などの検索が増加したものと見られる。 1400 1200 1000 800 600 400 200 ∞ ¥ c g N k h ¥ C O O N 由 ¥ C C C N 出 ¥ C O O N 申 ¥ C C C N 的 ¥ C C C N N¥COON -[ ¥ C O O N N J [ ¥ 田町田同 H -[ ¥ A 山岳町同 c J [ ¥ 由自由﹄ [ 品¥出品由﹂[ ∞ ¥ 岳会出 k h ¥ 町田町一 [ 由¥自由品同の¥昂品 A 山﹂ [ 叩¥品目白﹂[ 的 ¥ 由 A_山由 -[ N ¥ 町出町一 [ 同¥品目白﹂[

。

図 B 月間検索回数の推移ヲ仁ー学内からのアクセスだけでなく，学外からのアクセスも増加しているが，の時期に学外者の検索が増加する理由は考えにくいので，その割本学の学生が自宅からアクセスしたものであろう。これをには後期の学期末はアクセス数が伸びていないが，表2 学期末1 日当たりの検索回数そのまま受け取ることはできない。 1999年はサービスを公それに年末年始は休みがあるし，

2

0

年

2

月はログを取り損なっている。実際，

2

0

年関して聞もない時期である。 2月のアクセス数を21で割って一日あたりのアクセス数とすれば， 6， 7月よりしたがって，学生が試験勉強やレポート作成にウェブを活用しょも多くなる。うとしていることは間違いないだろう。教え学内 46% る側もそれに応えて適切な情報を提供することが望まれる。接続元の内訳図7 全検索数の学内学外の比率を図7に示す。数字としては学外からの利用の方が多くなっ

(18)

228 香川大学経済論叢 678 ているが，月別の利用件数からもわかるように，学外からの利用であっても本学学生の利用が含まれているようであるから，全体としては学内者の利用の方が多いのではないだろうか。次によく検索されるキーワードを見てみる。これまでに検索に使われたキーワードをすべて取り出し，そのキーワードが使われた回数を数えた。一度に複数のキーワードで検索された場合はそれぞれ単独に使われた場合と同様に数えた。その結果，使われた全キーワードは

4

，

4

8

0

，検索回数の総計(検索に使われた総計)は

1

2

，

8

2

5

となった。表

3

によく使われるキーワードベスト

1

0

を示す。表中，人名となっているのは，それが学内の人間の姓名，姓，名，メーノレアドレスと推測される場合である。個人名であるので無断で公表することを差し控 ( 12) えたものである。次はキーワードを分類して，カテゴリー別に集計したのであるが，

4

，

4

8

0

個のキーワード全部を分類する元気がなかったので，ベスト

1

0

だけについて行った。図8にその結果を示す。それによるとやはり学内の人名がもっとも多く，大学情報，授業と続いているのは順当なところであろう。ここで大学情報と言っているのは，大学が文書あるいは掲示板で公開しているような情報とし，授業は教官が自分の授業の内容に関して公表するようなものとした。したがって，圏学内人名関大学情報￨関授業圏サークル￨闇コンピュータ国時事問題口その他 29% 図 B 検索に使われるキーワードの種類 (12) 香川というキーワードをどう扱うか迷ったが，香川大学，香川県等の意味合いで使われることが多いだろうと半断し，公表した。

(19)

6

7

9

香川大学ウェブページ全文検索システム 229-附;キーワード

j

回数￨順位;キーワード

j

回数￨順位

j

キ}ワード

j

回数

i

順位

j

キーワード

i

回数 1 1 111ac

j

!

?

り

7:

伊

丹 j~~j 竺

ケ41 叫応用統計解析\，~~J

2 :

学生

:

1

2

6

1

2

7 :

プログラム :

3

6

1

5

3 :

大学 :

2

4

1

7

1 :

非常勤英語講師 :

2

0

I

u

大学医

，i，~~~l??L~奏楽目

:

3

6

1 竺

(

人

予

"，l，J，i 全予 '''''J~?J

4 :

人名

:

1

0

3

1

3

0 :

人名 :

3

5

1

5

5 :

人名 :

2

3

1

8

1 :

マルチメディアリT7;;- :

1

9

1 5:人名 ; 似州山￨同3

況山

同1

6

か:サ一クル :

9

叩

3

1

凶

3

2

乞

:

2

初

0

0 ∞

o

:

3

2

引

1

5

臼

5 :

経済 :

2

3

引

1

8

幻

1 :

人名 :川

1

9 l

7 川

:

ma

抗

Cω

ω

叫山￨同

叫

3 人

五

;弘弘州

“

}ゐ

5

副

1

5

臼

5 :

白

函

=

紹

介

;己刻

2お引

3引I~i:i 竺時報処一宇

:

1 竺

R

引

8

か:ソブトテニス

8

邸

3

1

凶

3

かl香川大学 :

2

9

引

1

5

臼

5 :

↑情育報システム

:

2

幻

3

1

同

8

1

:法学 :司

1

9

8 配:I学部

i

山

1

0 :

人名 :

8

剖

0

1

凶

3

6

か:人名

:

2

幻

7

1

同

6

1 :

吹次奏楽1 :

2

引

1

8

幻

7 :

人名 :

1

8 n

i

ホ一j

，

入

:->1 :

元

副l

ぶ

詰

義

主

一 "

"

'

r

z

7 '

1

同

6

1 己

:

正

古

:

22一 1~匝8忌記

5計比7引i 人名一

;

'

i

8 '

1

2 :

政治経済学 :

7

0

1

3

6 :

人的資源管理論 :

2

7

1

6

1 :

統計 :

2

1

8

7 :

人名 :

1

8

1

3 :

教育毛主

i

"

6 '

S

¥

3 {

A

:

宅

一

i

2

6

I

ム

i

a

l

-

ム

i

i -

i

j

i

l

7 ;

宗

主

r

i

8 '

I

1

4 :

農学部 :

6

7

1

3

9 :

人名 :

2

6

1

6

5 :

人名 :

2

1

8

7 :

弓道 :

1

8

1

5 :

人名

1

仰

9 :

?Ivr州

'

r

"

T

Z

6 T

6 S

1

人名

r

'

Z

i

'

r

S

7 '

:

近代経済史

1 '

i

8 '

I

1

6 :

ゼミ :

6

1

3

9 :

写真 :

2

6

1

6

5 :

人名 :

2

1

8

7 :

心理学 :

1

8

百人名

1

州

3

9 :

数学

r

'

z

6 '

1

6 S

1

休講

r

'

z

i

'

1 ぷ

ぁ

"

'

-

;

-

i

7 '

1

8 :

人名 :

5

6

1

3

9 :

統計学 :

2

6

1

6

5 :

大学祭 :

2

1

9

5 :

人名 :

1

7

1

9 :

豊島

:

"

4

8

1

3

9

1

法 :

2

6

1

7

1 :

a

:

2

0

1

9

5 :

人名

r

i

7 '

I

2

0 :

香)11 :

4

7

1

4

6 :

a

:

2

5

1

7

1 :

人名 :

2

0

1

9

5 :

人名 :

1

7 山

入

名

-

_

.

必

￨

4 -

h

a

g

a

-

1

2

5 ￨

7

1 j

l

a

w

j

2

0

1

9

5

1

助教授

1

1 '

7 '

1

2

2 :

環境 :

4

5

1

4

6 :

人名 :

2

5

1

7

1 :

m

a

s

y

a

t

a

c

k

:

2

0

1

9

5 :

時事問題 :

1

7

2

3 i

人名-.---_.州

6 :

ー人名ー

r

-

z

5 l

i

1

人主

r

'

z

o

'

j

'

9

5

1

寮

i

1 '

7 '

I

2

3 :

人名 :

4

1

4

6 :

プログラム言語論 :

2

5

1

7

1 :

人名 :

2

0

1

9

5 :

2

0

0 :

1

7 勾教育

j

山

6 i&I鮮部

r

'

z

5 T

i

1

人主

:

山

5 i

人名

川

7 '

1

2

6 :

就職 :

3

8

1

4

6 :

情報科学 :

2

5

1

7

1 :

マッキントyシュ :

2

0

1

9

5 :

アルバイト :

1

7

表

3

よく使われるキーワードベスト

1

0

(20)

-230ー香川大学経済論叢 680 休講というキーワードは大学情報の中に含めである。今後ウェプページを作成するときはこの表を参考にして欲しい。例えばオープンキャンパスというキーワードでの検索が18回あるが，このキーワードでは目的のページにはヒットしない。そのページは大学説明会として掲載されていて，オープンキャンパスという言葉はどこにも使われていないからである。ちなみに「大学説明会」で検索されたのは3回だけだ、った。次に現システムの持つ問題点について検討する0 .収集するファイルの指定現在はファイJレの拡張子を見て，ファイルを収集するかしないかを判断している。単純なテキストファイルやHTMLファイルに予想外の拡張子が付いていたりすると収集できない。比digは収集するかしないかを指定する際に，単純な文字列比較よって判断しており，正規表現による指定ができない。そのため収集する範囲を正確に指定することが難しい。例えば拡張子が .cgiやexeであれば，これは毎回内容が変わると思われるので収集しない。ところが図書館のサーノfーには次のようなURLが頻繁に使われている。

Ww2AnnlLexe? Language

=

eng

&

Menu

=

wwwmnu12.. html

&

Top-Menuニ top..html & SubMenu = bottom12..html

現状ではこの長い文字列はファイルの拡張子が..htmlであると判断されて収集されてしまう。図書館のサーバーの場合はこのような形式になっていても，静的なページが多いので，現在はそのままにしている。・現在，この検索システムは情報管理学科のサーバーを利用しているが，本来は情報処理センターでやるべきことである。先に説明したようにセンターの主力インターネットサーバーである HP-UXマシンは， mknmzの処理速度が遅い上に，インテJレ系PCサーバー上のLinuxに十比べて2倍近いメモリーを消費するので，移行できなかった。近いうちに情報処理センターのPCサーバに移転することを検討している。・現在，毎日深夜に新しく追加または更新されたページを収集し，インデック

(21)

681 香川大学ウェフ9ページ全文検索システム -231 スを更新している。しかし，

Namazu

は処理を高速化するために，いったん登録したキーワードは削除しないようになっている。また，現在の収集方法では，元のサーバーから消去されたファイルのインデックスはそのまま残ってしまう。そこで，毎週月曜日の深夜には学内ウェブページを全て収集し直している。したがって，月曜日の深夜に停止しているサーバーのページは，収集されないことになる。ウェア、サーバーはやはり

2

4

時間運転をしていただくようにお願いしたい0 ・学内には，もう存在しなくなった古いサーバーへのリンクを抱えたまま，長い間更新されていないページが少なからずあるように見える。これが第2節で述べた問題を引き起こしている。・ウェア、サーバーへのリンクはホスト名で記述して欲しい。かつて学内では，

DNS

に登録されているサーバーでさえ，わざわざ

I

P

アドレスでリンクされていることが多かった。

1

9

8

年春にマルチメディアネットワークが敷設され，すべての公的サーバーが新ネットワークに移ったとき，

I

P

アドレスで書かれていたリンクはほとんどが切れてしまったはずだ。

DNS

に名前が登録されていないサーバーについては

I

P

アドレスでリンクするしかないが，登録されているなら，その名前を使って欲しい。

a

p

a

c

h

e

にはバーチャルホストというひとつのサーノてーを複数のサーバーのように見せかける機能がある。 htdigでその機能に対応させると，同じ

I

P

アドレスであっても，呼び出すときの名前が異なっておれば，それぞれが異なるバーチャルマシンとして認識されるようになる。現状では同じページが異なるバーチャルホストのページと解釈されないように，ノ寸ーチャノレホストには対応しない設定にせざるを得ない。・パス名・ファイノレ名に日本語文字を使っているページがある。多分シフト

J

I

S

コードをそのまま使っているのであろうが，これは止めるべきである。世の中のマシンがすべてシフト

J

I

S

コードを使っている訳ではないことを考慮して欲しいものである。 .HTMLの記述が間違っていたり，タグの対応が正確でないページがあり，ページの解析やキーワードの取り出しがうまくいかないことがある。

(22)

232ー香川大学経済論叢 682

.PDF

ファイノレについては，収集してインデックスを作成するようにしているが，ファイノレがコピープロテクトされているとテキストに変換できないのでインデックス化することができない。特に問題がなければ，

PDF

ファイルのコピープロテクトをはずして欲しい。また，一つのファイルが大きすぎる場合も処理が困難になる。

• i

-

m

o

d

e

や

e

z

-

w

e

b

などの携帯電話によるアクセスが増加していると考えられるが，学内にはまだそれらに対応したページが少ないので，携帯電話用の検索システムを検討するのはまだ早いと考えている。いずれ携帯電話用の検索ページを用意しなければならないであろう。・ロボット排除規格

h

t

d

i

g

は，

r

o

b

o

t

s

“

t

x

t

には対応しているが，

ROBOTS

記述には対応していない。したがって，次のように指定されていてもページは収集するし，リンクもたどってしまう。

く

META NAME

=

“ROBOTS" CONTENT =

“NOINDEX，

NOFOL-LOW">

幸いなことに，

namazu

はインデックスを作成するときに

NOINDEX

には対応しているので，収集はしてもインデックスには反映されないということでページ作成者には了承をお願いしている。

V

I

むすび

以上，学内のウェブページを対象にした全文検索システムを紹介した。現状ではまだ利用頻度が高いと言えるところまでには至っていないが，今後ウェブコンテンツが増加・充実して行くに伴ってその利用も増加していくものと期待している。利用者の期待を裏切らないようにシステムの改良に努めていきたい。なお，情報処理センターの資料を参照するに当たっては，瀬野芳孝氏，曽根計俊氏に，

HP-UX

のメモリー問題については四国日本電気ソフトウェア鮒高松

(23)

683 香川￨大学ウェブページ全文検索システム -233-支屈の中沢美弥子氏にお世話になった。記して感謝の意を表する。参考文献 [1] 馬場肇『日本語全文検索システムの構築と活用J，ソフトパンク， 1998年9月24日 [ 2 ] 学術情報センター編，山本毅雄他著『全文検索技術と応用]，丸善， 1998年11月 [ 3 ] 原田昌紀著『サーチエンジン徹底活用術.]，オーム社， 1997年12月 [ 4 ] 西村めぐみ著『オープンソースソフトウェアによる全文検索・データベースWebの作り方』ソシム， 2000年9月 1日 [ 5 ] 全文検索システム協議会『平成 10年度活動報告』 http://wwwasahi-netor.j p/~zc7t-urb/dbtokyo99/Db99htm [6 ] 高木哲 'Namazuのホームページ.Jhttp://www.namazuorg/ [ 7 ] Iht:/ /digのホームページ1http:wwwhtdigorg/ [8] HTML 401の仕様書英語版http://wwww3..org/TR/1999/REC-htm1401 19991224/ 日本語訳 http://wwwasahi-net.or.jp/~sd5a-ucd/ rec-htm140j /

香川大学ウェブページ全文検索システム-香川大学学術情報リポジトリ