147
デ・・…一タベース言語INQについての
一考察:記憶容量,収録件数,および
検索時間について
一一カ献検索システムを構築して*一野 本
明 成
1 は じ め に 現在,海外において公開されている経済統計,法欄,科学技術,文献等のデ 一タベースの数は,約1000にのぼっているといわれている。また,わが国にお いて利用可能なデータベースも,民間において開発されたもの,各大学におい て作成された学術情報データベース等を含め,特に最近増加しているようであ ヨ る。それらのデータベースの中には,数万件あるいは数十万件の収録件数をも つものが多数見受けられるが,それは,できる限り多くのデータを利用者に提 供する必要があるからである。また,データベースそのものは自然に成長する といえる。たとえば,経済統計については,毎年データが増加するのである。 そのために,より多くの件数を収録する必要が生じてくるであろう。 しかし,コンピュータの直接アクセス可能な記憶容量には制約があるので, 実際には,より最近のデータを収録し,古いデータは直接アクセス可能でない テープ等に記憶され保存されているようである。 また,収録件数を増加させることにより,一般的には検索時間は長くなると 考えられる。なぜならば,収録件数が多くなるにつれて,それらが検索条件と ac一 fータベース言語INQによる文献検索システムの構築おまびINQの考察を行うに あたり,大阪大学大型計算機センターを利用させて頂いた。 1) 『海外データベース・ダイクトリー』〔5)参照,Darrow and Belilove〔3〕参照。 2) 『コンピュートピア』〔2〕,『大阪大学大型計算機センターニュース』〔9〕参照。148 彦根論叢 第217号 一致するかどうかを判定する回数が多くなるからである。 したがって,データベースを構築するばあいに,記憶容量,収録件数,およ び検索時間という観点からより望ましいと考られるデータベース言語は,(1)記 憶容量の比較的少い増加分により,収録件数を増加させることが可能で,かつ そのときに,(2)検索時間の増加分を比較的少くするようなデータベース言語で あろう。 上記の(1)の条件をかなりの程度満たすような機能を備え,また,わが国の民 の ほ の 間データベースおよび学術情報データベースの構築に比較的よく利用されてい るデータベース言語の1つとして,INQ(lnformation Query)があげられる。 そこで,本論においては,INQについて記憶容量,収録件数,および検索時 間の関係を明らかにすることを目的とする。 皿 記憶容量,収録件数,および検索時間について 記憶容量・収録件数・および検索時間の 表1.文献検索システムの外部ス 問の関係を明らかにするために,INQを キーマ の 利用して文献検索シスムテを構築し,それ を使用して実際に検索を実行する。 (!)文献検索ンステム ここで構築される文献検索システムの外 の 部スキーマは,表1のとおりであり,そこ に収録される文献は,Journal of Marketing Researchの1978∼1980年の3ケ年の論文 201件である。そして,外部スキーマは8 つの項目をもち,番号は各論文につけた通 項 目*
号名度 名名ド
一
誌 文者ワ
[
番雑年巻頁論著キ
(NUMBER) (MAGAZINE) (YEAR) (VOL) (PAGE) (TITLE) (AUTHOR) (KEYWORD) *コンピュータ・プログラム上では, 項目はカッコ内に示される英文字 が使用されている。 3) 『コンピュートピア』〔1〕〔2〕参照。 4) 『大阪大学大型計算機センターニュース』⊂9〕〔10〕参照。 5)INQを利用した文献検索システム構築の試みの1つとして,佐野〔11〕があげら れる。 、 6)外部スキーマとは,個々の利用者の立場からみたデータベースの記述をいう。詳細 については,植村〔12〕,Date〔4〕参照。データベース言語INQについての一考察:記憶容量, 収録件数および検索時間について 149 し番号であり,著者名については,共同論文のばあいに共同執筆者全員の氏名 が含まれる。また,各論文にたいして,複数のキーワードがつけられている。 たとえば,1レコード(1組の表1の各項目の実現値をさし,以降レコーード と呼ぶ)はつぎのように表現される。 表2. :文献検索システムのレコードの例 項 目
号名度 名
誌 交
番雑年三三論
著者 名 キーワード** 値 1 JMR* 1980 17 558−564 ESTIMATION AND FORECAST PERFORMANCE OF A MUL− TIVARIATE TIME SERIES MODEL OF SALES MORIARTY, M. SALAMON. G. TIME SERIESARMA
FORECASTING
ESTIMATION
MARKET
*JMRはJournal of Marketlng Researchの略称である。 **当文献検索システムに含まれるキーワードは著者が,独自の判断にもとづいて,各 論文のアブストラクト(abstruct)等より抽出し作成したものである。 このような外部スキーマにより表現されるレコードの集合を,コンピュータ の記憶領域に記憶する方法としては,INQのばあいには2通りの方法が考え られる。1つは,それらのレコードの集合を全くそのままに記憶し1つのファ イル(コンピュータの記憶領域の中に記憶されたレコードの集合をさし,以降 ファイルと呼ぶ)を構成する方法で,表3のように示される(このファイルを ファイル1と呼ぶ)。 もう1つの方法は,INQのもつ機能の1つであるINQセクションという機 能のもつ特性を利用する方法であり,それはつぎのようである。まず,一意的150 彦根論叢 第217号 表3. ファイル1 番号 ! 6’ R 20ユ 雑誌名
RRR
M⋮⋮M⋮・:MJ
IJ J
年度 1980 !979 1978 巻 7:::6⋮⋮51!1
頁 558−564 594−597 1三2 論 文 名 ESTIMATIONr−MEASUREMEN
T.v SOCIAL一一 著 者 名 MORIARTY, M. SALAMON, G. FUTRELL, C. M. STURDIVANT, F. D. キーワー ド TIME SERIES lSATISFACTION
l PUBLIC−POLICY SOCIAL−ISSUES な関係にある1組の項目をみつける。たとえば,表3においては,年度と巻が そうであり,年度あるいは巻が決まれば,一意的に巻あるいは年度が決定され る。そこで,巻の項目をファイル1より除去したファイル(ファイル2一(1) と呼ぶ)と,年度と巻について重複のない値を含むファイル(ファイル2一(2) と呼ぶ)を構成する。その2つのファイルは,下記のようである。 表4. ファイル2一(工) 番号 ! 26! 雑誌名JMR
」血R 年度 1980 1978 頁 558−564 1−2論文名爵者名
ESTIMATION一一SOCIALL
MORIARTY, M. SALAMON, G. STURDIVANT, F. D, キー ワ 一 ト TIME SERIES l PUBLIC−POLICY SOCIAL−ISSUES そして,INQセクションは,上記のファイル2一(1) およびファイル2一(2)を結合し,表1の外部スキー一一一マ を利用可能にする特性をもつ。 そこで,表1の外部スキーマを利用可能にする方法 の中,表3のファイル1を利用するような文献検索シ ステムをシステム1と呼び,表4のファイル2一(1), 表5のファイル2一(2)を利用する文献検索システムを システム2と呼ぶことにし,図示すれば下記のようで あ.る。 表5. ファイル2一(2)*年度
1964 1960r 1982 巻 12⋮/9 *本ファイルには,巻1 から巻19までを含め, それらの値には重複は 存在しない。データベース言語INQについての一考察:記憶容量, 収録件数,および検索時間について 図1. システム!* 151 ファイル1 (表3) 外部スキーマ (表1) *矢印は相互作用を示す。 図2. システム2*
匝「\匿㍗「ヨ
ファイル2一(2) (表5) *矢印は相互作用を示す。 上記のように,同一の外部スキーマを利用するばあいにおいても,項目間に 一意的な関係が存在するときには,INQを使用すれぽ,たとえば,システム1 およびシステム2の2つの文献検索システムを二二することが可能である。 しかし,システム1およびシステム2を構成しているそれぞれのファイルを 比較すれぽ,システム2のファイルを作成するために必要な記憶容量は,シス テム1のファイルを作成するために必要なそれと比較すれば,より少いようで ある。その理由は,システム1のファイルすなわちファイル1が巻という項目 について冗長な値(データ)を含んでいるからである。つまり,年度と巻は一 意的な関係をもっており,年度が決まれば巻は一意的に決定されるので,ファ イル1の中に含まれている巻について重複している値はすべて冗長な値と見な される。たとえ.ば,ファイル1においては,巻の値が17であるレコード数は62 個あり,61個が重複しており,それが冗長な値である。したがってファイル1 の巻について,その値が17,16,および15について冗長な値の数はそれぞれ 61,66,71個(計198個)ある。そこで,巻についての値をファイル1から除152 彦根論叢 第217号 去してファイル2一(1)を作成.し,年度および巻についての重複のない値をもつ ファイル2一(2)を作成することにより,ファイル1に含まれている冗長な値は 除去され,システム1に比較して記憶容量.の少いシステム2が構築される。そ して,システム1に比較してシステム2の記憶容量がどの程度減少するかは, の 下記の式で示される。 一・・2+篇言12+5×∬21㍊、×x22
÷礁(,翻・{鍛1+10×癬×判
一{・÷簿i(,翻・灘2
一{・+慧(,誌τア}・1蒲・ (1)
の (単位1ページ) 154孟=一 1・・(8謡1+10×弩諾ξ×」C2]) Is 42=一 1・・( 62004) 1・9(10×x,22004) Is 32= 一 1・・( 82004) nc 11:ファイル1あるいはファイル2一(1)の収録可能件数 1]12:ファイル2一(2)の収録可能件数 Cz1:ファイル1あるいはファイル2一(1)の収録件数 x22:ファイル2一(2)の収録件数 1・・( 62004) 1・9(8蒲2) 7)『INQ運用説明書』〔7〕の容量計算算出式を利用し,本データベースについて特定 化した計算式がこの式である。 8)詳細は,『INQ運用説明書』〔7〕参照。データベース言語INQについての一考察=記億容量, 収録件数,および検索時間について 153 x31:ファイル1の巻の重複しない値の個数 x32:ファイル2一(2)の年度あるいは巻の重複しない値の個数 上記より,Vt2, X22, V31, X32は本データベースの項目数等を表わす変数で あり,それらを一定として考えれば,(1)式は5c11, x21の関数となり, c11, x12 が増加するに伴い,節約される記億容量が増加することを意味する。すなわ ち,(1)式は収録件数が増加すれば,節約される記憶容量が増加することを表わ している。 ラ ここで,未知数の値を下記のように設定すれば,システムの記憶容量はシス テム1のそれに比較して理論上,約O.17ページ減少する。したがって,そのペ ージ分のレコードが新たに収録可能となる。 vl! :250 x12== 20 x,1 =201 x22== 19 x31= 3 x32 = 16 (2) このように,INQは同一収録件数のばあいに,より少い記憶容量を必要とす るシステムを構築することが可能であることが理解される。それは,結局,よ り少い記憶容量の増加分により,収録件数を増加させることが可能なシステム を構築することが,INQにおいて可能であることを示している。 (2)実験およびINQについての考察 ① 実 験 つぎに,前節で構築された2つの文献検索システムを利用し実際に検索を行 うことにより,システム1およびシステム2のそれぞれにおいて費される検索 9)未知数の値を(2)式のように設定すれば,それらの値が小さすぎるので,Is4t, Js4P, Js32の各値は負の値をとる。したがって,そのばあいに,煽1, Is42, Is32をそれぞ れ1として計算した。また, 11t, x21を500,000としたばあいには,節約可能ページ 数は約1746となる。
154 彦椹口写叢i 第217号 時間を測定する。 検索は2通りの方法で行う。1つは,キーワ.一ドを条件として検索を行い, もう1つは,キーワードおよび巻を条件として,す.なわち,キーワードの条件 と巻の条件を同時に満たすような複合条件により検索を実行する。 ω キーワードを条件とする検索 下記の表6の10種類のキーワードをそれぞれ条件として検索を.行い,そのた エの
めに費されるRETRIEVE時間(RETRIEVE動詞を使って検索条件として入
力し.たキーワードと同一’一・のキーワードをもつレコ 表6.検索条件として使用 するキーワードの三 一ドの集合をつくりだすために費される時間をいい,以降RETRIEVE時間と呼ぶ)およびMO一
ユユVE時間(MOVE動詞を使って, RETRIEVE動
詞でつくりだしたレコードの集合を,利用者のフ ユ ラ ァイルにとりだすために費される時間をいい,以降MOVE時聞と呼ぶ)を測定すれば,表7のよ
うである。表7より,RETRIEVE時間および, MOVE時
間のどちらについてもシステム1のぼあいが,シ キ 一 ワ 一 ト CONJOINT−ANALYSISSEGMENTATION
MARKET−SHARE
MAIL−SURVEY BRAND−CHOICENEW−PRODUCT
PRICE AIDPERCEPTION
FACTOR−ANALYSIS ステム2のばあいに比較して短いことが明らかである。最も大きい相対比は,RETRIEVE時間については,キーワードの値をCONJOINT−ANALYSISと
設定したときであり,システム2のそれは,システム1のそれの1.50倍にもなり,MOVE時間については,キーワードの値をSEGMENTATIONと設定
したときであり,システム2のそれは,システム1のそれの2.90倍にも.至って いる。逆に,最も小さい相対比でさえ,RETRIEVE時間については,キーワ 10)検索を実行する過程で使用される命令のひとつであり,詳細については,『INQ文 法説明書』⊂8⊃参照。 11)検索を実行する過程で使用される命令のひとつであり,詳細については,『INQ交 法説明書』〔8〕参照。 12)利用者が自由にとり扱うことの可能なファイル(users working area)をいい,詳 細は,『INQ文法説明書』〔8〕参照。データベース言語INQについての一考察:記憶容量, 収録件数,および検索時間について 表7. キーワーードを条件とした検索結果† 155 キ 一 ワ 一 ド CONJOINT−ANALYSIS
SEGMENTATION
MARKET−SHARE
MAIL−SURVEY BRAND−CHOICENEW−PRODUCT
PRICE AIDPERCEPTION
FACTOR−ANALYSIS
件数*1982663285
11 1
1 平 均 9 システム1 (!) RETRIE− VE時間**00909918201323221213
(2)MOVE
時間*** 98 115 88 101 69 70 100 54 77 67 23.s 1 s3.g システム2 (3) RETRIE− VE時間55444354741333331313
28, 5 〈4)MOVE
時間 211 333 167 213 131 133 221 78 160 118 !76.5 相対比**** (3)/(1) 1.50 !.17 1.17 1.13 !.17 1.14 1.36 1.21 1. 42 1.13 1.20 (4)/(2) 2.15 2. 90 1. 90 2.11 !.90 !.90 2.2! 1. 44 2.08 !.76 2.10 切れらの時間の理論値については,マニュアル上に,それについての説明がなく計 算困難である。 *キーワードの条件を満たすレコード件数。 **CPU時闘で表わされ,単位はミリ秒。 ***CPU時間で表わされ,単位はミリ秒。 ****RETRIEVE時間, MOVE時間のそれぞれについて,システム2のそれをシステム iのそれで除した結果を示す。一ドの値をMAIL−SURVEYあるいはFACTOR−ANALYSISと設定したと
きであり,システム2のそれは,システム1のそれの1.13倍にもなり,MOVE 時間については,キーワードの値をAIDと設定したときであり,システム2 のそれはシステム1のそれの1.44倍にもなっている。 このように,システム2を利用して検索するばあいが,システム1を利用し て検索するぼあいに比較して,より長い検索時間が費される理由としては,つ ぎのようなことが考えられる。それは,検索条件に一致したレコードの集合を つくりだすとぎには,利用される2つのファイルからレコードをつくりださな けれぽならないし,それを利用者ファイルにとりだすぼあいにも2つのファイ ルを利用しなければならないからであろうと推察される。 (ii)巻およびキーワードを条件とする検索156 彦根論叢 第2!7号 巻およびキーワードににより構成される複合 条件を10種類設定し,表8に示す。そしてシス テム1およびシステム2を利用して,それぞれ において検索を実行する。そして,検索の過
程において費されるRETRIEVE時間および
MOVE時間を測定した結果が,表9に示され
ている。 表9より,前節のばあいと同様,RETRIEVE 時間およびMOVE時間のどちらについても, システム1のばあいが,システム2のぼあい に比較して短いことが明らかである。また,RETRIEVE時間についてては,前節の単一条
表9. 表8.検索条件*として使用する 巻およびキーワ1ドの各値 巻75556775671111111111
CONJOINT−ANALYSISキ 一 ワ 一 ドSEGMENTATION
MARKET−SHARE
MAIレSURVEY
BRAN]]FCHOICENEW−PRODUCT
PRICE AIDPERCEPTION
FACTOR−ANALYSIS
*この検索条件は,巻およびキ ーワードの各条件を同時に満 たす複合条件を意味する。 巻およびキーワードを条件*とした検索結果t 検 索 条 件 巻75556775671111111111
キ 一 ワ 一 ド CONJOINT−ANALYSISSEGMENTATION
MARKET−SHARE
MAIL−SURVEY BRANI]F・CHOICENEW−PRODUCT
PRICEAID
RERCEPTION
FACTOR−ANALYSIS 件数40!431514!
1
システム1 (1)RETR− IEVE 時間***89677655751113131333
(2)MOVE
時間****83367917086655547474
システム2 (3)RETR− IEVE 時間76643374542224242444
(4)MOVE
時間 108 178 62 97 85 63 116 64 10! 63 相対比***** (3)/(1) !.50 1. 37 1.63 1.19 1.35 1.19 1.80 1.26 1.22 1.26 〈4)/(2) 1. 59 2.83 1.17 1,73 1,49 1.29 1.63 1.36 1.44 1.31 平 均 13., 26.s 1 ss.2 1 34,g [ g3. 71 1. 32 1 !. 61 †これらの時間の理論値については,マニュアル上に,それについての説明はなく, 計算困難である。 *この検索条件は,巻およびキーワードの各条件を同時に満たす複合条件を意味す る。 **巻およびキーワードの条件を同時に満たすレコード件数。 ***CPU時間で表わされ,単位はミリ秒。 ****CPU時間で表わされ,単位はミリ秒。 *****RETRIEVE時間, MOVE時間のそれぞれについて,システム2のそれをシステ ム1のそれで除した結果を示す。データベース言語INQについての一考察:記憶容量, 収録件数,および検索時間について 157 件(すなわちキーワードだけを条件としている)を利用したばあいと,ここで 行った複合条件を利用したばあいを比較すれば,後老の時間がより長くなって いる。それは,後者のぼあいには,巻を条件としてつくりだされたレコードの 集合と,キーワードを条件としてつくりだされたレコードの集合の積集合をつ くりださなければならないからであろうと考えられる。また,RETRIEVE動 詞でつくりだされたレコードの集合が,単一条件のばあいと複合条件のばあい を比較すれば,後者のレコードの集合が小さいので,利用者ファイルにとりだ
す時間,すなわちMOVE時聞については,後者のMOVE時間は短かくなる
と推察される。 ② 検索時間と記憶容量の関係とその考察 (1)節において,システム2の記億容量は,システム1のそれに比較して,論 文数201件に対して,約0.17ページ少い(すなわち節約されている)ことが明 らかとなっている。また,(2)節の①に.おいて示されているように,検索実行の ばあいに,システム1とシステム2を比較すれば,つぎのようである。すなわち,RETRIEVE時間およびMOVE時間を合算して10種類の検索条件につい
て平均をとれば,まずキーワードだけを条件とするばあいには,システム2の 検索時間の平均は,システム!の約1.90倍となっていることが表7より明ら かであり,そして巻とキーワードの複合条件のばあいには,システム2の検索 時間の乎均は,システム2の約1・52倍となっていることが,表9より理解され る。 したがって,冗長なデータの省略(あるいは除去)と検索時間の関係は,相 反する関係をもつといえるであろう。そして,実際に,より多数の収録件数を もち,また,項目間に多数の一意的な関係をもつデータベースにおいては,一 意的な関係ごとに1つのファイルをつくり冗長なデータを相当数除去すること により,大量の記憶容量が節約されるであろう。しかし,検索時間に関して は,レコードの集合をつくりだすために,より複雑な積集合を構成しなければ ならないので,かなりの程度検索時間は増加するものと思われる。 そこで,データベース言語INQを利用して大規模データベースを構築する158 彦根論叢i第217号 ばあいには,利用者の目的にしたがって,すなわち三二容量の節約の程度を高 め,より多くの件数を収録し,かつ検索時間の長さを犠牲にしてよいばあいに は,分割可能なだけファイルを分割すればよく,また,検索時間をできる限り 短くしたいぼあいには,収録件数を減少させ冗長なデータを含めた1ファイル をつくることが望ましい。しかし,実際には,上記の両極端の間のどこかの点 を利用者の目的に対応して決定することになるであろうと考えられる。 皿 結 論 本論においては,データベース言語INQについて,記憶容量,収録件数, および検索時間の関係を明らかにするために,2つの文献検索システムを構築 した。システム1は,冗長な値(データ)を含んだシステムである。また,シ ステム2は,システム1に含まれる冗長なデータを除去するためにファイルを
2つに分割し,INQのもつ機能の1つであるINQセクションの特性を利用
することにより,外部スキーマについてはシステム1とまったく同一なシステ ムとなっている。 これら2つの文献検索システムを構築し,それを利用して検索を実際に行う ことにより,つぎのことが明らかとなった。まず第1に,INQセクショ機能 のもつ特性により冗長な値を除去することが可能になり,同一収録件数を含め るばあいに,冗長な値を含めるばあいに比較してより少い記憶容量でシステム を構築することが可能であることが示された。つぎに,記憶容量と検索時間に ついては相反する関係が存在することが,上記の2つのシステムを利用し検索 することにより,明らかとなった。すなわち,冗長な値を含み,システム2に 比較してより多くの記憶容量を必要とするシステム1を利用するばあいには, 冗長な値を含まないシステム2を利用するばあいに比較して,検索時間はより 短いことが理解された。 そこで,今後データベース言語INQを利用してデータベースを構築するば あいには,上記の諸結果を基礎として,また利用者の目的にしたがって,どの 程度冗長な値(データ)を含め,どの程度検索時間を犠牲にするかを決定しなデータベース言語INQについての一考察:記憶容量, 収録件数,および検索時間について 159 ければならないであろう。 今後の課題としては,より大規模なデータベースを構築し,記憶容量,収録 件数および検索時間のより詳細な関係を明らかにすることがあげられる。 また,INGRES, SYSTEM R等,新しいデータベース言語が開発されつつ 13) あるが,それらの言語はそれぞれ固有の特性をもっており,データベース作成 の適用対象ごとに,どのデータベース言語を利用すべきかの比較が必要とされ る。 墜 肴 文 献 〔1〕 コンピュータ・エージ社,「わが国で提供されている主要なDBMS一覧」,『コソ ピュートピア』,1979,11月.pp.56−57。 〔2〕 コンピュータ・エージ社, 「利用可能なオンライン・データベースー覧表」,『コン ピュートピア』,!982,3月,pp.38−52。 (3) Darrow, J. W. and J. R. Belilove, “The growth of databank sharing”, Harvard Business Reriew, November−December, 1978, pp. 180−194. (4) Date, C. J,, An lntroduction to Database Systems, 2 nd ed., Addison−Wesley Publishing Company, 1977, pp. 13−21. 〔5⊃ (財)KDDエンジニアリング・アンド。コγサルティソグ.(社:)日本ドクメンテー ション協会,『海外データベース・ダイレクトリー』,1982,まえがき。 (6) Kim, W. “Relational Database Systems”, Computing Surveys, vol. 1!, No. 3, September, !979, pp. 185−211. 〔7〕 日本電気(株),『INQ運用説明書』,1978, pp.19−23。 〔8〕 目本電気(株),『INQ文法説明書』,1978, PP.87−130。 〔9〕大阪大学大型計算機センター,「学術情報データベースのサービス状況」,『大阪大 学大型計算機センター・ニュース』,Vol.11, No.3,1981, pp.7g_!08。 〔10〕大阪大学大型計算機センター,「データベース・サービスの案内」,『大阪大学大型 計算機センター・ニュース』,Vol・12, No.2,1982, PP.19−39。 〔11〕佐野育子,「データベース管理システムINQの一活用三一文献検索データベース 一」,「大阪大学大型計算:機センター・ニュース』,No.38,1980, pp.57−71。 〔12〕植村俊亮,『データベースシステムの基礎』,オーム社,1979,PP.28−31, PP.159 H!660 13)Kim〔6〕,植村(12〕参照。