コードにしたのでは， not only．．．but（also）．．．などの相関語句の検索

(1)

65

テキスト・データベース管理システム SIGMAを用いた語法研究＊

許斐慧二

0．はじめに

近年コンピューターの発達と普及に伴って多くの機械可読の言語資料集一コンピューター・コーパスあるいはテキスト・データベースと呼ばれるもの一が編集・作成され，それらを利用した言語研究が盛んになって来ている。コン

ピューターによる分析は大量のデータを短時間に処理することを可能にして，

言語事象の全体的な把握を容易にする。しかし，そうしたコンピューターを使った研究の利点は十分に認識しつつも，実際にどのようにコンピューターを利用したらよいのか分からない言語研究者が多いのもまた事実であろう。そこで，

本稿では，筆者の所属する研究グループが現在行っているコンピューター・

コーパスを利用した英語の語法研究を紹介して参考に供したいと思う。

我々グループの研究の進め方は次のとおりである。まず，常々関心を持ったり疑問を抱いていた現代英米語の事象・語法について辞書や語法書・文法書などの記述や解説等を調べて，これまでにどのようなことが言われているかを把握する。その際，我々の関心もあって，歴史的考察を加味する。そして，そうした調査結果を踏まえた上で，主としてLOBコーパスとBrownコーパスを用いて英米に於ける実態を観察・分析する。我々の研究が基づいているLOB，

Brownコーパスが1961年度に刊行された出版物から取った資料から成る点で，

現代英米語のサンプルとしての適格性について全く疑問がないわけではない。

しかし，①現在他に簡単に入手可能な，これらと同程度の規模のコーパスがな

(2)

いこと1），②1961年の時点のものとはいえ，英米語の比較に便利であること，

③文法的な点では1961年と現代とでそれ程大きな差異があるとは思えないこと，

などの理由からこれらのコーパスを資料として使用することに特に大きな問題はないと判断している。

こうしたコンピューター・コーパスを用いた言語研究に不可欠なのはデータ検索用のプログラムである。本研究ではテキスト・データベース管理システム SIGMAのPC版を使用している。

以下では，まず初めに，このSIGMAシステムの特徴と検索目的に適したデータの形式について簡単に述べ，次に，SIGMAによるデータの検索の仕方等について具体的に説明し，語法研究の面でこれまでに得られた研究成果の一

端を示す。

1．SIGMAシステムの特徴とテキスト・ファイルの形式

筆者が検索用プログラムとして使用しているのは九州大学の大型計算機センターで公開されているテキスト・データベース管理システムSIGMAをパソコン上で動くようにしたものである。SIGMAは，「文献の蓄積・検索，自然言語の解析，書類の整理，その他データの収集・加工など，研究者の日常的な活動を支援するために開発」された研究者用の情報システムであり，多くの非常に優れた特徴を有している2）。それらのうち主だったものを列挙すると次のよ

うになる。

（1）データの処理速度が非常に速い。

（2）どのような形式のデータにも対応でき，データは特別な構造を有する必要はない。

（3）検索の単位であるレコードの設定が自由にできる。レコード区切り語（record delimiter）で挟まれた部分を1レコードとする。また，項目区切り語（item delimiter）によってレコードを項目に区切ってきめ細かく検索することが可能である。

(3)

テキスト・データベース管理システムSIGMAを用いた語法研究 67

（4）キーワードの細かな指定と論理式（logical formulas）の適切な指定・登録によって多種多様な検索が可能である。

（5）一度の検索で多数の質問を同時に処理できる。

（6）1バイト文字と2バイト文字の混在する日本語テキストもそのまま処理できる。

（7）高度の汎用性を有する。

上に示したように，SIGMAはどのような形式のテキスト・ファイルにも対処できるし，検索の単位であるレコードの設定も自由にできるので，語法研究

に使用するテキスト・ファイルもその形式に特別な制約はないが，このシステムの特徴を最大限に活かして検索するには，やはり語法研究用のテキスト・

ファイルはそれに適した形式である方が望ましい。

BrownとLOBコーパスのテキスト・ファイルの内容を見てみると，いずれに於いても行ごとに復帰改行が行われている。そのために，多くの検索システムの場合，これらのコーパスを用いてデータ検索を行う際にはキーワードのコンテクストとして何行を必要とするか指定しなければならない。しかし，これは語法研究には非常に不便で，行ではなく文を一つの検索の単位，即ち，1レコード，とした方が何かと都合がよいように思われる。また，一般的に，英文テキストでは単語と句読点や引用符号などの記号との間にスペースがないので，

そのままの形では単語の切り出しがうまくゆかず不要なデータまで拾ってしまうことが多い。単語の前後にスペースがあれば効率的な検索が可能となる。さらに，筆者の入手したLOBコーパスのバージョンでは各単語に品詞に関する情報が文法タグという形で付与されている。こうした文法タグは単語の品詞情報に基づいた検索を可能にするのでデータを絞り込むのに役立つが，しかし，

実際には，キーワードの登録作業が煩雑になるという欠点がある。

そこで，以上に述べた点を踏まえて，BrownとLOBコーパスのテキスト・

ファイルの形式を次のように変換した3）。

（a）復帰改行を（1行ごとではなく）1文ごとに行う。こうすることで，復

(4)

帰改行をレコード区切り語として使い，文単位でデータ検索を行うことができる。ただし，コロンやセミコロンのすぐ後では復帰改行しない。

即ち，これらの記号の前後の文は合わせて1文とする。こうするのは語法研究ではコロンやセミコロンの前後の文にまたがって検索しなければならない場合があるからである。例えば，狭い意味での単文だけを1レ

コードにしたのでは， not only．．．but（also）．．．などの相関語句の検索

には不都合である。

（b）単語と単語あるいは単語と句読点や引用符号などの記号との間に1スペース分の空白を設ける。このように単語が必ず1スペース分の空白で区切られているようにすることで特定の単語だけを簡単に切り出すことができる。

（c）レファレンスのために各文の先頭に付けるヘッダーの内容を簡素化する。

（d）各単語に文法タグは付けない。

（a），（b）については説明を要さないであろう。（c）は（a）からの当然の帰結である。我々の語法研究用に再編集されたバージョンでは，行ごとではなく文ごとに復帰改行されているので，各文の先頭に付けられるヘッダーは，元のコーパスのものと違って，行番号は含まない。ヘッダーに含まれるのはコーパスの種類，資料のジャンル，文番号等の情報である。通常の語法研究ではデータに関してこれ位の情報があれば十分であろう。

ところで，（d）に示しているように，我々の研究で使用しているコーパスでは文法タグが外してあるわけだが，たとえキーワードの指定が面倒になるとしてもLOBコーパスのように文法タグが付与されていた方がやはり都合がよいと思われる向きもあるかも知れないので，この点についてもう少し詳しく述べ

ておきたい。

確かに，単一の語形が複数の品詞に属すことがあり，そういう場合には各単語に文法タグが付いていた方が検索しやすいのは事実である。例えば， −ing 形は品詞的には現在分詞，動名詞，名詞，形容詞の場合があるが，このうち特

(5)

テキスト・データベース管理システムSIGMAを用いた語法研究 69 定の品詞のものを取り出すにはキーワードとしてそれを表わす文法タグの付与された形式をそのまま（例えば， meeting．NN あるいは meeting．VBG のように）指定しさえすればよい。一方，文法タグが付いてなければ検索した全てのデータの中から特定の品詞のものを選び出さなければならず，それだけ労力

が要る。

しかし，それでも本研究で敢えて文法タグに頼らないのにはキーワードの入力を簡単にするためということの他にもいくつか理由がある。まず第一に，文法タグに余り信頼がおけないからである。品詞の取り扱いがコーパスの作成者によって異なっている可能性がある。事実，LOBの文法タグにはそれほど多くはないけれども，やはり品詞の取り扱いに混乱が見られる。文法タグを付与するのであれば，品詞の取り扱いを統一する必要があろう。第二に，文の階層的な情報や各単語の意味的な情報が与えられていなければ，実際の言語研究には余り役に立たない。例えば，検索対象の語句が意味的に曖昧である場合には，

品詞情報はデータを絞り込むのにある程度は有効であっても，それだけでは正確な検索結果は得られない。いずれにせよ，調査している語法に関係するデータは最終的にはすべて人間の眼で確認する必要があるわけで，もしそうだとすれば，最初から文法タグはなくてもよいであろう。少なくとも現在の時点で入手可能なコーパスの規模はそれほど大きくない。したがって，データの検出数もそれほど多くなく，文法タグ付きのコーパスの場合と比べことさら問題にしなければならないほど検索結果の点検に手間がかかるとも思えない。

ただ，もしどうしても文法タグの付いたバージョンを使った方が効率がよいと思われるのであれば，当然のことながらそちらを使用すればよい。現在のハードディスクの容量の大きさを考えるとBrown， LOBコーパス程度の規模のコーパスを一つ，二つ余分に納めるのに何ら問題はない。要はデータを研究者自身の研究に最も適した形式のものにすることであろう。まさにそうしたデータの修正・加工こそがコンピューター使用の利点であると言える。

ついでながら，筆者のコーパスも上に示した形式に合わせている。もちろん，

すべてのデータ・ファイルをSIGMAを使って同じ方法で効率よく検索するた

(6)

めである。

では，次に実際にSIGMAを使ってデータを検索してみよう。

2．SIGMAを用いた英文データの検索

SIGMAでのデータ検索に重要かつ不可欠なコマンドは二っしかない。

searchとrefileである。 searchはテキスト・ファイルから指定した形式を含むレコードを検出し，refileはsearchによって検索された結果をファイル化する

働きをする。

まず，searchと入力すると，レコード区切り語の指定を求めてくる。先に述べたように，SIGMAでは検索単位となるレコードを自由に設定でき，レ

コード区切り語（record delimiter）で挟まれた部分が1レコードと見なされる。

我々は検索の単位を文としているのでレコード区切り語として復帰改行を用いる。したがって，レコード区切り語として￥n（復改記号を表わす）と入力する。すると，今度は項目区切り語（item delimiter）の指定を求めてくる。これはさらにきめ細かいデータ検索を行う場合に非常に有効であるが，少なくとも通常の語法研究を目的にした検索では無視して構わない。

次に，キーワードを登録する。通常の文字列の他に，ワイルドカードを表わすトリプルドット．．．つきの文字列も使用できる。トリプルドットは連語などのようにキーワードの出現順序が大きな意味を持つ際の検索に非常に便利である。キーワードの指定を誤れば必要なデータが脱落したり，不必要なデータが入り込んだりするので，入念な準備が必要である。また，キーワードを登録する際には，単語と単語，単語と記号との間に必ず1スペース分の空白をおかなければならない。キーワードの登録個数は最大99個である。

キーワードの登録が終ると質問のための論理式の登録に移る。論理式はキー

ワード変数（Al， A2， A3．．．），式変数（Z1，Z2， Z3．．．），整定数を論理演

算子，比較演算子，算術演算子，カッコで組み合わせて作られる。論理式を作るのに用いられる，これら3種類の演算子のうち，取り敢えず語法研究に必要

(7)

テキスト・データベース管理システムSIGMAを用いた語法研究 71 なものは，論理演算子 and ， or ， not だけである。それぞれ．，，， ▲ で

表わされる。質問は論理式の形で与える。また論理式の最後に／（スラント）を入れると，その論理式は中間的な式変数と見なされる。／（スラント）

のない論理式が質問を表わす。検索結果を求める論理式（質問式）は最大32個を同時に登録できる。

searchによる検索結果は索引ファイルにコード化されて保存されるので，

それをテキストの形に復元してディスプレイに表示したり，ファイルに出力してやる必要がある。これを行うのがrefileというコマンドである。 refileに

よってそれぞれの質問についての答を出力ファイルに出力する4）。

以下では，2つの異なるタイプの検索例を示す。検索するのに最も簡単なのは単語あるいは連続した語句である。まず，最初に，そうした検索例として

in（the）1ight of を取り上げる。より複雑な操作を必要とするのはキーワードが離れていて，その登録にワイルドカードの使用を余儀なくされる連語の場合

である。ここでは prevent．．．（from）．．．ing の場合を見てみることにする5）。

なお，データの検索に使用した計算機は，ちと旧式だが，NEC9801UX21，

ハードディスクはEpson HDD−40Rである。最新のマシンを使えば処理時間は大幅に短縮できることを指摘しておきたい。

2．1．単語あるいは連続した語句の検索

よく知られているように， considering， in view of の意味を表わす in the

light of と並んでtheの脱落した in light of という形式が存在する。英米の辞

書・語法書等によると， in the light of は英米共に，特にイギリス英語では theの付いた形が一般的であり，一方， theの落ちた in light of は最近になって（20世紀後半から）アメリ、力英語で時折見られるようになった用法のようである。では，LOBとBrownコーパスでその実態を調べてみよう。実際の検索に必要な操作及び検索の過程を示せば次のようになる。［R］は復改の入力（リターンキーの打鍵）を表わしている。

(8)

（1）A：￥WRK＞search［R］

（2）Record Delimiters

R1＝￥n［R］

R2・［R］

（3）Item Delimiters I1・［R］

（4）Keywords

A1：ニin the light of［R］

A2：＝in light of［R］

A3：＝In the light of［R］

A4：ニIn light of［R］

A5：・［R］

（5）Logical Formulas Z1：＝a1，a3［R］

Z2：ニa2，a4［R］

Z3：・［R］

（6）Input File：＝￥LOB￥＊．＊［R］

Searching￥LOB￥LT−A1．．．

RETRIEVED RECORDS

QUESTION 1（Z 1）ニ0 20 QUESTION 2（Z 2）＝0 0 TOTAL ＝0 20 CPU TIME（second）・3 143

(9)

1nput File：・￥BROWN￥＊．＊［R］

Searching￥BROWN￥B2−A

RETRIEVED RECORDS

QUESTION 1（Z 1）＝0 39 QUESTION 2（Z 2）＝0 5 TOTAL ＝0 44 CPU TIME（second）ニ3 288

Input File：ニ［R］

（7）A：￥WRK＞refile［R］

RETRIEVED RECORDS QUESTION 1（Z 1）＝39 QUESTION 2（Z 2）＝ 5 TOTAL ＝44

Question Number：＝1［R］

New Record Delimiter：＝￥n￥n［R］

Output File：＝light−1［R］

Question Number：＝2［R］

New Record Delimiter：＝￥n￥n［R］

Output File：＝light−2［R］

（検索方法の説明）

（1）searchコマンドの入力

筆者は検索を含め作業はすべてAドライブ内に作られた作業用のディ

(10)

74 許斐慧二

レクトリ￥WRKの中でおこなうことにしている。プロンプトA：

￥WRK＞に続けてsearchコマンドを入力している。

（2）レコード区切り語の設定

￥nを入力して復帰改行をレコード区切り語とする。これで文単位の検索が可能になる。

（3）項目区切り語の設定

ここでは設定を行っていない。先に述べたように通常の語法研究では項目区切り語の設定は必要ない。

（4）キーワードの登録

キーワード変数A1とA2は小文字で始まる形式 in the light of と in light of を，キーワード変数A3とA4は大文字で始まる形式 In the light of と In light of をそれぞれ登録している。ちなみに， Brown コーパスは文頭の語は大文字で始まるが，LOBでは固有名詞を除いて，

小文字で始まる。

（5）論理式の登録

式変数Z1に論理式A1，A3を登録している。この式変数を用いた質問

で小文字で始まる in the light of と大文字で始まる In the light of の

両方を含むレコードが検索される。同様に，式変数Z2に論理式A2，

A4を登録している。この式変数を用いた質問で小文字で始まる in

light of と大文字で始まる In light of を含むレコードが検索される。

（これらの式変数では小文字で始まる形式と大文字で始まる形式のどちらも検出できるように演算子の∵（・or）を用いている。）

（6）入力ファイルの指定

プロンプト Input File：・に従って検索すべきファイルを指定してやる。

LOBコーパスのファイルは￥LOBというディレクトリに納められているので，ワイルドカードを利用して￥LOBの中のすべてのファイルを検索する。検索を終えると，再びプロンプト Input File：・を表示し，

入力ファイル名の入力を求めてくる。そこで，今度は￥BROWNとい

(11)

テキスト・データベース管理システムSIGMAを用いた語法研究 75 うディレクトリに納められたBrownコーパスのファイルを入力ファイルとして指定してやる。ここでもワイルドカードを利用して一括処理している。検索を終えると，検索結果を出力し，更に入力ファイル名の入力を求めてくるが，これ以上入力すべきファイルがなければ復改のみを入力（リターンキーを打鍵）する。

（7）refileコマンドの入力

refileを入力して，検索結果の再ファイル化を行う。再ファイル化すべき質問の番号を入力する。次に出力ファイルの新しいレコード区切り語の指定を行う。ここでは，新たなレコード区切り語として￥n￥n（復帰改行2個）を入力してレコードとレコードの間を1行分空けている。こうすることで，検索結果が見やすくなる。次に出力ファイル名を指定する。ここでは質問1についてはlight−1としている。検索結果をディスプレイに表示するだけでよい場合にはconと入力すればよい。質問2についても同じ作業を繰り返す。

2．2．連語の検索

次にもう少し複雑な操作を要する連語の検索の仕方を見てみよう。ここで例に取るのは下に示す動詞preventが「動詞＋−ing」形を伴う際の3つの型で

ある。

A：He prevented John／me from going．

B：He prevented John s／my going．

C：He prevented John／me going．

英米の辞書・語法書などによると，現代英語ではA型とB型は文語・口語を問わず慣用法であるが，C型は口語に限られ，しかも，英米で容認度に差があるようである。即ち，C型はイギリス英語では容認されるが，アメリカ英語では非標準用法と見なされているようである。

ところで，我々の研究グループのリーダーである田島松二氏の調査によると、

(12)

76 許斐慧二

文献に現れた限りでは，3つの型のうち最も古いのは今日口語体と見なされて

いるC型（ prevent me going 型）で，次いで， B型（ prevent my going 型）

で，一番新しく出現したのが今日最も一般的な形と見なされるA型（ prevent

me from going 型）とのことである。

また，Visser（1973，2102）に紹介されている，18，19世紀の英国小説を資料とするKirsten（1959）と1950−1964年にイギリスで刊行された種々の資料に基づくvan Ek（1966）の研究によると，それぞれの時代の3つの型の分布状況は次の通りである。ただし，hisは属格の名詞と所有格の代名詞， himは通格の名

詞を含む。

（Iprevent）him from his him （going）

（Kirsten）18th c． 49 25 8 （Kirsten）19th c． 37 48 5 （van Ek）1950−64 21 2 14

当然データが取られた資料の偏りなども考慮に入れなければならないが，この表は，B型が今世紀になって急激に減少し，逆に， C型が大幅に増加している

ことを示している6）。

では，SIGMAを使って， LOB， Brownコーパスに含まれるそれぞれの型のデータを検出して，1961年の時点での分布状況を見てみよう。なお，項目区切り語の設定までは単語及び連続した語句の検索の場合と全く同じなのでその部分は省略し，ここではキーワードの登録からを示すことにする。

（4 ）Keywords

A1：ニprevent．．．ing［R］

A2：＝prevents．．．ing［R］

A3：＝prevented．．．ing［R］

A4：＝preventing＿ing［R］

A5：＝prevent．．．from．．．ing［R］

A6：ニprevents＿．from．．．ing［R］

(13)

テキスト・データベース管理システムSIGMAを用いた語法研究 77 A7：ニprevented．．．from＿ing［R］

A8：＝preventing．．．from．．．ing［R］

A9：ニprevent from＿ing［R］

A10：＝prevents from．．．ing［R］

A11：ニprevented from＿ing［R］

A12：＝preventing from＿ing［R］

A13：ニprevent my．．．ing［R］

A14：ニprevents my．．．ing［R］

A15：＝prevented my＿ing［R］

A16：＝preventing my．．．ing［R］

A17：＝prevent your．．．ing［R］

A18：＝prevents your＿ing［R］

A19：＝prevented your．．．ing［R］

A20：＝preventing your．．．ing［R］

A21：ニprevent his．．．ing［R］

A22：＝prevents his．．．ing［R］

A23：ニprevented his．．．ing．［R］

A24：ニpreventing his．．．ing［R］

A25：＝prevent her．．．ing［R］

A26：＝prevents her．．．ing［R］

A27：＝prevented heL＿ing［R］

A28：ニpreventing her．．．ing［R］

A29：ニprevent its．．．ing・［R］

A30：＝prevents its．．．ing［R］

A31：ニprevented its．．．輌ng［R］

A32：＝preventing its．』D．ing［R］

A33：ニprevent our．．．ing［R］

A34：＝prevents our．．．ing［R］

(14)

A35：＝prevented our．．．ing［R］

A36：＝preventing our．．．ing［R］

A37：ニpreveht their．．．ing［R］

A38：＝prevents their．．．ing［R］

A39：＝prevented their．．．ing［R］

A40：＝preventing their．．．ing［R］

A41：＝prevent．．． s．．．三ng［R］

A42：＝prevents．．． s．．．lng［R］

A43：＝prevented．．． s．．．ing［R］

A44：＝preventing．．． s．．．ing［R］

A45：ニ［R］

（5 ）Logical Fo㎜ulas Z1：＝a1，a2，a3，a4［R］

Z2：＝a5，a6，a7，a8，a9，a10，a11，a12［R］

Z3：ニa13，a14，a15，a16，a17，a18，a19，a20，a21，a22，a23，a24，a25，a26，

a27，a28，a29，a30，a31，a32，a33，a34，a35，a36，a37，a38，a39，a40，a41，

a42，a43，a44［R］7）

Z4：＝Z1．＾（Z2，Z3）［R］

（6 ）Input File：＝￥LOB￥＊．＊［R］

Searching￥LOB￥LT−A1．．．

●

RETRIEVED RECORDS QUESTION 1（Z 1）＝4 65 QUESTION 2（Z 2）＝3 38

(15)

テキスト・データベース管理システムSIGMAを用いた語法研究 79 QUESTION 3（Z 3）＝0 7

QUESTION 4（Z 4）＝1 22 TOTAL ＝4 65 CPU TIME（second）・5 280

Input File：・￥BROWN￥＊．＊［R］

Searching￥BROWN￥B2−A＿

RETRIEVED RECORDS

QUESTION 1（Z 1）＝0 132 QUESTION 2（Z 2）＝0 90 QUESTION 3（Z 3）＝0 13 QUESTION 4（Z 4）ニ0 34 TOTAL ＝0 132 CPU TIME（second）＝6 548

Input File：＝［R］

（7 ）A：￥WRK＞refile［R］

RETRIEVED RECORDS

QUESTION 1（Z 1）＝132 QUESTION 2（Z 2）＝ 90 QUESTION 3（Z 3）＝ 13 QUESTION 4（Z 4）＝ 34 TOTAL ニ132

Question Number：＝1［R］

(16)

New Record Delimiter：＝￥n￥n［R］

Output File：＝prev−1［R］

Question Number：ニ2［R］

New Record Delimiter：＝￥n￥n［R］

Output File：prev−2［R］

Question Number：ニ3［R］

New Record Delimiter：＝￥n￥n［R］

Output File：ニprev−3［R］

Question Number：＝4［R］

New Record Delimiter：＝￥n￥n［R］

Output File：＝prev−4［R］

（検索方法の説明）

（4 ）キーワードの登録

キーワード変数A1〜A4は −ing 形を従えるpreventのあらゆる形式を登録している。キーワード変数A5〜A12はA型（ prevent me from going 型）の諸形式を登録している。このうち， A9〜A12はA型に属す preventの形式が関係節などに生起している場合をカバーする。キーワード変数A13〜A44はB型（ prevent my going 型）の諸形式を登録し

ている。

（5 ）論理式の登録

式変数Z1に論理式A1，A2，A3，A4を登録している。これは −ing 形を従えるpreventの全ての形式についての指定をまとめたものである。 Z1を用いた質問で，A1〜A4に登録されたキーワードを含むレコードが検索される。式変数Z2に登録された論理式はA型の諸形式についての指定をまとめたものである。Z2を用いた質問でA5〜A12に登録されたキーワードを含むレコードが検索される。A型はこれにより検出されるデータの中に含まれる。式変数Z3に登録された論理式はB型の諸形式につい

(17)

テキスト・データベース管理システムSIGMAを用いた語法研究 81 ての指定を全て一つにまとめたもの。この式変数を用いた質問で，A13

〜A44に登録されたキーワードを含むレコードが検索される。 B型に属すデータはこの論理式によって検出されるものの中に含まれる。式変数 Z4は登録済みの式変数を用いて，論理式Z1．＾（Z2，Z3）を登録している。

Z4を用いた質問は「Z1を用いた質問を満たし，かつ， Z2あるいはZ3を用いた質問を満たさない」ということを意味している。これにより後に

−奄獅〟f形を伴うpreventの諸形式に関するデータ全体の中からA型とB型に所属する可能性のあるものが排除される。つまり，C型に属す可能性のあるデータが検出される。

（6 ）〜（7 ）は先に見た単純な検索例の場合と基本的に同じ操作であるのでこれについての説明は省略する。

2．3．検索結果の検討

上に示した手順で得られた検索結果には当然不要なデータ，いわゆる「ゴミ」，が含まれている可能性がある8）。したがって，検索結果の点検を行わなければならないが，最も手軽な方法はエディターやワープロの検索機能を用いることである。筆者はデータの点検や修正・加工等の作業にはエディターの MIFESを使用しているので，それを使って簡単に説明しよう。

まず，検索結果を出力したファイルをMIFESで読み込む。次に，1文ごとに必要な用例であるかどうかを点検するわけだが，その際，このプログラムに備わっている「検索／置換」機能を用いて，必要な用例の場合にはキーワードとして登録した文字列の前後に何かある記号を付けて（例えば，＃in light of＃

のように＃という記号でキーワードを囲み）新しい文字列に置き換える。こうすると点検作業が簡単になるばかりでなく，ミスも少なくなる。なぜなら，

置換された文字列の数をMIFESが教えてくれるので数え間違いが起きないか

らである。

そのようにしてsearchコマンドによって最初に得られた検索結果から不要

(18)

な用例を取り除くと，次の結果が得られる。

（1） in（the）light of の分布

in the light of in light of

LOB 20 0 20 Brown 18 5 23

38 5 43

（II） prevent．．．（from）．．◆ing の分布

（He prevented） me from my me her （going）

LOB 37 2 5 2 46 Brown 51 1 0 0 52

88 3 5 2 98 まず， in（the）1ight of の検索結果から検討しよう。本節（7）から分かるよ

うに， in the light of の当初の検索結果は39であったが，（1）の表に示されて

いるように，適格な用例の総数は38である。さて，質的・量的にほぼ均等な英米の両コーパスにほぼ同じ数の用例が生じているが，イギリス英語のLOB コーパスでは20個の用例全てが in the light of であるのに対して，アメリカ英語のBrownコーパスでは全用例23個のうち，18個（78．3％）が in the light of で5個（21．7％）がtheの脱落した in light of である。これは大方の辞書

・語法書等の見解を裏付けている。ただ，1961年の時点ではアメリカ英語でも theが脱落する傾向はそれほど強くなかったようである。現在ではこの傾向は一段と強まっており，筆者の作成した現代アメリカ英語コーパスでは全用例8

例のうち， in light ofが6例， in the light of が2例で，頻度が逆転しており，

theのない形式が圧倒的に優勢である9）。

次にpreventの諸形式の検索結果を検討してみよう。 SIGMAによる検索ではA型に属す用例数はLOBが38， Brownが52であったが，（II）の表から明ら

(19)

テキスト・データベース管理システムSIGMAを用いた語法研究 83 かなように，それぞれのコーパスに1個ずつ不適格な用例が含まれていたことが分かる。B型の形式の含まれている可能性のある検索例はSIGMAによる検索では13例であったが，点検してみると，所有格代名詞を伴ったものがLOB

に2例，Brownに1例，形の上で所有格か目的格か判別不能のherの生じているものがLOBに2例であった。また， C型の用例の含まれる可能性のある検索例は34個であったが，実際には，この型の用例はLOBに5例見られるだ

けであった。

さて，この調査結果から英米を問わずA型が圧倒的に多く，アメリカ英語では実質上唯一の形式であり，B型は極めて少ないことが分かる。その点では先に見たvan Ekの調査結果と合致している。一方，口語体とされるC型はイギリス英語のLOBコーパスに46例中5例（10．9％）， prevent her going 型の herを目的格と見なしている文法タグ付きLOBコーパスの見解に従って，それを含めると，7例（15．2％）見られるのに対して，アメリカ英語のBrownコーパスには全く見られない。こうした傾向は現在も変わっていないようである。

先に挙げた現代アメリカ英語コーパスにはA型が24例，B型が1例，所有格か目的格か判別不能の prevent her going 型が2例見られるが， C型は皆無である。ただ，C型がイギリス英語のLOBコーパスに現れているとは言え，先に見たvan Ekの調査結果に比べると頻度が著しく低い（van Ekの調査結果では37．8％であるのに対して，LOBコーパスではherを目的格と見なしても 15．2％に過ぎない）ことは注目に値する。van Ekが使用した資料の刊行されたのが1950−1964年であって，LOBコーパスに収められた資料の刊行された年

（1961年）と重なることを考慮に入れると，なぜこのような頻度差が生じているのか興味深い。参考までに筆者が現在作成中の現代イギリス英語コーパスを調査してみると，A型24例（65％）， B型ゼロ（0％）， C型13例（35％）とい

う結果が得られた。何分にも作成中のコーパスであるのでまだ断定的なことは言えないが，この検索結果はむしろvan Ekの調査結果に近い。

(20)

3．おわりに

以上，本稿では，初めにテキスト・データベース管理システムSIGMAの特徴と語法研究に適したテキスト・データの形式について述べ，次に2つの異な

るタイプの例に基づいて，SIGMAを用いて具体的にどのような語法研究が可能であるかを示した。コンピューター・コーパスの利用の仕方は人によって異なるが，一般的には，理論的な研究に於て内省による作例を補ったり仮説を検証したりする目的で使う場合と統計的な研究を行うために使う場合の2つに大別できるであろう。筆者の身の回りでは主として第一の目的で利用されているように思われる。また，第二の目的で利用される場合には語彙のレベルの研究が多いようである。我々の研究グループが目指しているのはコンピューター・

コーパスに基づいた主として句以上のレベルの語法研究である。本稿で紹介した使用例からも分かるように，そうした語法研究にもSIGMAは極めて強力な武器になると思われる。

註

＊本稿は平成5年9月25日に神戸大学で開催された英語コーパス研究会第2回例会に於

いて口頭発表した稿を大幅に加筆・修正したものである。

テキスト・データベース管理システムSIGMAのPC版の使用をお認めくださり，

データ検索の方法についていつも懇切に御教示くださった九州工業大学情報工学部知

能情報工学科の篠原武助教授にお礼申し上げる。また，Brown， LOBコーパスのテキスト・ファイルと筆者が作成したテキスト・ファイルをSIGMAでの検索に最も適

した形式に変換するプログラムを開発してくださった川根友恵さんと現代英語コーパスの作成をお手伝いくださった丸林美雪さんにも感謝申し上げる。

1．筆者はこれまでに1980年代以降のアメリカの刊行物（小説，エッセイ，雑誌記事，

コラム等）を資料として量的にはBrownやLOBに匹敵するコンピューター・コーパ

スを作成している。現在，イギリス英語について同様のコーパスを作成中である。こ

れが完成すると現代英米語の比較研究が可能になるであろう。

(21)

テキスト・データベース管理システムSIGMAを用いた語法研究 85 2．SIGMAの詳しい使用法等の解説については『九州大学大型計算機センター広報』

Vol．20， No．6（1987）所収の有川節夫・篠原武・その他による論文を御覧いただきたい。

3．Brown及びLOBコーパスと筆i者の作成したコーパスのSIGMAでの検索に適した

形式への変換は謝辞で述べているように川根友恵さんに負うている。川根（1991）参照。

4．検索結果は，後述のように，不要なデータが入っていないかどうか人間の眼で点検

しなければならない。refileコマンドで検索結果を再ファイル化する際に，出力ファイルの名前に．lxw という拡張子を付ければ一般によく使われているワープロ・ソフトの「一太郎」で読み込むことができる。

5．以下の in（the）light of のtheの脱落と「動詞＋−ing」形を伴うpreventの3つの型の分布に関する記述は，それぞれ，田島・許斐（1993b），（1993a）に基づいたものであることをお断りしておきたい。

6．近年，文学作品の電子ファイル化したものが市販され，簡単に入手できるようにな

って来ている。そうしたものの中からT㌦Cb〃ψZεzεWbτんげ」αη．ん∫zεη（Oxford University Press）を選び， SIGMAを用いてpreventの3つの型の分布状況を調べて

みた。その調査結果は次の通りである。preventが能動形の場合と受動形の場合とに分けている。ただし，myは属格の名詞あるいは所有格の代名詞を， meは通格の名

詞及び目的格の代名詞を含む。

（preventが能動形の場合）

（He prevents） me from my me her （going）

25 51 0 13 89

（preventが受動形の場合）

（He was prevented） from − （going）

10 5 15

ここでも所有格か目的格か形式上判別不能なherは別扱いにしているが，通格名詞

／（her以外の）目的格代名詞の例が皆無であること，また，属格／所有格の例が極めて多数であることを考慮に入れると，恐らく13個観察されたherも所有格の例であろう。いずれにせよ，この表から言えることは，preventが能動形である場合に関する限り少なくともAustenの英語ではpreventの3つの型のうち，圧倒的に優勢なのがB型（ prevent my going 型）で，次が， A型（ prevent me from going 型）である

ということである。その点ではKirstenの調査結果と合致している。しかし， C型は

恐らく皆無に近いと判断される。これがAustenの個人的な言葉のくせを反映しているのか，それとも，Austenが作家として活躍していた1810年代当時の一般的な傾向

を反映しているのかは，にわかには決定しがたい。

(22)

86 許斐慧二

ついでながら，丁励（万〃ψ』WO燃㎡」吻εAμ5彦εηのファイルもSIGMAで検索

しやすいように先に示したような形式に変換している。

7．式変数Z3は32個ものキーワード変数からなるため3行にわたっているが，行から行への移行が紙面の関係で実際のディスプレイでの表示と違っている（Z3は，実際に

は，2行から成る）ことをお断りしておきたい。

ちなみに，本稿のようにpreventの4つの活用形を一つ一つ指定するのでなく，語

幹だけを指定するやり方もある。その方がキーワードの登録は（したがって，論理式の登録も）楽である。しかし，そうすると，preventive， preventable， preventative，

preventionなどの不要な形式をも拾ってしまう恐れがある。入力ミスを避けるためにはキーワードの登録は簡単な方がよいが，一方，検索結果の点検の手間を考えると，多少複雑になっても検索の対象である形式をすべてキーワードとして指定した方がよい。

どちらがよいかは個々のケースによる。ここでは後者の立場を採っている。

8．データの検索で注意しなければならないことの一つは「ゴミ」を拾わないようにす

るために余りにデータを絞り過ぎて必要なデータまで落としてしまう羽目に陥らないようにすることである。

周知のように，語尾にing形を持つ文字列の全てが動名詞あるいは現在分詞というわけではない。例えば，during， something， anything， everything， nothing， thing，

evening， morningなどはing形の語尾を有しているが，動詞形ではない。そこで preventの諸形式の検索を行う際に，こうした単語が後に生じている用例が検索結果

に含まれるのを避けるには，これらを中間式変数という形で登録すればよい。それには上に示した作業に加えて多少手間のかかる作業をしなければならないが，それほど煩雑ではなく，仕事量から言えば，何ら問題はない。しかし，だからと言って実際にそうしてしまうと，今度は検索結果から必要なものが抜け落ちてしまう。どんなに入念にキーワードを登録し，論理式を登録しても実際の検索で必要なものだけが得られることは稀で，どのみち検索結果を研究者が自分の眼で点検しなければならないのであるから，点検に多少余分に手間がかかるとしても必要なものが抜け落ちないようにある程度幅広くデータを検出しておいた方が無難である。

9．イギリス英語では現在も依然 in the light of が一般的な形式のようで，参考までに現在作成中の現代イギリス英語コーパスを使って検索してみると， in the light of が 11例あるのに対して， in light of はわずか1例である。

(23)

参考文献

（本稿で紹介した語法研究に用いた辞書・文法書・語法書類については論文7，8に参

考文献として挙げたものを参照されたい。）

1．有川節夫，篠原武ほか．1987．テキスト・データベース管理システムSIGMA第2 版について『九州大学大型計算機センター広報』Vol．20， No．6， pp517−581．

2・Johansson， Stig and Anna−Brita Stenstrom（eds．）1991．Eη91軌（万初ρ砿6r（万ηりoταご

＆友c ．41砲σMη4Rε∫εαπ乃Gμ漉． Mouton de Gruyter．

3．川根友恵．1991．『文字列パターン照合に基づく英文例文検索に関する研究』九州工業大学情報工学部卒業論文．

4．長瀬眞理・西村弘之．1986．『コンピュータによる文章解析入門一〇CPへの招待一』

オーム社．

5．杉本武．1992．正規表現によるプレーン・テキストの検索『日本語学』Vo1．11，

No．8， pp 112−121．

6．鈴木英一一．1982．ブラウン・コーパスへの招待『言語』VoL l2， No．10，

ppl13−119．

7．田島松二・許斐慧i二．1993a．コンピューター・コーポラ利用による現代英米語法研

究（1）一 prevent me（from）going と prevent my going⊆『英言吾英文学論叢』（九

州大学英語英文学研究会）第43集，pp145−160．

8．．1993b．コンピューター・コーポラ利用による現代英米語法研究（2）一 in （the）light of におけるtheの出没について一『言語文化論究』（九州大学言語文化部）No．4， pp31−36．

9．．1993c．コンピューター・コーポラ利用による現代英米語法研究（3）−

コードにしたのでは， not only．．．but（also）．．． などの相関語句の検索

65

端を示す。

うになる。

コードにしたのでは， not only．．．but（also）．．． などの相関語句の検索

ておきたい。

が要る。

めである。

働きをする。

ワード変数（Al， A2， A3．．．），式変数（Z1，Z2， Z3．．．），整定数を論理演

である。ここでは prevent．．．（from）．．．ing の場合を見てみることにする5）。

よく知られているように， considering， in view of の意味を表わす in the

light of と並んでtheの脱落した in light of という形式が存在する。英米の辞

（2）Record Delimiters

R2・［R］

（3）Item Delimiters I1・［R］

A1：ニin the light of［R］

A5：・［R］

Z3：・［R］

RETRIEVED RECORDS

1nput File：・￥BROWN￥＊．＊［R］

RETRIEVED RECORDS

Input File：ニ［R］

（7）A：￥WRK＞refile［R］

Question Number：＝1［R］

New Record Delimiter：＝￥n￥n［R］

Question Number：＝2［R］

New Record Delimiter：＝￥n￥n［R］

（検索方法の説明）

で小文字で始まる in the light of と大文字で始まる In the light of の

light of と大文字で始まる In light of を含むレコードが検索される。

ある。

A：He prevented John／me from going．

B：He prevented John s／my going．

C：He prevented John／me going．

いるC型（ prevent me going 型）で，次いで， B型（ prevent my going 型）

me from going 型）とのことである。

詞を含む。

（Kirsten）18th c． 49 25 8 （Kirsten）19th c． 37 48 5 （van Ek）1950−64 21 2 14

ことを示している6）。

（4 ）Keywords

A1：ニprevent．．．ing［R］

A2：＝prevents．．．ing［R］

A3：＝prevented．．．ing［R］

A5：＝prevent．．．from．．．ing［R］

A8：＝preventing．．．from．．．ing［R］

A10：＝prevents from．．．ing［R］

A13：ニprevent my．．．ing［R］

A14：ニprevents my．．．ing［R］

A16：＝preventing my．．．ing［R］

A17：＝prevent your．．．ing［R］

A19：＝prevented your．．．ing［R］

A20：＝preventing your．．．ing［R］

A24：ニpreventing his．．．ing［R］

A25：＝prevent her．．．ing［R］

A26：＝prevents her．．．ing［R］

A28：ニpreventing her．．．ing［R］

A29：ニprevent its．．．ing・［R］

A33：ニprevent our．．．ing［R］

A34：＝prevents our．．．ing［R］

A35：＝prevented our．．．ing［R］

A36：＝preventing our．．．ing［R］

A39：＝prevented their．．．ing［R］

A40：＝preventing their．．．ing［R］

A41：＝prevent．．． s．．．三ng［R］

A45：ニ［R］

（5 ）Logical Fo㎜ulas Z1：＝a1，a2，a3，a4［R］

Z2：＝a5，a6，a7，a8，a9，a10，a11，a12［R］

a42，a43，a44［R］7）

Z4：＝Z1．＾（Z2，Z3）［R］

（6 ）Input File：＝￥LOB￥＊．＊［R］

Searching￥LOB￥LT−A1．．．

Input File：・￥BROWN￥＊．＊［R］

RETRIEVED RECORDS

Input File：＝［R］

RETRIEVED RECORDS

Question Number：＝1［R］

New Record Delimiter：＝￥n￥n［R］

Question Number：ニ2［R］

New Record Delimiter：＝￥n￥n［R］

コードにしたのでは， not only．．．but（also）．．．などの相関語句の検索

コードにしたのでは， not only．．．but（also）．．．などの相関語句の検索

した形式に変換するプログラムを開発してくださった川根友恵さんと現代英語コーパスの作成をお手伝いくださった丸林美雪さんにも感謝申し上げる。

Vol．20， No．6（1987）所収の有川節夫・篠原武・その他による論文を御覧いただきたい。

しなければならない。refileコマンドで検索結果を再ファイル化する際に，出力ファイルの名前に．lxw という拡張子を付ければ一般によく使われているワープロ・ソフトの「一太郎」で読み込むことができる。

5．以下の in（the）light of のtheの脱落と「動詞＋−ing」形を伴うpreventの3つの型の分布に関する記述は，それぞれ，田島・許斐（1993b），（1993a）に基づいたものであることをお断りしておきたい。

幹だけを指定するやり方もある。その方がキーワードの登録は（したがって，論理式の登録も）楽である。しかし，そうすると，preventive， preventable， preventative，

るために余りにデータを絞り過ぎて必要なデータまで落としてしまう羽目に陥らないようにすることである。

3．川根友恵．1991．『文字列パターン照合に基づく英文例文検索に関する研究』九州工業大学情報工学部卒業論文．

5．杉本武．1992．正規表現によるプレーン・テキストの検索『日本語学』Vo1．11，

8．．1993b．コンピューター・コーポラ利用による現代英米語法研究（2）一 in （the）light of におけるtheの出没について一『言語文化論究』（九州大学言語文化部）No．4， pp31−36．