• 検索結果がありません。

 コードにしたのでは, not only...but(also)... などの相関語句の検索

N/A
N/A
Protected

Academic year: 2021

シェア " コードにしたのでは, not only...but(also)... などの相関語句の検索"

Copied!
23
0
0

読み込み中.... (全文を見る)

全文

(1)

65

テキスト・データベース管理システム    SIGMAを用いた語法研究*

許 斐 慧 二

0.はじめに

 近年コンピューターの発達と普及に伴って多くの機械可読の言語資料集一コ ンピューター・コーパスあるいはテキスト・データベースと呼ばれるもの一が 編集・作成され,それらを利用した言語研究が盛んになって来ている。コン

ピューターによる分析は大量のデータを短時間に処理することを可能にして,

言語事象の全体的な把握を容易にする。しかし,そうしたコンピューターを使 った研究の利点は十分に認識しつつも,実際にどのようにコンピューターを利 用したらよいのか分からない言語研究者が多いのもまた事実であろう。そこで,

本稿では,筆者の所属する研究グループが現在行っているコンピューター・

コーパスを利用した英語の語法研究を紹介して参考に供したいと思う。

 我々グループの研究の進め方は次のとおりである。まず,常々関心を持った り疑問を抱いていた現代英米語の事象・語法について辞書や語法書・文法書な どの記述や解説等を調べて,これまでにどのようなことが言われているかを把 握する。その際,我々の関心もあって,歴史的考察を加味する。そして,そう した調査結果を踏まえた上で,主としてLOBコーパスとBrownコーパスを用 いて英米に於ける実態を観察・分析する。我々の研究が基づいているLOB,

Brownコーパスが1961年度に刊行された出版物から取った資料から成る点で,

現代英米語のサンプルとしての適格性について全く疑問がないわけではない。

しかし,①現在他に簡単に入手可能な,これらと同程度の規模のコーパスがな

(2)

いこと1),②1961年の時点のものとはいえ,英米語の比較に便利であること,

③文法的な点では1961年と現代とでそれ程大きな差異があるとは思えないこと,

などの理由からこれらのコーパスを資料として使用することに特に大きな問題 はないと判断している。

 こうしたコンピューター・コーパスを用いた言語研究に不可欠なのはデータ 検索用のプログラムである。本研究ではテキスト・データベース管理システム SIGMAのPC版を使用している。

 以下では,まず初めに,このSIGMAシステムの特徴と検索目的に適した データの形式について簡単に述べ,次に,SIGMAによるデータの検索の仕方 等について具体的に説明し,語法研究の面でこれまでに得られた研究成果の一

端を示す。

1.SIGMAシステムの特徴とテキスト・ファイルの形式

 筆者が検索用プログラムとして使用しているのは九州大学の大型計算機セン ターで公開されているテキスト・データベース管理システムSIGMAをパソコ ン上で動くようにしたものである。SIGMAは,「文献の蓄積・検索,自然言 語の解析,書類の整理,その他データの収集・加工など,研究者の日常的な活 動を支援するために開発」された研究者用の情報システムであり,多くの非常 に優れた特徴を有している2)。それらのうち主だったものを列挙すると次のよ

うになる。

 (1)データの処理速度が非常に速い。

 (2)どのような形式のデータにも対応でき,データは特別な構造を有する必   要はない。

 (3)検索の単位であるレコードの設定が自由にできる。レコード区切り語   (record delimiter)で挟まれた部分を1レコードとする。また,項目区切   り語(item delimiter)によってレコードを項目に区切ってきめ細かく検索   することが可能である。

(3)

テキスト・データベース管理システムSIGMAを用いた語法研究    67

(4)キーワードの細かな指定と論理式(logical formulas)の適切な指定・登  録によって多種多様な検索が可能である。

(5)一度の検索で多数の質問を同時に処理できる。

(6)1バイト文字と2バイト文字の混在する日本語テキストもそのまま処理  できる。

(7)高度の汎用性を有する。

 上に示したように,SIGMAはどのような形式のテキスト・ファイルにも対 処できるし,検索の単位であるレコードの設定も自由にできるので,語法研究

に使用するテキスト・ファイルもその形式に特別な制約はないが,このシステ ムの特徴を最大限に活かして検索するには,やはり語法研究用のテキスト・

ファイルはそれに適した形式である方が望ましい。

 BrownとLOBコーパスのテキスト・ファイルの内容を見てみると,いずれ に於いても行ごとに復帰改行が行われている。そのために,多くの検索システ ムの場合,これらのコーパスを用いてデータ検索を行う際にはキーワードのコ ンテクストとして何行を必要とするか指定しなければならない。しかし,これ は語法研究には非常に不便で,行ではなく文を一つの検索の単位,即ち,1レ コード,とした方が何かと都合がよいように思われる。また,一般的に,英文 テキストでは単語と句読点や引用符号などの記号との間にスペースがないので,

そのままの形では単語の切り出しがうまくゆかず不要なデータまで拾ってしま うことが多い。単語の前後にスペースがあれば効率的な検索が可能となる。さ らに,筆者の入手したLOBコーパスのバージョンでは各単語に品詞に関する 情報が文法タグという形で付与されている。こうした文法タグは単語の品詞情 報に基づいた検索を可能にするのでデータを絞り込むのに役立つが,しかし,

実際には,キーワードの登録作業が煩雑になるという欠点がある。

 そこで,以上に述べた点を踏まえて,BrownとLOBコーパスのテキスト・

ファイルの形式を次のように変換した3)。

(a)復帰改行を(1行ごとではなく)1文ごとに行う。こうすることで,復

(4)

 帰改行をレコード区切り語として使い,文単位でデータ検索を行うこと  ができる。ただし,コロンやセミコロンのすぐ後では復帰改行しない。

 即ち,これらの記号の前後の文は合わせて1文とする。こうするのは語  法研究ではコロンやセミコロンの前後の文にまたがって検索しなければ  ならない場合があるからである。例えば,狭い意味での単文だけを1レ

 コードにしたのでは, not only...but(also)... などの相関語句の検索

 には不都合である。

(b)単語と単語あるいは単語と句読点や引用符号などの記号との間に1ス  ペース分の空白を設ける。このように単語が必ず1スペース分の空白で  区切られているようにすることで特定の単語だけを簡単に切り出すこと  ができる。

(c)レファレンスのために各文の先頭に付けるヘッダーの内容を簡素化する。

(d)各単語に文法タグは付けない。

 (a),(b)については説明を要さないであろう。(c)は(a)からの当然の帰結 である。我々の語法研究用に再編集されたバージョンでは,行ごとではなく文 ごとに復帰改行されているので,各文の先頭に付けられるヘッダーは,元の コーパスのものと違って,行番号は含まない。ヘッダーに含まれるのはコーパ スの種類,資料のジャンル,文番号等の情報である。通常の語法研究ではデー タに関してこれ位の情報があれば十分であろう。

 ところで,(d)に示しているように,我々の研究で使用しているコーパスで は文法タグが外してあるわけだが,たとえキーワードの指定が面倒になるとし てもLOBコーパスのように文法タグが付与されていた方がやはり都合がよい と思われる向きもあるかも知れないので,この点についてもう少し詳しく述べ

ておきたい。

 確かに,単一の語形が複数の品詞に属すことがあり,そういう場合には各単 語に文法タグが付いていた方が検索しやすいのは事実である。例えば, −ing 形は品詞的には現在分詞,動名詞,名詞,形容詞の場合があるが,このうち特

(5)

テキスト・データベース管理システムSIGMAを用いた語法研究    69 定の品詞のものを取り出すにはキーワードとしてそれを表わす文法タグの付与 された形式をそのまま(例えば, meeting.NN あるいは meeting.VBG のよ うに)指定しさえすればよい。一方,文法タグが付いてなければ検索した全て のデータの中から特定の品詞のものを選び出さなければならず,それだけ労力

が要る。

 しかし,それでも本研究で敢えて文法タグに頼らないのにはキーワードの入 力を簡単にするためということの他にもいくつか理由がある。まず第一に,文 法タグに余り信頼がおけないからである。品詞の取り扱いがコーパスの作成者 によって異なっている可能性がある。事実,LOBの文法タグにはそれほど多 くはないけれども,やはり品詞の取り扱いに混乱が見られる。文法タグを付与 するのであれば,品詞の取り扱いを統一する必要があろう。第二に,文の階層 的な情報や各単語の意味的な情報が与えられていなければ,実際の言語研究に は余り役に立たない。例えば,検索対象の語句が意味的に曖昧である場合には,

品詞情報はデータを絞り込むのにある程度は有効であっても,それだけでは正 確な検索結果は得られない。いずれにせよ,調査している語法に関係するデー タは最終的にはすべて人間の眼で確認する必要があるわけで,もしそうだとす れば,最初から文法タグはなくてもよいであろう。少なくとも現在の時点で入 手可能なコーパスの規模はそれほど大きくない。したがって,データの検出数 もそれほど多くなく,文法タグ付きのコーパスの場合と比べことさら問題にし なければならないほど検索結果の点検に手間がかかるとも思えない。

 ただ,もしどうしても文法タグの付いたバージョンを使った方が効率がよい と思われるのであれば,当然のことながらそちらを使用すればよい。現在の ハードディスクの容量の大きさを考えるとBrown, LOBコーパス程度の規模 のコーパスを一つ,二つ余分に納めるのに何ら問題はない。要はデータを研究 者自身の研究に最も適した形式のものにすることであろう。まさにそうした データの修正・加工こそがコンピューター使用の利点であると言える。

 ついでながら,筆者のコーパスも上に示した形式に合わせている。もちろん,

すべてのデータ・ファイルをSIGMAを使って同じ方法で効率よく検索するた

(6)

めである。

 では,次に実際にSIGMAを使ってデータを検索してみよう。

2.SIGMAを用いた英文データの検索

 SIGMAでのデータ検索に重要かつ不可欠なコマンドは二っしかない。

searchとrefileである。 searchはテキスト・ファイルから指定した形式を含む レコードを検出し,refileはsearchによって検索された結果をファイル化する

働きをする。

 まず,searchと入力すると,レコード区切り語の指定を求めてくる。先に 述べたように,SIGMAでは検索単位となるレコードを自由に設定でき,レ

コード区切り語(record delimiter)で挟まれた部分が1レコードと見なされる。

我々は検索の単位を文としているのでレコード区切り語として復帰改行を用い る。したがって,レコード区切り語として¥n(復改記号を表わす)と入力す る。すると,今度は項目区切り語(item delimiter)の指定を求めてくる。これ はさらにきめ細かいデータ検索を行う場合に非常に有効であるが,少なくとも 通常の語法研究を目的にした検索では無視して構わない。

 次に,キーワードを登録する。通常の文字列の他に,ワイルドカードを表わ すトリプルドット ... つきの文字列も使用できる。トリプルドットは連語な どのようにキーワードの出現順序が大きな意味を持つ際の検索に非常に便利で ある。キーワードの指定を誤れば必要なデータが脱落したり,不必要なデータ が入り込んだりするので,入念な準備が必要である。また,キーワードを登録 する際には,単語と単語,単語と記号との間に必ず1スペース分の空白をおか なければならない。キーワードの登録個数は最大99個である。

 キーワードの登録が終ると質問のための論理式の登録に移る。論理式はキー

ワード変数(Al, A2, A3...),式変数(Z1,Z2, Z3...),整定数を論理演

算子,比較演算子,算術演算子,カッコで組み合わせて作られる。論理式を作 るのに用いられる,これら3種類の演算子のうち,取り敢えず語法研究に必要

(7)

テキスト・データベース管理システムSIGMAを用いた語法研究    71 なものは,論理演算子 and , or , not だけである。それぞれ . , , , ▲

表わされる。質問は論理式の形で与える。また論理式の最後に (スラン ト)を入れると,その論理式は中間的な式変数と見なされる。 / (スラント)

のない論理式が質問を表わす。検索結果を求める論理式(質問式)は最大32個 を同時に登録できる。

 searchによる検索結果は索引ファイルにコード化されて保存されるので,

それをテキストの形に復元してディスプレイに表示したり,ファイルに出力し てやる必要がある。これを行うのがrefileというコマンドである。 refileに

よってそれぞれの質問についての答を出力ファイルに出力する4)。

 以下では,2つの異なるタイプの検索例を示す。検索するのに最も簡単なの は単語あるいは連続した語句である。まず,最初に,そうした検索例として

in(the)1ight of を取り上げる。より複雑な操作を必要とするのはキーワード が離れていて,その登録にワイルドカードの使用を余儀なくされる連語の場合

である。ここでは prevent...(from)...ing の場合を見てみることにする5)。

 なお,データの検索に使用した計算機は,ちと旧式だが,NEC9801UX21,

ハードディスクはEpson HDD−40Rである。最新のマシンを使えば処理時間 は大幅に短縮できることを指摘しておきたい。

2.1. 単語あるいは連続した語句の検索

 よく知られているように, considering, in view of の意味を表わす in the

light of と並んでtheの脱落した in light of という形式が存在する。英米の辞

書・語法書等によると, in the light of は英米共に,特にイギリス英語では theの付いた形が一般的であり,一方, theの落ちた in light of は最近になっ て(20世紀後半から)アメリ、力英語で時折見られるようになった用法のようで ある。では,LOBとBrownコーパスでその実態を調べてみよう。実際の検索 に必要な操作及び検索の過程を示せば次のようになる。[R]は復改の入力(リ ターンキーの打鍵)を表わしている。

(8)

 (1)A:¥WRK>search[R]

 (2)Record Delimiters

    R1=¥n[R]

    R2・[R]

 (3)Item Delimiters     I1・[R]

 (4)Keywords

    A1:ニin the light of[R]

    A2:=in light of[R]

    A3:=In the light of[R]

    A4:ニIn light of[R]

    A5:・[R]

 (5)Logical Formulas     Z1:=a1,a3[R]

    Z2:ニa2,a4[R]

    Z3:・[R]

 (6)Input File:=¥LOB¥*.*[R]

    Searching¥LOB¥LT−A1...

RETRIEVED RECORDS

QUESTION 1(Z 1)ニ0  20 QUESTION 2(Z 2)=0  0 TOTAL        =0  20 CPU TIME(second)・3 143

(9)

  テキスト・データベース管理システムSIGMAを用いた語法研究    73

1nput File:・¥BROWN¥*.*[R]

Searching¥BROWN¥B2−A

RETRIEVED RECORDS

QUESTION 1(Z 1)=0  39 QUESTION 2(Z 2)=0   5 TOTAL       =0  44 CPU TIME(second)ニ3 288

Input File:ニ[R]

(7)A:¥WRK>refile[R]

  RETRIEVED RECORDS   QUESTION 1(Z 1)=39   QUESTION 2(Z 2)= 5   TOTAL        =44

Question Number:=1[R]

New Record Delimiter:=¥n¥n[R]

Output File:=light−1[R]

Question Number:=2[R]

New Record Delimiter:=¥n¥n[R]

Output File:=light−2[R]

(検索方法の説明)

(1)searchコマンドの入力

  筆者は検索を含め作業はすべてAドライブ内に作られた作業用のディ

(10)

74       許斐 慧 二

  レクトリ¥WRKの中でおこなうことにしている。プロンプトA:

  ¥WRK>に続けてsearchコマンドを入力している。

(2)レコード区切り語の設定

  ¥nを入力して復帰改行をレコード区切り語とする。これで文単位の検   索が可能になる。

(3)項目区切り語の設定

  ここでは設定を行っていない。先に述べたように通常の語法研究では項   目区切り語の設定は必要ない。

(4)キーワードの登録

  キーワード変数A1とA2は小文字で始まる形式 in the light of と in   light of を,キーワード変数A3とA4は大文字で始まる形式 In the   light of In light of をそれぞれ登録している。ちなみに, Brown   コーパスは文頭の語は大文字で始まるが,LOBでは固有名詞を除いて,

  小文字で始まる。

(5)論理式の登録

  式変数Z1に論理式A1,A3を登録している。この式変数を用いた質問

  で小文字で始まる in the light of と大文字で始まる In the light of の

  両方を含むレコードが検索される。同様に,式変数Z2に論理式A2,

  A4を登録している。この式変数を用いた質問で小文字で始まる in

  light of と大文字で始まる In light of を含むレコードが検索される。

  (これらの式変数では小文字で始まる形式と大文字で始まる形式のどち   らも検出できるように演算子の∵(・or)を用いている。)

(6)入力ファイルの指定

  プロンプト Input File:・ に従って検索すべきファイルを指定してやる。

  LOBコーパスのファイルは¥LOBというディレクトリに納められてい   るので,ワイルドカードを利用して¥LOBの中のすべてのファイルを   検索する。検索を終えると,再びプロンプト Input File:・ を表示し,

  入力ファイル名の入力を求めてくる。そこで,今度は¥BROWNとい

(11)

   テキスト・データベース管理システムSIGMAを用いた語法研究    75   うディレクトリに納められたBrownコーパスのファイルを入力ファイ   ルとして指定してやる。ここでもワイルドカードを利用して一括処理し   ている。検索を終えると,検索結果を出力し,更に入力ファイル名の入   力を求めてくるが,これ以上入力すべきファイルがなければ復改のみを   入力(リターンキーを打鍵)する。

(7)refileコマンドの入力

  refileを入力して,検索結果の再ファイル化を行う。再ファイル化すべ   き質問の番号を入力する。次に出力ファイルの新しいレコード区切り語   の指定を行う。ここでは,新たなレコード区切り語として¥n¥n(復帰   改行2個)を入力してレコードとレコードの間を1行分空けている。こ   うすることで,検索結果が見やすくなる。次に出力ファイル名を指定す   る。ここでは質問1についてはlight−1としている。検索結果をディス   プレイに表示するだけでよい場合にはconと入力すればよい。質問2に   ついても同じ作業を繰り返す。

2.2.連語の検索

次にもう少し複雑な操作を要する連語の検索の仕方を見てみよう。ここで例 に取るのは下に示す動詞preventが「動詞+−ing」形を伴う際の3つの型で

ある。

A:He prevented John/me from going.

B:He prevented John s/my going.

C:He prevented John/me going.

 英米の辞書・語法書などによると,現代英語ではA型とB型は文語・口語 を問わず慣用法であるが,C型は口語に限られ,しかも,英米で容認度に差が あるようである。即ち,C型はイギリス英語では容認されるが,アメリカ英語 では非標準用法と見なされているようである。

 ところで,我々の研究グループのリーダーである田島松二氏の調査によると、

(12)

76       許斐慧 二

文献に現れた限りでは,3つの型のうち最も古いのは今日口語体と見なされて

いるC型( prevent me going 型)で,次いで, B型( prevent my going 型)

で,一番新しく出現したのが今日最も一般的な形と見なされるA型( prevent

me from going 型)とのことである。

 また,Visser(1973,2102)に紹介されている,18,19世紀の英国小説を資料 とするKirsten(1959)と1950−1964年にイギリスで刊行された種々の資料に基づ くvan Ek(1966)の研究によると,それぞれの時代の3つの型の分布状況は次 の通りである。ただし,hisは属格の名詞と所有格の代名詞, himは通格の名

詞を含む。

         (Iprevent)him from   his  him (going)

  (Kirsten)18th c.      49     25   8   (Kirsten)19th c.      37     48   5   (van Ek)1950−64       21      2  14

当然データが取られた資料の偏りなども考慮に入れなければならないが,この 表は,B型が今世紀になって急激に減少し,逆に, C型が大幅に増加している

ことを示している6)。

 では,SIGMAを使って, LOB, Brownコーパスに含まれるそれぞれの型 のデータを検出して,1961年の時点での分布状況を見てみよう。なお,項目区 切り語の設定までは単語及び連続した語句の検索の場合と全く同じなのでその 部分は省略し,ここではキーワードの登録からを示すことにする。

(4 )Keywords

  A1:ニprevent...ing[R]

  A2:=prevents...ing[R]

  A3:=prevented...ing[R]

  A4:=preventing_ing[R]

  A5:=prevent...from...ing[R]

  A6:ニprevents_.from...ing[R]

(13)

テキスト・データベース管理システムSIGMAを用いた語法研究    77 A7:ニprevented...from_ing[R]

A8:=preventing...from...ing[R]

A9:ニprevent from_ing[R]

A10:=prevents from...ing[R]

A11:ニprevented from_ing[R]

A12:=preventing from_ing[R]

A13:ニprevent my...ing[R]

A14:ニprevents my...ing[R]

A15:=prevented my_ing[R]

A16:=preventing my...ing[R]

A17:=prevent your...ing[R]

A18:=prevents your_ing[R]

A19:=prevented your...ing[R]

A20:=preventing your...ing[R]

A21:ニprevent his...ing[R]

A22:=prevents his...ing[R]

A23:ニprevented his...ing.[R]

A24:ニpreventing his...ing[R]

A25:=prevent her...ing[R]

A26:=prevents her...ing[R]

A27:=prevented heL_ing[R]

A28:ニpreventing her...ing[R]

A29:ニprevent its...ing・[R]

A30:=prevents its...ing[R]

A31:ニprevented its...輌ng[R]

A32:=preventing its.』D.ing[R]

A33:ニprevent our...ing[R]

A34:=prevents our...ing[R]

(14)

A35:=prevented our...ing[R]

A36:=preventing our...ing[R]

A37:ニpreveht their...ing[R]

A38:=prevents their...ing[R]

A39:=prevented their...ing[R]

A40:=preventing their...ing[R]

A41:=prevent... s...三ng[R]

A42:=prevents... s...lng[R]

A43:=prevented... s...ing[R]

A44:=preventing... s...ing[R]

A45:ニ[R]

(5 )Logical Fo㎜ulas     Z1:=a1,a2,a3,a4[R]

    Z2:=a5,a6,a7,a8,a9,a10,a11,a12[R]

    Z3:ニa13,a14,a15,a16,a17,a18,a19,a20,a21,a22,a23,a24,a25,a26,

    a27,a28,a29,a30,a31,a32,a33,a34,a35,a36,a37,a38,a39,a40,a41,

    a42,a43,a44[R]7)

    Z4:=Z1.^(Z2,Z3)[R]

(6 )Input File:=¥LOB¥*.*[R]

    Searching¥LOB¥LT−A1...

  RETRIEVED RECORDS  QUESTION 1(Z 1)=4  65   QUESTION 2(Z 2)=3  38

(15)

  テキスト・データベース管理システムSIGMAを用いた語法研究    79 QUESTION 3(Z 3)=0  7

QUESTION 4(Z 4)=1 22 TOTAL        =4 65 CPU TIME(second)・5 280

Input File:・¥BROWN¥*.*[R]

Searching¥BROWN¥B2−A_

RETRIEVED RECORDS

QUESTION 1(Z 1)=0 132 QUESTION 2(Z 2)=0 90 QUESTION 3(Z 3)=0 13 QUESTION 4(Z 4)ニ0 34 TOTAL        =0 132 CPU TIME(second)=6 548

Input File:=[R]

(7 )A:¥WRK>refile[R]

  RETRIEVED RECORDS

   QUESTION 1(Z 1)=132    QUESTION 2(Z 2)= 90    QUESTION 3(Z 3)= 13    QUESTION 4(Z 4)= 34    TOTAL        ニ132

Question Number:=1[R]

(16)

New Record Delimiter:=¥n¥n[R]

Output File:=prev−1[R]

Question Number:ニ2[R]

New Record Delimiter:=¥n¥n[R]

Output File:prev−2[R]

Question Number:ニ3[R]

New Record Delimiter:=¥n¥n[R]

Output File:ニprev−3[R]

Question Number:=4[R]

New Record Delimiter:=¥n¥n[R]

Output File:=prev−4[R]

(検索方法の説明)

(4 )キーワードの登録

  キーワード変数A1〜A4は −ing 形を従えるpreventのあらゆる形式を   登録している。キーワード変数A5〜A12はA型( prevent me from   going 型)の諸形式を登録している。このうち, A9〜A12はA型に属す   preventの形式が関係節などに生起している場合をカバーする。キー   ワード変数A13〜A44はB型( prevent my going 型)の諸形式を登録し

  ている。

(5 )論理式の登録

  式変数Z1に論理式A1,A2,A3,A4を登録している。これは −ing 形を従   えるpreventの全ての形式についての指定をまとめたものである。 Z1を  用いた質問で,A1〜A4に登録されたキーワードを含むレコードが検索   される。式変数Z2に登録された論理式はA型の諸形式についての指定を   まとめたものである。Z2を用いた質問でA5〜A12に登録されたキー   ワードを含むレコードが検索される。A型はこれにより検出されるデー   タの中に含まれる。式変数Z3に登録された論理式はB型の諸形式につい

(17)

テキスト・データベース管理システムSIGMAを用いた語法研究    81 ての指定を全て一つにまとめたもの。この式変数を用いた質問で,A13

〜A44に登録されたキーワードを含むレコードが検索される。 B型に属 すデータはこの論理式によって検出されるものの中に含まれる。式変数 Z4は登録済みの式変数を用いて,論理式Z1.^(Z2,Z3)を登録している。

Z4を用いた質問は「Z1を用いた質問を満たし,かつ, Z2あるいはZ3を 用いた質問を満たさない」ということを意味している。これにより後に

奄獅〟f形を伴うpreventの諸形式に関するデータ全体の中からA型とB型 に所属する可能性のあるものが排除される。つまり,C型に属す可能性 のあるデータが検出される。

 (6 )〜(7 )は先に見た単純な検索例の場合と基本的に同じ操作であるのでこ れについての説明は省略する。

2.3.検索結果の検討

 上に示した手順で得られた検索結果には当然不要なデータ,いわゆる「ゴ ミ」,が含まれている可能性がある8)。したがって,検索結果の点検を行わな ければならないが,最も手軽な方法はエディターやワープロの検索機能を用い ることである。筆者はデータの点検や修正・加工等の作業にはエディターの MIFESを使用しているので,それを使って簡単に説明しよう。

 まず,検索結果を出力したファイルをMIFESで読み込む。次に,1文ごと に必要な用例であるかどうかを点検するわけだが,その際,このプログラムに 備わっている「検索/置換」機能を用いて,必要な用例の場合にはキーワード として登録した文字列の前後に何かある記号を付けて(例えば,#in light of#

のように # という記号でキーワードを囲み)新しい文字列に置き換える。こ うすると点検作業が簡単になるばかりでなく,ミスも少なくなる。なぜなら,

置換された文字列の数をMIFESが教えてくれるので数え間違いが起きないか

らである。

 そのようにしてsearchコマンドによって最初に得られた検索結果から不要

(18)

な用例を取り除くと,次の結果が得られる。

(1) in(the)light of の分布

    in the light of     in light of

LOB       20         0      20 Brown     18        5     23

38        5     43

(II) prevent...(from)..◆ing の分布

  (He prevented) me from  my  me  her (going)

LOB      37     2    5    2        46 Brown         51    1   0   0       52

88    3   5   2      98  まず, in(the)1ight of の検索結果から検討しよう。本節(7)から分かるよ

うに, in the light of の当初の検索結果は39であったが,(1)の表に示されて

いるように,適格な用例の総数は38である。さて,質的・量的にほぼ均等な英 米の両コーパスにほぼ同じ数の用例が生じているが,イギリス英語のLOB コーパスでは20個の用例全てが in the light of であるのに対して,アメリカ 英語のBrownコーパスでは全用例23個のうち,18個(78.3%)が in the light of で5個(21.7%)がtheの脱落した in light of である。これは大方の辞書

・語法書等の見解を裏付けている。ただ,1961年の時点ではアメリカ英語でも theが脱落する傾向はそれほど強くなかったようである。現在ではこの傾向は 一段と強まっており,筆者の作成した現代アメリカ英語コーパスでは全用例8

例のうち, in light ofが6例, in the light of が2例で,頻度が逆転しており,

theのない形式が圧倒的に優勢である9)。

 次にpreventの諸形式の検索結果を検討してみよう。 SIGMAによる検索で はA型に属す用例数はLOBが38, Brownが52であったが,(II)の表から明ら

(19)

テキスト・データベース管理システムSIGMAを用いた語法研究    83 かなように,それぞれのコーパスに1個ずつ不適格な用例が含まれていたこと が分かる。B型の形式の含まれている可能性のある検索例はSIGMAによる検 索では13例であったが,点検してみると,所有格代名詞を伴ったものがLOB

に2例,Brownに1例,形の上で所有格か目的格か判別不能のherの生じて いるものがLOBに2例であった。また, C型の用例の含まれる可能性のある 検索例は34個であったが,実際には,この型の用例はLOBに5例見られるだ

けであった。

 さて,この調査結果から英米を問わずA型が圧倒的に多く,アメリカ英語で は実質上唯一の形式であり,B型は極めて少ないことが分かる。その点では先 に見たvan Ekの調査結果と合致している。一方,口語体とされるC型はイギ リス英語のLOBコーパスに46例中5例(10.9%), prevent her going 型の herを目的格と見なしている文法タグ付きLOBコーパスの見解に従って,そ れを含めると,7例(15.2%)見られるのに対して,アメリカ英語のBrownコー パスには全く見られない。こうした傾向は現在も変わっていないようである。

先に挙げた現代アメリカ英語コーパスにはA型が24例,B型が1例,所有格 か目的格か判別不能の prevent her going 型が2例見られるが, C型は皆無で ある。ただ,C型がイギリス英語のLOBコーパスに現れているとは言え,先 に見たvan Ekの調査結果に比べると頻度が著しく低い(van Ekの調査結果で は37.8%であるのに対して,LOBコーパスではherを目的格と見なしても 15.2%に過ぎない)ことは注目に値する。van Ekが使用した資料の刊行され たのが1950−1964年であって,LOBコーパスに収められた資料の刊行された年

(1961年)と重なることを考慮に入れると,なぜこのような頻度差が生じてい るのか興味深い。参考までに筆者が現在作成中の現代イギリス英語コーパスを 調査してみると,A型24例(65%), B型ゼロ(0%), C型13例(35%)とい

う結果が得られた。何分にも作成中のコーパスであるのでまだ断定的なことは 言えないが,この検索結果はむしろvan Ekの調査結果に近い。

(20)

3.おわりに

 以上,本稿では,初めにテキスト・データベース管理システムSIGMAの特 徴と語法研究に適したテキスト・データの形式について述べ,次に2つの異な

るタイプの例に基づいて,SIGMAを用いて具体的にどのような語法研究が可 能であるかを示した。コンピューター・コーパスの利用の仕方は人によって異 なるが,一般的には,理論的な研究に於て内省による作例を補ったり仮説を検 証したりする目的で使う場合と統計的な研究を行うために使う場合の2つに大 別できるであろう。筆者の身の回りでは主として第一の目的で利用されている ように思われる。また,第二の目的で利用される場合には語彙のレベルの研究 が多いようである。我々の研究グループが目指しているのはコンピューター・

コーパスに基づいた主として句以上のレベルの語法研究である。本稿で紹介し た使用例からも分かるように,そうした語法研究にもSIGMAは極めて強力な 武器になると思われる。

*本稿は平成5年9月25日に神戸大学で開催された英語コーパス研究会第2回例会に於

 いて口頭発表した稿を大幅に加筆・修正したものである。

  テキスト・データベース管理システムSIGMAのPC版の使用をお認めくださり,

 データ検索の方法についていつも懇切に御教示くださった九州工業大学情報工学部知

能情報工学科の篠原武助教授にお礼申し上げる。また,Brown, LOBコーパスのテ  キスト・ファイルと筆者が作成したテキスト・ファイルをSIGMAでの検索に最も適

 した形式に変換するプログラムを開発してくださった川根友恵さんと現代英語コーパ  スの作成をお手伝いくださった丸林美雪さんにも感謝申し上げる。

1.筆者はこれまでに1980年代以降のアメリカの刊行物(小説,エッセイ,雑誌記事,

 コラム等)を資料として量的にはBrownやLOBに匹敵するコンピューター・コーパ

 スを作成している。現在,イギリス英語について同様のコーパスを作成中である。こ

 れが完成すると現代英米語の比較研究が可能になるであろう。

(21)

テキスト・データベース管理システムSIGMAを用いた語法研究    85 2.SIGMAの詳しい使用法等の解説については『九州大学大型計算機センター広報』

 Vol.20, No.6(1987)所収の有川節夫・篠原武・その他による論文を御覧いただき  たい。

3.Brown及びLOBコーパスと筆i者の作成したコーパスのSIGMAでの検索に適した

 形式への変換は謝辞で述べているように川根友恵さんに負うている。川根(1991)参照。

4.検索結果は,後述のように,不要なデータが入っていないかどうか人間の眼で点検

 しなければならない。refileコマンドで検索結果を再ファイル化する際に,出力ファ  イルの名前に .lxw という拡張子を付ければ一般によく使われているワープロ・ソ  フトの「一太郎」で読み込むことができる。

5.以下の in(the)light of のtheの脱落と「動詞+−ing」形を伴うpreventの3つの  型の分布に関する記述は,それぞれ,田島・許斐(1993b),(1993a)に基づいたもの  であることをお断りしておきたい。

6.近年,文学作品の電子ファイル化したものが市販され,簡単に入手できるようにな

 って来ている。そうしたものの中からT㌦Cb〃ψZεzεWbτんげ」αη.ん∫zεη(Oxford  University Press)を選び, SIGMAを用いてpreventの3つの型の分布状況を調べて

 みた。その調査結果は次の通りである。preventが能動形の場合と受動形の場合とに  分けている。ただし,myは属格の名詞あるいは所有格の代名詞を, meは通格の名

 詞及び目的格の代名詞を含む。

(preventが能動形の場合)

(He prevents)  me from  my  me  her (going)

25      51    0    13        89

(preventが受動形の場合)

(He was prevented)  from  −  (going)

10   5       15

 ここでも所有格か目的格か形式上判別不能なherは別扱いにしているが,通格名詞

/(her以外の)目的格代名詞の例が皆無であること,また,属格/所有格の例が極 めて多数であることを考慮に入れると,恐らく13個観察されたherも所有格の例であ ろう。いずれにせよ,この表から言えることは,preventが能動形である場合に関す る限り少なくともAustenの英語ではpreventの3つの型のうち,圧倒的に優勢なの がB型( prevent my going 型)で,次が, A型( prevent me from going 型)である

ということである。その点ではKirstenの調査結果と合致している。しかし, C型は

恐らく皆無に近いと判断される。これがAustenの個人的な言葉のくせを反映してい るのか,それとも,Austenが作家として活躍していた1810年代当時の一般的な傾向

を反映しているのかは,にわかには決定しがたい。

(22)

86       許斐 慧二

ついでながら,丁励(万〃ψ』WO燃㎡」吻εAμ5彦εηのファイルもSIGMAで検索

しやすいように先に示したような形式に変換している。

7.式変数Z3は32個ものキーワード変数からなるため3行にわたっているが,行から行  への移行が紙面の関係で実際のディスプレイでの表示と違っている(Z3は,実際に

 は,2行から成る)ことをお断りしておきたい。

  ちなみに,本稿のようにpreventの4つの活用形を一つ一つ指定するのでなく,語

 幹だけを指定するやり方もある。その方がキーワードの登録は(したがって,論理式  の登録も)楽である。しかし,そうすると,preventive, preventable, preventative,

 preventionなどの不要な形式をも拾ってしまう恐れがある。入力ミスを避けるために  はキーワードの登録は簡単な方がよいが,一方,検索結果の点検の手間を考えると,多少  複雑になっても検索の対象である形式をすべてキーワードとして指定した方がよい。

 どちらがよいかは個々のケースによる。ここでは後者の立場を採っている。

8.データの検索で注意しなければならないことの一つは「ゴミ」を拾わないようにす

 るために余りにデータを絞り過ぎて必要なデータまで落としてしまう羽目に陥らない  ようにすることである。

  周知のように,語尾にing形を持つ文字列の全てが動名詞あるいは現在分詞という  わけではない。例えば,during, something, anything, everything, nothing, thing,

 evening, morningなどはing形の語尾を有しているが,動詞形ではない。そこで  preventの諸形式の検索を行う際に,こうした単語が後に生じている用例が検索結果

 に含まれるのを避けるには,これらを中間式変数という形で登録すればよい。それに  は上に示した作業に加えて多少手間のかかる作業をしなければならないが,それほど  煩雑ではなく,仕事量から言えば,何ら問題はない。しかし,だからと言って実際に  そうしてしまうと,今度は検索結果から必要なものが抜け落ちてしまう。どんなに入  念にキーワードを登録し,論理式を登録しても実際の検索で必要なものだけが得られ  ることは稀で,どのみち検索結果を研究者が自分の眼で点検しなければならないので  あるから,点検に多少余分に手間がかかるとしても必要なものが抜け落ちないように  ある程度幅広くデータを検出しておいた方が無難である。

9.イギリス英語では現在も依然 in the light of が一般的な形式のようで,参考までに  現在作成中の現代イギリス英語コーパスを使って検索してみると, in the light of  11例あるのに対して, in light of はわずか1例である。

(23)

テキスト・データベース管理システムSIGMAを用いた語法研究    87

参考文献

(本稿で紹介した語法研究に用いた辞書・文法書・語法書類については論文7,8に参

考文献として挙げたものを参照されたい。)

1.有川節夫,篠原武ほか.1987.テキスト・データベース管理システムSIGMA第2  版について『九州大学大型計算機センター広報』Vol.20, No.6, pp517−581.

2・Johansson, Stig and Anna−Brita Stenstrom(eds.)1991.Eη91軌(万初ρ砿6r(万ηりoταご

 &友c .41砲σMη4Rε∫εαπ乃Gμ漉. Mouton de Gruyter.

3.川根友恵.1991.『文字列パターン照合に基づく英文例文検索に関する研究』九州工  業大学情報工学部卒業論文.

4.長瀬眞理・西村弘之.1986.『コンピュータによる文章解析入門一〇CPへの招待一』

 オーム社.

5.杉本 武.1992.正規表現によるプレーン・テキストの検索『日本語学』Vo1.11,

 No.8, pp 112−121.

6.鈴木英一一.1982.ブラウン・コーパスへの招待『言語』VoL l2, No.10,

 ppl13−119.

7.田島松二・許斐慧i二.1993a.コンピューター・コーポラ利用による現代英米語法研

 究(1)一 prevent me(from)going prevent my going⊆『英言吾英文学論叢』(九

 州大学英語英文学研究会)第43集,pp145−160.

8.   .1993b.コンピューター・コーポラ利用による現代英米語法研究(2)一 in  (the)light of におけるtheの出没について一『言語文化論究』(九州大学言語文化  部)No.4, pp31−36.

9.   .1993c.コンピューター・コーポラ利用による現代英米語法研究(3)−

 not so much A as/but B−『九州工業大学情報工学部紀要』(人文・社会科学編)第

 6号,pp39−48.

参照

関連したドキュメント

共通点が多い 2 。そのようなことを考えあわせ ると、リードの因果論は結局、・ヒュームの因果

あれば、その逸脱に対しては N400 が惹起され、 ELAN や P600 は惹起しないと 考えられる。もし、シカの認可処理に統語的処理と意味的処理の両方が関わっ

(自分で感じられ得る[もの])という用例は注目に値する(脚注 24 ).接頭辞の sam は「正しい」と

「欲求とはけっしてある特定のモノへの欲求で はなくて、差異への欲求(社会的な意味への 欲望)であることを認めるなら、完全な満足な どというものは存在しない

   遠くに住んでいる、家に入られることに抵抗感があるなどの 療養中の子どもへの直接支援の難しさを、 IT という手段を使えば

層の積年の思いがここに表出しているようにも思われる︒日本の東アジア大国コンサート構想は︑

いてもらう権利﹂に関するものである︒また︑多数意見は本件の争点を歪曲した︒というのは︑第一に︑多数意見は

2) ‘disorder’が「ordinary ではない / 不調 」を意味するのに対して、‘disability’には「able ではない」すなわち