コーパス言語学の現状と課題中郷

(1)

コーパス言語学の現状と課題

中郷慶

Current Issues in Corpus Linguistics

Kay Nakago

1 はじめに

パーソナルコンピュータの急速な発展と普及によって，人文学においてもコンピュータを利用した研究が多く行われてくるようになってきた。言語研究においても，統語論・音韻論・形態論・英語史をはじめとして，さまざまな分野でも盛んに利用されている。1｝コンピュータを用いた言語研究（以後，コンピュータ言語学：computer linguistics）の中でも，最も盛んになってきているのは，テキストデータを対象としてコンピュータで分析を行うコーパス言語学

（corpus linguistics）である。実際，McEnery＆Wilson（1996：18）では1980年代以降のコーパス言語学の急速な発展の様子が次のように示されている。

年代論文数年代論文数

一1965 ¹⁰ 1976−80 80 1966−70 ²⁰ 1981−85 ¹⁶⁰ 1971−75 30 1985−91 320

表1 コーパス言語学の発展

従来の手作業による研究では時間と手間がかかりすぎてできなかったことが，コンピュータを使えれば一瞬に処理できるようになり，その意味では，コンピュータ言語学は新しい研究分野であると言えるし，超大規模なテキストデータから言語的発見をするコーパス言語学は新しい研究分野の一例である。しかし，忘れてはいけないことがいくつかある。一つは，コンピュータ言語学は従来の言語学に全く置き換えられるものではなく，従来の言語学の見知をふまえた上で研究が進められなくてはならないということである。また，扱うデータについての意識も重要である。研究者は，かつては個人で所有することなど想像もできなかった性能のCPU，

ハードディスク，メモリを手に入れることができるようになった。しかしながら，そのようなすばらしいハードウェアを前に研究方法（論）の蓄積がなく，コンピュータ言語学一般やコーパス言語学に対する理論的見通しを持たず，さらには個々のコーパスの特徴を知らないまま行った研究は有意義であるとはいえない。コーパスに関する知識を持たずに，ただ闇雲に信頼

(2)

の置けない不正確なデータをコンピュータに入力しても，コンピュータはただ無意味な結果を

「正しく」，意味ありげに出力するだけである。このような反省にたち，本稿の目的はコーパス（言語学）の現状と課題を指摘し，今後の発展に貢献することである。

2 コーパスとは

コーパス（corpus）とはもともと文書や法典などの集成という意味であり，現在でもこの意味で用いられることがある。しかし，言語資料としてのコーパスといえば，「コンピュータ化された，つまり，機械可読（machine−readable）なテキストの集積」と理解するのが一般的になっている。そのコーパスを用いた研究は，言語学研究ばかりではない。コーパスを用いた文学研究も行われており，ある特定の作家の（全）作品を電子テキスト化し，それをもとにコンコーダンス作成などを通してその文体的特徴を研究することもある。コンピュータを利用し，同じようなソフトウェアを用いて処理するという点では，文学志向の研究も言語学思考の研究も本質的な差違はないといえるかもしれない。しかし，両者の研究目的に違いがあるから

には，対象とするコーパスとその質と種類にも違いを考慮するのが当然であり，混同してはいけない。はたしてコーパスとは何で，言語研究にはどのようなコーパスを使用しなくてはいけないのだろうか。この疑問に答えるためにも，これまでのコーパスの歴史を振り返り，代表的なコーパスの分類と特徴を知っておくことは意義深いと思われる。特に，コーパス作成のさきがけとなった1960年代のBrown Corpusの構成とデータ収集の手法を知っておくことは重要で

ある。

2．1 コーパスの種類

ここでは，コーパスをさまざまな側面から分類し，それぞれの特徴を明らかにしていきたい。

2．1．1 広義のコーパスと狭義のコーパス

コーパスを「広義」のものと「狭義」のものに分類することができる。広義のコーパスとは

「言語研究のためにコンピュータで扱うためのデータ，テキストデータベース」であり，その内的性質は問われない。Crystalによるコーパスについての次の定義も，広義のコーパスについて述べたものだ。

Acollection of linguistic data， either written texts or a transcription of recorded speech， which can be used as a starting・point of linguistic description or as a means of verifying hypotheses about a language（corpus linguistics）．．．． A computer corpus is a large body of machine readable texts．

Crystal（1997：95）

これに対して，狭義のコーパスとは，あるコーパスを構成するテキストが備えている特徴につ

(3)

いて言及しなくてはならない。つまり，言語の研究を目的として「ある特定の原則と方針」に従って集められたものでなくてはならない。このことを明確に指摘している．のはEdwards

（1993）である。2）

It is common to distinguish between corpora and textbanks． These differ in size and composition， and serve somewhat different analytic aims． Corpora are intended to be representativ60f some specified population of genre． Textbanks tend to be collections of available data with looser comection to each other， or focus on a restricted number of genre （including Perhaps only one）．

Edwards（1993：282−3）

Edwardsに従えば，コーパスはある特定の言語や方言，言語のその他の部分集合を代表するものであり，言語学の対象となるうるものはこのような性質を持ったものであり，手元にたまたまあった電子テキストの集合はコーパスではなくテキストバンク（textbank）であるというのである。Leech（1991）にも次のような指摘がある。

．．．acollection of machine−readable text does not make a corpus． The Brown and SEU corpora were carefully designed as systematic collections of samples， so as to have face・validity as representative of standard varieties of English．

Leech （1991：10）

また，赤野他（1991）はコーパスを「ある特定の言語，方言もしくはその他のヴァラエティを代表し，かつ言語研究に使用されることが想定され，コンピュータに蓄積，処理された話し言葉，

書き言葉のテキストの集合体」と定義している。コーパス言語学の対象となるのは狭義のコーパスであり，どのような内容のコーパスを対象に研究を行っているかを常に意識しておかなくてはならない。3節で見るように，現在では英語で書かれた文学作品や新聞・雑誌記事がインターネットやCD−ROMを通じて容易に，しかも大量に手にはいるようになったが，これらをすぐにコーパス言語学の対象として利用するのは危険だという認識も重要である。その意味で

も，すでに指摘したように，これまでのコーパスがどのようなコンセプトの下に作成されたのかを知っておくことは有意義だと思われるので，2．2節から2．4節では，いくつかの代表的なコーパスを取りあげて，その構成や問題点を議論したい。

2．1．2 サンプルコーパスとモニターコーパス

あるコーパスがサンプルコーパス（sample corpus）であるのか，モニターコーパス

（monitor corpus）であるのかを区分することがある。かつてのコーパスはすべてサンプルコーパスであった。サンプルコーパスでは収集されるテキスト量が一定で，編纂時期の言語表現の全体像が反映されるように幅広い分野からバランスを考えて作成されている。サンプルコーパスの代表的なものは，Brown Corpus（100万語）， LOB Corpus（100万語），

London−Lund Corpus（50万語）である。3）BNC Corpus（1億語）も大規模であるが，その量

(4)

は一定でサンプルコーパスに分類される。

一方，モニターコーパスは内容的な均質よりもデータ量の拡充を重視し，常に変化する言語を監視しながら，古い情報を捨て新しい情報を付け加えて最新の言語情報を提供しようという意図で作成されたコーパスを指す。Bank of Englishはその代表的なもので，1998年7月現在では約3億3千万語の規模となっており，今なお拡充を続けている。モニターコーパスの利点は，さまざまな分野の最新テキストを大量に保有することであり，語彙研究や辞書作成には必要不可欠なものになっている。もちろん，モニターコーパスが登場してきた背景には，コンピュータ製版やOCR4）によって大量の電子テキストが入手可能になったこと，かつて記憶装置が高価であった時期には容量を抑制しなくてはならなかったものが，各種の大容量メディアを非常に安価に利用できるようになったこと，コンピュータの進化によって大量のデータを高速に扱えるようになったことなどが挙げられる。

2．2 Brown Corpusの意義

Brown Corpus（The Standard Corpus of Present・Day Edited American English）は世界ではじめての電子コーパスである。アメリカ英語の書き言葉のコーパスで，Bro㎜大学の Ku6eraとFrancisによって1961年から1964年にかけて作成された。総語数はおよそ100万語で，

1961年にアメリカ合衆国で出版された本・雑誌・新聞を題材に作成された。新聞や学術論文など主に情報を伝えるための情報散文（informative prose）と小説などの創作散文

（imaginative prose）の2つを，さらに次の表に示すとおりAからRの15分野に分類して収集されている。5）

Brown Corpus：List of Texts テキスト数 ^{語数（約）}

A．PRESS：REPORTAGE ⁴⁴ ^88，000

B． PRESS：EDITORIAL ²⁷ ^54，000

C．PRESSI REVIEWS ¹⁷ ^34，000

D． RELIGION ¹⁷ ^34，000

E． SKILL AND HOBBIES ³⁶ ^72，000

F． POPULARLORE ⁴⁸ ^96，000

G． BELLES−LETTRES ⁷⁵ ^150，000

H．MISCELLANEOUS：GOVERNMENT＆HOUSE ORGANS ³⁰ ^60，000

J． LEARNED ⁸⁰ ^160，000

K． FICTION：GENERAL ²⁹ ^58，000

L．FICTION：MYSTERY ²⁴ ^48，000

M．FICTION：SCIENCE ⁶ ^12，000

N．FICTION：ADVENTURE ²⁹ ^58，000

P．FICTION：ROMANCE ²⁹ ^58，000

R． HUMOR ⁹ ^18，000

合計 500 _{1，000，000}

表2 Brown Corpusのテキスト・カテゴリー

(5)

ここで注意すべきことは，各分野からのテキストには異なった比重が与えられており，その比重に従って比較的小さなサンプルを無作為に選び，それによって当時のアメリカの書き言葉という母集団を代表させるという統計学的手法（層化抽出法）を採っていることである。1つのテキストの長さは約2，000語で，原則として2，000語目を含む文の終わりまでという形式的な収集をしているので，もとの資料の全文が収められているわけではなく内容として完結していない。Brown Corpusは2．5節で見るように，現在ではいくつかの間題が指摘されるものの，

Brown Corpusの作成手法，理論的・歴史的意義は大きく，その後作成されるさまざまなコーパスの基礎となっている。

Brown Corpusと同一の手法と方針で作成されたコーパスの中で最も有名なのは， LOB Corpus（The Lancaster−Oslo／Bergen Corpus of British English）であろう。これはBrown Corpusのイギリス英語版といってもよいものであり，1961年にイギリスで出版された本・雑誌・新聞を題材に作成された。1970年にLeech（Lancaster）によって始まられ， Johansson

（Oslo）とHoftland（Bergen）によって1978年に完成した。テキスト・サンプルの抽出年代，カテゴリー区分，テキストの数と長さをBrown Corpusと同一にしたことにより，同時代のアメリカ英語とイギリス英語の比較ができるようになっており，実際，英語の地域的変種の比較研究はコーパス言語学のかなりの部分を占めている。6｝コーパス言語学の歴史は浅く，せいぜい 1961年までしかさかのぼれないが，1991年以降のイギリス英語とアメリカ英語の書き言葉の

コーパスであるFreiburg Corpus（各100万語）もBrown CorpusとLOB Corpusと同様の構成になっているために，これらのコーパスを利用すれば，30年間におけるイギリス英語とアメリカ英語の書き言葉の変化を調査することができる。

その他，1978年以降のインド英語を集めたKolhapur Corpus，1986年のオーストラリア英語を集めたMacquarie Corpus，ニュージーランド英語を集めたWellington New Zealand Corpusなども同じような構成のコーパスとして知られている。

2．3 大規模コーパス 2．3．1 The Bank of English

100万語規模のBrown CorpusやLOB Corpusは，研究によっては適当な大きさであるが，異なり語数は約5万語で，多くの語は一度しか生起しない。これは多くの語について不十分なデータしか得られないことを意味する。1960年代当時の大型計算機でやっと扱うことができた100 万語のコーパスも，いまではパーソナルコンピュータのハードディスクに格納できる大きさで

ある。7｝

Brown Corpusとは異なった手法と規模で作成された大規模コーパスには， The Bank of Englishがある。これは， Birmingham Corpus（The Birmingham Collection of English Text）の延長線上にあるものである。Birmingham Corpusは1980年にCollins社とBirmingham 大学の提携で始まったCOBUILD計画によって作成され，Collins COBUILD EngliSh Langucrge

(6)

Diτ o拠り（1987）の編纂の際にデータとして使われた。当初はMain Corpusと呼ばれる総計 730万語のコーパスが作成された。これもサンプルコーパスであるが，Brown Corpusと異なるのは，データ収集方法であり，一定の条件をつけたうえで，広く読まれている本という観点からベストセラーを中心に選択されでいる（有為選択法）。8）その後，モニターコーパスの考え方を取り入れ，Main Corpusに含まれなかったノンフィクションの資料1，300万語を集めた Reserve Corpusが1985年に作成された。これは，730万語のMain Corpusでもまだ頻度のそれ

ほど高くない語については十分にデータが得られなかったためであり，ノンフィクションに限ったのは，Main Corpusの観察によって代表的な言語使用を反映しているのはノンフィクションのテキストであることが判明したからである。レジスターやディスコースの要因は考慮されずに，バランスではなく多様性が求められたReserve Corpusは，この意味でモニターコーパスの性質を持っているといえる。730万語のMain Corpusと1，300万語のReserve Corpusか

らなるBirmingham CorpusはThe Bank of Englishへと発展する。

The Bank of Englishは2億語の書き言葉と3，000万語の話し言葉の収集を目標に1991年に始まり，1995年に目標が達成された。現在でも入力が進んでおり，今では3億数千万語の規模を誇る世界最大規模の英語コーパスとなっている。Brown Corpusとは違って，細微なコーパスデザインがあるわけではない。1993年のバージョンアップ以降，現在のThe Bank of English は1990年以降のテキストのみを扱っている。テキストはイギリス英語が70％，アメリカ英語が 20％，残りはオーストラリア英語やその他の母語英語からの採用されている。The Bank of Englishのうちの5，000万語を使用料を払い利用することができるCOBUILD directと呼ばれる

オンラインサービスがある（3．2節参照）。

2．3．2 British Nationai Corpus

British National Corpus（BNC）はOxford University Pressが主幹となり，Longman，

Chambers， British Library， Oxford University Computing Service， Lancaster大学の共同プロジェクトとして1991年に作成が始まり，1994年に完成した。1975年以降のイギリス英語のみが対象で，書き言葉9，000万語と話し言葉1，000万語の総計1億語からなるコーパスで1995年に公開された。BNCの構成の詳細はインターネット上で確認することができるが，社会統計学的分析に堪えられるような設計になっている。9｝幅広い分野から同じ量のデータを無作為にバランスよく抽出したサンプルコーパスで，サンプリングの手法もBrown Corpusに比べて厳密になっている。現在ではヨーロッパ連合（EU）内の研究者のみが利用可能であるが，近々全面公開される予定である。The Bank of English同様BNCもオンラインで利用できるが，検索例は50例までに限定されている（3．2節参照）。

2．4 Helsinki Corpus

すでに，コーパスとは広義と狭義の両方の意味があり，言語学研究には狭義のコーパスを対

(7)

象としなくてはならないことを述べた。また，データ収集の手法からBro㎜（泊rpusやLOB Corpus， British National Corpusに代表されるサンプルコーパスと， The Bank of Englishに代表されるモニターコーパスに分けられることも見た。これらのコーパスが共通しているのは，

サンプルを同時代のものに限って抽出している点である。これを共時的コーパス（synchronic corpus）と呼ぶことにすると，複数の時代別にサンプルを選んで編纂したものは通時的コーパス（diachronic／historical corpus）となる。通時的コーパスの代表的なものは， Helsinki CorpusやARCHERである。10）ここでは，その登場が歴史言語学者，英語史研究家に多大な影響を与えたHelsinki Corpusについてその概要を見ていくことにする。

Helsinki Corpusは正式名をThe Helsinki Corpus of English Texts：Diachronic and Dialectalといい，通時的言語資料を収集した部分（Diachronic Part）と方言資料を収集した

（Dialectal Part）から構成されている。1984年からHelsinki大学のRissanenを中心に編纂が始められ，1991年にICAME（Intemational Computer Archive of Modem English；1996年に Intemational Computer Archive of Modem and Medieval Englishと改称）を通じて公開され

た。通常，Helsinki Corpusと言ったときには， Diachronic Partのうちの特に basic corpus を指すことが多い。11）Helsinki Corpusは750年から1710年の1，000年間に書かれたさまざまなタイプのテキストからなる約160万語のコーパスであり，11の時代区分で収集された内訳は次の通りとなっている。

時代区分年代語数 ^％

OE1 _一850 2，190 0．52％

OE2 _850−950 9，250 2．23％

OE3 _950−1050 251，630 60．89％

OE4 _1050−1150 67，380 16．30％

OE（古英語）計 413，250 100．00％

ME1 _1150−1250 113，010 18．56％

ME2 _1250−1350 97，480 16．01％

ME3 _1350−1420 184，230 30．27％

ME4 _1420−1500 213，850 35．13％

ME（中英語）計 1500−1570 ^608，570 ^100．00％

EModE1 190，160 34．51％

EModE2 _1570−1640 189，800 34．44％

EModE3 _1640−1710 171，040 31．04％

EModE（初期近代英語）計 551，000 100．00％

表3 Helsinki Corpusの構成

表3で示されるとおり，時代区分ごとの収録語数にかなりのばらつきがある。これは時代によっ

(8)

ては現存するテキストが限られているという物理的理由による。英語の通時的コーパスには，

Helsinki Corpusの他にも10数種類あるが，現在のところ完成し公開されているのはHelsinki CorpusのDiachronic Partだけである。1，000年間のコーパスとしては160万語と小規模だが，

今後の英語史研究では無視できない存在となっている。Helsinki Corpusをもとにした研究も盛んに行われている。12）

Helsinki Corpusでは特に次の4点が考慮され，パラメター化されて各テキストファイルの中に取り込まれている。1つ目の特徴は時代区分である。OE1期からME3期までは100年ごとに区切られているが，ME3期は70年で区切られている。これは標準英語成立の状況を確認するにはこの年代で区切った方がよいという判断からである。EModE1期からEModE3期も70年ごとに区切られているが，これは言語変化の状況を確認するためにはより短いスパンで区切った方がよいという判断からである。2つ目の特色は，方言区分の設定である。一般的にOEや MEのテキストは作者についての情報は何もない。写本の成立や系統伝播についても意見の一致を見ないことが多く，方言についてはたやすく確定できない。Helsinki Corpusでは，典拠とした校訂本の編者の見解や方言地図などから，各ファイルに方言を設定している。3つ目は，作者の性別，年齢，社会的地位などの情報，書き手と受け手の関係，言語使用域などが取

り入れられているということである。このような情報をもとにした社会言語学的アプローチが可能なコーパスとなっている。4つ目は，言語外的な基準に基づいてLaw， Handbook，

Science， Philosophy， History， Travelogue， Biography， Fiction， Bibleなどのテキストタイプが設定され，各テキストファイルに取り込まれていることである。これらの情報は，COCOA 形式に従って，次のように記載されている。13）

〈BCMDOCU3＞

〈QM3 XXDOCUSK＞

〈NAPPEAL LONDON＞

〈AUSK THOMAS＞

〈CM3＞

〈01350〜1420＞

〈M1350−1420＞

〈KSAME＞

〈DEMO＞

〈VPROSE＞

〈TDOCUM＞

〈GX＞

〈FX＞

〈WWRITTEN＞

〈XMALE＞

B＝name of text file Q＝text identifier N＝name of text A＝author

Cニpart of corpus O＝date of original M＝date of manuscript

Kニcontemporary D＝dialect V＝verse or prose T＝text type

G＝relationship to foreign original Fニforeign original

W＝relationship to spoke language Xニsex of author

(9)

〈YX＞

〈HPROF＞

〈UX＞

〈EX＞

〈JX＞

〈IFORMAL＞

〈ZX＞

〈SSAMPLE X＞

Y＝age of aut lor Hニsocial rank of author V＝audience description E＝participant relationship Jニinteraction

I＝setting

Z＝prototypical text category

S＝sample

2．5 コーパス利用の注意点

コーパスを利用して言語研究を行うのであれば，その研究目的に適したコーパスを当然ながら選ばなければならない。現代英語の語法研究を行うのであれば，幅広い分野から多くの量のテキストを集めたコーパスが必要である。ここでは，Helsinki CorpusとBrown Corpusの問題点を考察することによって，コーパス言語学で気をつけなくてはならないことを指摘したい

と思う。

Helsinki Corpusでは，テキストタイプの設定と分類が妥当であるかがしばしば議論の的と．

なる。ある1つのテキストタイプ（ジャンル）に分類された複数のテキストの質は均質であるのか，選ばれたテキストがそのジャンルを代表するものであると言えるのかなどの問題がある。

たまたまある時代のあるテキストに，ある特定の表現・語彙が非常に多く繰り返して用いられている場合もあり，純粋に数値の比較だけによる論議は危険だ。14）次に問題となるのはコーパスの規模である。1，000年間をカバーするには，わずか160万語の規模では必ずしも十分ではない。時代・ジャンル・作者などのパラメターの設定に従って，各期のテキストをさらに分類していくと，選択されるテキストの語数が極端に少なくなり，十分信頼できるデータを得られないことになる。通時的コーパスを用いる場合には，変異形（variant）にも注意を払わなければならない。

Brown Corpusの問題点としてしばしば指摘されるのも，テキストタイプの設定方法だ。表 1中の創作散文KからRの分類に合理的根拠はあるのだろうか。齋藤他（1988：39）では，創作散文には作家の文体的特性が強い文学作品は避け，日常ありふれた行動や感情が描かれた大衆小説，娯楽小説をテキストに選べば，詳しいカテゴリーを設ける必要なく語法研究が可能だと述べられている。また，情報散文の分類も首尾一貫性に欠けている。情報散文はジャンルによってスタイルが変わることも多く，British National Corpusのように人文・社会・自然科学の各分野から幅広くテキストデータを集める必要があるだろう。

これらの留意点は，Helsinki CorpusやCorpusを利用するときだけではなく，コーパス全般について当てはまることだ。コーパスには綴り字や品詞標識付けが誤っている，スペースがあるべきところにないなどの問題がある場合があるが，語法研究・言語研究の資料としてコーパ

(10)

スを利用するのが簡単で有益であることは変わらない。

3 コーパスの入手と利用方法

コーパスは入手の形態によっていくつかに分類される。ここでは代表的なコーパ1の入手方法と利用方法を見ていく。

3．1 CD−ROM

大容量のコーパスの配布には，CD−ROMを使うのが一般的である。

・ICAME

コーパスをCD−ROMで入手する場合に代表的なのは， ICAME Collection of English Language Corpora である。15）この1枚のCD−ROMには， The Brown Corpus， The Kolhapur Corpus， The LOB Corpus， The Helsinki Corpus of English Texts：

Diachronic Part， The London・Lund Corpus of Spoken Englishの5つのコーパスが収録されている。これらのコーパスは単独で購入することもできる。このほかにICAMEからCD・ROMで購入できるコーパスは以下の通り：The Helsinki Corpus of Older Scots，

The Lancaster Parsed Corpus， The Lancaster／IBM Spoken English Corpus （SEC／MARSEC）， Melbourne・Surrey Corpus， The Polytechnic of Wales Corpus

（PoW）。16）

・The British National Corpus

現在，EU（欧州連合）内のみでCD−ROMによる配布が行われている。 BNC Online Service による利用もできる。3．2節参照。

・その他

Collins COBUILD on CD−ROMは「コウビルド英英辞典」「コウビルド英文法」「コウビルド用法辞典」に加えてThe Bank of Englishから収録した500万語のWord Bankを1枚のCD−ROMに収録したもので，見出し語7万語，用例が9万例ある。 Collins COBUILD e−dictは1995年に刊行されたCollins COBUILD EngliSh Di ctionai y second editionに基づき7万5千の語句とイディオムを収録してある。Collins COBUILD English Collocations on CD・ROMは，1万の見出し語と14万のコロケーションを収録し，総用例数は260万にのぼるCD−ROMである。この他にも百科事典，新聞，文学作品を収めたCD−ROMが多数輸入され，安価で販売されている。これらをコーパスとして利用することも可能だが，

2．1．1節での留意点に注意して使用しなくてはならない。聖書，英米文学のCD−ROMにはどのようなものがあるかは筒井（1996）に詳しい。CD・ROM版の辞書をコーパスと見立てて使用することもできる。1989年に出版されたThe（励γゴZ）ictioua2 Y（second edition）

のCD−ROM版， OED2−CDがコーパスとしても有効であるという指摘は，齊籐他（1998：

(11)

226・231〕に詳しい。ここでは，OED2−CDはBrown Corpus， LOB Corpus， Helsinki Corpusなどを補完する包括的なコーパスであるととらえ，膨大な用例の活用法，研究方法，言語学的意味について述べられている。

3．2 オンラインサービス

代表的なオンラインサービスにはBritish Nationa1 CorpusとBank of Englishがある。

British National Corpusのホームページから Online Service を選択し，現れた画面で Simple Search を選択して検索式を入力すると，最大50例までの用例が示される。また， Bank of EnglishのホームページからはCOBUILD direct（http：／／titania．cobuild．collins．co．uk／direct＿

info、html）にリンクが張られ検索が行えるようになっている。 JAVA対応のブラウザソフトではクリック操作によって，そうでない場合は，Telnetを使ってコマンドを打ち込んで検索

が行える。1η

殴 ^母 ^障∴＿

ひポピ

^・vO：：^{ｩA9頃ぷ、sよa}

Z， fi鼎、f，tveft．』費㌍練．桓．一．．．

BANK Es9、usH

Questions 8nd Answer8

Wh●tS t？

T旭・■官⑲fε叩1・・1．・ζOl1穴！FO・O「禰胴O㌔飼mE【91⑨柏前一9●h■d釦師Wlw「。rPtayei・

O「．励●…叩F｛r醐戚叩mlngU 1＜鳥1●xlteYpm 杖皐く6「1女い0【1写t−■

子姉扉 How big iS it？

Oo20Jo1⑱1跳ぐ鴨，がt m1● ■o「ぐn●｛erPu…t村lol29m川1御冑脚鋼1eξOntr娩鵬10 仲WWP旧ヒ岡ce．●t緬川0oC陶wm■t■戸●1■WChettamlLO−、聞1●、鋲埠鳩s蝋v【

栖が》町IW−1O，《●xI n練酬「er㏄岡1卵博11Cw ．1忙●t随∀ttebb1VU Wε『II●h

，・C卜仰（Wl「Ov●川●「τ．mllll．OL「「・ml vre「ぴ馴edtw口1Sは噌川∨旧⊆uπ●【恥●四．【err to・■wL■1LいC●、1yW1dEonCLUt1WW「mCO叩1−5M1⑱1＄Of●COtD噺●恒鳩ウ剛【O hW●←が■但t●｛1●ヒtheげdl叩…r A

角図1 左：British National Corpusのホームページ（http：／／info．ox．ac．uk／bnc／）

右：Bank of EngliStiのホームページ（http：／／titaniacobuild．collins．co．uk／boe＿info．html）

i鍛ぽ￡禽飴旦蕊ば込∪

図2 左：British Nationa1 Corpusの検索結果右：TelnetによるBank of Englishの検索の様子

(12)

図3には，of importanceという表現を用いる場合， importanceに対してどのような形容詞が用いられるかをBritish National Corpusで検索した結果を示した。該当する2，539例のうち50 例が示される。それをテキストファイルに保存し，コンコーダンス作成ソフト，Concを用いてコンコーダンスを作成したものが図3である。18）全部で26種類の形容詞（比較級・最上級等は区別しない）の中でもっとも多く生起したものはgreatの5例，続いてfundamental（3例），

considerable， crucial， paramount， particular， primary， prime， public（以上各2例）であった。

which ere ot centrel itnport●nc●to・the・nerrnetiv拍t style．εBM I O 14・The OS being of gr80t 「肪PO「tenc●． εε9911n tbe毒◎8t d8C6dθs of the ni「）et88「、th

trends of long−term 「杓port●nc●begen to emerge・ EV卜1197 Thts w N be Of w毒11be Of cn」c161 import●oc●fn 1992 when Cemmen Merket dereguletion leedS ⑲r80f prtm6rg lmportonc●to the soc圃worker end t畑m6nner of hts work FgP 1100f spec毒01 mporteRce wes tれ8 decls暮on to un｛te the Europeens end 6「re thus of vit」81 tlnport80ce「or nermel 6s well os for obnomol object the Plent is of Prime 1闘⑱Port●nc●in Perfumer葛， though th6t of other iris specie6 SOmething Of greOt mpOrtOnCe tO the POIitiCel 8CientiSし FPW 252 ThiS is of ｛ncelεU18bl8 1団nトporteRce ter the development of 6r8e｝〈6rt and｜n generaI O grOWth iSOf CritiCel 1闘情pOrtenCe tOr prediCt重ng fUture COnCentrettOn Of

｝sof gre6t88t 罰npo「t●nc●きn con8umer m6rkets． wh祠e pgr80n616elling i8

図3 British National Corpusからのデータをもとにしたコンコーダンス

3．3 テキストダウンロードとコーパス作成

コーパスに利用可能なテキストを集めたサイトがインターネット上にいくつもある。代表的なのは，Oxford University Computing Serviceが1976年以降運営しているOxford Text Archive（OTA）（http：／／ota．ahds．ac．uk／index．html）である。OTAからは英語とその他の言語の電子テキストを多数入手できる。この他のテキストダウンロードサイトについては，

Summer lnstitute of Language（SIL）（http：／／㎜．siLorg／linguistics／etext．html）やCenter for Electronic Texts in the Humanities（CETH）（http：／／www．ceth．rutgers．edu／information Services／ectrdir．html）， Rice UniversityのMichael Barlow氏のホームページ（http：／／www．

ruf．rice．edu／Nbarlow／corpus．html）などからのリンクを利用するとよい。

新聞や雑誌の記事もコーパスに利用できる。TIME社（http：／／www．pathfinder．com／time），

USNews社（http：／／www．usnews．com／usnews／home．htm）などが無料でデータを公開している。放送局の原稿もCNN社（http：／／www．cm．com／TRANSCRIPTS）やABC News社

（http：／／abcnews．go．com／onair）などが公開している。有料のものには， LEXIS−NEXIS（http：

／／www．lexis・nexis．com／lncc）があり，さらに多くの種類と量の新聞，雑誌，ニュース記事を入手できる。話し言葉のコーパスの作成のためには，テレビ番組・映画などのシナリオを利

(13)

用することも可能だ。Drew s Scripts−O Rama（http：／／www．script−o・rama．com）からは600 本以上のシナリオにアクセスが可能となっている。ただし，これらの電子テキストを利用する

ときには，書式・入力ミスがないか，信頼できるものであるかを十分に吟味する必要がある。

既存の電子テキストがコーパス研究の対象として不十分な場合は，コーパスを自作することになる。19）現実的には，新聞，書籍，書類，論文から一字一句をキーボードから入力するのは不可能であり，パーソナルコンピュータに接続したスキャナとOCRソフトが必要である。画像としてスキャナに取り込まれた文字の形状情報を，文字認識技術を用いて文字としてコン

ピュータに認識させ，テキストファイルに変換するためのソフトウェアがOCR（optical character reader（recognition））ソフトである。近年のOCRソフトは，誤認識も減り，安価になってきており，特に，英語のように文字数の少ない言語に対しては，ほぼ100％の認識率となっている。コーパスを自作する場合も，テキストの選定と量についての配慮が必要となる。

3．4 コーパス分析の方法論

コーパスの具体的な分析方法と調査結果を明確に示すことは，本稿の目的ではない。これらについては，参考文献にあげた文献を参考にしてほしい。この節では，コーパス言語学と生成文法（transformational grammar）の方法論を対比しながら，両者の立場を明らかにしたい。

Chomsky（1957）の著作に始まる生成文法は現代の言語学で避けては通ることができない存在である。生成文法は，観察可能な資料のみに基づき，研究者個人の直感を排した機械的な操作によって，言語の統語・音韻・形態を分析したいわゆるアメリカ構造主義言語学への批判から始まったといってもよい。Bloomfield以後のアメリカ構造主義言語学者は，主に急速に死滅しつつあったアメリカ・インディアンの言語を客観的・体系的に処理しようとした。

Chomskyは，現実の発話を詳細に記録するのではなく，その発話を生み出す人間の体系はどのようなものであるのかに注意を向けなくてはならないと主張した。生成文法の目的は，母語話者の言語直感（language intuition）をもとに，人間が生まれながらにして持つ言語能力

（competence）を明らかにし，普遍文法（universal grarmnar）の姿を解明することである。

各語の文法である個別文法（pa就icular四㎜ar）はパラメターの設定｝こよって説明される。母語話者の言語直感に依存するという合理主義的な立場をとるので，言語が実際にどのように使われているかの情報（すなわちコーパス）の意義は認めない。Chomskyの考えによれば，言語は社会や環境から切り離されるべきであり，ある文が文法的であるかどうかの判断は話者の直感のみ依存するので，実際の発話における統計的発生確率とは無関係であることにな

る。20）一方，コーパス言語学は生成文法と全く対照的な立場をとる。コーパス言語学では，言語能力よりも言語運用能力（performance）が重視され，研究を通して得られた知見は，言語の普遍的特徴（linguistic miversals）というよりはむしろ個別言語の言語記述（linguistic description）である。

コーパス言語学と生成文法は言語研究に対して異なる方法論をとっているということであっ

(14)

て，どちらがより優れているということではない。生成文法で利用する非文は，当然ながらコーパスには存在しない。語彙や語法の統計的研究にコーパスのデータが有用であることはすでに述べたとおりである。このような立場の違いを無視した議論は慎むべきである。

4 まとめ

この論文では，コーパスとコーパス言語学の全体像と問題点を指摘した。具体的には，代表的なコーパスの構成を述べ，コーパスを利用した研究を行うときには，常にどのような内容のコーパスであるかを意識しなければならないこと，研究の目的に応じてコーパスのデザインを考慮しなければならないことを見た。ここでは英語コーパスを題材に議論したが，ここでの主張は今後，日本語コーパスを構築するときでも十分に考慮しなくてはならないことである。発音のコーパスなど触れられなかったものも多いが，それは別の機会にしたい。

注

Macintosh， Mac OSの名称はアップルコンピュータの登録商標です。

本論文に記載のホームページのアドレス（URL）は執筆時点のものです。移動・変更・消滅している場合があります。

各サイト画面の著作権はその作成者に属します。

1）研究だけではなく，語学教育にも従来の教材とは全く異なった様式のものが提供されている。

例えば，発音記号をクリックすれば実際の発音が確認できたり，調音器官の動きがアニメーション映像などによって示されるものもあるし，英会話用のCD−ROMも多くのものが発売されている。

2）コーパスとテキストバンクを区別するのが普通（common）であるという指1商は言い過ぎであり，あまり一般的ではない。

3） London−Lund Corpus（The London−Lund Corpus of Spoken English）はThe Survey of English Usage（SEU Corpus）の一部から派生したもの。 SEU Corpusは書き言葉と話し言葉からなる各100万語，計200万語の非電子コーパスである。話し言葉の部分が1975年にSvartvik （Lund大学）によってLondon・Lund Corpusとして電子化された。これは1953年から1988年の間に録音された教養あるイギリス英語話者の話し言葉が集めたものであり，その設計は話し言葉のコーパスのモデル的存在となっている。1つのテキストにつき5，000語が集められ，現在は 100テキスト，計50万語が収録されている。テキスト・カテゴリーの詳細については齊藤他（1998：23）を参照のこと。SEU（畑usはQuirkを引き継v・だGreenba㎜によってすべて電子化され，Quirk et al．（1973），（1985）の基礎データとなった。

︶︶45 ︶

6

3．4節を参照。

表2中のAからJまでが情報散文，KからRまでが創作散文である。ジャンルの表記はノルウェーのNorwegian Computing Centre for the Humanitiesが配布しているCD・ROM ICAME Collection of English Language Corpora に収録されているファイル「BROWNLST．TXT」

に従っている。このファイルにはテキストの出典，表記上の注意なども記載されている。

Brown CorpusとLOB Corpusのテキスト数はE， F， Gの3つのカテゴリーで異なっている。括弧内の前半がブラウンコーパス，後半にLOBコーパスのテキスト数を示す：E（36／38）， F

（48／44），G（75／77）。したがって総テキストサンプル数は変わらない。

(15)

7）容量は，ICAME CD ROM収録のもので， Brown Corpusで約7MB， LOB Corpusで約11MB ある。

8）どの作品が選択されたかは，Collins COBUILD English Language DictionaryのCorpus Ac㎞owledgementsに掲げられている。

9）BNCの構成を示したURLは以下の通り：http：／／info．ox．ac．uk／bnc／what／balance．h㎞1 10）ARCHER（A Representative Corpus of Historical English Registers）は1650年から1990年の間の英米の話し言葉と書き言葉を収集した総計約170万語の通時的コーパス。1710年までしか収録されていないHelsinki Corpusを補完するものとして注目されるが，公開が遅れている。また，

Helsinki CorpusのME4期以降を補完するものとして，1420年から1680年の間に書かれた個人的な書簡のコーパスThe Helsinki Corpus of Early English Correspondenceがある。これは 1993年に開始された「社会言語学と言語の歴史」というプロジェクトのためにNevalainenと Raumolin・Bmnbergによって作成されているコーパスで，現在240万語の規模である。詳細は，

Nevalainen＆Raumolin−Brunberg（1996）を参照のこと。

11）Diachronic Partは basic part と supplementary corpora から構成される。後者は，1450年から1700年までのスコットランド英語を収集した約80万語のHelsinki Corpus of Older ScotSと，

1620年から1720年までの初期アメリカ英語を収集したThe Corpus of Early American English （編集中）という地域的変種を考慮したものとなっている。

12）Rissanen et al．（1994，1997a，1997b）を参照のこと。

13）本文中に示したのは，HCM3期の冒頭のテキストファイルに対する情報。 COCOA形式という名称は，OCP（Oxford Concordance Program）の前身のCOCOAというプログラムがこの形式を採用していたことに由来する。〈〉内に情報の種類を示す記号とその情報を入力したものである。本文中では，〈〉の右側にそれぞれの記号がどのような情報を示しているかを示した。

14）Helsinki Corpusの編者たちによる次の指摘は適切である。彼らは，このコーパスから得られた結果はあくまでも英語史上の傾向を探るため（diagnostic）なものであり，直ちに定説となりえる（definitive）ものではないと力説している（齊藤他1998：152）。

15）ICAME連絡先：Norwegian Computing Centre for the Humanities， Bergen， Norway．

（http：／／www．hd．uib．no／icame．html），（e−mail：icame＠hd．uib．no）日本で購入する場合は￥108，000（1998年11月現在）。

16）これまでに言及しなかったコーパスについての概要は次の通りである。

The Lancaster Parsed Corpus：LOBの各カテゴリーから計133，000語分に品詞標識をつけ，構文解析を行っている。

The Lancaster／IBM Spoken English Corpus（SEC／MARSEC）：現代イギリス英語の話し言葉約5，300語を集めたコーパス。

Melboume−Surrey Corpus：オーストラリアの新聞のテキスト約10万語を集めたコーパス。

The Polytechnic of Wales Corpus（PoW）：子どもの話し言葉約61，000語のコーパス。

17）コマンドについては，次を参照のこと：http：／／titania．cobuild．collins．co．uk／dir㏄t＿tutoriaLhtml。

telnetのホスト名はtitania．cobuild．collins．co．uk。 COBUILD directは有料のサービスであるが，

WWWとtelnetでは， j で始まる語をデモ版として検索できる。デモ版のログイン名とパスワードはともに，cobdemoである。

18）検索の対象となる語句を中心に図3のように配列する表示形式を，KWIC（Key Word in Context）形式とよぶ。 Concはコンコーダンスとインデックスの作成の他に，さまざまな検索と表示が可能であるMacintosh専用のプログラムで，最新バージョンは1．80 beta 3である。

http：／／www．sil．org／computing／conc／beta／からダウンロード可能。 Mac OS 8．5（．1）でこのソフトウェアを使うとクラッシュするので，同じページから入手可能なType 12 Eliminatorという機能拡張書類をインストールする必要がある。筆者がBritish National Corpusで収集したコーパスをもとに作成したコンコーダンスでは，制御記号を削除する必要があった。この他の

(16)

コンコーダンス作成ソフトには，MicroConcord， WordSmith Tools， Corpus Wizard， Word Cruncherなどがあり，インターネット上で入手できる。SILのホームページ（http：／／www．si1．org／

linguistics／computing．html）にはこれら全てがアップロードされている。

19）具体的な方法については，若山・中郷（1999）を参照のこと。

20）また，人間の言語能力は他の能力とも独立した一つの組織体系であると考えられている。これを自立性の定立（autonomy thesis）と呼ぶ。

参考文献

赤野一郎・吉村由佳・藤本和子（1991）「Corpus Linguisticsの現在の動向と問題点（1）コーパスとその構築」Studies in EngliSh L ingZtdStics＆ LiteratZtre 7，1・45．

Biber， D．， S． Conrad，＆ Randi Reppen （1998） Coipus LinguiStics：Investigating Langturge Stmcture and Use， Cambridge：Cambridge University Press．

Chomsky，N．（1957）Spmtactic Stmctures， The Hague：Mouton．

Crystal， D．（19974）、4 D± ctiona7 y ofLinguiStics and Phonett cs， Oxford：Blackwell．

Edwards， J． A．（1993） Survey of Electronic Corpora and Related Resources for Language Researchers ， in J．Edwards，＆M． Lampert（eds．），7雄i㎎、仇紘TranscriPtion and Coding in Discourse、Rescarch， New Jersey：Lawrence Erlbaum Associates．

後藤斉（1995）「言語研究のためのデータベースとしてのコーパスの概念について一日本語のコーパス言語学のために」，東北大学言語学論集4，71・87．

Lawler， J．＆H． A． Dry（eds．）（1998）Using Comψuters in LinguiStics：A Practical Guide， London：

Routledge．

Le㏄h， G．（1991） The State of the Art in Corpus Linguistics ， in K． Aij mer＆B． Altenberg （eds．）EngliSh Corpus L inguiStics， London：Longman．

McEnery， T．＆A． Wilson（1996）Coiptes LingudStics， Edinburgh：Edinburgh University Press．

Nevalainen， T．＆H． Raumolin−Bmnberg（eds．）（1996）SociolinguiStics and、Langucrge琉孟oη：

Stndies linsed on the Cont，tcs ofE2irly English Correspondence． Amsterdam：Rodopi．

Quirk， R．，S． Greenba㎜， G． Leech，＆J． SvartJvik（1972），A鋤沈批γ㎡Coη㈱o励E砿〃，

London：Longman．

Quirk， R．， S． Greenbaum， G． Leech，＆J． Svartvik（1985）AComψrehensive Di ctionary of the EngliSh Langtarge， London：Longman．

Rissanen， M．， M． Kyto＆K． Heikkonen（eds．）（1997a）EngliSh in Transition， Berlin：Mouton de Gruyter．

Rissanen， M．， M． Kyto＆K． Heikkonen（eds．）（1997b）Grammaticalization at Wb沈， Berlin：

Mouton de Gruyter．

Rissanen， M．， M． Kyto＆M． Palander・Collin（eds．）（1993）飽γらE㎎／泣仇the Computer Age：

Etplorations throzrgh the Helsinki Coipms， Berlin：Mouton de Gruyter．

齊藤俊雄・中村純作・赤野一郎（編）（1998）「英語コーパス言語学：理論と実践」，研究社．

鷹家秀史・須賀廣（1998）「実践コーパス言語学英語教師のインターネット活用」，桐原ユニ．

筒井脩（1996）「英語学習のためのCD−ROM入門辞典・聖書・英米文学」，大阪教育図書．

若山真幸・中郷慶（1999）「マックを使った言語学」，Ms．，上越教育大学・愛知淑徳短期大学．

コーパス言語学の現状と課題 中 郷

ひポピ

コーパス言語学の現状と課題中郷