• 検索結果がありません。

コーパス言語学の現状と課題 中 郷

N/A
N/A
Protected

Academic year: 2021

シェア "コーパス言語学の現状と課題 中 郷"

Copied!
16
0
0

読み込み中.... (全文を見る)

全文

(1)

コーパス言語学の現状と課題

中 郷

Current Issues in Corpus Linguistics

Kay Nakago

1 はじめに

 パーソナルコンピュータの急速な発展と普及によって,人文学においてもコンピュータを利 用した研究が多く行われてくるようになってきた。言語研究においても,統語論・音韻論・形 態論・英語史をはじめとして,さまざまな分野でも盛んに利用されている。1}コンピュータを 用いた言語研究(以後,コンピュータ言語学:computer linguistics)の中でも,最も盛んになっ てきているのは,テキストデータを対象としてコンピュータで分析を行うコーパス言語学

(corpus linguistics)である。実際,McEnery&Wilson(1996:18)では1980年代以降のコー パス言語学の急速な発展の様子が次のように示されている。

年代 論文数 年代 論文数

一1965 10 1976−80 80 1966−70 20 1981−85 160 1971−75 30 1985−91 320

表1 コーパス言語学の発展

従来の手作業による研究では時間と手間がかかりすぎてできなかったことが,コンピュータを 使えれば一瞬に処理できるようになり,その意味では,コンピュータ言語学は新しい研究分野 であると言えるし,超大規模なテキストデータから言語的発見をするコーパス言語学は新しい 研究分野の一例である。しかし,忘れてはいけないことがいくつかある。一つは,コンピュー タ言語学は従来の言語学に全く置き換えられるものではなく,従来の言語学の見知をふまえた 上で研究が進められなくてはならないということである。また,扱うデータについての意識も 重要である。研究者は,かつては個人で所有することなど想像もできなかった性能のCPU,

ハードディスク,メモリを手に入れることができるようになった。しかしながら,そのような すばらしいハードウェアを前に研究方法(論)の蓄積がなく,コンピュータ言語学一般やコー パス言語学に対する理論的見通しを持たず,さらには個々のコーパスの特徴を知らないまま 行った研究は有意義であるとはいえない。コーパスに関する知識を持たずに,ただ闇雲に信頼

(2)

の置けない不正確なデータをコンピュータに入力しても,コンピュータはただ無意味な結果を

「正しく」,意味ありげに出力するだけである。このような反省にたち,本稿の目的はコーパ ス(言語学)の現状と課題を指摘し,今後の発展に貢献することである。

2 コーパスとは

 コーパス(corpus)とはもともと文書や法典などの集成という意味であり,現在でもこの 意味で用いられることがある。しかし,言語資料としてのコーパスといえば,「コンピュータ 化された,つまり,機械可読(machine−readable)なテキストの集積」と理解するのが一般 的になっている。そのコーパスを用いた研究は,言語学研究ばかりではない。コーパスを用い た文学研究も行われており,ある特定の作家の(全)作品を電子テキスト化し,それをもとに コンコーダンス作成などを通してその文体的特徴を研究することもある。コンピュータを利用 し,同じようなソフトウェアを用いて処理するという点では,文学志向の研究も言語学思考の 研究も本質的な差違はないといえるかもしれない。しかし,両者の研究目的に違いがあるから

には,対象とするコーパスとその質と種類にも違いを考慮するのが当然であり,混同してはい けない。はたしてコーパスとは何で,言語研究にはどのようなコーパスを使用しなくてはいけ ないのだろうか。この疑問に答えるためにも,これまでのコーパスの歴史を振り返り,代表的 なコーパスの分類と特徴を知っておくことは意義深いと思われる。特に,コーパス作成のさき がけとなった1960年代のBrown Corpusの構成とデータ収集の手法を知っておくことは重要で

ある。

2.1 コーパスの種類

ここでは,コーパスをさまざまな側面から分類し,それぞれの特徴を明らかにしていきたい。

2.1.1 広義のコーパスと狭義のコーパス

 コーパスを「広義」のものと「狭義」のものに分類することができる。広義のコーパスとは

「言語研究のためにコンピュータで扱うためのデータ,テキストデータベース」であり,その 内的性質は問われない。Crystalによるコーパスについての次の定義も,広義のコーパスにつ いて述べたものだ。

  Acollection of linguistic data, either written texts or a transcription of recorded   speech, which can be used as a starting・point of linguistic description or as a means   of verifying hypotheses about a language(corpus linguistics).... A computer corpus   is a large body of machine readable texts.

       Crystal(1997:95)

これに対して,狭義のコーパスとは,あるコーパスを構成するテキストが備えている特徴につ

(3)

いて言及しなくてはならない。つまり,言語の研究を目的として「ある特定の原則と方針」に 従って集められたものでなくてはならない。このことを明確に指摘している.のはEdwards

(1993)である。2)

  It is common to distinguish between corpora and textbanks. These differ in size and   composition, and serve somewhat different analytic aims. Corpora are intended to   be representativ60f some specified population of genre. Textbanks tend to be   collections of available data with looser comection to each other, or focus on a   restricted number of genre (including Perhaps only one).

       Edwards(1993:282−3)

Edwardsに従えば,コーパスはある特定の言語や方言,言語のその他の部分集合を代表する ものであり,言語学の対象となるうるものはこのような性質を持ったものであり,手元にたま たまあった電子テキストの集合はコーパスではなくテキストバンク(textbank)であるという のである。Leech(1991)にも次のような指摘がある。

  ...acollection of machine−readable text does not make a corpus. The Brown and   SEU corpora were carefully designed as systematic collections of samples, so as to   have face・validity as representative of standard varieties of English.

       Leech (1991:10)

また,赤野他(1991)はコーパスを「ある特定の言語,方言もしくはその他のヴァラエティを代 表し,かつ言語研究に使用されることが想定され,コンピュータに蓄積,処理された話し言葉,

書き言葉のテキストの集合体」と定義している。コーパス言語学の対象となるのは狭義のコー パスであり,どのような内容のコーパスを対象に研究を行っているかを常に意識しておかなく てはならない。3節で見るように,現在では英語で書かれた文学作品や新聞・雑誌記事がイン ターネットやCD−ROMを通じて容易に,しかも大量に手にはいるようになったが,これらを すぐにコーパス言語学の対象として利用するのは危険だという認識も重要である。その意味で

も,すでに指摘したように,これまでのコーパスがどのようなコンセプトの下に作成されたの かを知っておくことは有意義だと思われるので,2.2節から2.4節では,いくつかの代表的 なコーパスを取りあげて,その構成や問題点を議論したい。

2.1.2 サンプルコーパスとモニターコーパス

 あるコーパスがサンプルコーパス (sample corpus)であるのか,モニターコーパス

(monitor corpus)であるのかを区分することがある。かつてのコーパスはすべてサンプル コーパスであった。サンプルコーパスでは収集されるテキスト量が一定で,編纂時期の言語表 現の全体像が反映されるように幅広い分野からバランスを考えて作成されている。サンプル コーパスの代表的なものは,Brown Corpus(100万語), LOB Corpus(100万語),

London−Lund Corpus(50万語)である。3)BNC Corpus(1億語)も大規模であるが,その量

(4)

は一定でサンプルコーパスに分類される。

 一方,モニターコーパスは内容的な均質よりもデータ量の拡充を重視し,常に変化する言語 を監視しながら,古い情報を捨て新しい情報を付け加えて最新の言語情報を提供しようという 意図で作成されたコーパスを指す。Bank of Englishはその代表的なもので,1998年7月現在 では約3億3千万語の規模となっており,今なお拡充を続けている。モニターコーパスの利点 は,さまざまな分野の最新テキストを大量に保有することであり,語彙研究や辞書作成には必 要不可欠なものになっている。もちろん,モニターコーパスが登場してきた背景には,コン ピュータ製版やOCR4)によって大量の電子テキストが入手可能になったこと,かつて記憶装置 が高価であった時期には容量を抑制しなくてはならなかったものが,各種の大容量メディアを 非常に安価に利用できるようになったこと,コンピュータの進化によって大量のデータを高速 に扱えるようになったことなどが挙げられる。

2.2 Brown Corpusの意義

 Brown Corpus(The Standard Corpus of Present・Day Edited American English)は世界 ではじめての電子コーパスである。アメリカ英語の書き言葉のコーパスで,Bro㎜大学の Ku6eraとFrancisによって1961年から1964年にかけて作成された。総語数はおよそ100万語で,

1961年にアメリカ合衆国で出版された本・雑誌・新聞を題材に作成された。新聞や学術論文な ど主に情報を伝えるための情報散文(informative prose)と小説などの創作散文

(imaginative prose)の2つを,さらに次の表に示すとおりAからRの15分野に分類して収集 されている。5)

Brown Corpus:List of Texts テキスト数 語数(約)

A.PRESS:REPORTAGE 44 88,000

B. PRESS:EDITORIAL 27 54,000

C.PRESSI REVIEWS 17 34,000

D. RELIGION 17 34,000

E. SKILL AND HOBBIES 36 72,000

F. POPULARLORE 48 96,000

G. BELLES−LETTRES 75 150,000

H.MISCELLANEOUS:GOVERNMENT&HOUSE ORGANS 30 60,000

J. LEARNED 80 160,000

K. FICTION:GENERAL 29 58,000

L.FICTION:MYSTERY 24 48,000

M.FICTION:SCIENCE 6 12,000

N.FICTION:ADVENTURE 29 58,000

P.FICTION:ROMANCE 29 58,000

R. HUMOR 9 18,000

合計 500 1,000,000

表2 Brown Corpusのテキスト・カテゴリー

(5)

ここで注意すべきことは,各分野からのテキストには異なった比重が与えられており,その比 重に従って比較的小さなサンプルを無作為に選び,それによって当時のアメリカの書き言葉と いう母集団を代表させるという統計学的手法(層化抽出法)を採っていることである。1つの テキストの長さは約2,000語で,原則として2,000語目を含む文の終わりまでという形式的な収 集をしているので,もとの資料の全文が収められているわけではなく内容として完結していな い。Brown Corpusは2.5節で見るように,現在ではいくつかの間題が指摘されるものの,

Brown Corpusの作成手法,理論的・歴史的意義は大きく,その後作成されるさまざまなコー パスの基礎となっている。

 Brown Corpusと同一の手法と方針で作成されたコーパスの中で最も有名なのは, LOB Corpus(The Lancaster−Oslo/Bergen Corpus of British English)であろう。これはBrown Corpusのイギリス英語版といってもよいものであり,1961年にイギリスで出版された本・雑 誌・新聞を題材に作成された。1970年にLeech(Lancaster)によって始まられ, Johansson

(Oslo)とHoftland(Bergen)によって1978年に完成した。テキスト・サンプルの抽出年代,カ テゴリー区分,テキストの数と長さをBrown Corpusと同一にしたことにより,同時代のアメ リカ英語とイギリス英語の比較ができるようになっており,実際,英語の地域的変種の比較研 究はコーパス言語学のかなりの部分を占めている。6}コーパス言語学の歴史は浅く,せいぜい 1961年までしかさかのぼれないが,1991年以降のイギリス英語とアメリカ英語の書き言葉の

コーパスであるFreiburg Corpus(各100万語)もBrown CorpusとLOB Corpusと同様の構成 になっているために,これらのコーパスを利用すれば,30年間におけるイギリス英語とアメリ カ英語の書き言葉の変化を調査することができる。

 その他,1978年以降のインド英語を集めたKolhapur Corpus,1986年のオーストラリア英語 を集めたMacquarie Corpus,ニュージーランド英語を集めたWellington New Zealand Corpusなども同じような構成のコーパスとして知られている。

2.3 大規模コーパス 2.3.1 The Bank of English

 100万語規模のBrown CorpusやLOB Corpusは,研究によっては適当な大きさであるが,異 なり語数は約5万語で,多くの語は一度しか生起しない。これは多くの語について不十分なデー タしか得られないことを意味する。1960年代当時の大型計算機でやっと扱うことができた100 万語のコーパスも,いまではパーソナルコンピュータのハードディスクに格納できる大きさで

ある。7}

 Brown Corpusとは異なった手法と規模で作成された大規模コーパスには, The Bank of Englishがある。これは, Birmingham Corpus(The Birmingham Collection of English Text)の延長線上にあるものである。Birmingham Corpusは1980年にCollins社とBirmingham 大学の提携で始まったCOBUILD計画によって作成され,Collins COBUILD EngliSh Langucrge

(6)

Diτ o拠り(1987)の編纂の際にデータとして使われた。当初はMain Corpusと呼ばれる総計 730万語のコーパスが作成された。これもサンプルコーパスであるが,Brown Corpusと異な るのは,データ収集方法であり,一定の条件をつけたうえで,広く読まれている本という観点 からベストセラーを中心に選択されでいる(有為選択法)。8)その後,モニターコーパスの考 え方を取り入れ,Main Corpusに含まれなかったノンフィクションの資料1,300万語を集めた Reserve Corpusが1985年に作成された。これは,730万語のMain Corpusでもまだ頻度のそれ

ほど高くない語については十分にデータが得られなかったためであり,ノンフィクションに 限ったのは,Main Corpusの観察によって代表的な言語使用を反映しているのはノンフィク ションのテキストであることが判明したからである。レジスターやディスコースの要因は考慮 されずに,バランスではなく多様性が求められたReserve Corpusは,この意味でモニターコー パスの性質を持っているといえる。730万語のMain Corpusと1,300万語のReserve Corpusか

らなるBirmingham CorpusはThe Bank of Englishへと発展する。

 The Bank of Englishは2億語の書き言葉と3,000万語の話し言葉の収集を目標に1991年に始 まり,1995年に目標が達成された。現在でも入力が進んでおり,今では3億数千万語の規模を 誇る世界最大規模の英語コーパスとなっている。Brown Corpusとは違って,細微なコーパス デザインがあるわけではない。1993年のバージョンアップ以降,現在のThe Bank of English は1990年以降のテキストのみを扱っている。テキストはイギリス英語が70%,アメリカ英語が 20%,残りはオーストラリア英語やその他の母語英語からの採用されている。The Bank of Englishのうちの5,000万語を使用料を払い利用することができるCOBUILD directと呼ばれる

オンラインサービスがある(3.2節参照)。

2.3.2 British Nationai Corpus

 British National Corpus(BNC)はOxford University Pressが主幹となり,Longman,

Chambers, British Library, Oxford University Computing Service, Lancaster大学の共同プ ロジェクトとして1991年に作成が始まり,1994年に完成した。1975年以降のイギリス英語のみ が対象で,書き言葉9,000万語と話し言葉1,000万語の総計1億語からなるコーパスで1995年に 公開された。BNCの構成の詳細はインターネット上で確認することができるが,社会統計学 的分析に堪えられるような設計になっている。9}幅広い分野から同じ量のデータを無作為にバ ランスよく抽出したサンプルコーパスで,サンプリングの手法もBrown Corpusに比べて厳密 になっている。現在ではヨーロッパ連合(EU)内の研究者のみが利用可能であるが,近々全面 公開される予定である。The Bank of English同様BNCもオンラインで利用できるが,検索 例は50例までに限定されている(3.2節参照)。

2.4  Helsinki Corpus

すでに,コーパスとは広義と狭義の両方の意味があり,言語学研究には狭義のコーパスを対

(7)

象としなくてはならないことを述べた。また,データ収集の手法からBro㎜(泊rpusやLOB Corpus, British National Corpusに代表されるサンプルコーパスと, The Bank of Englishに 代表されるモニターコーパスに分けられることも見た。これらのコーパスが共通しているのは,

サンプルを同時代のものに限って抽出している点である。これを共時的コーパス(synchronic corpus)と呼ぶことにすると,複数の時代別にサンプルを選んで編纂したものは通時的コー パス(diachronic/historical corpus)となる。通時的コーパスの代表的なものは, Helsinki CorpusやARCHERである。10)ここでは,その登場が歴史言語学者,英語史研究家に多大な影 響を与えたHelsinki Corpusについてその概要を見ていくことにする。

 Helsinki Corpusは正式名をThe Helsinki Corpus of English Texts:Diachronic and Dialectalといい,通時的言語資料を収集した部分(Diachronic Part)と方言資料を収集した

(Dialectal Part)から構成されている。1984年からHelsinki大学のRissanenを中心に編纂が 始められ,1991年にICAME(Intemational Computer Archive of Modem English;1996年に Intemational Computer Archive of Modem and Medieval Englishと改称)を通じて公開され

た。通常,Helsinki Corpusと言ったときには, Diachronic Partのうちの特に basic corpus を指すことが多い。11)Helsinki Corpusは750年から1710年の1,000年間に書かれたさまざまなタ イプのテキストからなる約160万語のコーパスであり,11の時代区分で収集された内訳は次の 通りとなっている。

時代区分 年代 語数

OE1 一850 2,190 0.52%

OE2 850−950 9,250 2.23%

OE3 950−1050 251,630 60.89%

OE4 1050−1150 67,380 16.30%

OE(古英語)計 413,250 100.00%

ME1 1150−1250 113,010 18.56%

ME2 1250−1350 97,480 16.01%

ME3 1350−1420 184,230 30.27%

ME4 1420−1500 213,850 35.13%

ME(中英語)計 1500−1570 608,570 100.00%

EModE1 190,160 34.51%

EModE2 1570−1640 189,800 34.44%

EModE3 1640−1710 171,040 31.04%

EModE(初期近代英語)計 551,000 100.00%

表3 Helsinki Corpusの構成

表3で示されるとおり,時代区分ごとの収録語数にかなりのばらつきがある。これは時代によっ

(8)

ては現存するテキストが限られているという物理的理由による。英語の通時的コーパスには,

Helsinki Corpusの他にも10数種類あるが,現在のところ完成し公開されているのはHelsinki CorpusのDiachronic Partだけである。1,000年間のコーパスとしては160万語と小規模だが,

今後の英語史研究では無視できない存在となっている。Helsinki Corpusをもとにした研究も 盛んに行われている。12)

 Helsinki Corpusでは特に次の4点が考慮され,パラメター化されて各テキス トファイルの 中に取り込まれている。1つ目の特徴は時代区分である。OE1期からME3期までは100年ごと に区切られているが,ME3期は70年で区切られている。これは標準英語成立の状況を確認す るにはこの年代で区切った方がよいという判断からである。EModE1期からEModE3期も70年 ごとに区切られているが,これは言語変化の状況を確認するためにはより短いスパンで区切っ た方がよいという判断からである。2つ目の特色は,方言区分の設定である。一般的にOEや MEのテキストは作者についての情報は何もない。写本の成立や系統伝播についても意見の 一致を見ないことが多く,方言についてはたやすく確定できない。Helsinki Corpusでは,典 拠とした校訂本の編者の見解や方言地図などから,各ファイルに方言を設定している。3つ目 は,作者の性別,年齢,社会的地位などの情報,書き手と受け手の関係,言語使用域などが取

り入れられているということである。このような情報をもとにした社会言語学的アプローチが 可能なコーパスとなっている。4つ目は,言語外的な基準に基づいてLaw, Handbook,

Science, Philosophy, History, Travelogue, Biography, Fiction, Bibleなどのテキストタイプ が設定され,各テキストファイルに取り込まれていることである。これらの情報は,COCOA 形式に従って,次のように記載されている。13)

〈BCMDOCU3>

〈QM3 XXDOCUSK>

〈NAPPEAL LONDON>

〈AUSK THOMAS>

〈CM3>

〈01350〜1420>

〈M1350−1420>

〈KSAME>

〈DEMO>

〈VPROSE>

〈TDOCUM>

〈GX>

〈FX>

〈WWRITTEN>

〈XMALE>

B=name of text file Q=text identifier N=name of text A=author

Cニpart of corpus O=date of original M=date of manuscript

Kニcontemporary D=dialect V=verse or prose T=text type

G=relationship to foreign original Fニforeign original

W=relationship to spoke language Xニsex of author

(9)

〈YX>

〈HPROF>

〈UX>

〈EX>

〈JX>

〈IFORMAL>

〈ZX>

〈SSAMPLE X>

Y=age of aut lor Hニsocial rank of author V=audience description E=participant relationship Jニinteraction

I=setting

Z=prototypical text category

S=sample

2.5 コーパス利用の注意点

 コーパスを利用して言語研究を行うのであれば,その研究目的に適したコーパスを当然なが ら選ばなければならない。現代英語の語法研究を行うのであれば,幅広い分野から多くの量の テキストを集めたコーパスが必要である。ここでは,Helsinki CorpusとBrown Corpusの問 題点を考察することによって,コーパス言語学で気をつけなくてはならないことを指摘したい

と思う。

 Helsinki Corpusでは,テキストタイプの設定と分類が妥当であるかがしばしば議論の的と.

なる。ある1つのテキストタイプ(ジャンル)に分類された複数のテキストの質は均質である のか,選ばれたテキストがそのジャンルを代表するものであると言えるのかなどの問題がある。

たまたまある時代のあるテキストに,ある特定の表現・語彙が非常に多く繰り返して用いられ ている場合もあり,純粋に数値の比較だけによる論議は危険だ。14)次に問題となるのはコーパ スの規模である。1,000年間をカバーするには,わずか160万語の規模では必ずしも十分ではな い。時代・ジャンル・作者などのパラメターの設定に従って,各期のテキストをさらに分類し ていくと,選択されるテキストの語数が極端に少なくなり,十分信頼できるデータを得られな いことになる。通時的コーパスを用いる場合には,変異形(variant)にも注意を払わなけれ ばならない。

 Brown Corpusの問題点としてしばしば指摘されるのも,テキストタイプの設定方法だ。表 1中の創作散文KからRの分類に合理的根拠はあるのだろうか。齋藤他(1988:39)では,創 作散文には作家の文体的特性が強い文学作品は避け,日常ありふれた行動や感情が描かれた大 衆小説,娯楽小説をテキストに選べば,詳しいカテゴリーを設ける必要なく語法研究が可能だ と述べられている。また,情報散文の分類も首尾一貫性に欠けている。情報散文はジャンルに よってスタイルが変わることも多く,British National Corpusのように人文・社会・自然科 学の各分野から幅広くテキストデータを集める必要があるだろう。

 これらの留意点は,Helsinki CorpusやCorpusを利用するときだけではなく,コーパス全般 について当てはまることだ。コーパスには綴り字や品詞標識付けが誤っている,スペースがあ るべきところにないなどの問題がある場合があるが,語法研究・言語研究の資料としてコーパ

(10)

スを利用するのが簡単で有益であることは変わらない。

3 コーパスの入手と利用方法

 コーパスは入手の形態によっていくつかに分類される。ここでは代表的なコーパ1の入手方 法と利用方法を見ていく。

3.1 CD−ROM

大容量のコーパスの配布には,CD−ROMを使うのが一般的である。

・ICAME

  コーパスをCD−ROMで入手する場合に代表的なのは, ICAME Collection of English   Language Corpora である。15)この1枚のCD−ROMには, The Brown Corpus, The   Kolhapur Corpus, The LOB Corpus, The Helsinki Corpus of English Texts:

  Diachronic Part, The London・Lund Corpus of Spoken Englishの5つのコーパスが収   録されている。これらのコーパスは単独で購入することもできる。このほかにICAMEか   らCD・ROMで購入できるコーパスは以下の通り:The Helsinki Corpus of Older Scots,

  The Lancaster Parsed Corpus, The Lancaster/IBM Spoken English Corpus   (SEC/MARSEC), Melbourne・Surrey Corpus, The Polytechnic of Wales Corpus

  (PoW)。16)

・The British National Corpus

  現在,EU(欧州連合)内のみでCD−ROMによる配布が行われている。 BNC Online Service   による利用もできる。3.2節参照。

・その他

  Collins COBUILD on CD−ROMは「コウビルド英英辞典」「コウビルド英文法」「コウビ   ルド用法辞典」に加えてThe Bank of Englishから収録した500万語のWord Bankを1枚   のCD−ROMに収録したもので,見出し語7万語,用例が9万例ある。 Collins COBUILD   e−dictは1995年に刊行されたCollins COBUILD EngliSh Di ctionai y second editionに基づ   き7万5千の語句とイディオムを収録してある。Collins COBUILD English Collocations   on CD・ROMは,1万の見出し語と14万のコロケーションを収録し,総用例数は260万に   のぼるCD−ROMである。この他にも百科事典,新聞,文学作品を収めたCD−ROMが多数   輸入され,安価で販売されている。これらをコーパスとして利用することも可能だが,

  2.1.1節での留意点に注意して使用しなくてはならない。聖書,英米文学のCD−ROMには   どのようなものがあるかは筒井(1996)に詳しい。CD・ROM版の辞書をコーパスと見立   てて使用することもできる。1989年に出版されたThe(励γゴZ)ictioua2 Y(second edition)

  のCD−ROM版, OED2−CDがコーパスとしても有効であるという指摘は,齊籐他(1998:

(11)

226・231〕に詳しい。ここでは,OED2−CDはBrown Corpus, LOB Corpus, Helsinki Corpusなどを補完する包括的なコーパスであるととらえ,膨大な用例の活用法,研究方 法,言語学的意味について述べられている。

3.2 オンラインサービス

 代表的なオンラインサービスにはBritish Nationa1 CorpusとBank of Englishがある。

British National Corpusのホームページから Online Service を選択し,現れた画面で Simple Search を選択して検索式を入力すると,最大50例までの用例が示される。また, Bank of EnglishのホームページからはCOBUILD direct(http://titania.cobuild.collins.co.uk/direct_

info、html)にリンクが張られ検索が行えるようになっている。 JAVA対応のブラウザソフト ではクリック操作によって,そうでない場合は,Telnetを使ってコマンドを打ち込んで検索

が行える。1η

障∴_

 ひポピ

・vO::ゥA9頃ぷ、sよa

Z,   fi鼎、f,tveft.費㌍練.桓.一  ..  .

 BANK Es9、usH

Questions 8nd Answer8

Wh●tS t?

T旭・■官⑲fε叩1・・1.・ζOl1穴!FO・O「禰胴O㌔飼mE【91⑨柏前一9●h■d釦師Wlw「。rPtayei・

O「.励●…叩F{r醐戚叩mlngU 1<鳥1●xlteYpm 皐く6「1女い0【1写t−■

子姉扉 How big iS it?

Oo20Jo1⑱1跳ぐ鴨,がt m1● ■o「ぐn●{erPu…t村lol29m川1御冑脚鋼1eξOntr娩鵬10 仲WWP旧ヒ岡ce.●t緬川0oC陶wm■t■戸●1■WChettamlLO−、聞1●、鋲埠鳩s蝋v【

栖が》町IW−1O,《●xI n練酬「er㏄岡1卵博11Cw .1忙●t随∀ttebb1VU Wε『II●h

,・C卜仰(Wl「Ov●川●「τ.mllll.OL「「・ml vre「ぴ馴edtw口1Sは噌川∨旧⊆uπ●【恥●四.【err to・■wL■1LいC●、1yW1dEonCLUt1WW「mCO叩1−5M1⑱1$Of●COtD噺●恒鳩ウ剛【O hW●←が■但t●{1●ヒtheげdl叩…r      A

      角 図1 左:British National Corpusのホームページ(http://info.ox.ac.uk/bnc/)

   右:Bank of EngliStiのホームページ(http://titaniacobuild.collins.co.uk/boe_info.html)

i鍛ぽ£禽飴旦蕊ば込∪

図2 左:British Nationa1 Corpusの検索結果    右:TelnetによるBank of Englishの検索の様子

(12)

図3には,of importanceという表現を用いる場合, importanceに対してどのような形容詞が 用いられるかをBritish National Corpusで検索した結果を示した。該当する2,539例のうち50 例が示される。それをテキストファイルに保存し,コンコーダンス作成ソフト,Concを用い てコンコーダンスを作成したものが図3である。18)全部で26種類の形容詞(比較級・最上級等 は区別しない)の中でもっとも多く生起したものはgreatの5例,続いてfundamental(3例),

considerable, crucial, paramount, particular, primary, prime, public(以上各2例)であった。

which ere ot centrel itnport●nc●to・the・nerrnetiv拍t style.εBM I O 14・The  OS being of gr80t  「肪PO「tenc●. εε9911n tbe毒◎8t d8C6dθs of the ni「)et88「、th

trends of long−term   「杓port●nc●begen to emerge・ EV卜1197 Thts w N be Of  w毒11be Of cn」c161 import●oc●fn 1992 when Cemmen Merket dereguletion leedS    ⑲r80f prtm6rg lmportonc●to the soc圃worker end t畑m6nner of hts work  FgP 1100f spec毒01  mporteRce wes tれ8 decls暮on to un{te the Europeens end   6「re thus of vit」81 tlnport80ce「or nermel 6s well os for obnomol object the Plent is of Prime 1闘⑱Port●nc●in Perfumer葛, though th6t of other iris specie6  SOmething Of greOt  mpOrtOnCe tO the POIitiCel 8CientiSし  FPW 252 ThiS  is of {ncelεU18bl8  1団nトporteRce ter the development of 6r8e}〈6rt and|n generaI O grOWth iSOf CritiCel 1闘情pOrtenCe tOr prediCt重ng fUture COnCentrettOn Of

   }sof gre6t88t  罰npo「t●nc●きn con8umer m6rkets. wh祠e pgr80n616elling i8

図3 British National Corpusからのデータをもとにしたコンコーダンス

3.3 テキストダウンロードとコーパス作成

 コーパスに利用可能なテキストを集めたサイトがインターネット上にいくつもある。代表的 なのは,Oxford University Computing Serviceが1976年以降運営しているOxford Text Archive(OTA)(http://ota.ahds.ac.uk/index.html)である。OTAからは英語とその他の言語 の電子テキストを多数入手できる。この他のテキストダウンロードサイトについては,

Summer lnstitute of Language(SIL)(http://㎜.siLorg/linguistics/etext.html)やCenter for Electronic Texts in the Humanities(CETH)(http://www.ceth.rutgers.edu/information Services/ectrdir.html), Rice UniversityのMichael Barlow氏のホームページ(http://www.

ruf.rice.edu/Nbarlow/corpus.html)などからのリンクを利用するとよい。

 新聞や雑誌の記事もコーパスに利用できる。TIME社(http://www.pathfinder.com/time),

USNews社(http://www.usnews.com/usnews/home.htm)などが無料でデータを公開して いる。放送局の原稿もCNN社(http://www.cm.com/TRANSCRIPTS)やABC News社

(http://abcnews.go.com/onair)などが公開している。有料のものには, LEXIS−NEXIS(http:

//www.lexis・nexis.com/lncc)があり,さらに多くの種類と量の新聞,雑誌,ニュース記事 を入手できる。話し言葉のコーパスの作成のためには,テレビ番組・映画などのシナリオを利

(13)

用することも可能だ。Drew s Scripts−O Rama(http://www.script−o・rama.com)からは600 本以上のシナリオにアクセスが可能となっている。ただし,これらの電子テキストを利用する

ときには,書式・入力ミスがないか,信頼できるものであるかを十分に吟味する必要がある。

 既存の電子テキストがコーパス研究の対象として不十分な場合は,コーパスを自作すること になる。19)現実的には,新聞,書籍,書類,論文から一字一句をキーボードから入力するのは 不可能であり,パーソナルコンピュータに接続したスキャナとOCRソフトが必要である。画 像としてスキャナに取り込まれた文字の形状情報を,文字認識技術を用いて文字としてコン

ピュータに認識させ,テキストファイルに変換するためのソフトウェアがOCR(optical character reader(recognition))ソフトである。近年のOCRソフトは,誤認識も減り,安価 になってきており,特に,英語のように文字数の少ない言語に対しては,ほぼ100%の認識率 となっている。コーパスを自作する場合も,テキストの選定と量についての配慮が必要となる。

3.4 コーパス分析の方法論

 コーパスの具体的な分析方法と調査結果を明確に示すことは,本稿の目的ではない。これら については,参考文献にあげた文献を参考にしてほしい。この節では,コーパス言語学と生成 文法(transformational grammar)の方法論を対比しながら,両者の立場を明らかにしたい。

 Chomsky(1957)の著作に始まる生成文法は現代の言語学で避けては通ることができない存 在である。生成文法は,観察可能な資料のみに基づき,研究者個人の直感を排した機械的な操 作によって,言語の統語・音韻・形態を分析したいわゆるアメリカ構造主義言語学への批判か ら始まったといってもよい。Bloomfield以後のアメリカ構造主義言語学者は,主に急速に死 滅しつつあったアメリカ・インディアンの言語を客観的・体系的に処理しようとした。

Chomskyは,現実の発話を詳細に記録するのではなく,その発話を生み出す人間の体系はど のようなものであるのかに注意を向けなくてはならないと主張した。生成文法の目的は,母語 話者の言語直感(language intuition)をもとに,人間が生まれながらにして持つ言語能力

(competence)を明らかにし,普遍文法(universal grarmnar)の姿を解明することである。

各語の文法である個別文法(pa就icular四㎜ar)はパラメターの設定}こよって説明され る。母語話者の言語直感に依存するという合理主義的な立場をとるので,言語が実際にどのよ うに使われているかの情報(すなわちコーパス)の意義は認めない。Chomskyの考えによれ ば,言語は社会や環境から切り離されるべきであり,ある文が文法的であるかどうかの判断は 話者の直感のみ依存するので,実際の発話における統計的発生確率とは無関係であることにな

る。20)一方,コーパス言語学は生成文法と全く対照的な立場をとる。コーパス言語学では,言 語能力よりも言語運用能力(performance)が重視され,研究を通して得られた知見は,言語 の普遍的特徴(linguistic miversals)というよりはむしろ個別言語の言語記述(linguistic description)である。

 コーパス言語学と生成文法は言語研究に対して異なる方法論をとっているということであっ

(14)

て,どちらがより優れているということではない。生成文法で利用する非文は,当然ながらコ ーパスには存在しない。語彙や語法の統計的研究にコーパスのデータが有用であることはすで に述べたとおりである。このような立場の違いを無視した議論は慎むべきである。

4 まとめ

 この論文では,コーパスとコーパス言語学の全体像と問題点を指摘した。具体的には,代表 的なコーパスの構成を述べ,コーパスを利用した研究を行うときには,常にどのような内容の コーパスであるかを意識しなければならないこと,研究の目的に応じてコーパスのデザインを 考慮しなければならないことを見た。ここでは英語コーパスを題材に議論したが,ここでの主 張は今後,日本語コーパスを構築するときでも十分に考慮しなくてはなら ないことである。発 音のコーパスなど触れられなかったものも多いが,それは別の機会にしたい。

Macintosh, Mac OSの名称はアップルコンピュータの登録商標です。

本論文に記載のホームページのアドレス(URL)は執筆時点のものです。移動・変更・消滅している 場合があります。

各サイト画面の著作権はその作成者に属します。

 1)研究だけではなく,語学教育にも従来の教材とは全く異なった様式のものが提供されている。

   例えば,発音記号をクリックすれば実際の発音が確認できたり,調音器官の動きがアニメーショ    ン映像などによって示されるものもあるし,英会話用のCD−ROMも多くのものが発売されてい    る。

2)コーパスとテキストバンクを区別するのが普通(common)であるという指1商は言い過ぎであ    り,あまり一般的ではない。

 3) London−Lund Corpus(The London−Lund Corpus of Spoken English)はThe Survey of    English Usage(SEU Corpus)の一部から派生したもの。 SEU Corpusは書き言葉と話し言葉    からなる各100万語,計200万語の非電子コーパスである。話し言葉の部分が1975年にSvartvik    (Lund大学)によってLondon・Lund Corpusとして電子化された。これは1953年から1988年の    間に録音された教養あるイギリス英語話者の話し言葉が集めたものであり,その設計は話し言    葉のコーパスのモデル的存在となっている。1つのテキストにつき5,000語が集められ,現在は    100テキスト,計50万語が収録されている。テキスト・カテゴリーの詳細については齊藤他    (1998:23)を参照のこと。SEU(畑usはQuirkを引き継v・だGreenba㎜によってすべて電子    化され,Quirk et al.(1973),(1985)の基礎データとなった。

︶︶45

6

3.4節を参照。

表2中のAからJまでが情報散文,KからRまでが創作散文である。ジャンルの表記はノルウェー のNorwegian Computing Centre for the Humanitiesが配布しているCD・ROM ICAME Collection of English Language Corpora に収録されているファイル「BROWNLST.TXT」

に従っている。このファイルにはテキストの出典,表記上の注意なども記載されている。

Brown CorpusとLOB Corpusのテキスト数はE, F, Gの3つのカテゴリーで異なっている。括 弧内の前半がブラウンコーパス,後半にLOBコーパスのテキスト数を示す:E(36/38), F

(48/44),G(75/77)。したがって総テキストサンプル数は変わらない。

(15)

7)容量は,ICAME CD ROM収録のもので, Brown Corpusで約7MB, LOB Corpusで約11MB   ある。

8) どの作品が選択されたかは,Collins COBUILD English Language DictionaryのCorpus   Ac㎞owledgementsに掲げられている。

9)BNCの構成を示したURLは以下の通り:http://info.ox.ac.uk/bnc/what/balance.h㎞1 10)ARCHER(A Representative Corpus of Historical English Registers)は1650年から1990年の   間の英米の話し言葉と書き言葉を収集した総計約170万語の通時的コーパス。1710年までしか収   録されていないHelsinki Corpusを補完するものとして注目されるが,公開が遅れている。また,

  Helsinki CorpusのME4期以降を補完するものとして,1420年から1680年の間に書かれた個人   的な書簡のコーパスThe Helsinki Corpus of Early English Correspondenceがある。これは   1993年に開始された「社会言語学と言語の歴史」というプロジェクトのためにNevalainenと   Raumolin・Bmnbergによって作成されているコーパスで,現在240万語の規模である。詳細は,

  Nevalainen&Raumolin−Brunberg(1996)を参照のこと。

11)Diachronic Partは basic part と supplementary corpora から構成される。後者は,1450年か   ら1700年までのスコットランド英語を収集した約80万語のHelsinki Corpus of Older ScotSと,

  1620年から1720年までの初期アメリカ英語を収集したThe Corpus of Early American English   (編集中)という地域的変種を考慮したものとなっている。

12)Rissanen et al.(1994,1997a,1997b)を参照のこと。

13)本文中に示したのは,HCM3期の冒頭のテキストファイルに対する情報。 COCOA形式という   名称は,OCP(Oxford Concordance Program)の前身のCOCOAというプログラムがこの形式   を採用していたことに由来する。〈 〉内に情報の種類を示す記号とその情報を入力したもので   ある。本文中では,〈 〉の右側にそれぞれの記号がどのような情報を示しているかを示した。

14)Helsinki Corpusの編者たちによる次の指摘は適切である。彼らは,このコーパスから得られた   結果はあくまでも英語史上の傾向を探るため(diagnostic)なものであり,直ちに定説となり   える(definitive)ものではないと力説している(齊藤他1998:152)。

15)ICAME連絡先:Norwegian Computing Centre for the Humanities, Bergen, Norway.

  (http://www.hd.uib.no/icame.html),(e−mail:icame@hd.uib.no)日本で購入する場合は   ¥108,000(1998年11月現在)。

16)これまでに言及しなかったコーパスについての概要は次の通りである。

  The Lancaster Parsed Corpus:LOBの各カテゴリーから計133,000語分に品詞標識をつけ,構     文解析を行っている。

  The Lancaster/IBM Spoken English Corpus(SEC/MARSEC):現代イギリス英語の話し言葉     約5,300語を集めたコーパス。

  Melboume−Surrey Corpus:オーストラリアの新聞のテキスト約10万語を集めたコーパス。

  The Polytechnic of Wales Corpus(PoW):子どもの話し言葉約61,000語のコーパス。

17)コマンドについては,次を参照のこと:http://titania.cobuild.collins.co.uk/dir㏄t_tutoriaLhtml。

  telnetのホスト名はtitania.cobuild.collins.co.uk。 COBUILD directは有料のサービスであるが,

  WWWとtelnetでは, j で始まる語をデモ版として検索できる。デモ版のログイン名とパスワー   ドはともに,cobdemoである。

18)検索の対象となる語句を中心に図3のように配列する表示形式を,KWIC(Key Word in   Context)形式とよぶ。 Concはコンコーダンスとインデックスの作成の他に,さまざまな検索と   表示が可能であるMacintosh専用のプログラムで,最新バージョンは1.80 beta 3である。

  http://www.sil.org/computing/conc/beta/からダウンロード可能。 Mac OS 8.5(.1)でこのソ   フトウェアを使うとクラッシュするので,同じページから入手可能なType 12 Eliminatorとい   う機能拡張書類をインストールする必要がある。筆者がBritish National Corpusで収集した   コーパスをもとに作成したコンコーダンスでは,制御記号を削除する必要があった。この他の

(16)

  コンコーダンス作成ソフトには,MicroConcord, WordSmith Tools, Corpus Wizard, Word   Cruncherなどがあり,インターネット上で入手できる。SILのホームページ(http://www.si1.org/

  linguistics/computing.html)にはこれら全てがアップロードされている。

19)具体的な方法については,若山・中郷(1999)を参照のこと。

20)また,人間の言語能力は他の能力とも独立した一つの組織体系であると考えられている。これ   を自立性の定立(autonomy thesis)と呼ぶ。

参考文献

赤野一郎・吉村由佳・藤本和子(1991)「Corpus Linguisticsの現在の動向と問題点(1)コーパスとそ   の構築」Studies in EngliSh L ingZtdStics& LiteratZtre 7,1・45.

Biber, D., S. Conrad,& Randi Reppen (1998) Coipus LinguiStics:Investigating Langturge   Stmcture and Use, Cambridge:Cambridge University Press.

Chomsky,N.(1957)Spmtactic Stmctures, The Hague:Mouton.

Crystal, D.(19974)、4 D± ctiona7 y ofLinguiStics and Phonett cs, Oxford:Blackwell.

Edwards, J. A.(1993) Survey of Electronic Corpora and Related Resources for Language   Researchers , in J.Edwards,&M. Lampert(eds.),7雄i㎎、仇紘TranscriPtion and Coding   in Discourse、Rescarch, New Jersey:Lawrence Erlbaum Associates.

後藤 斉(1995)「言語研究のためのデータベースとしてのコーパスの概念について一日本語のコー   パス言語学のために」,東北大学言語学論集4,71・87.

Lawler, J.&H. A. Dry(eds.)(1998)Using Comψuters in LinguiStics:A Practical Guide, London:

  Routledge.

Le㏄h, G.(1991) The State of the Art in Corpus Linguistics , in K. Aij mer&B. Altenberg   (eds.)EngliSh Corpus L inguiStics, London:Longman.

McEnery, T.&A. Wilson(1996)Coiptes LingudStics, Edinburgh:Edinburgh University Press.

Nevalainen, T.&H. Raumolin−Bmnberg(eds.)(1996)SociolinguiStics and、Langucrge琉孟oη:

  Stndies linsed on the Cont,tcs ofE2irly English Correspondence. Amsterdam:Rodopi.

Quirk, R.,S. Greenba㎜, G. Leech,&J. SvartJvik(1972),A鋤沈批γ㎡Coη㈱o励E砿〃,

  London:Longman.

Quirk, R., S. Greenbaum, G. Leech,&J. Svartvik(1985)AComψrehensive Di ctionary of the   EngliSh Langtarge, London:Longman.

Rissanen, M., M. Kyto&K. Heikkonen(eds.)(1997a)EngliSh in Transition, Berlin:Mouton   de Gruyter.

Rissanen, M., M. Kyto&K. Heikkonen(eds.)(1997b)Grammaticalization at Wb沈, Berlin:

  Mouton de Gruyter.

Rissanen, M., M. Kyto&M. Palander・Collin(eds.)(1993)飽γらE㎎/泣仇the Computer Age:

  Etplorations throzrgh the Helsinki Coipms, Berlin:Mouton de Gruyter.

齊藤俊雄・中村純作・赤野一郎(編)(1998)「英語コーパス言語学:理論と実践」,研究社.

鷹家秀史・須賀 廣(1998) 「実践コーパス言語学  英語教師のインターネット活用」,桐原ユニ.

筒井 脩(1996) 「英語学習のためのCD−ROM入門  辞典・聖書・英米文学」,大阪教育図書.

若山真幸・中郷 慶(1999) 「マックを使った言語学」,Ms.,上越教育大学・愛知淑徳短期大学.

参照

関連したドキュメント

られてきている力:,その距離としての性質につ

大学設置基準の大綱化以来,大学における教育 研究水準の維持向上のため,各大学の自己点検評

この説明から,数学的活動の二つの特徴が留意される.一つは,数学の世界と現実の

明治33年8月,小学校令が改正され,それま で,国語科関係では,読書,作文,習字の三教

議論を深めるための参 考値を踏まえて、参考 値を実現するための各 電源の課題が克服さ れた場合のシナリオ

つの表が報告されているが︑その表題を示すと次のとおりである︒ 森秀雄 ︵北海道大学 ・当時︶によって発表されている ︒そこでは ︑五

②立正大学所蔵本のうち、現状で未比定のパーリ語(?)文献については先述の『請来資料目録』に 掲載されているが

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o