◎論説辞書のゆくえ
コ ー パ K ¶11II 語 学 か ら 見 た 日 本 語 研 究 と 辞 書 編 纂
中日対訳コーパスの構築とその応用研究をめぐって徐平
はじめに ・・⁝
二〇世紀九〇年代から︑コンピューター・テクノロジー
の飛躍的な発展により︑自然科学はもとより︑人文科学の
諸分野でも思考革新や手段更新が急速に進んできている︒
特に自然科学に近いと言われる言語研究の分野において
は︑コンピューター・コーパスによる新しい言語研究の方
法︑つまりコーパス言語学がついに言語学界に認められ︑
数多くの研究者に愛用されるようになり︑二一世紀の言語
研究はコーパス言語学抜きでは語れないという現象さえ生 まれてきているのである︒そして︑多くの研究者の努力に
より︑大型コーパスも次々と完成されている︒その代表的
なものをあげると︑例えば︑時代の早いものとして︑欧米
では二〇世紀の六〇年代からコーパスが構築され︑八〇年
代になるとすでに大規模なコーパスが完成されている︒
Brownn^‑パスやイギリスの国家コーパスなどはそのすば
らしいものである︒そして︑中国や日本あるいは韓国にお
いても欧米に次いで大型コーパスが開発されている︒
本稿ではコーパろ言語学の理論と立場を踏まえ︑中国と
日本における日本語と中国語コーパスの作成と利用の状況
および成果を紹介し︑また筆者が所属している北京日本学
コーパ ス言語学か ら見た 日本語研究 と辞書編纂
IO$
研究センターが開発した﹁中日対訳コーパス﹂の構築とそ
の応用研究をめぐって︑それがどのように日本語研究に関
わっているのかということを考えながら論を進めていきた
いと思う︒ 質的な言語モデルのみならず︑数量的な言語モデルにも
中心を置く︒
言語研究における合理主義的な立場よりも経験主義的な
立場に中心を置く︒
io6
コーパス言語学とコーパスの構築
e世界におけるコーパス言語学の発展
コーパK(Corpus)という術語は︑最初の定義は﹁言語
分析のための言語資料の集積﹂であったが(中国語訳の﹁語料庫﹂は正にその本来の意味が訳し出されている)︑最
近はコンピューター処理の可能な言語資料の集積という意
味︑つまり﹁コンピューター・コーパス﹂や﹁電子コーパ
ス﹂と同義に使われるようになっている︒このコンピユー
ター処理の可能なコーパスに基づいて言語研究を行う学科
は︑﹁コーパス言語学﹂と称され︑言語研究の新しい研究
法と研究分野の一つとして発展しつつある︒その特徴は
Leech[1992]によれば次の通りである︒
言語能力よりも言語運用能力に中心を置く︒
言語の普遍的特性の解明よりも個別言語の言語記述に中
心を置く︒ つまり︑コーパスを駆使して行われるコーパろ言語学の
研究はチョムスキーを代表とする合理主義的な言語研究法
とは対照的なもので︑一種の経験主義的な言語研究法だと
いう解釈である︒情報化社会の到来により︑ますます大規
模な言語データを処理しなければならないという状況か
ら︑自然言語処理の研究により緊迫した課題が出されてい
る︒また言語理論の研究においても︑研究者の内省による
言語データに頼ってしかできない研究もますます難しく
なってきているため︑最近︑いわゆるコーパス言語学的な
研究法は︑記述言語学や機能文法など経験主義的な立場を
とる研究者だけでなく︑構文文法や生成文法などの合理主
義的な学者にまで援用されるほど︑言語学界での一つの流
れになりつつある︒コンピューターが日増しに普及しつつ
ある今日の情報化社会においては︑コーパスとコーパス言
語学はもはやわれわれの言語研究や語学教育に縁遠いもの
ではなく︑むしろ大いに取り入れるべきものになっている
のである︒
ただ︑他の言語学に比べれば︑コーパろ言語学は現在︑
まだコーパスの作成法と利用法に研究の重点を置く段階
で︑少し遅れていると言えよう︒
作成法に関する研究には︑コーパスの規模や種類(サン
プル型とモニター型︑汎用型と特殊型︑共時型と通時型︑
話し言葉型と文章語型︑文字型と音声型︑単一言語型と複
数言語の対訳型など)︑構造デザイン︑言語の処理機能と
情報付与などの問題解決がその課題になっている︒
利用法に関する研究には︑利用目的︑分野別(語彙︑文
法︑文体︑言語史︑対照研究)利用法︑関連分野(辞書
学︑語学教育︑翻訳学︑文化学︑インターネット)への応
用などの課題がある︒特に最近注目されているのは︑学習
者コーパスの利用で︑それを使って学習者の言語使用状況
を把握することができ︑第二言語習得の教育現場で応用さ
れつつある︒日本語教育者にとっては︑常に日本語の実態
を把握する必要があり︑大量の言語デi夕を調査しなけれ
ばならない︒コーパスがなかった時代には︑それはすべて
手作業のカード式で行われていて︑短時間で対象の必要に
応じた用例収集はほとんど不可能に近い作業であった︒ま
た︑中国人日本語教育者のように︑自分の母語ではない者
にとっては︑反省に頼れない用例の収集はさらに困難な作
業であった︒コーパスの出現により︑これらの作業がいと
も簡単にできるようになった︒豊富な実例をもたらすコー
パスの完成は︑まさにテクノロジーの進歩であり︑言語研 究と言語教育にとってはすばらしい福音になるであろう︒
上記のような課題に応えることができるコーパスを作る
には︑言語工学者のみならず︑一般の言語学者や教育者の
参加と互いの協力が必要となってくる︒それがあって初め
て理想的なコーパスを立派に完成できるのであろう︒
コーパスQ11II,,,afir},は初期6̀SEU(SurveyofEnglish
Usage,一九五九年)など先駆的なものから︑最初の機械
可読なBrown大型コー°'K(1九六四年)を経て︑現在
は大規模化︑情報付与の再加工︑多様化と複数言語化の時
代を迎えているが︑いずれもコーパスの作成法と利用法が
それぞれのコーパス開発の研究課題の中心であった︒もち
ろん︑コーパスによって新しい言語規則と理論を構築する
という試みも大変重要な研究課題だと研究者たちも分かっ
ているのだが︑現段階ではまだ十分な条件が整っておら
ず︑多少の研究が行われてもわずかの成果しか得られない
のが現実であろう︒しかし︑コーパス言語学は︑言語学と
いう以上︑言語理論の発展への貢献もなければならない︒
おそらくコーパろ言語学に努力している全員がそう願って
いるであろう︒今後作成法と利用法の研究がさらに進み︑
コーパスの普及と利用が拡大するにしたがって︑研究の中
心も必ず徐々にそちらのほうへと移っていくのであろう︒
コーパ ス言語学 か ら見た 日本語研究 と辞書編纂
置07
口日本と中国におけるコーパスの構築と利用
日本語と中国語のコーパス構築や応用は欧米に遅れを
取ってはいるものの︑コーパス言語学の発展とともに︑そ
れなりの経験と成果が見られた︒特に最近その発展は著し
く︑欧米に劣らない大型コーパスの開発構築とその応用研
究が盛んに行われている︒
まず︑日本では︑国立国語研究所(現独立行政法人国立
国語研究所)の言語資料集・データ集とそれに基づいた研
究成果および機械処理の成果が先駆的な貢献としてあげら
れる︒日本で最初に電子計算機を言語研究に導入したのは
国立国語研究所であるが︑そこで﹁新聞記事データベー
ス﹂﹁高校教科書データ集﹂﹁話し言葉データ集﹂や﹁国定
読本用語総覧OU肉○と版﹂﹁日本語学習者による日本語
作文データベース﹂などのコーパスが開発されている︒特
に最近公開されている﹁現代日本語書き言葉均衡コーパ
ス﹂は︑書籍約三千万語(一万四二一ニサンプル︑プレーン
テキスト/XMLファイル)︑白書約四八〇万語(一五〇
〇サンプル︑プレーンテキスト/XMLファイル)︑
Yahoo1知恵袋約五二〇万語(四万五七二五サンプル︑プ
レーンテキスト)︑国会会議録約四九〇万語(一五九サン
プル︑プレーンテキスト)などを収録し︑ファイルの形式
は︑プレーンテキスト(タグなし)およびXMLファイル (タグあり)になっており︑現段階では日本語として最も
大規模なコーパスになっているのである︒そのほかに三省
堂から出版された﹁国定読本用語総覧CD‑ROM版﹂に
は︑一九〇四年四月から一九四九年三月までの間に使用さ
れた文部省著作の小学校用国語教科書六種の全文内容が電
子化されており︑用例塁O︑語彙表︑用例データベー
ス検索プログラムなどが載せてあり︑日本語研究や教科書
研究への利用が期待されている︒また︑文部科学省助成の
大型プロジェクトである日本方言データベースも多数の学
者の共同研究により完成し︑その成果は二二枚もの07
ROMで公開されている︒
さらに中国語に関しては︑大阪外国語大学中国語学科
(現大阪大学外国語学部)で公開された中国語コーパスが
知られている︒
その他︑情報処理振興事業協会が公開したIPAnーパ
ス︑新情報処理開発機構が公開したRWCテキストデータ
ペース(形態素解析済み日本語コーパス)︑国際電気通信
基礎技術研究所が開発したATR対話データベース(日英
対訳コーパス)"CD‑ROM毎日新聞(データ集)︑朝日新
聞全文記事Ω﹀閃O竃︑読売新聞︑中日新聞︑日本経済新
聞など各種新聞コーパスも知られているが︑一般研究者に
多く使われているのは朝日新聞記事OU弟O竃であった︒
その成果は遠藤ロゆ8]︑近藤ロ℃Oい]"後藤[1993]︑荻野
IOg