第一章 コーパス言語学
1.4. 学習者コーパスとプロジェクト
1.4.3. 代表的な学習者コーパス
英 語 学 習 者 コ ー パ ス の う ち 、 商 業 目 的 の コ ー パ ス と し て 有 名 な の は 、
Longman Learners’ Corpus
とCambridge Learner Corpus
である。Longman Learners’Corpus
は、11
の母語背景を持つさまざまなレベルの学生によって書かれたテクストで構成され、約1000
万語規模となっている。学習者が授業内に書いたもの、テストで書いたもの、辞書 を使ったもの、辞書を使わなかったものなど、テクストの性質は様々である。このコーパ スは辞書編纂者、教材開発者などによって有意義な情報を提供している (McEnery et al.2006 : 66)。 Cambridge Learner Corpus
は、世界中の英語学習者の書き言葉を2000
万 語以上集めたもので、規模は拡大中である。このコーパスはCambridge ESOL English
という試験を受けた学生の試験答案で構成されている。そのためこのコーパスは、Cambridge University Press
の関係者およびCambrodge ESOL
の関係者のみに使用が 限定されている (McEnery et al. 2006 : 66)。教育機関によるコーパスで最も広く知られているものは、ベルギーのルーバンカトリッ ク大学の
Sylvianne Granger
が率いるCentre for English Corpus Linguistics ( CECL )と
いう研究チームが構築したICLE ( International Corpus of Learner English )という学習
者の書き言葉コーパスであろう。ICLE
の学習者の特性はほぼ均一である。これらの学習 者は非英語圏で英語を専攻する20
歳前後の大学2年生から4年生までの学生である。レ ベルはおおよそ上級に分類できる (Granger 2003: 539)。 男女比はおよそ2:8で女性学 習者が大半を占めている。タスクのトピックのほとんどが論証文であり、一つのトピックにつき文の長さの平均は
700
文字程度である (Granger 2003 : 540)。現在入手可能なデー タは、 ブルガリア語、中国語、チェコ語、ドイツ語、フィンランド語、フランス語、ド イツ語、イタリア語、日本語、ノルウェー語、ポーランド語、ロシア語、スペイン語、ス ウェーデン語、ツワナ語、トルコ語の計16
の母語の学習者データで、370 万語である18。 この学習者コーパスの参照コーパスともいえるのが、イギリスの高校生や大学生、そして アメリカの大学生による論証文で構成されているLOCNESS
である。また、ICLE
は1995
年から 話し言葉コーパ スであ るLINDSEI ( Louvain Internationa Databse of Spoken English Interlanguage )の構築および研究も行っている。このコーパスは、11
の 異なる母語をもつ学習者によって産出されたおよそ80
万語のデータから成る (Gilquin etal. 2010)。
また、ある一定の母語話者に限定した学習者コーパスもある。たとえば、香港科学技術 大学 (HKUST)が構築した
HKUST Corpus of Learner English
である。これは、中国人 英語学習者の書き言葉を集めたもので、約1000
万語から構成されている(McEnery2006 : 66)。
日本語学習者に特化した学習者コーパスも存在する。日本では学習者コーパス研究は比 較的早い時期から行われてきた。その草分け的な学習者コーパスであるのが、
JEFLL ( Japanese EFL Learner ) Corpus
である。このコーパスは、日本人英語学習者の異なる 学習段階の自由英作文データを、できるだけ広範囲に大量に収集・コーパス化することを 目的としている(投野 2007 : 7)。このコーパスに含まれるデータは、日本の中学生と高校 生の英語学習者であり、2007年4
月までに約67
万語を公開している(ibid :7)。現在、学習者コーパスの主要プロジェクトでは、上級者のデータ収集が主に行われてい る(投野 2007 : 9)。上級英語学習者による書き言葉コーパスは、SLAの分野において確固 たる地位を築いたことには疑いの余地はない。上級者レベルでは、特に難易度の高い語彙、
談話、単語、語用を扱う必要があり、上級学習者を受け持つ大学の教師にコーパス研究成 果は大きな影響を与えている(Myles 2005 : 388)。 一方、海外の学習者コーパスから、日 本人の英語力のレベルが低いことが分かる。日本人学習者について知りたいと思う語彙や 文法の発達過程は、海外のデータからはほとんど分からない(投野 2007 : 10)。そのため、
JEFLL Corpus
のような日本人学習者に特化したコーパスは貴重であると言える。日本語学習者コーパスについても
2000
年代に入ってから様々なコーパスが構築された。それらの多くは研究目的のコーパスである。たとえば、「日本語学習者による日本語作文 と、その母語役との対訳データベース」は、国立国語研究所の宇佐美洋氏が中心となって 開発を行ったものである19。日本語学習者が書いた
200
字から800
字程度の日本語作文 と、その作文の対訳、そして日本語作文の添削の3
つから構成されている。学習者はア ジア7
カ国の出身者である。また、「上級学習者の日本語作文データベース」と「日本語学習者言語コーパス」20は、
東京外国語大学の海野多枝氏が中心となり開発が行われたものである。「上級学習者の日
18
http://www.uclouvain.be/en-cecl-icle.html
参照19
http://www.ninjal.ac.jp/publication/catalogue/kokken_mado/04/05/を参照した。
20
http://cblle.tufs.ac.jp/llc/ja/index.php?menulang=ja
を参照した本語作文データベース」は、東京外国語学部日本語専攻の留学生で、日本語検定一級を持 つ上級日本語学習者の約
150
名が執筆した作文をデータベース化し、執筆者から承諾の 得られた80
名分の326
の作文をデータ収録したものである。作文の主題は、「友人紹介 文」、「自己紹介文」、「意見文」、「描写文」、「レポート」の5
種類であった(鈴 木・海野 2006)。「日本語学習者言語コーパス」は、海外の教育機関で日本語学習者によ る書き言葉のデータ収集を行ったものである。e ラーニングを活用した作文データ収集に よるコーパス構築を行うことと、作文データ収集およびオンライン誤用辞書を開発するこ との2
つの活動が実施された。データは、台湾、イギリス、ウクライナで収集された。また、作文データにパラレルデータとして、日本語母語話者のデータも収集されている。
データ収集の際、被験者は機能タスクと日記タスクを行った。e ラーニングを活用した作 文データの規模は
87000
字、誤用辞書のための作文データの規模は約20
万字である。フランス語学習者コーパスは、英語や日本語と比べると数は圧倒的に少ない。フランス 語学習者コーパスの一つとして、
The Lund CEFLE Corpus ( Corpus Ecrit de Français
Langue Etrangère )が挙げられる。これは、
スウェーデンでフランス語を学習する高校生
85
人による書き言葉テクストのコーパスである。このコーパス構築の狙いは、書き言 葉の産出における形態統語的発達を分析することである。コーパスは、習熟度の異なるス ウェーデン語を母語にするフランス語学習者が書いたテクストと、統制グループとしてフ ランス語母語話者が書いたテクストと2タイプのテクストで構成されている。学習者は英 語の上級学習者でもあり、フランス語は学習者の第二、第三言語にあたる。2003-2004 年度を通しておおよそ400
テクストが集められ、総語数は約10
万語にのぼる。1年の間 で、2ヶ月おきに各学習者はフランス語で4
つのテクストを書いた。なお、第一回のライ ティングタスクを行った際、学習者のフランス語学習歴は1
年であった。統制群の22
名 のフランス語母語話者は、スウェーデン人学習者と同年代で、学習者と全く同じタスクを 行った。タスクは、全参加者からできるだけ自然なデータを引き出せるよう、設計されて いる。連続する絵をもとにして描写するタスクと、個人の経験をもとにした作文タスクの2
種類のタスクタイプがある。描写タスクには、 « L’homme sur l’île »と « le voyage enItalie »という題材を使用し、作文タスクには « Moi, ma famille et mes amis »と « un souvenir de voyage »というテーマを与えた。学習者はプレーンテクスト形式を使用して、
パソコンで作文を書いた(Granfeldt et al. 2006: 565)。Granfeldt et al. (2006)は、イタリ ア旅行に関する作文タスクを基に学習者の横断的言語分析を行い、
Direkt Profil(DP)
を使 用して学習者を分類した。DP とは、形態統語的観点によってstage 1 (初級)、stage 2 (初級後期)、stage 3 (中級)、stage 4 (上級)と 4
つにレベル分けされた評価基準から学習 者が発するテクストの習熟度を診断するシステムである。DP
は、テクストのトークン化、句や文の文法注釈の付与、レマや品詞などのタグ付与、学習段階に特徴的な構造数のカウ ントなどの機能を持つ。