代表的な学習者コーパス

第一章コーパス言語学

１.４. 学習者コーパスとプロジェクト

１.４.３. 代表的な学習者コーパス

英語学習者コーパスのうち、商業目的のコーパスとして有名なのは、

Longman Learners’ Corpus

と

Cambridge Learner Corpus

である。

Longman Learners’Corpus

は、

11

の母語背景を持つさまざまなレベルの学生によって書かれたテクストで構成され、約

1000

万語規模となっている。学習者が授業内に書いたもの、テストで書いたもの、辞書を使ったもの、辞書を使わなかったものなど、テクストの性質は様々である。このコーパスは辞書編纂者、教材開発者などによって有意義な情報を提供している (McEnery et al.

2006 : 66)。 Cambridge Learner Corpus

は、世界中の英語学習者の書き言葉を

2000

万語以上集めたもので、規模は拡大中である。このコーパスは

Cambridge ESOL English

という試験を受けた学生の試験答案で構成されている。そのためこのコーパスは、

Cambridge University Press

の関係者および

Cambrodge ESOL

の関係者のみに使用が限定されている (McEnery et al. 2006 : 66)。

教育機関によるコーパスで最も広く知られているものは、ベルギーのルーバンカトリック大学の

Sylvianne Granger

が率いる

Centre for English Corpus Linguistics ( CECL )と

いう研究チームが構築した

ICLE ( International Corpus of Learner English )という学習

者の書き言葉コーパスであろう。

ICLE

の学習者の特性はほぼ均一である。これらの学習者は非英語圏で英語を専攻する

20

歳前後の大学２年生から４年生までの学生である。レベルはおおよそ上級に分類できる (Granger 2003: 539)。男女比はおよそ２：８で女性学習者が大半を占めている。タスクのトピックのほとんどが論証文であり、一つのトピック

につき文の長さの平均は

700

文字程度である (Granger 2003 : 540)。現在入手可能なデータは、ブルガリア語、中国語、チェコ語、ドイツ語、フィンランド語、フランス語、ドイツ語、イタリア語、日本語、ノルウェー語、ポーランド語、ロシア語、スペイン語、スウェーデン語、ツワナ語、トルコ語の計

16

の母語の学習者データで、370 万語である¹⁸。この学習者コーパスの参照コーパスともいえるのが、イギリスの高校生や大学生、そしてアメリカの大学生による論証文で構成されている

LOCNESS

である。また、

ICLE

は

1995

年から話し言葉コーパスである

LINDSEI ( Louvain Internationa Databse of Spoken English Interlanguage )の構築および研究も行っている。このコーパスは、11

の異なる母語をもつ学習者によって産出されたおよそ

80

万語のデータから成る (Gilquin et

al. 2010)。

また、ある一定の母語話者に限定した学習者コーパスもある。たとえば、香港科学技術大学 (HKUST)が構築した

HKUST Corpus of Learner English

である。これは、中国人英語学習者の書き言葉を集めたもので、約

1000

万語から構成されている(McEnery

2006 : 66)。

日本語学習者に特化した学習者コーパスも存在する。日本では学習者コーパス研究は比較的早い時期から行われてきた。その草分け的な学習者コーパスであるのが、

JEFLL ( Japanese EFL Learner ) Corpus

である。このコーパスは、日本人英語学習者の異なる学習段階の自由英作文データを、できるだけ広範囲に大量に収集・コーパス化することを目的としている(投野 2007 : 7)。このコーパスに含まれるデータは、日本の中学生と高校生の英語学習者であり、2007年

4

月までに約

67

万語を公開している(ibid :7)。

現在、学習者コーパスの主要プロジェクトでは、上級者のデータ収集が主に行われている(投野 2007 : 9)。上級英語学習者による書き言葉コーパスは、SLAの分野において確固たる地位を築いたことには疑いの余地はない。上級者レベルでは、特に難易度の高い語彙、

談話、単語、語用を扱う必要があり、上級学習者を受け持つ大学の教師にコーパス研究成果は大きな影響を与えている(Myles 2005 : 388)。一方、海外の学習者コーパスから、日本人の英語力のレベルが低いことが分かる。日本人学習者について知りたいと思う語彙や文法の発達過程は、海外のデータからはほとんど分からない(投野 2007 : 10)。そのため、

JEFLL Corpus

のような日本人学習者に特化したコーパスは貴重であると言える。

日本語学習者コーパスについても

2000

年代に入ってから様々なコーパスが構築された。

それらの多くは研究目的のコーパスである。たとえば、「日本語学習者による日本語作文と、その母語役との対訳データベース」は、国立国語研究所の宇佐美洋氏が中心となって開発を行ったものである¹⁹。日本語学習者が書いた

200

字から

800

字程度の日本語作文と、その作文の対訳、そして日本語作文の添削の

3

つから構成されている。学習者はアジア

7

カ国の出身者である。

また、「上級学習者の日本語作文データベース」と「日本語学習者言語コーパス」²⁰は、

東京外国語大学の海野多枝氏が中心となり開発が行われたものである。「上級学習者の日

http://www.uclouvain.be/en-cecl-icle.html

参照

http://www.ninjal.ac.jp/publication/catalogue/kokken_mado/04/05/を参照した。

http://cblle.tufs.ac.jp/llc/ja/index.php?menulang=ja

を参照した

本語作文データベース」は、東京外国語学部日本語専攻の留学生で、日本語検定一級を持つ上級日本語学習者の約

150

名が執筆した作文をデータベース化し、執筆者から承諾の得られた

80

名分の

326

の作文をデータ収録したものである。作文の主題は、「友人紹介文」、「自己紹介文」、「意見文」、「描写文」、「レポート」の

5

種類であった(鈴木・海野 2006)。「日本語学習者言語コーパス」は、海外の教育機関で日本語学習者による書き言葉のデータ収集を行ったものである。e ラーニングを活用した作文データ収集によるコーパス構築を行うことと、作文データ収集およびオンライン誤用辞書を開発することの

2

つの活動が実施された。データは、台湾、イギリス、ウクライナで収集された。

また、作文データにパラレルデータとして、日本語母語話者のデータも収集されている。

データ収集の際、被験者は機能タスクと日記タスクを行った。e ラーニングを活用した作文データの規模は

87000

字、誤用辞書のための作文データの規模は約

20

万字である。

フランス語学習者コーパスは、英語や日本語と比べると数は圧倒的に少ない。フランス語学習者コーパスの一つとして、

The Lund CEFLE Corpus ( Corpus Ecrit de Français

Langue Etrangère )が挙げられる。これは、

スウェーデンでフランス語を学習する高校

生

85

人による書き言葉テクストのコーパスである。このコーパス構築の狙いは、書き言葉の産出における形態統語的発達を分析することである。コーパスは、習熟度の異なるスウェーデン語を母語にするフランス語学習者が書いたテクストと、統制グループとしてフランス語母語話者が書いたテクストと２タイプのテクストで構成されている。学習者は英語の上級学習者でもあり、フランス語は学習者の第二、第三言語にあたる。2003-2004 年度を通しておおよそ

400

テクストが集められ、総語数は約

10

万語にのぼる。1年の間で、2ヶ月おきに各学習者はフランス語で

4

つのテクストを書いた。なお、第一回のライティングタスクを行った際、学習者のフランス語学習歴は

1

年であった。統制群の

22

名のフランス語母語話者は、スウェーデン人学習者と同年代で、学習者と全く同じタスクを行った。タスクは、全参加者からできるだけ自然なデータを引き出せるよう、設計されている。連続する絵をもとにして描写するタスクと、個人の経験をもとにした作文タスクの

2

種類のタスクタイプがある。描写タスクには、 « L’homme sur l’île »と « le voyage en

Italie »という題材を使用し、作文タスクには « Moi, ma famille et mes amis »と « un souvenir de voyage »というテーマを与えた。学習者はプレーンテクスト形式を使用して、

パソコンで作文を書いた(Granfeldt et al. 2006: 565)。Granfeldt et al. (2006)は、イタリア旅行に関する作文タスクを基に学習者の横断的言語分析を行い、

Direkt Profil(DP)

^を使用して学習者を分類した。DP とは、形態統語的観点によって

stage 1 (初級)、stage 2 (初級後期)、stage 3 (中級)、stage 4 (上級)と 4

つにレベル分けされた評価基準から学習者が発するテクストの習熟度を診断するシステムである。

DP

は、テクストのトークン化、

句や文の文法注釈の付与、レマや品詞などのタグ付与、学習段階に特徴的な構造数のカウントなどの機能を持つ。

ドキュメント内 Doctoral Thesis (Tokyo University of Foreign Studies) (ページ 42-45)

第一章 コーパス言語学

１.４. 学習者コーパスとプロジェクト

１.４.３. 代表的な学習者コーパス

Longman Learners’ Corpus

Cambridge Learner Corpus

Longman Learners’Corpus

11

1000

2006 : 66)。 Cambridge Learner Corpus

2000

Cambridge ESOL English

Cambridge University Press

Cambrodge ESOL

Sylvianne Granger

Centre for English Corpus Linguistics ( CECL )と

ICLE ( International Corpus of Learner English )という学習

ICLE

20

700

16

LOCNESS

ICLE

1995

LINDSEI ( Louvain Internationa Databse of Spoken English Interlanguage )の構築および研究も行っている。このコーパスは、11

80

al. 2010)。

HKUST Corpus of Learner English

1000

2006 : 66)。

JEFLL ( Japanese EFL Learner ) Corpus

4

67

JEFLL Corpus

2000

200

800

3

7

http://www.uclouvain.be/en-cecl-icle.html

http://www.ninjal.ac.jp/publication/catalogue/kokken_mado/04/05/を参照した。

http://cblle.tufs.ac.jp/llc/ja/index.php?menulang=ja

150

80

326

5

2

87000

20

The Lund CEFLE Corpus ( Corpus Ecrit de Français

Langue Etrangère )が挙げられる。これは、

85

400

10

4

1

22

2

Italie »という題材を使用し、作文タスクには « Moi, ma famille et mes amis »と « un souvenir de voyage »というテーマを与えた。学習者はプレーンテクスト形式を使用して、

Direkt Profil(DP)

stage 1 (初級)、stage 2 (初級後期)、stage 3 (中級)、stage 4 (上級)と 4

DP

第一章コーパス言語学