第一章 コーパス言語学
1.4. 学習者コーパスとプロジェクト
1.4.1. コーパス登場以前の中間言語研究
言語を学ぶ過程にある第二言語学習者や外国語学習者が産出する言語のタイプは中間言 語と呼ばれている。中間言語という概念は、Selinker が
1969
年と1972
年に提唱したも のである。この概念は、中間言語は母語にも目標言語にも属さない流動的な言語体系であ り、独自の言語体系を持つという考えに起因している。そして、学習者と母語話者が同じ 意味について言語産出する際、多くの場合学習者によって産出された言語は、母語話者に よって産出された言語とは異なっている(Selinker 1972: 214)。また、外国語学習の過程 は、中間言語の連続体上における学習者の発達であると考えられている。つまり、外国語 に対する知識が全くないという段階から、目標言語の母語話者と同じとは言わなくともそ れに近い能力を持っているという段階までの連続体の上で、学習者の発達が記述されるこ とが多い (Laufer 1998: 255)。図 2 中間言語
中間言語研究はもちろん、学習者コーパスの登場以前にも行われていた。中間言語研究 を行うためには、学習者の産出言語を分析する必要がある。Ellis (1994: 670)は、中間言 語研究におけるデータの種類について、以下のような分類を行っている:
図 3 中間言語分析におけるデータの種類 (Ellis 1994:670) 中間言語
知識ゼロ 規範
まず、「言語使用データ」、「メタ言語判断データ」、そして「セルフレポートデータ」
の
3
つに分類されている(Ellis 1994: 670)。1)
「言語使用データ」学習者の理解面、産出面の両方における目標言語の使用データを指している。
さらにこのタイプのデータは、「非誘導型」と「誘導型言語使用」に分けられて いる。前者は、学習環境ではなく、学習者が目標言語でコミュニケーションを遂 行している際の言語使用を指す。後者は「臨床的抽出」と「実験的抽出」に下位 分類されている。「臨床的抽出」とは、インタビュー、インフォメーションギャ ップタスク、ロールプレイングなどを通して学習者にデータを産出させる方法で、
「実験的抽出」は研究者の興味がある特定の箇所について、学習者にデータを産 出させる方法である。
2)
「メタ言語判断データ」文法性判断テストなどによって抽出される。たとえば、学習者に文法性を判断 させ、学習者の外国語における直感を引き出す。
3)
「セルフレポートデータ」学習者が使用するストラテジーや解決法について質問紙、インタビュー、思考 表出法などのタスクによって抽出されるデータである。
学習者の言語産出データには、このようにいろいろな種類があるが、近年の
SLA
研究 で一般的に収集されてきたデータは内省データであるだろう。これは、Ellis の分類の「メタ言語判断データ」と「セルフレポートデータ」と「言語使用データ」の「誘導型」
データに相当する(Granger 1998: 4)。
このような手法を用いて
1960
年代後半から1970
年代には、特にエラー分析が頻繁に 行われていた。しかし、このような内省や誘出型のデータによるエラー分析には限界があ る。まず、このような方法ではあらかじめ設定されていた問題点についてしか分析を行う ことができない。そしてエラー分析のデータ収集は多くの場合、体系的に行われておらず、学習者についての詳細やデータ収集が行われた環境についての詳細はほとんど記録されて いなかった。また、データ収集はエラーの収集としてしか見なされておらず、エラーを誘 発できた後にデータが消去されてしまうことが多かった。したがって、テクストタイプ、
テクストの長さに関する情報は失われ、エラーが起こったコンテクストに関しても、多く の場合は入手不可能であったため、分析結果の確認や再分析は不可能であった。そして、
学習者が正しく発したものに関しては通常研究対象にはならず、エラーが絶対的で、学習 者がどれくらいの頻度で正しい構造や正しい要素を発しているかという現象とも比較する ことができなかった。また、伝統的なエラー分析で使用されるテクストは、コンピュータ 化されていなかった(Nesselhauf 2005: 40-41)。なによりも、学習者のエラーを分類する ことは、時間がかかる上に無益なことが多い。なぜなら、エラーを分類する方法は多数あ り、研究目的や関連する理論によるからである。また、エラー分類は依拠する理論にのみ にしか適応されないことも多い。そして、人によってエラーに関する観点が異なるため、
採点者間信頼性も低くなる (Tono 2003: 801)。エラー分析だけでは、学習者言語の外国語
らしさについて明確に説明できないことも多い。たとえば、学習者によるフランス語会話 はしばしば、明確な文法エラーがないのにも関わらず、母語話者に違和感を抱かせること がある。その外国語らしさの理由について母語話者が明らかな説明を行うことも困難な場 合がある。たとえば
Debrock et al. (1999 : 47)は、エラーではない外国語らしさについて
以下のような例を挙げている。1)
口頭による会話なのにもかかわらず、学習者が書き言葉で話す場合2)
インタラクションが足らない場合で、その理由が目標言語の言語規則を習得して いるか否かという問題によらない場合3)
会話が直接的すぎる場合さらに、実験による言語環境は人工的で、学習者が普段自然に使う言語とは異なる言語 を産出する場合がある。そして、制限された実験的な誘出法のため、SLA 研究者は限定 的な実験的研究を行う傾向にあり、限られた被験者から結果を一般化することはできない。
そのため、良質で大規模な言語データが必要となる(Granger 1998:5)。
このような言語データとして挙げられるのが、学習者コーパスである。学習者コーパス は「自然言語データ」として分類できると一般的に考えられる。前述の通り、「自然言語 データ」は積極的に
SLA
研究に用いられてこなかったが、これには以下のような理由に 起因している(Granger 1998:4-5)。1)
興味の対象となったある特定の言語特徴のなかには頻度が低いものがあることよ り、誘出せざるをえなかったため。2)
言語使用に影響を与える変数が統制できないことより、体系的にこれらの変数の 影響を観察することができないため。3)
学習者は、最も自信のある表現しか使わないので、自然言語データは学習者の言 語能力の全体像を明らかにすることはできないため。しかし、上記の問題点が指摘されているにせよ、枠組みのしっかりした規模の大きな学 習者コーパスであればこれらの批判にはある程度対応できる。この点については後述する。
したがって、「自然言語データ」に基づいて研究を行う意義は大きい。なにしろ、「自然 言語データ」を使用することの大きな利点の一つは、学習者が目標言語でコミュニケーシ ョンを行う際に、目標言語の知識を使用して実際に産出しているデータを入手することが できるということである (Ellis 1994 : 671)。
しかし、注意しなければならないのは、コーパスは純粋な「自然言語データ」とは言え ない場合もあるということである。たとえば、外国語学習環境において日常生活で目標言 語が使用されていない場合、そもそも目標言語で会話を行うことは「不自然」である。ま た、会話のトピックやタスクが制約されている場合も、完全な「自然言語データ」である とは言えない。つまり、コーパスの構築環境によっては、「自然言語データ」と「臨床的 抽出データ」の中間として、コーパスデータが分類されることもあるだろう。また、学習 者コーパス内のデータに基づいた学習者の能力に関する分析結果は推論にすぎないと言う
点も注意すべき点である。つまり、学習者のパフォーマンスのみが調査可能であり、学習 者の知識や能力について調査することはできない。ある特性が見られた場合、それが学習 者の能力の現れであるのかどうか、学習者が意図したものを正しく発することができなか った時、そのことに学習者自身が気づいているのか、疑問に思っているのかどうかについ ては、学習者コーパスデータからは断定することができない。また、学習者コーパスデー タ分析では、産出面に関する分析を可能にするが、受容面については分析を行うことがで きない。そして、学習者コーパス分析は誘因テストと比べて問題の焦点が鮮明ではない。
研究者が興味のある特性の使用について、コーパスに十分にその特性が含まれないことに より、有効な議論を行えないこともありうる(Nesselhauf 2005: 41-42)。そのような不確 かさを排除するためには、コーパスで何を分析することができ、何ができないのかについ てを知り、コーパス分析において正しい測定方法を選択する必要がある。