テスト形式

第二章語レベルの研究 –Word Units 研究−

２.２. 語彙リスト開発の歴史

２.５.２. テスト形式

一般的な語彙テスト形式としては、これまでテスト項目に対応する意味を選択する手法が多くとられてきた。つまり、語彙の受容知識の測定である。たしかに受容語彙の測定は興味深いものであり、受容語彙と産出語彙は密接に関連していると考えられるが、受容語彙の測定だけでは学習者の産出能力の正しい根拠にはならない (David 2008 : 317)。たとえば、学習者がある語彙について最も使用されている意味の知識があるからといって、必ずしも学習者がそれを的確に使用できるということとは直結しない (Bogaards and

Laufer 2004: x)。そこで、目標言語から母語への翻訳や、また逆に母語から目標言語の

翻訳を行うことで語彙産出知識の測定を促す方法もある。しかし、翻訳を使用する語彙能力の測定は、受容認識基準のみを使用するテストに比べて評価が低くなることが分かっている (Milton 2009 : 14)。

語彙サイズテストの開発や応用が進んでいるのに対して、語彙能力の質に関する測定はあまり進んでいない。なぜなら、第二言語習得分析では主として、語彙の深さよりも語彙の広さを測定してきたからである (Vermeer 2001 : 218)。伝統的に行われてきた語彙の測定は、語彙の側面のごく一部しか反映していないため、語彙能力全般についてはまだ分かっていないことが多い。語彙能力の質をテストする場合、語彙の書記形と語彙の意味と

しかし CANCODE コーパスや BNC

などの大規模コーパス分析の結果、2000語以上が要求される可能性も指摘さ

れている。

を一致させる手法が多くとられているが、それらの単語がどのように発音されどのように綴られるか、形態は何か、統語的にどのように機能するか、頻度はどれくらいなのか、社会言語学的に適切に使用することができるかなど、学習者の語彙目録に実際にそれらの単語が機能的な単位として取り込まれているのかどうかも調査する必要がある(Read 2007 :

113)。

このように、語彙の測定にむけてどのように辞書から語彙サンプルを抽出するのか、語彙を知っているのか知らないのかどうかをどのようにテストすればよいのか、という深刻な手法的問題が残っている。これらの疑問に対して十分な答えが得られていないため、語彙サイズに関する研究結果には整合性がなく、時には誤った結果が発表されていることもあった (Nation and Warning 1997 : 7)。また多くの場合、語の定義が曖昧な場合も多い。

学習者が必要とする語彙能力の種類を反映するような勘定単位を選択する必要がある

(Nation and Meara 2002: 35)。

２.６．語彙の豊かさとその測定法

過剰使用と過少使用の他にも、語彙の測定として「語彙の豊かさ」という指標がしばしば用いられる。外国語能力を測定するのに、語彙の豊かさを利用する利点は多くある。

まず、言語サンプル内で使用される全ての単語が分析対象となることである。また、自然な環境に近いコンテクストで発せられたテクストについての分析が可能となる

(Treffers-Daller 2010: 5)。つまり、学習者コーパスを分析することで、直接学習者の産出語彙知識

を分析することができると考えられる。よって、コミュニケーション重視の学習に対して正しい評価を行うことができると期待できる。

それでは、語彙の豊かさを測定するにはどのような測定の観点があるのだろうか。

Laufer and Nation (1995: 309-310)は、語彙の豊かさとして 1) 語彙の独創性 ; 2) 語彙

密度 ; 3) 語彙の洗練性 ; 4) 語彙の多様性の４点を挙げている。

1)

語彙の独創性；

ある調査対象が使用した語彙と、その他のグループメンバーが使用した語彙との比較。

2)

語彙密度；

基本的にテクスト内の名詞、動詞、形容詞、副詞などの内容語の割合のことであり、内容語数を作文内の総語数で割ることによって求められる。つまり、情報を主に伝達するのが内容語であることから、内容語と機能語を合わせた総語数に対して内容語を多く含んでいれば、テクストの密度は濃いと判断される。また

Johansson(2008 : 65)は、語彙密度の分析と情報パッケージの概念との関連を指

摘している。つまり、内容語の割合が高いテクストは、機能語の割合が高いテクストよりもより情報量が多いということである。

3)

語彙の洗練性；

テクスト内の「上級語」の割合。一般的に上級語は低頻度語であると考えられている。

4)

語彙の多様性

テクスト内のトークン数に対するタイプ数の割合。タイプとトークンの関係を計算する方法は、時とともに進化してきた。最もよく知られている語彙の多様性の測定方法は、Type Token Ratio (TTR)であり、タイプをトークンで割る方法である。また内容語に限定した

TTR

をもって、語彙の多様性を検証する場合もある。

語彙の多様性についてはその用語が普及しているが、同時に用語の定義が一貫していない場合があり、混乱を招いているという指摘もなされている。「語彙の多様性」は書き手や話し手の産出能力を指し示す場合もあるが、書き言葉や話し言葉自体の質を指す場合もある。言語産出者と言語産出者によって産出されたテクストには関係があるのは確かであるが、言語産出者の語彙の多様性は実際のところ動的なものである可能性がある一方で、

言語の産出物における語彙の多様性は、言語産出者の静的な現れでしかないとの指摘もある(Yu 2010: 238)。

Bulté et al. (2008 : 279-280)は以上の点の他に、5) 語彙の複雑さ ; 6) 語彙の産出性 ; 7)

語彙の流暢さについても、語彙測定の観点として挙げている。また、語彙の洗練性も観点として挙げているが、定義が

Laufer and Nation (1995)とは異なっている。Bulté et al.

(2008)

による語彙の洗練性は、意味的に特殊な語彙に関する知識を持ち、関連語の中で

語用的に最も正確な単語を使用できるかについての能力を問う観点である。このことより、

ここでの語彙の洗練性は、下位語、上位語、類義語、反意語のような意味知識を含むこととなる。つまり、学習者が同じ指示対象を意味する別の語彙の代替案を持っているかどうかに関連している。ここでの語彙の洗練性はそれ自体で、学習者の語彙のマクロレベルを明らかにすることができ、語彙の広さと最も関連する測定法であると言える。

5)

語彙の複雑さ；

ある単語について、典型的で標準な意味の単語やコロケーション、文法、語用を使用できるだけでなく、その単語のより特殊で周辺的な低頻度の属性を理解したり使用できたりする能力である。したがって、ここでの語彙の複雑さは、

Laufer and Nation (1995)をはじめとする研究者による語彙の洗練性の定義と近

いが、異なる点はこの能力が学習者の語彙知識の深さと関係しているということができる。

6)

語彙の産出性；

語彙産出における行動観察レベルでの構成物である。たとえば、あるコンテクストを描写する際に、ある学習者は

100

語使用するのに対して、200 語使用する学習者もいる。つまり、あるタスクを遂行するために学習者が使用するトークンの数と関連している。

7)

語彙の流暢さ；

関連する語彙情報が処理化される度合いによって決定される。つまり、学習者が語彙を産出する速さや、また特に内容語を把握する早さを指している。

また、Crossley et al. (2011: 564-565)はこの他に、語彙能力の核をなす「今、ここ」の概念と関連する単語の具体性や、ある単語が他の単語とどれくらい多く関連しているのかを表す語彙の有意味性、心的イメージを素早く簡単に引き出せるかどうかに関連する語彙の想像可能性などの観点も語彙測定の観点として指摘している。

２.７．語彙の豊かさの問題点

語彙の豊かさは語彙研究で良く使用される用語であるが、その定義が一定ではない。語彙の多様性の研究のみをもって、語彙の豊かさの研究としているものも多い (Johansson

2008 : 62)。その他にも語彙の豊かさの測定には、まず実用的な面で問題が残る。それは、

語彙の豊かさを測定する際、言語データを測定可能な形にしなければならない。つまり、

転写やフォーマット化が必要となる。このプロセスは大変時間がかかるため、臨床的応用に向けた道具としては向かないかもしれない (Treffers-Daller 2010: 5)。

さらにより困難なのは測定方法に関する問題である。とりわけ、語彙の多様性の測定で使用されてきた

TTR

は以前支持されていたほど精度が高くないことが分かっている

(Malvern and Richards 1997)。それは、語彙の多様性の測定では、TTR

は短いテクスト

では不安定で、テクストの長さの違いによっても影響を受けるという欠点があるからである。なぜなら、話し手や書き手が持つタイプ数は限定されているため、テクストが長くなるとタイプ数の出現機会が減るからである (Daller et al. 2003: 199)。また、発達段階によってタイプはトークンと異なる発達段階を踏むという性質により、問題が発生することも考えられる。もし、タイプとトークンの数の発達の間に、比例関係があるとすれば、

TTR

は常に一定の値を示すことになり、発達を測定することができない。もし曲線関係があるとすれば、トークンはタイプに比べて比較的早く増加するので、TTR の値は下がってしまう。たとえば、初級段階で”a”と”the”という機能語を習得した学習者の場合、これらの機能語は頻出するのでトークン数は増えるが、2 つのタイプだけが増加することになる。すると、分母であるトークンが分子であるタイプを上回り、右下がりのカーブを描くこととなる。しかし、この学習者の言語習得は進んでいることに変わりはない

(Vermeer 2004: 174-176)。Pierre Guiraud

は、1954 年に、これらの問題の一部の解決法を打ち出した。彼は、トークンを平方根にすることで、長さの異なるテクスト間の関係に関する問題を解決できるとした。つまり、大きなサンプルでも同じ値を得ることができるようになり、信頼性も

TTR

より高くなる。また、Gustav Herdanは

Log TTR

を発表し、タイプの対数をトークンの対数で割ることで語彙の豊かさの概念を的確に反映できると考えた。Charles Mullerはコーパス内に一度しか用いられない語である

hapax

の影響を中和できる公式を

1967

年に発表した。また

Daniel Dugast

は同年、Uber indexという公式(Uber(U) =log2N /(logN-logV)²⁹を考えた (Dewaele 1993: 93-95, Daller et al.

2003: 200)。Malvern et al . (2004)は、D

という測定法を発表した。Dには

3

つの利点がある。テクストの長さは測定に影響を及ぼさないこと、全てのデータを一つのテクストとして扱うことができること、そして

TTR

よりもより有益であることである。

D

は

N＝トークン、V＝タイプ

ドキュメント内 Doctoral Thesis (Tokyo University of Foreign Studies) (ページ 61-68)

第二章 語レベルの研究 –Word Units 研究−