著者
門田 修平
雑誌名
外国語・外国文化研究
号
15
ページ
91-106
発行年
2010-07-31
URL
http://hdl.handle.net/10236/9892
Computer-Based English Lexical Processing Test
(CELP Test)の妥当性の再検討
門
田
修
平
1.はじめに
外国語としての英語に関する、これまでの既存の語彙テストについて概観す る中で、島本(2010)は、これまでのテストは、「主に、広さ、深さといった 語彙知識の宣言的知識(declarative knowledge)を測ることを目的としてき た。しかし、学習者のコミュニケーション能力としての語彙使用を考えたとき、 単語処理の効率性や自動性に関わる手続き的知識(procedural knowledge)の 指標となる語彙へのアクセススピード、すなわち語彙処理速度の測定を取り入 れたテストの開発が急務である」(p.20)と述べている。 このような状況に鑑み、門田(2010)は、3年間にわたる科研共同研究の一 環として、「コンピュータ版英語語彙処理テスト(Computer-Based English Lexical Processing Test:CELP Test)開発に関する研究成果を報告した。 この CELP テストは、語彙の知識がどれだけ効率的に利用可能であるか、す なわち語彙へのアクセススピードを指標に入れた、「自動性」「流暢性」の程度 を主な指標とする観点から、語彙運用力を測定しようとするものである。開発 の基本コンセプトは次の通りであった。 (1) 正答数(あるいは誤答数)のみならず、反応時間(Reaction Time: RT)をもとにしたデータをとり、それをスコアに入れる。 ( 91 )(2) 語彙プライミング(lexical priming)の手法を用い、継時的に呈示さ れた2語が類義語かどうかの判断タスク(synonym judgment task) を課す。 (3) コンピュータベースで実施できるようにする。 (4) 平均的日本人英語学習者の場合は、音声呈示による方法よりも、視覚 呈示の方が、確実に語彙処理に至ることを考慮し、視覚呈示によるも のとする。 (5) lower intermediate レベル(高校生)以上の生徒・学生・社会人に 利用できるようにする。 上記のうち、(2)について、何故これまで母語話者を対象にした語彙処理研 究で一般的に活用されている、語彙性判断課題(lexical judgment task)を 採用しなかったかについては、次の理由による。母語話者を対象に実施する場 合には、英単語が呈示されるやいなや、その語が実在する語であると分かった とたんに、自動的に意味アクセスもしてしまう。これが通例である。しかしな がら、第二言語学習者の場合、実単語・非単語の判断を求めるだけの語彙性判 断課題では、意味アクセスとは無関係に判断を遂行する可能性があり、必ずし も意味の処理が保証されないのではないか。そうすると、語彙性判断課題では、 単語の意味の理解の正確さやその際のアクセス時間をうまく測れないのではな いか、と考えたためである。事実、Miki(2010)は、日本人英語学習者(大 学生)を対象にした、英語の同綴り多義語(homograph e.g. bank など)の 処理実験で、意味の関連性の程度を判断させる課題と、語彙性判断課題とでは、 後者の場合には必ずしも意味処理が保証されないことを示唆するデータを提供 している。 こうして開発した、この CELP テストは、テスト A とテスト B という2 バージョンから成る。そして、これら2つはまったく同レベルの等質なテスト であることが、門田(2010)によって明らかにされている。そうすると、英語 クラスにおける日頃の授業実践や特定の指導方法の効果が、語彙運用力にいか
に影響するかを、再テイスト法を用いることなく正確に判定できるようにな り、さまざまな授業や研究(リサーチ)で活用できる。 門田(2010)は、この CELP テストを、6つの大学で外国語として英語を 学ぶ日本人英語学習者計698人(テスト A・338人、テスト B・360人)という 数多くの参加者を対象に実施した結果を報告したものである。しかしながら、 そこでは同一の参加者が、テスト A・B それぞれを受験した訳ではない。1つ の大学でほぼ英語力の均質な2グループ(クラス)を作成し、それぞれにテス ト A・B を実施したものの、厳密には、異なるサンプル集団を対象にした被験 者間(between-subject)データである。この点を克服すべく、特定の大学学 部を対象にした、被験者内(within-subject)比較のための再分析を実施する ことにした。 本稿のもうひとつの目的は、CELP テストの妥当性を、語彙の宣言的知識 を測定するテストである、Nation and Beglar(2007)による VST(vocabulary size test)との相関関係を再調査することで、検討することである。既に、倉 本・島本(2010)において、495名の日本人英語学習者を対象にした分析結果 の報告があるが、上記の CELP 受験者を対象にした、被験者内比較を実施し ようとするものである。 本稿では、以上の2つの観点から、CELP テストの妥当性について、再検 討した結果を報告したい。なお、従来から広く活用されてきた Nation による VLT(Vocabulary Levels Test)と、この VST との特徴比較については、倉 本・島本(2010)を参照されたい。
2.研究方法
2.1 参加者
参加者は、外国語として英語を学ぶ大学1・2年生計73人で、門田(2010) で報告されたテスト受験者計698人の一部を構成していた。これらの参加者は、 本研究で報告するすべてのテスト(CELP Test A、CELP Test B、VST)を、
1人1人がすべて受験した学生達であった。
2.2 材料および手続き
Test A、Test B のそれぞれについて、CELP テスト・プログラムを使って、 プ ラ イ ム 語 と タ ー ゲ ッ ト 語 か ら 成 る50の 英 単 語 ペ ア が、プ ラ イ ミ ン グ (priming)法により、参加者に呈示された(付録1参照)。このようなプライ ム語とターゲット語の計100ペアをどのようにして選定したか、またどのよう なプログラムを使用して視覚呈示したかについては、それぞれ釣井・山科 (2110)および倉本・越智(2010)を参照されたい。 実際の CELP テストでは、参加者1人ずつノート PC に向かい、まずディ スプレイ中央部に出された凝視点(+++++印)に2秒間視点を固定するよ う指示し、その後その位置にペアの片方の語(プライム語)を1.6秒間呈示し、 ブランク(0.6秒)の後、もう片方の語(ターゲット語)を呈示した。各被験 者はターゲット語の呈示の時点から、できるだけ素早く正確に、プライム語と ターゲット語の間に意味的な類義関係がみられるか否かの判断を、Yes(キー ボードの B を押す)あるいは No(キーボードの N を押す)の反応を、それ ぞれ右手人差し指、中指を使って即座に行うことにより、実施した。実験の実 施は Win Vista 搭載ノート PC48台を設置した CALL 教室を用いて集団で実 施したが、テストじたいは個々の参加者ペースで進められ、実施要領等の指示 はすべてパソコンのディスプレイ上に呈示した。しかしながら、必要最小限の 説明等は、実験者が口頭で行った。なお、練習問題は、本実験の直前に、AB 両テストとも、9題ずつ実施され、そのうち約半数においては、反応が正しい か間違っているかのフィードバックをパソコンディスプレイ上に与えた。 また、VST については、上記 CELP 実施1週間後に、比較的高い正答率が 得られると予想した Level1∼6の60問に絞って、紙ベースで実施した(付録 2参照)。
2.3 収集データおよび集計方法
CELP テストでは、各参加者が、(a)呈示された各単語ペア(100ペア)の 類義判断にいくら正答したかという正答率(rate of correct response:CR)、 (b)正答であった場合の反応時間(correct response RT(1))、(c)正答の場 合と誤答の場合の両方を含む反応時間(all response RT;RT(2))という3 種類のデータを収集し、その後これらのデータをもとに、(d)処理効率指標 (efficiency index:EffInx)を算出した。なお、(d)EffInx については、以下
の3ステップを経て計算されたものである。
① CR を1から引いて、不正答率(rate of incorrect response:ICR)を出 す。 ② ICR と RT(2)をそれぞれ z 変換(偏差値変換)し、両者を2で割る。 ③上記②で得られた偏差値を100から引いた値を計算する。 上記①②の結果、CR と RT(2)の両方を反映した指標、すなわちターゲッ ト語の意味の判断における処理効率がよければよいほど、値が小さくなるとい う数値になる。最後に③を適用して、処理効率が高いほど値が大きくなるとい う一般的に理解しやすい、50を平均とする偏差値に変換し、これを処理の「効 率指標」として算出した(門田,2010:78参照)。 また、VST については、(e)全60問中の正答数の合計、および(f)Level 1∼6のそれぞれにおける正答数を算出した。
以下の結果と考察では、CELP テスト A・B の結果(上記(a)∼(c))およ び VST の結果(上記(e)(f))を示し、その後 CELP テストの(a)∼(d)の データ同志や、VST との間の相関分析結果(Pearson の偏差積率相関係数)を 報告する。
3.結果と考察
次の表1は、テスト A・B 別に、正答率(CR)と反応時間(RT(1)(2): sec.)(上記(a)∼(c))の記述統計(人数 N、平均 Mean、標準偏差 SD)を
示したものである。 正答率(0.0∼1.0)については、テスト A・B ともに平均値が0.85を越える 結果で、SD も小さいという結果であった。また、2種類の反応時間はともに、 CR に比べると分布のばらつき(SD)が大きいことが分かる。さらに、テス ト AB 間の平均値の差の検定として t 検定を行った結果、CR、RT(1)、RT(2) いずれにおいても、有意差はまったく見られず、テスト A とテスト B は極め て均質的で等価なテストであることが分かった。この結果は、池村・氏木 (2010)の報告を再確認するものである。 次に、表2において、VST の合計点(満点60)と各レベル毎の点数(満点 10)の記述統計(人数 N、平均 Mean、標準偏差 SD)を示す。 この結果も、既に報告された倉本・島本(2010)に近い平均値を示すもので ある。レベル別には、全体として First 1000から Sixth 1000まで徐々に平均値 が下降する傾向があるが、一部 Third1000で一旦平均値が向上するという現 象が観察される。 次の表3は、テスト A・B 別に、正答率(CR)と反応時間(RT(1)(2))、 さらには先に説明した処理効率指標(EffInx)〈上記(a)∼(d)〉の各々のデー タ間の偏差積率相関係数を算出したものである。 CR Test A CR Test B RT(1) Test A RT(1) Test B RT(2) Test A RT(2) Test B N 73 73 73 73 73 73 Mean 0.862 0.853 0.964 0.969 0.999 1.000 SD 0.083 0.087 0.298 0.301 0.328 0.327 表 1 CELPテストA・Bにおける正答率(CR)、反応時間(RT(1)(2))の結果 表 2 VSTテストの全体の平均値、各レベルの平均値得点
VST Total First1000 Second1000 Third1000 Fourth1000 Fifth1000 Sixth1000
N 73 73 73 73 73 73 73
Mean 32.781 8.082 5.945 6.068 5.534 4.110 3.041 SD 6.858 1.127 1.802 1.813 1.625 1.845 1.896
以上の表3は次の結果を示すものである。 (1) CR と RT(1)(2)との相関が、ゼロに近く、まったく有意な相関が ない。 (2) ところが CR と EffInx との相関は、有意であり、r=.66∼r=.75と いったかなりの値になっている。 (3) また、RT(1)(2)と EffInx との相関も、r=.54∼r=.73という有意 な値が得られる。 (4) テスト A・B 間で、(a)∼(d)の各データ間の相関に大きな相違はな く、テスト A・B はほぼ均質的である。 (5) 事実、テスト A・B 間の相関は、r=.72から r=.87というようにか なり高い。 さらに表4は、CELP テスト A・B における正答率(CR)、反応時間(RT(1) (2))、処理効率指標(EffInx)の各データと、VST の合計点および各レベル 毎の点数との間の偏差積率相関係数を算出したものである。 主要な結果は次の通りである。 (1) VST の 合 計 点 に つ い て は、CELP テ ス ト の CR と の 間 で r=.46∼ r=.52と有意な相関がみられる。 表 3 CELPテストA・Bにおける正答率(CR)、反応時間(RT(1)(2))、 処理効率指標(EffInx)間の相関 CR Test A CR Test B RT(1) Test A RT(1) Test B RT(2) Test A RT(2) Test B EffInx Test A EffInx Test B CR Test A 1 .871** −.054 −.117 −.116 −.093 .747** .665** CR Test B .871** 1 −.074 −.076 −.124 −.052 .666** .725** RT(1)Test A −.054 −.074 1 .752** .990** .748** −.699** −.567** RT(1)Test B −.117 −.076 .752** 1 .734** .994** −.570** −.738** RT(2)Test A −.116 −.124 .990** .734** 1 .725** −.747** −.586** RT(2)Test B −.093 −.052 .748** .994** .725** 1 −.548** −.725** EffInx Test A .747** .666** −.699** −.570** −.747** −.548** 1 .837** EffInx Test B .665** .725** −.567** −.738** −.586** −.725** .837** 1 (**は1%水準で有意な相関があることを示す)
(2) VST の合計点と CELP テストの RT(1)(2)との間には、有意では あるが、r=.21∼r=.36とかなり低い相関しか得られない。 (3) VST の合計点と、CELP テストの EffInx の間には、r=.51∼r=.55 とやはり有意な相関が得られる。 (4) 各レベル毎に、CELP テストデータと VST データとの相関を比較す ると、概して、First 1000から Sixth 1000へとレベルが上がるにつれ て、相関が低くなる傾向がある。 以上の結果から、CELP の RT(1)(2)と VST とでは、全く異なるものを 測定したデータであるのに対し、CELP の CR や EffInx と VST 間では、まず まずの相関値が得られることが分かる。しかしながら、必ずしも高い相関値で あるとは言えないことから、CELP の CR データも、EffInx も VST とはかな り異なる能力を測定しているのではないかと考えられる。最後に、(4)の結 果については、CELP テストがほぼ3000語レベルまでのかなり親密度の高い 語を対象に作成されたことが原因であると考えられる。 VST Total First 1000 Second 1000 Third 1000 Fourth 1000 Fifth 1000 Sixth 1000 CR Test A .469** .417** .401** .292* .382** .305** .165 CR Test B .521** .464** .422** .394** .444** .321** .138 RT(1)Test A −.343* −.301** −.220 −.326** −.258* −.147 −.176 RT(1)Test B −.238* −.103 −.201 −.222 −.192 −.007 −.222 RT(2)Test A −.359** −.335** −.243* −.323** −.258* −.162 −.179 RT(2)Test B −.218 −.080 −.200 −.205 −.158 .003 −.224 EffInx Test A .554** .503** .431** .412** .428** .312** .231* EffInx Test B .510** .375** .429** .412** .415** .219 .249* (**は1%水準で、*は5%水準で、有意な相関があることを示す) 表 4 CELPテストA・Bにおける正答率(CR)、反応時間(RT(1)(2))、 処理効率指標(EffInx)と、VSTの合計点・各レベル毎の点数との間の相関
4.総合的考察
本実験でこれまで得られた主な結果は、ほぼ池村・氏木(2010)の被験者 ベースの集計結果を再確認するものになっている。主なものをまとめると次の 通りである。 (1) 正 答 率(CR)、反 応 時 間(RT(1)、RT(2))、効 率 指 標(EffInx)の いずれにおいても、CELP テスト A・B 間には有意な差は認められな い。 (2) CR と RT(1)、RT(2)の間における相関係数は、ほとんどゼロでまっ たく相関がない。 (3) しかしながら、CR や RT(1)、RT(2)と効率指標(EffInx)との間 の相関については有意な値が得られる。 (4) CR、RT(1)、RT(2)、EffInx の各データ間の相関では、テスト A・ B に大差はなく、両テストは均質的である。 (5) 必ずしも高い相関があるとは言えないもの の、CELP の EffInx と VST 間では、まずまずの相関が得られる。 (1)の結果は、テスト A と B が極めて均質的で、ほぼ同様のものを測定す る 語 彙 テ ス ト と し て 活 用 で き る こ と、す な わ ち、語 彙 運 用 能 力(lexical processing capacity)を指標とする、プリ・ポストテストデザインにおいて活 用できることを再確認している。言い換えれば、実験群に与えた処遇(e.g. 音 声のシャドーイングした群)の効果が、統制群(e.g. 音声のリスニングをした 群)と比べて、語彙処理能力の向上に、より関係するのかどうかを検討する縦 断的研究において、プリテストでは Test A を使用し、ポストテストでは Test B を使うといった形で活用できることを意味している。今後の英語など第二言 語の習得研究研究における、語彙処理能力向上の査定に有効なデータを提供し てくれることが期待できる。 上記(2)については、門田(2010)で考察したように、語彙の宣言的な知識を問う「語彙知識量=正確さ(accuracy)」と、「語彙知識運用度=流暢性 (fluency)」の間には乖離(dissociation)があることがわかる。すなわち、語 彙知識量の測定では、メンタルレキシコンへのアクセスの自動性を達成してい る参加者も、じっくり時間をかけてはじめて語彙アクセスができる参加者も、 反応さえ正しければそれで正解だと判定される。その正答を導き出すまでにか けた参加者の心的努力(mental efforts)の大小や自動性の程度(degree of automaticity)などはいっさい考慮されない。これに対し、反応時間(反応潜 時)も、むろんその指標だけでは、自動性の程度を測定するのに十分であると は言えない。しかし、少なくともある程度は、上記の語彙知識運用度(流暢性) を反映したデータになっているのではないか、と考える。この理由としては、 やはり、参加者にとって、語彙アクセスをして正答を導き出すまでの認知過程 は、実はとても多様であり、個人差の極めて大きいプロセスを含んでいること が考えられる。同じ正答に至ったとしても、実はそこにかける心的エネルギー はまったく一様ではないのである。 もちろん、参加者によって、その慎重さが異なり、正答かどうかを何度も確 認しなければ気が済まないといった、被験者の性格が要因として関係する余地 はある。それはそれで事実であろうが、同時に、それだけではない、正解に至 るプロセスを、少なくとも CR 以上には、反映したデータになっているのでは ないかと考えられる。 次に、結果(3)については、CR、RT がともに効率指標と有意な相関を 示している。これは、CR および RT(2)にもとづく効率指標(EffInx)が、 比較的安定した語彙処理運用能力の指標となりうることを示唆している。た だ、この EffInx が、何を参加者の語彙知識の実態として表しているか、実は 定かではない。門田(2010)も述べているように、CR と RT(2)の2つをと もに折半した形の効率指標(EffInx)がどのような心理的実在性を備えている のか問われると、実際にははっきりしない。しかしながら、これをテストデー タとして活用することは十分に可能な指標であると言えよう。 さらに、結果(4)で明らかにされているように、CR、RT(1)、RT(2)、
EffInx の各データ間の相関で、テスト A・B にほとんど差がなく、テスト A・ B が極めて均質的なテストであるということは、先にも、また門田(2010)で も述べたが、今後、語彙運用能力を指標とするプリ・ポストテストデザインの 縦断的研究において活用できることを再度示唆するものである。 最後に結果(5)との関係である。CELP の EffInx と VST 間では、まずま ずの相関値が得られことから、学習者の正答率と反応時間の両方を考慮した EffInx のデータがやはり今後活用すべき CELP テストの主要な指標になるこ とを示しているのではないかと言えよう。 反応時間は確かに単語処理など言語認知研究の手段としてはオールマイティ な存在ではないかも知れない。しかし、正答率とミックスして処理効率指標を 算出すると、これまでの正解率だけではわからない側面を浮き彫りにしてくれ ることは確かである。
5.おわりに
本稿は、門田(2010)の追試を、被験者内分析という観点から、試みたもの である。その結果、やはり英語の語彙処理能力において、日本人英語学習者の 場合には、「語彙知識量=正確さ(accuracy)」と「語彙知識運用度=流暢性 (fluency)」の間に乖離があり、この乖離の程度(degree of dissociation)が、参加者間で大いに変わってくることを示唆している。 今後は、 これまでの研究成果をもとに、 CELP テストの効率指標スコアが、 その効果が高く評価されているシャドーイング(shadowing)や音読(oral reading)(門田,2007)の能力といかに関係しているのか、さらにシャドー イング・音読のトレーニングが、英文内の個々の単語の処理プロセスの自動化 をいかに促進するかについて検討したいと考えている。 *本稿は、平成19年度∼平成21年度科学研究費補助金〈基盤研究(C)〉研究 成果報告書 第二言語における語彙処理と文処理のインターフェイス:日本
人英語学習者への実証研究(The Interface between Lexical and Sentence Processing in L2: An Empirical Study of Japanese EFL Learners)(課 題番号:19520532)〈研究代表者:門田修平〉における研究成果の一部をも とにしている。 引用文献 池村大一郎・氏木道人(2010)「結果と考察」門田修平(2010)『第二言語における語彙 処理と文処理のインターフェイス:日本人英語学習者への実証研究』平成19年度∼ 平成21年度科学研究費補助金〈基盤研究(C)〉研究成果報告書,pp.75―81. 門田修平(2007)『シャドーイングと音読の科学』東京:コスモピア 門田修平(2010)『第二言語における語彙処理と文処理のインターフェイス:日本人英 語学習者への実証研究』平成19年度∼平成21年度科学研究費補助金〈基盤研究(C)〉 研究成果報告書 倉本充子・越智徹(2010)「プログラミング:使用言語とプログラム構成について」門 田修平(2010)『第二言語における語彙処理と文処理のインターフェイス:日本人 英語学習者への実証研究』平成19年度∼平成21年度科学研究費補助金〈基盤研究 (C)〉研究成果報告書,pp.60―64.
倉本充子・島本たい子(2010)「CELP テストと語彙サイズテスト(Vocabulary Size Test:VST)との関係」門田修平(2010)『第二言語における語彙処理と文処理の インターフェイス:日本人英語学習者への実証研究』平成19年度∼平成21年度科学 研究費補助金〈基盤研究(C)〉研究成果報告書,pp.96―103.
Miki, K.(2010)An access to English homographic words of Japanese EFL learners. A MA Thesis Presented to the Graduate School of Language, Communication, and Culture, Kwansei Gakuin University.
Nation, P., and Beglar, D.(2007)A vocabulary size test. The language Teacher : 31: 9―13. 島本たい子(2010)「外国語としての英語語彙テスト」門田修平(2010)『第二言語にお ける語彙処理と文処理のインターフェイス:日本人英語学習者への実証研究』平成 19年度∼平成21年度科学研究費補助金〈基盤研究(C)〉研究成果報告書,pp.12― 21. 釣井千恵・山科美和子(2010)「英単語ペア(プライムとターゲット)の選定方法」門 田修平(2010)『第二言語における語彙処理と文処理のインターフェイス:日本人 英語学習者への実証研究』平成19年度∼平成21年度科学研究費補助金〈基盤研究 (C)〉研究成果報告書,p.59.
ターゲット語 プライム語 ターゲット語 プライム語 ターゲット語 プライム語 ターゲット語 プライム語 acquire get desert bridge nation country simple easy adapt wake determine decide occupation profession single one adjust knock difficult hard opportunity chance site fun airport student discover find ordinary normal space room anger seat display show outcome result strike hit apple office distribute increase participate join subsequent following arise tie enthusiasm passion pay play substitute replace attention daughter entire whole photograph picture sufficient enough basis foundation essential necessary poverty chair survive forget battle fight expansion custom precede apply tail vision begin start foot bank press push tap trust bell pot fortune poem priest fault target island blue special freedom food produce make team group boundary border fruit night quick fast technology summer breast iron grab attend rear back topic subject cash money ill sick recall remember tourist traveler chat talk importance production region area usual common church grammar impress divide remind jump visible firm clever tired infant baby remote distant weakness farmer contemporary modern late fine require need window hair couple luck leader boss ruin destroy wish hope cousin situation link milk safety security wood star currency storm little small scream succeed wooden afraid delight pleasure marriage wedding season library worker water democrat universe motion pocket short rich worry walk affect influence fee soul potato balance stir admit appointment department film movie precise dirty store shop approve agree floor nobody prime main struggle design assure kick fundamental basic proceed advance studio bike aware wet gene device project plan suggest advise behave surprise gentle native punishment penalty support help cake girl genuine true quality community surplus extra champion winner gold kitchen quote spend suspicion doubt chicken pool imply hint reality fact swim read choose pick injure hurt regulation rule tale bath clinic hospital inspire rush release create temporary smooth competition contest job work rely depend tendency credit concept idea journey tour rescue save thinking evening conscious electric keen sharp research study tissue delivery cost watch kid child road street town hour critic desk large big see look transfer move dispute argue leather weight selection choice tree key dry happy medicine drug sequence series trip travel encounter arrange mention say sight view trouble problem error stage nice good song heat visual useful evil bad nose east specific particular wage energy examination test park page spring coffee wave action excellent wonderful permit allow staff member weapon approach fail wear pilot lecture steam society weather name false wrong pleasant strange step news zone diary