54 第2回「言語教育評価フォーラム」 講演
大規模言語テストの妥当性・有用性検討に関する近年の動向
澤木 泰代
大規模テストの妥当性研究を支える妥当性理論 は,20 世紀前半から現在まで,変遷を重ねてきて いる。『教育・心理検査法のスタンダード』の最新 版(American Educational Research Association, American Psychological Association & National Council on Measurement in Education,1999;以下 『スタンダード』)は,テスト妥当性(test validity)を“the degree to which evidence and theory sup-port the interpretations of test scores entailed by proposed uses of tests”(p. 9),つまり「意図された テストの使用目的に伴う得点解釈が,証拠や理論に よって支持される度合い」と定義している。この得 点解釈を中心としたテスト妥当性の定義は現在広く 受け入れられているが,この定義が定着してきた のは過去 30 年ほどのことである。Kane(2006)に よると,1920 年から 1950 年頃にかけてはテストの 成績と外部基準,つまり受験者が実生活で評価さ れる基準(例:学校や職場での成績)の関係に関す る基準妥当性(criterion validity)を中心とする妥当 性の概念が発達した。一方,1950 年代初め頃までに は,基準妥当性と共に,テストの内容がどの程度評 価の目的に適切なものであるかに関する内容妥当 性(content validity)の観点もテスト妥当性検討に 使用されるようになった。しかしテストの得点をど の程度測りたい潜在的な能力(構成概念)の指標と して解釈することができるかを問う構成概念妥当性 (construct validity)が議論されるようになったのは 1950 年代に入ってからで,構成概念妥当性を中心と する妥当性理論が妥当性の一般的な定義として広く 認められたのは 1980 年代前半になってからである。 一方,1970 年代からの議論を踏まえ,1985 年版の 『スタンダード』では,妥当性が単一の概念(unitary concept)であり,それまで基準妥当性,内容妥当性, 本稿では,過去20年ほどにおける,言語テストの妥当性検討を支えるテスト妥当性理論の変遷 を中心にまとめると共に,大規模言語テストの妥当性・有用性に深く関連する,テスト結果の報 告内容や方法に関する近年の研究を紹介する。まず,テスト妥当性を,テストの得点解釈そのも のだけでなくテスト結果の利用まで含んだ広義のものと捉える,近年のテスト妥当性研究におけ る妥当性の概念と,最近注目を浴びているToulmin(1958,2003)の論証モデルに基づく新しい 枠組みの概要とその応用例を紹介する。また,テスト結果の適切かつ公正な利用を促進するうえ での,より詳細でわかりやすいテスト結果報告の意義を考察し,望ましい波及効果(washback) を高めることを目指したテスト結果のフィードバックに関する近年の研究を紹介する。 大規模テスト,妥当性,有用性,論証,テスト結果報告 *早稲田大学教育学部, E-mail: [email protected]
構成概念妥当性と呼ばれてきたものは,別個のもの ではなく,テスト妥当性の違った側面であると説明 した。この流れを汲んで,最新版の『スタンダード』 やMessick(1989)のテスト妥当性理論では,テスト 妥当性を単一の概念と定義し,構成概念妥当性をテ スト妥当性の根幹と位置付けている。 1990 年代以降,Messick(1989)の理論は言語テ ストのみならず,心理・教育測定においてもテス ト妥当性研究に大きな影響を与え続けている。そ の大きな特徴の一つは,テスト妥当性を広く定義 し,テストの使用と,テストの使用がもたらす結果 (consequence)もテスト妥当性の一部として捉えて いることである(Kane,2006)。Messickは,テスト の使用に関する評価は 2 段階構成,つまり,得点解 釈(score interpretation)に関する,そのテストで 測りたい能力がきちんと測定できているかに関する 評価と,テスト得点使用(test score use)に関する, 出来上がったテストが,適切な形で使用され,望ま しい結果をもたらすものであるかに関する評価の二 つから成ると説明している。言語テストの分野にお いては,1990 年代以降,Messick(1989)の理論をふ まえてテストの得点解釈だけでなく,テストが開発 されてテスト作成者の手を離れたあとそれがどう利 用され,どのような結果を生むかについてもテスト 妥当性検討の視野に入れることの重要性が認識され るようになり,このテスト妥当性検討に関する考え 方は,言語テスト研究においても今後の指針となっ ていくと考えられる。本稿では,この広義のテスト 妥当性の定義に基づく二つの枠組み,つまり現在広 く言語テストの分野で妥当性研究に応用されている バックマン,パーマー(1996/2000)のテストの有用性 (test usefulness)の概念と,教育測定の分野で提案 され,近年言語テストの分野でも研究されるように なった,論証(argument)に基づいた妥当性検討の 枠組みの関連について解説し,この後者の大規模言 語テスト妥当性研究への応用例を紹介する。その後, テスト結果の適切かつ公正な利用の観点から,より 望ましい波及効果(washback,つまりテストが言語 学習や言語教育に与える影響)につながるテスト結 果報告の内容や方法に焦点をあて,関連分野に関す る近年の研究をまとめる。 1.1990年代以降の言語テストでのテスト妥当 性研究の枠組みの変遷 1.1.バックマン,パーマー(1996
/
2000)のテスト の有用性の概念 1990 年代半ば,言語テストの分野では,バックマ ン,パーマー(1996/2000)が,テストが意図された目 的を果たすうえで役立つ度合いを指すテストの有用 性(test usefulness)という広い概念を打ち立て,多 くの言語テスト妥当性研究に応用されてきた。この テスト有用性は次の 6 つの特質(qualities)から成る。 (1)信頼性(reliability):テストの結果が一貫した ものであるか,つまり,同じ受験者がいつ,ど こで受けても,誰が採点しても同じ結果が得ら れるものであるか (2)構成概念妥当性(construct validity):テストの 得点を,どの程度そのテストで測りたい構成概 念の指標として解釈することが可能か (3)真正性(authenticity):実生活で受験者が目標 言語を使ってやらなければならないような課 題(タスク)の特性を十分に反映する内容のテ ストであるか (4)相互性(interactiveness):受験者が持つ様々な 特性の中で,実生活で必要となるものを組み合 わせて用いることを要求する課題からなるテ ストであるか (5)影響(impact):社会や教育組織,またその組 織に属する個人(教師や学習者)にどのような 影響を与えるテストであるか (6)実用性(practicality):使える資源(人的・物的, 時間的資源など)で開発,実施,維持していけ るテストであるかどうか ここで信頼性はテストの得点解釈の前提となるも の,構成概念妥当性と真正性,相互性はテストの得 点解釈と深く関連する特質,また影響はテスト結果 の利用に関するものである。実用性はテストの使用 そのものとは異なるが,テストを実施していくう えで大切な要素だと位置づけている。バックマン,パーマー(1996/2000)は,この 6 つの特質を別々に 考えるのではなく,全体のバランスを考えて,テス トの有用性を総合的に高めることが重要であること, またテスト全体の有用性を高めるのに最適な「公 式」は,テストによってそれぞれ違うことを指摘し た。利害関係の大きいテスト(high-stakes test),例 えば入社試験の際の,日本語を母語としない志願者 に課される日本語面接テストのように受験者の一生 を左右しかねない重要な決定に利用されるテストの 場合,テストの信頼性を確保するために,評定者を 徹底的に訓練し,どの評定者が,いつ,どの受験者を 採点したとしても一貫したスコアが得られるように することが必要不可欠である。一方,授業の一環と して教師が日常的に行う小テストのように利害関係 が比較的小さいテストであれば,評定は教師本人一 人で行うことになるであろうし,採点基準も柔軟に 設定できよう。この場合,採点結果に多少ずれが生 じたとしても,その小テスト一回の成績が学習者に 関する重要な決定を左右する可能性は低く,また学 習者の観点からすれば,一度小テストで思うように 得点できなくても,次回のテストで挽回できるため, 入社試験の場合ほど高い信頼性は要求されないであ ろう。また,例えばリスニング・テストで英語の/r/ と/l/が聴き取れるかどうかテストしたい場合は,実 生活にありそうな場面設定をした真正性の高いテス ト課題よりは,文脈を一切排除した最小対(minimal pair)の聴き分け(例.次の (1) と (2) を聴いて,「読 む」という意味の語はどちらか答えなさい。(1) read, (2) lead)のように,真正性は低いながらも,その音 素対が識別できるかどうかを確認できる部分的測定 テスト項目(discrete-point item)の方が有用な場合 もある。つまり,どの特質を優先するかは,テスト の目的や状況で違うのである。 テスト妥当性を広義に単一の概念と定義する Messick(1989)の理論や,バックマン,パーマー (1996/2000)のテストの有用性の概念は,近年の言 語テスト研究に大いに影響を与えて来た。しかし, Bachman(2005),Bachman & Palmer(2010)はこれ らの枠組みの限界を 2 点指摘している。その 1 点目 は,Messickの理論はテスト妥当性の枠組みを広げ ることに大いに貢献してきたが,それに従ってテス トの妥当性,テストの利用とその結果について同じ 枠組みの中で検証を実践できるほど具体化されたも のではなかったことである。2 点目は,バックマン, パーマーのものを含めて,これまでに提唱された言 語テストにおける妥当性,有用性,公平性等に関す る理論では,特質同士の優先順位や相互関係は明確 ではなく,例挙するだけに止まっていたことである。 従って,これまでの言語テスト妥当性・有用性検討 の枠組みは,それを実践するうえでは必ずしも具体 的な指針となるものではなかった,というわけである。 1.2.
Toulmin
の論証モデルに基づいたテスト妥当 性検討の枠組みの提唱 教育測定の分野では,1990 年代以降論証( argu-ment)に基づいたテスト妥当性検討の枠組みが教育 測定の分野で提唱され,それが言語テスト研究にも 紹介され,上述したMessick(1989)やバックマン, パーマー(1996/2000)などの枠組みの問題点を解決 する可能性を示すものとして,近年注目を集めてい る。この枠組みを扱う言語テストにおける先行研究 には,Bachman(2005),Bachman & Palmer(2010), Mislevy,Steinberg & Almond(2002)等がある。そ れぞれのアプローチに多少の違いが見られるものの, その全てに共通することは,Toulmin(1958,2003)の 論証モデルに基づいている点である。テスト妥当性 検討において論証モデルを採用する利点として上述 の研究者達が共通して指摘しているのは,テスト妥 当性研究の計画と実施の組織化・効率化である。つ まり,例えばバックマン,パーマーのような有用性 のリストだけでは,テストの妥当性を確認するうえ で,どのような実証研究をどの程度行うことが必要 であるかは必ずしも明らかではなかった。これに対 し,論証モデルを使うことにより,テストの妥当性・ 有用性について説得力を持つ論を展開するには,ど のような研究から優先的に始め,テストの妥当性の 根拠となるデータはどのようなものをどれだけ集め ればよいのかがわかりやすいのである(Bachman & Palmer,2010;Chapelle,2008;Kane,2006)。こ れらの論文では,例えば新しいテストを開発する場 合,これからこのようなテストを作り,このテスト の得点解釈によって受験者の言語能力についてこの ような結論が導き出せるものにしたい,という「主 張」(claim)とその「理由」(warrant)を示したテスト得点の解釈的論点(interpretive argument)をまと め,その後実証研究や理論的分析を通して解釈的論 点に対応する妥当性論点(validity argument)に対す る裏付け(backing)を取っていく作業の 2 部構成を 取る枠組みを提案している。 学問に必要な日本語能力テストを例に取って Toulminの論証モデルの基本形を図に示すと図 1 の ようになる。ある日本語のアカデミック・ライティ ングのテストでは,論文を読んで要約を作成する課 題が出題されると仮定する。この課題で受験者が高 得点をおさめた場合,これを根拠(grounds)とし て,テスト作成者・利用者は,高得点をおさめた受 験者は大学で好成績を挙げるのに必要なライティン グ能力があると主張したい,つまり,そのように得 点を解釈したいわけである。しかし,これには理由 が必要である。その理由の一例としては,日本の大 学で勉強する場合,受験者が日本語でやらなければ ならないタスクの特性をそのテスト課題が反映して いるからだ,ということ,またその裏付けとしては, テスト開発にあたって日本の大学で必要な日本語ラ イティング能力に関してニーズ分析が行われ,論文 の要約ができることが大切だと確認できたから,と いったものが考えられるであろう。ところが,この 論文を十分理解するにはある理論を知っていること が必要であり,後の妥当性研究において,同程度の 能力群の成績を比較した場合,この理論を知ってい る受験者とそうでない受験者の成績に大きな差が認 められたとする。この場合,この課題での受験者の 成績は出題内容に関する背景知識に比較的大きな影 響を受けているわけで,これは反証(rebuttal)とし て機能し,最初に意図した日本語能力の指標として 得点を解釈するという主張を弱めるものとなる。 1.3.論証モデルに基づいた言語テスト妥当性検討 例:
TOEFL iBT™
の場合 この論証に基づいた妥当性検討の枠組みは言語テ スト研究で応用され始めているが,ここでは新し い大規模言語テストの妥当性検討への応用の一例 として,英語で授業を行う大学や大学院に英語学 習者が留学・入学を希望する場合にスコアの提出を 求められることがあるTest of English as a Foreign Language™(TOEFL®)の妥当性研究の枠組みを 簡単に紹介する。TOEFLは米国ニュージャージー 州にある非営利団体,ETS(Educational Testing Service)によって開発・実施されており,高等教育 機関への,英語を母語としない入学・留学希望者の 選抜のために使うことを主な目的として開発された テストである。TOEFLは過去にPaper-based test (PBT),Computer-based test(CBT)等の形式で 実施されてきたが,2005 年末のInternet-based test (iBT)の導入と共に,既存のリーディング,リスニ ング,ライティングの 3 セクションのデザインが大 幅に改訂され,新しくスピーキング・セクションが 加わった。留学・入学を希望する学校がTOEFLス コアを要求する場合,この 4 つのセクションの得点 (各 0~30 点)と合計点(0~120 点)が志望校に通知 される。この新テストの導入に至るまで,1990 年代 初頭からあらゆる実証研究が行われてきており,そ の経緯は,TOEFL の歴史と共に,2008 年に出版 されたChapelle,Enright & Jamiesonによる共著, Building a validity argument for the Test of English as a Foreign Languageで詳細に報告されている。そ の第 1 章(Chapelle,Enright,& Jamieson,2008)では TOEFLの解釈的論点(TOEFL interpretive argu-ment),また第 9 章(Chapelle,2008)では,TOEFL の得点使用まで含めた広義の妥当性に関する妥当 性論点(TOEFL validity argument)の仕組みをそ れぞれ紹介している。Chapelle(2008)は,TOEFL validity argumentの最終目標は,高等教育の場で必 要な英語力を示すというTOEFLの得点解釈が妥当 であり,高等教育機関への入学・留学希望者選抜の 図1
.Toulmin(2003
)の論証モデルの基本形の例ための利用に適するということを論証することであ り,そのためには次の 6 つの推論(inferences)を立 証しなければならないとする。
(1)Domain definition(領域の定義):TOEFL で観測される受験者のパフォーマンスは,英語 で授業を行う高等教育機関で学業に従事する 際必要な知識やスキル,能力の代表的なものを 明確にするものである (2)Evaluation(評価):TOEFLにおいて観測さ れる受験者のパフォーマンスを評価すること によって,目標言語能力を反映する得点が算出 される (3)Generalization(一般化):TOEFLで観測さ れる得点は,比較可能な課題や形式,実施・採 点条件下で測定を繰り返した際に期待される 得点の推定である (4)Explanation(説明):比較可能な課題や形式, 実施・採点条件下で測定を繰り返した際に期待 される得点は,構成概念(高等教育機関で勉強 するのに必要な英語力)を反映するものである (5)Extrapolation(推定):TOEFLで測る学業 に必要な英語力は,受験者が高等教育機関にお いて英語でどの程度学業をこなしていけるか を示すものである (6)Utilization(利用):TOEFLから得られる, 受験者が高等教育機関において英語でどの程 度学業をこなしていけるかに関する推定値は, 留学・入学を希望する学生の選抜や教育指導の 指針を立てるうえで役立つ (Chapelle,2008,pp. 347-8;筆者訳) TOEFLの妥当性研究では,この 6 つの推論の一 つ一つを,先ほどのToulminモデルを使って論証 する。つまり,図 1 で示したような論証モデルを 6 つの推論それぞれについて作成し,それを連結し た形で順次論証する構成を取っている。Chapelle et al.(2008)が提示するTOEFL interpretive argu-mentでは,この 6 つの推論の一つ一つを「橋」と表 現し,その「橋」を段階的に渡っていかなければな らないと説明している。つまり一つ目の「橋」を渡 るためには,一つ目の推論に関する主張が十分立証 できなければならない。それができたらその「橋」 を渡って,次の推論の検討に進む。ここではその前 の「橋」を渡るために立証した内容が,次の主張の 根拠(grounds)となる。これを繰り返すことによっ て論を積み上げていくわけである。但し,Davidson & Lynch(2002)等,他の言語テスト研究者も指摘し ているように,実際のテスト開発の過程は設計,作 成,試行,実用化と順序よく進んでいくような直線 的なものではなく,その途中で懸案事項が浮上する たびに設計や開発されたテスト内容,実施方法等を 再検討し,適宜修正を加えながら徐々に完成に向 かっていくものであり,これはTOEFL iBT開発の 経緯にもあてはまるとChapelle et al.も報告してい る。従って,Toulminの論証モデルを言語テストの 妥当性検討に応用する場合は,この点を考慮し,一 つの推論に関して最初に予定した研究が一通り完了 したとしても,さらに追加データ等を参照して裏付 けを強化したり,以前の研究結果を新しいデータで 再検討したりするなど,一度渡った「橋」についても 繰り返し再確認しながら妥当性研究を進めていくこ とが必要になる。
Chapelle(2008)は TOEFL validity argument に ついて,TOEFL iBTに関する実証研究や理論的分 析結果をもとに,「TOEFLの得点は,英語で授業が 行われる大学で学業を行うための受験者のレディネ スに関する決定をするうえで妥当である」(p. 320; 筆者訳)という結論を導いている。しかし,この結 論はTOEFL iBTの開発段階で行われた実証研究 の結果に基づくものである。テストの開発段階で は,そのテストのデザインを支持するための理由と 裏付けを明確に示すことが先決になるため,性格的 には“confirmationist”(p. 320),つまり確信者的で あり,TOEFL iBT の妥当性検討の第一段階にすぎ ないとChapelleは説明する。妥当性検討の第二段 階では,実際にテストが実用化された後に,第一段 階で確認できたそれぞれの推論に対する裏付けをも う一度新しいデータを用いて検討し直し,反証を覆 す試みも積極的に行っていかなければならない。こ のTOEFL妥当性研究の試みは,大規模言語テスト の妥当性研究をより効率的・組織的に計画・実施し ていく方向性を探るテストケースとして示唆に富む ものである。
2.テストの利用と学習者に与えるフィードバック 2.1.大規模言語テストで結果をわかりやすく報告 することの重要性 大規模言語テストでは,受験者の成績はセクショ ンごとの得点やそれを総合した合計点,またある級 やレベルなどへの合格・不合格という形の総合評 価で示されることが多い。例えば英語学習者Aさ んの,ある大規模な英語テストの得点は,合計点 0~300 点の尺度において 150 点だったとする。この 場合,150 点という得点は,この尺度の中間の数字 であること,またAさんより高得点の受験者がい れば,その受験者はこのテストにおいてはAさん より能力的に上だと考えられることは明らかである。 しかし,150 点はどのぐらいの言語能力レベルを指 すのか,また 150 点程度得点できれば実際どの程度 のことを英語でできるのかなど,この得点が意味す るところについては,追加情報が与えられない限り それ以上の解釈ができない。また,報告された得点 が一つだけであるため,例えば聴解は全般的によく できていたが,長文に基づく読解では大意が把握で きていなかったなど,受験者の長所と弱点を把握し, その後の学習・指導計画にテスト結果を役立ててい くのに十分な情報は,150 点という数字そのものか らは得られない。 Kunnan(2008)も指摘するように,テスト結果の 解釈が容易でなく,テスト結果に関して得られる情 報が不十分なことは大規模言語テスト批判の一因と なっており,またテストの利用者も,語学学習・指 導や受験者に関する決定の際の得点解釈やテスト結 果の適切かつ公平な利用のために,より詳細なテス ト結果報告を求めるようになってきている。テスト の妥当性・有用性検討の観点から見ると,テスト結 果をわかりやすく,かつ十分な情報と共に報告する ことは,大規模言語テストの利用(utilization),つ まりテストの得点解釈に基づいて受験者の言語能力 について妥当な決定を下すこと(Bachman,2005) の根幹を成す。なぜならば,報告されるテスト結果 がわかりにくいものであれば,誤った得点解釈に基 づくテスト結果の誤用,また社会や教育組織,そこ に所属する個人に対してもテストが望ましくない影 響を与えるなど,負の結果を生む可能性を孕んでい るからである。さらには,テスト結果そのものが解 釈しにくいものであれば,テスト結果をふまえて学 習者のクラス分けなどの決定をしたり,指導計画を 立てたりすることはままならず,言語指導と一体化 した形でテストを教育現場で利用することが困難に なる。学習者自身も,テスト結果をふまえて学習し たいと思っても,どこに重点を置けばよいのか分か らず,結局はテストを受けた経験がその後に活かさ れないことになる。従って,言語テストが学習者の 自主学習や言語教育に望ましい波及効果をもたらす ことを期待するのであれば,テスト結果が,受け取 り手である受験者やその教師にとってわかりやすく, 十分理解できるものとなるよう配慮することが必要 不可欠なのである。このテスト結果のわかりやすさ の重要性については,Chapelle et al.(2008)も指摘 しており,上述したTOEFL interpretive argument の第 6 の推論,テストの利用に関する推論を立証 するうえでは,TOEFL iBTの得点が志願者の選抜 にあたるアドミッションズ・オフィスの職員や受験 者,教師が明確に解釈できるものであることが前提 (assumption)だと述べている(p. 21)。 2.2.学習者への大規模言語テスト結果のフィード バックに関する近年の研究 テスト結果を分かりやすく,詳細に通知すること の重要性の認識を受けて,近年では大規模テストの 結果についてより詳細な情報をデータから抽出する ための研究が進んできている。その分析の目標は, テスト結果に関するより詳細な情報をテスト得点報 告書やウェブサイト等を通じて学習者やテスト結果 使用者へ提供することである。ここでは合計点や部 分点など,大規模テストでよく報告される得点より 詳細なテスト結果に関する情報(フィードバック) を便宜上 2 つのタイプに大別し,それぞれの特徴や 例を考察する。一つ目はグループ・レベルのフィー ドバック,つまり同程度の言語能力レベルにある学 習者全員が受け取る,自らが属する得点群の一般的 な特徴について描写した同一のフィードバックであ り,二つ目が個人に特化したフィードバック,つま り学習者各個人のテスト結果に応じた個別のフィー
ドバックである。 まず,グループ・レベルでのフィードバックの例 としては,Can-doリストを用いたものが挙げられ る。例えば,実生活において目標言語を使って遂 行する可能性があると思われる様々な課題を Can-doリストとして提示し,そのそれぞれをどの程度 うまくこなすことができるかを学習者やその教師に 評価させるアンケート調査等を行い,その結果とテ ストの得点をリンクさせ,ある得点群が,実生活に おいてどのような言語使用課題をどのぐらいうまく 遂行できる傾向にあるかを示すものである。日本で 実施されている大規模言語テストに関しては,日本 語能力試験,TOEIC®,STEP英検等でこの手法に 基づいた情報を提供している。グループ・レベルの フィードバック作成の手法としては,他にscale an-choring(Beaton & Allen,1992)が挙げられる。これ はテスト問題の特性の分析に基づくもので,テスト の各得点群に属する受験者の多数が正答できた項目 とそうでない項目を特定し,そのそれぞれの項目の 特性を分析することによって,各得点群の典型的な 解答の傾向を解説するものである。Scale anchoring の応用例としては,TOEFL iBTの公式スコア票と は別に,受験者に送付されるTOEFL iBT Examinee Score Reportと呼ばれる受験者控え(www.ets.org/ toefl参照)がある。この受験者控えでは,リーディ ング,リスニング各セクションのスコア,またス ピーキング,ライティングセクションでは課題のタ イプごとの得点についてレベル別に解答の典型的な 特徴に関する解説や,更なる学習のためのアドバイ スを提供している。このうち,scale anchoringを用 いたリーディング・セクションに関するフィード バック作成のために行われた研究の詳細については, Gomez, Noah, Schedl, Wrignt, & Yolkut(2007)が報 告している。
さて,これらのグループ・レベルのフィードバッ クはある得点群の学習者に一般的によく見られる解 答の特徴や典型的な長所・弱点をマクロ・レベルで 把握するうえでは有用である一方,Kunnan & Jang (2008),Sawaki,Kim,& Gentile(2009)はその限 界も指摘する。それは,グループ・レベルのフィー ドバックは必ずしも個人個人の受験者の長所・弱点 や解答の特徴を反映するものではないため,学習者 個々人にとってその有用性が限られていることであ る。そこで個人に特化したフィードバックを抽出す る方法として近年注目を集めているのが,cognitive diagnosis(Lohman & Ippel,1993;Lee & Sawaki, 2009)である。これは認知言語学と測定を結び付 けることによって生まれた診断的テストの手法で, 受験者のテスト項目に対する解答パターン(item response pattern)を詳細に分析し,受験者の言語 能力に関する詳細なプロファイルを得ることを目的 とする。利点は受験者 1 人ひとりが,どのような属 性を持った項目に正答し,どのようなものに誤答す る傾向があったかを把握し,弱点を特定して後の学 習・指導計画を立てるうえで有用な情報が得られる ことである。その手順をLee & Sawaki(2009)では 次の 4 つのステップにまとめて紹介している。 (1)診断の対象としたいテスト項目や課題の attribute(属性)を特定する(例:課題の特性,課 題をうまく遂行するのに必要なスキルや能力) (2)テスト項目・課題の質的分析を詳細に行い, 各項目・課題に正答するために必要となる属性 を特定する(例:専門家による分析,学習者の think-aloud protocolの分析) (3)テスト項目と各属性の関係を示すQ-matrixと 言われる表1を作成し,受験者の各項目への解 答パターンのデータをQ-matrixと一緒に統計 分析する (4)分析結果をもとに,受け取る人にわかりやす い形でテスト結果報告書を作成する Cognitive diagnosisの手法は,1990 年代から 言語テスト研究に応用されてきている。Buck & Tatsuoka(1998)をはじめとする当時の研究は,テ スト項目の属性に関する分析により学習者の習熟度 について詳細な情報を得られる統計的手法として研 究者の注目を集めたが,その分析結果をどう得点報 告や学習指導につなげていくかについての具体策に 関する議論は,言語テストの分野では散発的であっ た。しかし 2009 年に出版された,学術雑誌Language Assessment Quarterlyのcognitive diagnosisに関する 特集号(第 6 巻 4 号)やJang(2009),Kunnan & Jang (2008)等に代表される言語テストにおける近年の cognitive diagnosis研究では,この手法を使った大 規模リーディング・リスニングテストにおける学習
者の言語プロファイル分布や,cognitive diagnosis 分析結果を利用した得点報告書作成の例などが示さ れている。近年の言語能力診断への関心の高まりと 連動して,今後実用化を視野に入れた研究を期待し たい分野である。 Cognitive diagnosisの手法は,個人に特化した フィードバックを抽出する方法として有望である一 方,限界もある。それは,テスト項目への解答パター ンの分析を基盤とするため,多くの項目から成るテ スト(リーディング・テストや語彙・文法テストな ど)には応用できるが,スピーキングやライティン グのテストなど,少数の課題からなるパフォーマン ス評価には応用しにくい点である。従って,スピー キング・ライティングのパフォーマンス評価等で詳 細なフィードバックを抽出する場合は違う手法が必 要になる。これについては自動採点システムが持つ 可能性に注目したい。 自動採点においては,採点エンジンを用いて人間 の評定者が出すスコアを推定するものが多いが,こ の採点の過程においては,受験者のspeech sample やwriting sampleの言語的特性を様々な角度から 分析する。自動採点結果を基にして,従来よりも詳 細なフィードバックを受験者に報告する可能性を示 唆する研究も進行している。例えば,Attali(2007) は,ETSが開発したエッセー自動採点エンジン, e-rater®による受験者のエッセー内容の分析の際 用いられる様々な言語的特性に関する変数を因子分 析し,TOEFL受験者のライティング能力を説明す るものとして,談話構造,文法,語使用の 3 因子を特 定した。また,e-rater技術を基にしたCriterionSMの ように,学習者がエッセーを送信すると,エッセー に含まれるエラーのタイプを分析し,フィードバッ クとして学習者に通知するコンピュータを使った学 習システムも開発されている(Chodorow,Gamon, & Tetrault,2010)。これは現段階ではあくまでも英 語ライティング学習用ではあるが,さらに自動採点 研究が進展すると共に,大規模テストでもフィード バック作成の一手法として利用できる可能性も広が るであろう。 2.3.フィードバック研究の今後 個人に特化した,詳細なフィードバックの提供に 関する研究の今後の課題は,cognitive diagnosis研 究の将来展望としてLee & Sawaki(2009)がまとめ ている。その中でも特に,言語テストがはかる構成 概念の性質と有用なフィードバックの提供の可能性 の兼ね合いについては今後言語テストにおいて更な る研究が必要である。大規模テストでは,総合評価 としての得点を算出する目的で,一次元性を示すよ うにテストを設計することが多い。このようなテ ストは一つの構成概念を測ることを目的とするため, そのようなテストから複数の得点を算出したとして も,その得点間に高い相関が見られることが多く, ある部分の得点は高いが,他の部分は得点が低いな 表
1
.Q-matrixの一例(10
項目からなるリスニング・テストの場合) 属性 属性1 属性2 属性3 問題番号 セット番号 セット内問題番号 語彙を理解する 明示されている特定の情報を理解する 明示されていない情報を推測する 1 1 1 1 0 0 2 1 2 1 1 0 3 1 3 0 1 1 4 2 1 0 1 0 5 2 2 1 0 1 6 2 3 0 0 1 7 3 1 0 1 0 8 3 2 0 0 1 9 3 3 1 1 0 10 3 4 0 1 1 注:表中「1」は,該当の属性が認められる項目,「0」は該当の属性が認められない項目を指す。ど,受験者の長所と弱点を特定できるような,有用 な言語プロファイルを取り出すことが比較的難しい と考えられる。例えば,これを示す結果はLee & Sawaki(2009)のTOEFL iBTのリーディング,リ スニング各セクションのcognitive diagnosis 分析 で得られている。Lee & Sawakiが 3 つのcognitive diagnosisの心理測定モデルを使って学習者のスキ ル・プロファイルを推定した際,モデル間で多少の 差はあったものの,59~76%の学習者が,全てのス キルをマスターした,あるいはどのスキルもマスターで きていないという結果が得られた。つまり,これに該 当する学習者の場合,スキル・プロファイルを詳細 に報告したところで,リーディング力,リスニング 力のそれぞれにおける長所と弱点は特定できなかっ た。無論,言語能力そのものの特性の他にも,Lee & Sawakiが研究の対象とした属性やQ-matrixの構造, TOEFL iBTで測定される,比較的狭い範囲におけ るリーディング・リスニング能力を測るテスト内容, また中・上級英語学習者を中心とする TOEFL受験 者の母集団の性質等,この結果を生んだ要因として 考えられることは様々であり,今後の研究でより効 率的に学習者のプロファイルの特定ができる方法を 探っていくことが求められる。 さらに,大規模テストにおけるフィードバックの 充実を考える際,フィードバックを提供するタイミ ングやその内容についても熟考が必要である。ここ でまず問題となるのがテスト内容の公開の有無と フィードバック内容の兼ね合いについてである。日 本においては,STEP 英検のように,テスト内容を 全て公開し,成績表で各項目への解答状況,分野 別・大問別得点を報告するテストがある一方,等化 などの必要性からテスト項目を公開しないテストも ある。例えばテスト内容を公開しない大規模テスト でテスト成績について詳細なフィードバックを提供 する場合,もし受験日からテスト結果を受け取るま で数週間を要するとしたら,受験した時に目にした 問題や自分の問題冊子なしに,受験者はその内容を どの程度理解できるであろうか。また,このような 場合,どのような内容について,どの程度の詳細を 盛り込むことが適切であろうか。これらの点を今後 さらに追求していくことも,今後の研究の重要な課 題である。 3.結論 テスト妥当性理論は進化を続けているが,過去 20 年間ほどの間にテストの妥当性の枠組み自体は変化 してきた一方で,テスト妥当性がその利用までを含 む広義のものであるという捉え方は定着し,テスト の使用に関する研究が,テストの得点解釈に関する 研究と一体化して今後益々進んでいくと予想される。 また,本稿後半では,テスト使用に関する様々な論 点の中でも,特に報告されるテスト結果のわかりや すさの重要性について考察し,近年のフィードバッ ク研究について,大規模テストで既に実用化されて いるものから現在研究段階にあるものまでを概観し た。テストの適切かつ公正な利用,また望ましい波 及効果につながるフィードバックに関する研究はま だ始まったばかりで,十分な議論は尽くされていな い。テストの適切で公平な利用,また望ましい波及 効果に結びつくテスト結果利用を目指して,今後 益々この分野の研究が盛んになることを期待したい。 文献 バックマン,L.F.,パーマー,A.S.(2000).大友 賢二・ランドルフ・スラッシャー(監訳)『実践 言語テスト作成法』大修館書店.(Bachman, L. F., & Palmer, A. (1996). Language
test-ing in practice. Cambridge, UK: Cambridge University Press.)
American Educational Research Association, Ameri-can Psychological Association, & Nation-al Council on Measurement in Education. (1999). Standards for educational and
psycho-logical testing. Washington, DC: American Ed-ucational Research Association.
Attali, Y. (2007). Construct validity of e-rater in scoring
TOEFL essays. Princeton, NJ: ETS.
Bachman, L. F. (2005). Building and supporting a case for test use. Language Assessment
Quar-terly, 2, 1-34.
as-sessment in practice. Cambridge, UK:
Cam-bridge University Press.
Beaton, A. E., & Allen, N. L. (1992). Interpreting scales through scale anchoring. Journal of
Ed-ucational Statistics, 17, 191-204.
Buck, G., & Tatsuoka, K. (1998). Application of the rule-space procedure to language testing: Ex-amining attributes of a free response listening test. Language Testing, 15(2), 119-157.
Chapelle, C. A. (2008). The TOEFL validity argu-ment. In C. A. Chapelle, M. K. Enright, & J. M. Jamieson (Eds.), Building a validity
argu-ment for the Test of English as a Foreign Lan-guage (pp. 319-352). New York: Routledge.
Chapelle, C. A., Enright, M. K., & Jamieson, J. M. (2008). Test score interpretation and use. In C. A. Chapelle, M. K. Enright, & J. M. Jamieson (Eds.), Building a validity argument for the Test
of English as a Foreign Language (pp. 1-26).
New York: Routledge.
Chodorow, M., Gamon, M., & Tetrault, J. (2010). The utility of article and preposition error cor-rection systems for English language learners: Feedback and assessment. Language Testing,
27(3), 419-436.
Davidson, F., & Lynch, B. K. (2002). Testcraft: A
teacher’s guide to writing and using language test specifications. New Haven, CT: Yale Univer-sity Press.
ETS (2008). Validity evidence supporting the
interpreta-tion and use of TOEFL iBT scores. Princeton, NJ: Author.
Gomez, P. B., Noah, A., Schedl, M., Wright, C., & Yolkut, A. (2007). Proficiency descriptors based on a scale-anchoring study of the new TOEFL iBT reading test. Language Testing,
24(3), 417-444.
Jang, E. E. (2009). Cognitive diagnosis assessment of L2 reading comprehension ability: Valid-ity arguments for Fusion Model application to LanguEdge assessment. Language Testing,
26, 31-74.
Kane, M. (2006). Validation. In R. Brennan (Ed.),
Educational Measurement (4th ed., pp. 17-64). Westport, CT: American Council on Measure-ment in Education and Praeger Publishers. Kunnan, A. J. (2008). Large scale language
assess-ments. In E. Shohamy & N. H. Hornberger (Eds.),Language Testing and Assessment: Vol.
7. Encyclopedia of language and education (2nd
ed., pp. 135-155). Amsterdam: Springer Sci-ence.
Kunnan, A. J., & Jang, E. E. (2009). Diagnostic feed-back in language assessment. In M. Long & C. Doughty (Eds.), Handbook of second and
for-eign language teaching (pp. 610-627). Walden, MA: Wiley-Blackwell.
Lee, Y.-W., & Sawaki, Y. (2009). Cognitive diagnosis approaches to language assessment: An Over-view. Language Assessment Quarterly, 6(3),
172-189).
Lohman, D. F., & Ippel, M. J. (1993). Cognitive di-agnosis: From statistically based assessment toward theory-based assessment. In N. Fred-ericksen, R. J. Mislevy & I. I. Bejar (Eds.), Test
theory for a new generation of tests (pp. 41-71).
Hillsdale, NJ: Erlbaum.
Messick, S. (1989). Validity. In R. L. Linn (Ed.), Edu-cational measurement (3rd ed., pp. 13-103). New York: MacMillan.
Mislevy, R. J., Steinberg, L. S., & Almond, R. G. (2002). Design and analysis in task-based lan-guage assessment. Lanlan-guage Testing, 19, 477-496.
Sawaki,Y., Kim, H.-J., & Gentile, C. (2009). Q-ma-trix construction: Defining the link between constructs and test items in large-scale read-ing and listenread-ing comprehension assessments.
Language Assessment Quarterly, 6(3), 190-209.
Toulmin, S. E. (1958). The uses of argument. Cam-bridge, UK: Cambridge University Press. Toulmin, S. E. (2003). The uses of argument (updated
ed.). Cambridge, UK: Cambridge University Press.