大規模言語テストの妥当性・有用性検討に関する近年の動向

(1)

54 第2回「言語教育評価フォーラム」　講演

大規模言語テストの妥当性・有用性検討に関する近年の動向

澤木泰代

大規模テストの妥当性研究を支える妥当性理論は，20 世紀前半から現在まで，変遷を重ねてきている。『教育・心理検査法のスタンダード』の最新版（American Educational Research Association， American Psychological Association & National Council on Measurement in Education，1999；以下『スタンダード』）は，テスト妥当性（test validity）

を“the degree to which evidence and theory sup-port the interpretations of test scores entailed by proposed uses of tests”（p. 9），つまり「意図されたテストの使用目的に伴う得点解釈が，証拠や理論によって支持される度合い」と定義している。この得点解釈を中心としたテスト妥当性の定義は現在広く受け入れられているが，この定義が定着してきたのは過去 30 年ほどのことである。Kane（2006）によると，1920 年から 1950 年頃にかけてはテストの成績と外部基準，つまり受験者が実生活で評価される基準（例：学校や職場での成績）の関係に関する基準妥当性（criterion validity）を中心とする妥当性の概念が発達した。一方，1950 年代初め頃までには，基準妥当性と共に，テストの内容がどの程度評価の目的に適切なものであるかに関する内容妥当性（content validity）の観点もテスト妥当性検討に使用されるようになった。しかしテストの得点をどの程度測りたい潜在的な能力（構成概念）の指標として解釈することができるかを問う構成概念妥当性（construct validity）が議論されるようになったのは 1950 年代に入ってからで，構成概念妥当性を中心とする妥当性理論が妥当性の一般的な定義として広く認められたのは 1980 年代前半になってからである。一方，1970 年代からの議論を踏まえ，1985 年版の『スタンダード』では，妥当性が単一の概念（unitary concept）であり，それまで基準妥当性，内容妥当性，本稿では，過去20年ほどにおける，言語テストの妥当性検討を支えるテスト妥当性理論の変遷を中心にまとめると共に，大規模言語テストの妥当性・有用性に深く関連する，テスト結果の報告内容や方法に関する近年の研究を紹介する。まず，テスト妥当性を，テストの得点解釈そのものだけでなくテスト結果の利用まで含んだ広義のものと捉える，近年のテスト妥当性研究における妥当性の概念と，最近注目を浴びているToulmin（1958，2003）の論証モデルに基づく新しい枠組みの概要とその応用例を紹介する。また，テスト結果の適切かつ公正な利用を促進するうえでの，より詳細でわかりやすいテスト結果報告の意義を考察し，望ましい波及効果（washback）を高めることを目指したテスト結果のフィードバックに関する近年の研究を紹介する。大規模テスト，妥当性，有用性，論証，テスト結果報告＊_{早稲田大学教育学部，} E-mail: [email protected]

(2)

構成概念妥当性と呼ばれてきたものは，別個のものではなく，テスト妥当性の違った側面であると説明した。この流れを汲んで，最新版の『スタンダード』やMessick（1989）のテスト妥当性理論では，テスト妥当性を単一の概念と定義し，構成概念妥当性をテスト妥当性の根幹と位置付けている。 1990 年代以降，Messick（1989）の理論は言語テストのみならず，心理・教育測定においてもテスト妥当性研究に大きな影響を与え続けている。その大きな特徴の一つは，テスト妥当性を広く定義し，テストの使用と，テストの使用がもたらす結果（consequence）もテスト妥当性の一部として捉えていることである（Kane，2006）。Messickは，テストの使用に関する評価は 2 段階構成，つまり，得点解釈（score interpretation）に関する，そのテストで測りたい能力がきちんと測定できているかに関する評価と，テスト得点使用（test score use）に関する，出来上がったテストが，適切な形で使用され，望ましい結果をもたらすものであるかに関する評価の二つから成ると説明している。言語テストの分野においては，1990 年代以降，Messick（1989）の理論をふまえてテストの得点解釈だけでなく，テストが開発されてテスト作成者の手を離れたあとそれがどう利用され，どのような結果を生むかについてもテスト妥当性検討の視野に入れることの重要性が認識されるようになり，このテスト妥当性検討に関する考え方は，言語テスト研究においても今後の指針となっていくと考えられる。本稿では，この広義のテスト妥当性の定義に基づく二つの枠組み，つまり現在広く言語テストの分野で妥当性研究に応用されているバックマン，パーマー（1996/2000）のテストの有用性（test usefulness）の概念と，教育測定の分野で提案され，近年言語テストの分野でも研究されるようになった，論証（argument）に基づいた妥当性検討の枠組みの関連について解説し，この後者の大規模言語テスト妥当性研究への応用例を紹介する。その後，テスト結果の適切かつ公正な利用の観点から，より望ましい波及効果（washback，つまりテストが言語学習や言語教育に与える影響）につながるテスト結果報告の内容や方法に焦点をあて，関連分野に関する近年の研究をまとめる。 1．1990年代以降の言語テストでのテスト妥当 性研究の枠組みの変遷 1．1．バックマン，パーマー（1996

/

2000）のテストの有用性の概念 1990 年代半ば，言語テストの分野では，バックマン，パーマー（1996/2000）が，テストが意図された目的を果たすうえで役立つ度合いを指すテストの有用性（test usefulness）という広い概念を打ち立て，多くの言語テスト妥当性研究に応用されてきた。このテスト有用性は次の 6 つの特質（qualities）から成る。（1）信頼性（reliability）：テストの結果が一貫したものであるか，つまり，同じ受験者がいつ，どこで受けても，誰が採点しても同じ結果が得られるものであるか（2）構成概念妥当性（construct validity）：テストの得点を，どの程度そのテストで測りたい構成概念の指標として解釈することが可能か（3）真正性（authenticity）：実生活で受験者が目標言語を使ってやらなければならないような課題（タスク）の特性を十分に反映する内容のテストであるか（4）相互性（interactiveness）：受験者が持つ様々な特性の中で，実生活で必要となるものを組み合わせて用いることを要求する課題からなるテストであるか（5）影響（impact）：社会や教育組織，またその組織に属する個人（教師や学習者）にどのような影響を与えるテストであるか（6）実用性（practicality）：使える資源（人的・物的，時間的資源など）で開発，実施，維持していけるテストであるかどうかここで信頼性はテストの得点解釈の前提となるもの，構成概念妥当性と真正性，相互性はテストの得点解釈と深く関連する特質，また影響はテスト結果の利用に関するものである。実用性はテストの使用そのものとは異なるが，テストを実施していくうえで大切な要素だと位置づけている。バックマン，

(3)

パーマー（1996/2000）は，この 6 つの特質を別々に考えるのではなく，全体のバランスを考えて，テストの有用性を総合的に高めることが重要であること，またテスト全体の有用性を高めるのに最適な「公式」は，テストによってそれぞれ違うことを指摘した。利害関係の大きいテスト（high-stakes test），例えば入社試験の際の，日本語を母語としない志願者に課される日本語面接テストのように受験者の一生を左右しかねない重要な決定に利用されるテストの場合，テストの信頼性を確保するために，評定者を徹底的に訓練し，どの評定者が，いつ，どの受験者を採点したとしても一貫したスコアが得られるようにすることが必要不可欠である。一方，授業の一環として教師が日常的に行う小テストのように利害関係が比較的小さいテストであれば，評定は教師本人一人で行うことになるであろうし，採点基準も柔軟に設定できよう。この場合，採点結果に多少ずれが生じたとしても，その小テスト一回の成績が学習者に関する重要な決定を左右する可能性は低く，また学習者の観点からすれば，一度小テストで思うように得点できなくても，次回のテストで挽回できるため，入社試験の場合ほど高い信頼性は要求されないであろう。また，例えばリスニング・テストで英語の/r/ と/l/が聴き取れるかどうかテストしたい場合は，実生活にありそうな場面設定をした真正性の高いテスト課題よりは，文脈を一切排除した最小対（minimal pair）の聴き分け（例．次の (1) と (2) を聴いて，「読む」という意味の語はどちらか答えなさい。(1) read， (2) lead）のように，真正性は低いながらも，その音素対が識別できるかどうかを確認できる部分的測定テスト項目（discrete-point item）の方が有用な場合もある。つまり，どの特質を優先するかは，テストの目的や状況で違うのである。テスト妥当性を広義に単一の概念と定義する Messick（1989）の理論や，バックマン，パーマー（1996/2000）のテストの有用性の概念は，近年の言語テスト研究に大いに影響を与えて来た。しかし， Bachman（2005），Bachman & Palmer（2010）はこれらの枠組みの限界を 2 点指摘している。その 1 点目は，Messickの理論はテスト妥当性の枠組みを広げることに大いに貢献してきたが，それに従ってテストの妥当性，テストの利用とその結果について同じ枠組みの中で検証を実践できるほど具体化されたものではなかったことである。2 点目は，バックマン，パーマーのものを含めて，これまでに提唱された言語テストにおける妥当性，有用性，公平性等に関する理論では，特質同士の優先順位や相互関係は明確ではなく，例挙するだけに止まっていたことである。従って，これまでの言語テスト妥当性・有用性検討の枠組みは，それを実践するうえでは必ずしも具体的な指針となるものではなかった，というわけである。 1．2．

Toulmin

の論証モデルに基づいたテスト妥当性検討の枠組みの提唱教育測定の分野では，1990 年代以降論証（ argu-ment）に基づいたテスト妥当性検討の枠組みが教育測定の分野で提唱され，それが言語テスト研究にも紹介され，上述したMessick（1989）やバックマン，パーマー（1996/2000）などの枠組みの問題点を解決する可能性を示すものとして，近年注目を集めている。この枠組みを扱う言語テストにおける先行研究には，Bachman（2005），Bachman & Palmer（2010）， Mislevy，Steinberg & Almond（2002）等がある。それぞれのアプローチに多少の違いが見られるものの，その全てに共通することは，Toulmin（1958，2003）の論証モデルに基づいている点である。テスト妥当性検討において論証モデルを採用する利点として上述の研究者達が共通して指摘しているのは，テスト妥当性研究の計画と実施の組織化・効率化である。つまり，例えばバックマン，パーマーのような有用性のリストだけでは，テストの妥当性を確認するうえで，どのような実証研究をどの程度行うことが必要であるかは必ずしも明らかではなかった。これに対し，論証モデルを使うことにより，テストの妥当性・有用性について説得力を持つ論を展開するには，どのような研究から優先的に始め，テストの妥当性の根拠となるデータはどのようなものをどれだけ集めればよいのかがわかりやすいのである（Bachman & Palmer，2010；Chapelle，2008；Kane，2006）。これらの論文では，例えば新しいテストを開発する場合，これからこのようなテストを作り，このテストの得点解釈によって受験者の言語能力についてこのような結論が導き出せるものにしたい，という「主張」（claim）とその「理由」（warrant）を示したテス

(4)

ト得点の解釈的論点（interpretive argument）をまとめ，その後実証研究や理論的分析を通して解釈的論点に対応する妥当性論点（validity argument）に対する裏付け（backing）を取っていく作業の 2 部構成を取る枠組みを提案している。学問に必要な日本語能力テストを例に取って Toulminの論証モデルの基本形を図に示すと図 1 のようになる。ある日本語のアカデミック・ライティングのテストでは，論文を読んで要約を作成する課題が出題されると仮定する。この課題で受験者が高得点をおさめた場合，これを根拠（grounds）として，テスト作成者・利用者は，高得点をおさめた受験者は大学で好成績を挙げるのに必要なライティング能力があると主張したい，つまり，そのように得点を解釈したいわけである。しかし，これには理由が必要である。その理由の一例としては，日本の大学で勉強する場合，受験者が日本語でやらなければならないタスクの特性をそのテスト課題が反映しているからだ，ということ，またその裏付けとしては，テスト開発にあたって日本の大学で必要な日本語ライティング能力に関してニーズ分析が行われ，論文の要約ができることが大切だと確認できたから，といったものが考えられるであろう。ところが，この論文を十分理解するにはある理論を知っていることが必要であり，後の妥当性研究において，同程度の能力群の成績を比較した場合，この理論を知っている受験者とそうでない受験者の成績に大きな差が認められたとする。この場合，この課題での受験者の成績は出題内容に関する背景知識に比較的大きな影響を受けているわけで，これは反証（rebuttal）として機能し，最初に意図した日本語能力の指標として得点を解釈するという主張を弱めるものとなる。 1．3．論証モデルに基づいた言語テスト妥当性検討例：

TOEFL iBT™

の場合この論証に基づいた妥当性検討の枠組みは言語テスト研究で応用され始めているが，ここでは新しい大規模言語テストの妥当性検討への応用の一例として，英語で授業を行う大学や大学院に英語学習者が留学・入学を希望する場合にスコアの提出を求められることがあるTest of English as a Foreign Language™（TOEFL®）の妥当性研究の枠組みを簡単に紹介する。TOEFLは米国ニュージャージー州にある非営利団体，ETS（Educational Testing Service）によって開発・実施されており，高等教育機関への，英語を母語としない入学・留学希望者の選抜のために使うことを主な目的として開発されたテストである。TOEFLは過去にPaper-based test （PBT），Computer-based test（CBT）等の形式で実施されてきたが，2005 年末のInternet-based test （iBT）の導入と共に，既存のリーディング，リスニング，ライティングの 3 セクションのデザインが大幅に改訂され，新しくスピーキング・セクションが加わった。留学・入学を希望する学校がTOEFLスコアを要求する場合，この 4 つのセクションの得点（各 0~30 点）と合計点（0~120 点）が志望校に通知される。この新テストの導入に至るまで，1990 年代初頭からあらゆる実証研究が行われてきており，その経緯は，TOEFL の歴史と共に，2008 年に出版されたChapelle，Enright & Jamiesonによる共著， Building a validity argument for the Test of English as a Foreign Languageで詳細に報告されている。その第 1 章（Chapelle，Enright，& Jamieson，2008）では TOEFLの解釈的論点（TOEFL interpretive argu-ment），また第 9 章（Chapelle，2008）では，TOEFL の得点使用まで含めた広義の妥当性に関する妥当性論点（TOEFL validity argument）の仕組みをそれぞれ紹介している。Chapelle（2008）は，TOEFL validity argumentの最終目標は，高等教育の場で必要な英語力を示すというTOEFLの得点解釈が妥当であり，高等教育機関への入学・留学希望者選抜の図

1

．Toulmin（

2003

）の論証モデルの基本形の例

(5)

ための利用に適するということを論証することであり，そのためには次の 6 つの推論（inferences）を立証しなければならないとする。

（1）Domain definition（領域の定義）：TOEFL で観測される受験者のパフォーマンスは，英語で授業を行う高等教育機関で学業に従事する際必要な知識やスキル，能力の代表的なものを明確にするものである（2）Evaluation（評価）：TOEFLにおいて観測される受験者のパフォーマンスを評価することによって，目標言語能力を反映する得点が算出される（3）Generalization（一般化）：TOEFLで観測される得点は，比較可能な課題や形式，実施・採点条件下で測定を繰り返した際に期待される得点の推定である（4）Explanation（説明）：比較可能な課題や形式，実施・採点条件下で測定を繰り返した際に期待される得点は，構成概念（高等教育機関で勉強するのに必要な英語力）を反映するものである（5）Extrapolation（推定）：TOEFLで測る学業に必要な英語力は，受験者が高等教育機関において英語でどの程度学業をこなしていけるかを示すものである（6）Utilization（利用）：TOEFLから得られる，受験者が高等教育機関において英語でどの程度学業をこなしていけるかに関する推定値は，留学・入学を希望する学生の選抜や教育指導の指針を立てるうえで役立つ（Chapelle，2008，pp. 347-8；筆者訳） TOEFLの妥当性研究では，この 6 つの推論の一つ一つを，先ほどのToulminモデルを使って論証する。つまり，図 1 で示したような論証モデルを 6 つの推論それぞれについて作成し，それを連結した形で順次論証する構成を取っている。Chapelle et al.（2008）が提示するTOEFL interpretive argu-mentでは，この 6 つの推論の一つ一つを「橋」と表現し，その「橋」を段階的に渡っていかなければならないと説明している。つまり一つ目の「橋」を渡るためには，一つ目の推論に関する主張が十分立証できなければならない。それができたらその「橋」を渡って，次の推論の検討に進む。ここではその前の「橋」を渡るために立証した内容が，次の主張の根拠（grounds）となる。これを繰り返すことによって論を積み上げていくわけである。但し，Davidson & Lynch（2002）等，他の言語テスト研究者も指摘しているように，実際のテスト開発の過程は設計，作成，試行，実用化と順序よく進んでいくような直線的なものではなく，その途中で懸案事項が浮上するたびに設計や開発されたテスト内容，実施方法等を再検討し，適宜修正を加えながら徐々に完成に向かっていくものであり，これはTOEFL iBT開発の経緯にもあてはまるとChapelle et al.も報告している。従って，Toulminの論証モデルを言語テストの妥当性検討に応用する場合は，この点を考慮し，一つの推論に関して最初に予定した研究が一通り完了したとしても，さらに追加データ等を参照して裏付けを強化したり，以前の研究結果を新しいデータで再検討したりするなど，一度渡った「橋」についても繰り返し再確認しながら妥当性研究を進めていくことが必要になる。

Chapelle（2008）は TOEFL validity argument について，TOEFL iBTに関する実証研究や理論的分析結果をもとに，「TOEFLの得点は，英語で授業が行われる大学で学業を行うための受験者のレディネスに関する決定をするうえで妥当である」（p. 320；筆者訳）という結論を導いている。しかし，この結論はTOEFL iBTの開発段階で行われた実証研究の結果に基づくものである。テストの開発段階では，そのテストのデザインを支持するための理由と裏付けを明確に示すことが先決になるため，性格的には“confirmationist”（p. 320），つまり確信者的であり，TOEFL iBT の妥当性検討の第一段階にすぎないとChapelleは説明する。妥当性検討の第二段階では，実際にテストが実用化された後に，第一段階で確認できたそれぞれの推論に対する裏付けをもう一度新しいデータを用いて検討し直し，反証を覆す試みも積極的に行っていかなければならない。このTOEFL妥当性研究の試みは，大規模言語テストの妥当性研究をより効率的・組織的に計画・実施していく方向性を探るテストケースとして示唆に富むものである。

(6)

2．テストの利用と学習者に与えるフィードバック 2．1．大規模言語テストで結果をわかりやすく報告することの重要性大規模言語テストでは，受験者の成績はセクションごとの得点やそれを総合した合計点，またある級やレベルなどへの合格・不合格という形の総合評価で示されることが多い。例えば英語学習者Aさんの，ある大規模な英語テストの得点は，合計点 0~300 点の尺度において 150 点だったとする。この場合，150 点という得点は，この尺度の中間の数字であること，またAさんより高得点の受験者がいれば，その受験者はこのテストにおいてはAさんより能力的に上だと考えられることは明らかである。しかし，150 点はどのぐらいの言語能力レベルを指すのか，また 150 点程度得点できれば実際どの程度のことを英語でできるのかなど，この得点が意味するところについては，追加情報が与えられない限りそれ以上の解釈ができない。また，報告された得点が一つだけであるため，例えば聴解は全般的によくできていたが，長文に基づく読解では大意が把握できていなかったなど，受験者の長所と弱点を把握し，その後の学習・指導計画にテスト結果を役立てていくのに十分な情報は，150 点という数字そのものからは得られない。 Kunnan（2008）も指摘するように，テスト結果の解釈が容易でなく，テスト結果に関して得られる情報が不十分なことは大規模言語テスト批判の一因となっており，またテストの利用者も，語学学習・指導や受験者に関する決定の際の得点解釈やテスト結果の適切かつ公平な利用のために，より詳細なテスト結果報告を求めるようになってきている。テストの妥当性・有用性検討の観点から見ると，テスト結果をわかりやすく，かつ十分な情報と共に報告することは，大規模言語テストの利用（utilization），つまりテストの得点解釈に基づいて受験者の言語能力について妥当な決定を下すこと（Bachman，2005）の根幹を成す。なぜならば，報告されるテスト結果がわかりにくいものであれば，誤った得点解釈に基づくテスト結果の誤用，また社会や教育組織，そこに所属する個人に対してもテストが望ましくない影響を与えるなど，負の結果を生む可能性を孕んでいるからである。さらには，テスト結果そのものが解釈しにくいものであれば，テスト結果をふまえて学習者のクラス分けなどの決定をしたり，指導計画を立てたりすることはままならず，言語指導と一体化した形でテストを教育現場で利用することが困難になる。学習者自身も，テスト結果をふまえて学習したいと思っても，どこに重点を置けばよいのか分からず，結局はテストを受けた経験がその後に活かされないことになる。従って，言語テストが学習者の自主学習や言語教育に望ましい波及効果をもたらすことを期待するのであれば，テスト結果が，受け取り手である受験者やその教師にとってわかりやすく，十分理解できるものとなるよう配慮することが必要不可欠なのである。このテスト結果のわかりやすさの重要性については，Chapelle et al.（2008）も指摘しており，上述したTOEFL interpretive argument の第 6 の推論，テストの利用に関する推論を立証するうえでは，TOEFL iBTの得点が志願者の選抜にあたるアドミッションズ・オフィスの職員や受験者，教師が明確に解釈できるものであることが前提（assumption）だと述べている（p. 21）。 2．2．学習者への大規模言語テスト結果のフィードバックに関する近年の研究テスト結果を分かりやすく，詳細に通知することの重要性の認識を受けて，近年では大規模テストの結果についてより詳細な情報をデータから抽出するための研究が進んできている。その分析の目標は，テスト結果に関するより詳細な情報をテスト得点報告書やウェブサイト等を通じて学習者やテスト結果使用者へ提供することである。ここでは合計点や部分点など，大規模テストでよく報告される得点より詳細なテスト結果に関する情報（フィードバック）を便宜上 2 つのタイプに大別し，それぞれの特徴や例を考察する。一つ目はグループ・レベルのフィードバック，つまり同程度の言語能力レベルにある学習者全員が受け取る，自らが属する得点群の一般的な特徴について描写した同一のフィードバックであり，二つ目が個人に特化したフィードバック，つまり学習者各個人のテスト結果に応じた個別のフィー

(7)

ドバックである。まず，グループ・レベルでのフィードバックの例としては，Can-doリストを用いたものが挙げられる。例えば，実生活において目標言語を使って遂行する可能性があると思われる様々な課題を Can-doリストとして提示し，そのそれぞれをどの程度うまくこなすことができるかを学習者やその教師に評価させるアンケート調査等を行い，その結果とテストの得点をリンクさせ，ある得点群が，実生活においてどのような言語使用課題をどのぐらいうまく遂行できる傾向にあるかを示すものである。日本で実施されている大規模言語テストに関しては，日本語能力試験，TOEIC®，STEP英検等でこの手法に基づいた情報を提供している。グループ・レベルのフィードバック作成の手法としては，他にscale an-choring（Beaton & Allen，1992）が挙げられる。これはテスト問題の特性の分析に基づくもので，テストの各得点群に属する受験者の多数が正答できた項目とそうでない項目を特定し，そのそれぞれの項目の特性を分析することによって，各得点群の典型的な解答の傾向を解説するものである。Scale anchoring の応用例としては，TOEFL iBTの公式スコア票とは別に，受験者に送付されるTOEFL iBT Examinee Score Reportと呼ばれる受験者控え（www.ets.org/ toefl参照）がある。この受験者控えでは，リーディング，リスニング各セクションのスコア，またスピーキング，ライティングセクションでは課題のタイプごとの得点についてレベル別に解答の典型的な特徴に関する解説や，更なる学習のためのアドバイスを提供している。このうち，scale anchoringを用いたリーディング・セクションに関するフィードバック作成のために行われた研究の詳細については， Gomez, Noah, Schedl, Wrignt, & Yolkut（2007）が報告している。

さて，これらのグループ・レベルのフィードバックはある得点群の学習者に一般的によく見られる解答の特徴や典型的な長所・弱点をマクロ・レベルで把握するうえでは有用である一方，Kunnan & Jang （2008），Sawaki，Kim，& Gentile（2009）はその限界も指摘する。それは，グループ・レベルのフィードバックは必ずしも個人個人の受験者の長所・弱点や解答の特徴を反映するものではないため，学習者個々人にとってその有用性が限られていることである。そこで個人に特化したフィードバックを抽出する方法として近年注目を集めているのが，cognitive diagnosis（Lohman & Ippel，1993；Lee & Sawaki， 2009）である。これは認知言語学と測定を結び付けることによって生まれた診断的テストの手法で，受験者のテスト項目に対する解答パターン（item response pattern）を詳細に分析し，受験者の言語能力に関する詳細なプロファイルを得ることを目的とする。利点は受験者 1 人ひとりが，どのような属性を持った項目に正答し，どのようなものに誤答する傾向があったかを把握し，弱点を特定して後の学習・指導計画を立てるうえで有用な情報が得られることである。その手順をLee & Sawaki（2009）では次の 4 つのステップにまとめて紹介している。（1）診断の対象としたいテスト項目や課題の attribute（属性）を特定する（例：課題の特性，課題をうまく遂行するのに必要なスキルや能力）（2）テスト項目・課題の質的分析を詳細に行い，各項目・課題に正答するために必要となる属性を特定する（例：専門家による分析，学習者の think-aloud protocolの分析）（3）テスト項目と各属性の関係を示すQ-matrixと言われる表1を作成し，受験者の各項目への解答パターンのデータをQ-matrixと一緒に統計分析する（4）分析結果をもとに，受け取る人にわかりやすい形でテスト結果報告書を作成する Cognitive diagnosisの手法は，1990 年代から言語テスト研究に応用されてきている。Buck & Tatsuoka（1998）をはじめとする当時の研究は，テスト項目の属性に関する分析により学習者の習熟度について詳細な情報を得られる統計的手法として研究者の注目を集めたが，その分析結果をどう得点報告や学習指導につなげていくかについての具体策に関する議論は，言語テストの分野では散発的であった。しかし 2009 年に出版された，学術雑誌Language Assessment Quarterlyのcognitive diagnosisに関する特集号（第 6 巻 4 号）やJang（2009），Kunnan & Jang （2008）等に代表される言語テストにおける近年の cognitive diagnosis研究では，この手法を使った大規模リーディング・リスニングテストにおける学習

(8)

者の言語プロファイル分布や，cognitive diagnosis 分析結果を利用した得点報告書作成の例などが示されている。近年の言語能力診断への関心の高まりと連動して，今後実用化を視野に入れた研究を期待したい分野である。 Cognitive diagnosisの手法は，個人に特化したフィードバックを抽出する方法として有望である一方，限界もある。それは，テスト項目への解答パターンの分析を基盤とするため，多くの項目から成るテスト（リーディング・テストや語彙・文法テストなど）には応用できるが，スピーキングやライティングのテストなど，少数の課題からなるパフォーマンス評価には応用しにくい点である。従って，スピーキング・ライティングのパフォーマンス評価等で詳細なフィードバックを抽出する場合は違う手法が必要になる。これについては自動採点システムが持つ可能性に注目したい。自動採点においては，採点エンジンを用いて人間の評定者が出すスコアを推定するものが多いが，この採点の過程においては，受験者のspeech sample やwriting sampleの言語的特性を様々な角度から分析する。自動採点結果を基にして，従来よりも詳細なフィードバックを受験者に報告する可能性を示唆する研究も進行している。例えば，Attali（2007）は，ETSが開発したエッセー自動採点エンジン， e-rater®による受験者のエッセー内容の分析の際用いられる様々な言語的特性に関する変数を因子分析し，TOEFL受験者のライティング能力を説明するものとして，談話構造，文法，語使用の 3 因子を特定した。また，e-rater技術を基にしたCriterionSM_のように，学習者がエッセーを送信すると，エッセーに含まれるエラーのタイプを分析し，フィードバックとして学習者に通知するコンピュータを使った学習システムも開発されている（Chodorow，Gamon， & Tetrault，2010）。これは現段階ではあくまでも英語ライティング学習用ではあるが，さらに自動採点研究が進展すると共に，大規模テストでもフィードバック作成の一手法として利用できる可能性も広がるであろう。 2．3．フィードバック研究の今後個人に特化した，詳細なフィードバックの提供に関する研究の今後の課題は，cognitive diagnosis研究の将来展望としてLee & Sawaki（2009）がまとめている。その中でも特に，言語テストがはかる構成概念の性質と有用なフィードバックの提供の可能性の兼ね合いについては今後言語テストにおいて更なる研究が必要である。大規模テストでは，総合評価としての得点を算出する目的で，一次元性を示すようにテストを設計することが多い。このようなテストは一つの構成概念を測ることを目的とするため，そのようなテストから複数の得点を算出したとしても，その得点間に高い相関が見られることが多く，ある部分の得点は高いが，他の部分は得点が低いな表

1

．Q-matrixの一例（

10

項目からなるリスニング・テストの場合）属性属性１属性２属性３問題番号セット番号セット内問題番号語彙を理解する明示されている特定の情報を理解する明示されていない情報を推測する 1 1 1 1 0 0 2 1 2 1 1 0 3 1 3 0 1 1 4 2 1 0 1 0 5 2 2 1 0 1 6 2 3 0 0 1 7 3 1 0 1 0 8 3 2 0 0 1 9 3 3 1 1 0 10 3 4 0 1 1 注：表中「1」は，該当の属性が認められる項目，「0」は該当の属性が認められない項目を指す。

(9)

ど，受験者の長所と弱点を特定できるような，有用な言語プロファイルを取り出すことが比較的難しいと考えられる。例えば，これを示す結果はLee & Sawaki（2009）のTOEFL iBTのリーディング，リスニング各セクションのcognitive diagnosis 分析で得られている。Lee & Sawakiが 3 つのcognitive diagnosisの心理測定モデルを使って学習者のスキル・プロファイルを推定した際，モデル間で多少の差はあったものの，59~76%の学習者が，全てのスキルをマスターした，あるいはどのスキルもマスターできていないという結果が得られた。つまり，これに該当する学習者の場合，スキル・プロファイルを詳細に報告したところで，リーディング力，リスニング力のそれぞれにおける長所と弱点は特定できなかった。無論，言語能力そのものの特性の他にも，Lee & Sawakiが研究の対象とした属性やQ-matrixの構造， TOEFL iBTで測定される，比較的狭い範囲におけるリーディング・リスニング能力を測るテスト内容，また中・上級英語学習者を中心とする TOEFL受験者の母集団の性質等，この結果を生んだ要因として考えられることは様々であり，今後の研究でより効率的に学習者のプロファイルの特定ができる方法を探っていくことが求められる。さらに，大規模テストにおけるフィードバックの充実を考える際，フィードバックを提供するタイミングやその内容についても熟考が必要である。ここでまず問題となるのがテスト内容の公開の有無とフィードバック内容の兼ね合いについてである。日本においては，STEP 英検のように，テスト内容を全て公開し，成績表で各項目への解答状況，分野別・大問別得点を報告するテストがある一方，等化などの必要性からテスト項目を公開しないテストもある。例えばテスト内容を公開しない大規模テストでテスト成績について詳細なフィードバックを提供する場合，もし受験日からテスト結果を受け取るまで数週間を要するとしたら，受験した時に目にした問題や自分の問題冊子なしに，受験者はその内容をどの程度理解できるであろうか。また，このような場合，どのような内容について，どの程度の詳細を盛り込むことが適切であろうか。これらの点を今後さらに追求していくことも，今後の研究の重要な課題である。 3．結論 テスト妥当性理論は進化を続けているが，過去 20 年間ほどの間にテストの妥当性の枠組み自体は変化してきた一方で，テスト妥当性がその利用までを含む広義のものであるという捉え方は定着し，テストの使用に関する研究が，テストの得点解釈に関する研究と一体化して今後益々進んでいくと予想される。また，本稿後半では，テスト使用に関する様々な論点の中でも，特に報告されるテスト結果のわかりやすさの重要性について考察し，近年のフィードバック研究について，大規模テストで既に実用化されているものから現在研究段階にあるものまでを概観した。テストの適切かつ公正な利用，また望ましい波及効果につながるフィードバックに関する研究はまだ始まったばかりで，十分な議論は尽くされていない。テストの適切で公平な利用，また望ましい波及効果に結びつくテスト結果利用を目指して，今後益々この分野の研究が盛んになることを期待したい。文献バックマン，L．F．，パーマー，A．S．（2000）．大友賢二・ランドルフ・スラッシャー（監訳）『実践言語テスト作成法』大修館書店．（Bachman, L. F., & Palmer, A. (1996). Language

test-ing in practice. Cambridge, UK: Cambridge University Press.）

American Educational Research Association, Ameri-can Psychological Association， & Nation-al Council on Measurement in Education. (1999). Standards for educational and

psycho-logical testing. Washington， DC: American Ed-ucational Research Association.

Attali， Y. (2007). Construct validity of e-rater in scoring

TOEFL essays. Princeton, NJ: ETS.

Bachman, L. F. (2005). Building and supporting a case for test use. Language Assessment

Quar-terly, 2, 1-34.

(10)

as-sessment in practice. Cambridge, UK:

Cam-bridge University Press.

Beaton, A. E., & Allen, N. L. (1992). Interpreting scales through scale anchoring. Journal of

Ed-ucational Statistics, 17, 191-204.

Buck， G., & Tatsuoka, K. (1998). Application of the rule-space procedure to language testing: Ex-amining attributes of a free response listening test. Language Testing, 15(2), 119-157.

Chapelle, C. A. (2008). The TOEFL validity argu-ment. In C. A. Chapelle， M. K. Enright， & J. M. Jamieson (Eds.)， Building a validity

argu-ment for the Test of English as a Foreign Lan-guage (pp. 319-352). New York: Routledge.

Chapelle， C. A.， Enright， M. K.， & Jamieson， J. M. (2008). Test score interpretation and use. In C. A. Chapelle， M. K. Enright， & J. M. Jamieson (Eds.)， Building a validity argument for the Test

of English as a Foreign Language (pp. 1-26).

New York: Routledge.

Chodorow， M.， Gamon， M.， & Tetrault， J. (2010). The utility of article and preposition error cor-rection systems for English language learners: Feedback and assessment. Language Testing，

27(3)， 419-436.

Davidson， F.， & Lynch， B. K. (2002). Testcraft: A

teacher’s guide to writing and using language test specifications. New Haven， CT: Yale Univer-sity Press.

ETS (2008). Validity evidence supporting the

interpreta-tion and use of TOEFL iBT scores. Princeton， NJ: Author.

Gomez， P. B.， Noah， A.， Schedl， M.， Wright， C.， & Yolkut， A. (2007). Proficiency descriptors based on a scale-anchoring study of the new TOEFL iBT reading test. Language Testing，

24(3)， 417-444.

Jang， E. E. (2009). Cognitive diagnosis assessment of L2 reading comprehension ability: Valid-ity arguments for Fusion Model application to LanguEdge assessment. Language Testing,

26， 31-74.

Kane， M. (2006). Validation. In R. Brennan (Ed.)，

Educational Measurement (4th ed.， pp. 17-64). Westport， CT: American Council on Measure-ment in Education and Praeger Publishers. Kunnan， A. J. (2008). Large scale language

assess-ments. In E. Shohamy & N. H. Hornberger (Eds.)，Language Testing and Assessment: Vol.

7. Encyclopedia of language and education (2nd

ed.， pp. 135-155). Amsterdam: Springer Sci-ence.

Kunnan， A. J.， & Jang， E. E. (2009). Diagnostic feed-back in language assessment. In M. Long & C. Doughty (Eds.)， Handbook of second and

for-eign language teaching (pp. 610-627). Walden， MA: Wiley-Blackwell.

Lee， Y.-W.， & Sawaki， Y. (2009). Cognitive diagnosis approaches to language assessment: An Over-view. Language Assessment Quarterly， 6(3),

172-189).

Lohman， D. F.， & Ippel， M. J. (1993). Cognitive di-agnosis: From statistically based assessment toward theory-based assessment. In N. Fred-ericksen， R. J. Mislevy & I. I. Bejar (Eds.)， Test

theory for a new generation of tests (pp. 41-71).

Hillsdale， NJ: Erlbaum.

Messick， S. (1989). Validity. In R. L. Linn (Ed.)， Edu-cational measurement (3rd ed.， pp. 13-103). New York: MacMillan.

Mislevy, R. J., Steinberg, L. S., & Almond, R. G. (2002). Design and analysis in task-based lan-guage assessment. Lanlan-guage Testing, 19, 477-496.

Sawaki,Y., Kim, H.-J., & Gentile, C. (2009). Q-ma-trix construction: Defining the link between constructs and test items in large-scale read-ing and listenread-ing comprehension assessments.

Language Assessment Quarterly, 6(3), 190-209.

Toulmin, S. E. (1958). The uses of argument. Cam-bridge, UK: Cambridge University Press. Toulmin, S. E. (2003). The uses of argument (updated

ed.). Cambridge, UK: Cambridge University Press.

大規模言語テストの妥当性・有用性検討に関する近年の動向