論述式テストの利用について : 客観テストと比較して

(1)

論述式テストの利用について : 客観テストと比較して

著者井上俊哉

雑誌名東京家政大学研究紀要 1 人文社会科学

巻 36

ページ 7‑16

発行年 1996

出版者東京家政大学

URL http://id.nii.ac.jp/1653/00008932/

(2)

〔東京家政大学研究紀要第36集（1），P．7〜16，1996〕

論述式テストの利用について一客観テストと比較して一

井上俊哉

（平成7年9月30日受理）

About the use of constructed−response tests −in comparison with objective tests一

Shunya INOUE

（Received September 30，1995）

1 はじめに

現代においてテストといえば，多肢選択形式（mul−

tiple−choice）を典型とする客観テストを想起する者が多いであろう．しかし，歴史を遡れば，洋の東西を問わず，試験に用いられたのは，口述式あるいは論述式のテ

ストであった（ヨーロッパの大学の口頭試問，中国の科挙）．論述式のテストでは，受験者自身が解答を表出す

るのに対して，客観テストでは，受験者はあらかじめ用意された選択肢や解答パターンの中から，各自が正しい

と考えるものを選んで解答する．

かっての常識であった論述式テスト（本論で述べることがらのいくらかは口述式のテストにもあてはまるが，

とりあげるのは筆記テストだけにしたい）が下火になり，

かわって客観式テストが発展した理由，そして近年，客観式テストへの批判とともに，論述式あるいは記述式のテストが再評価されている背景を，主として実証的な手法に基づく先行研究を参考にして，教育測定学的な観点から論じていきたい．

2 論述式テストの短所の認識と客観テストの隆盛今世紀初頭のアメリカにおいて，従来のテスト方式の非客観性，採点の恣意性が指摘されるとともに，評価の客観化・科学化が提唱された．歴史的に有名なのが，採点者間の評点の食い違いの問題を指摘したStarch and Elliotの研究（1911〜1913）である．いろいろな教科にっいての答案を複数の教師が採点したところ，同じ答案に対する評点が大きくばらっいたという（池田，19921））．

この問題に対処すべく発展したのが，客観テストであ教養部

る．たとえば多肢選択式のテストでは，正答として想定される選択肢を含む複数の選択肢があらかじめ用意されていて，受験者は，それらの選択肢の中から，各自が正

しいと考えるものを選ぶ選択肢の設定が適切になさ礼

一っの正答に関して合意が得られ，採点者のミスがないかぎりにおいて，この種のテストの採点は客観的に行われる（すなわち，誰がいっ採点しても，同一答案には同じ得点が与えられる）ことになる．客観テストが世の中に広まるにあたっては，第一次世界大戦時における陸軍アルファ式知能検査の成功が大きなメルクマールになった．莫大な数の受験者の解答を採点するに当たっての効率の向上は，いうまでもなく絶対的であった．また，採点者の違いによる有利・不利が生じないため，公平性が得られるという点においても，採点の客観性は重要であっ

た．第一次世界大戦中には，性格検査の分野でもWood worthの質問紙が発表されている．1926年には進学適

性検査（Scholastic Aptitude Test）が実施され，1937 年には，大学入試評議会（College Entrance Exami−

nation Board：CEEB）の論述式テストが多肢選択式

テストにとってかわられている．その後，数10年間にわ

たり，アメリカにおいて客観テストが発展普及するこ

ととなる．客観テストが広範に使われるようになるとと

もに，より客観的，科学的にテストを利用するための研

究も進展した．テストをめぐって築かれた理論は，多肢

選択式の項目を多数集めて構成される客観テストの利用

を前提としている．集団基準準拠による標準テストの利

用法も，テストとその使われかたを評価するための信頼

性・妥当性の概念も，客観テストの利用を念頭において

形成されてきたものである．この時代は，評価の客雛

効率性を重視する客観テスト全盛期ということができよ

(3)

う．日本でも，アメリカの教育測定運動の影響を受け，

1920年前後から，客観テストの導入が進あられた（天野，

19932））．

客観テストが普及していくこの時代は，論述式テスト

のさまざまな短所を指摘する研究が数多く行われた時代でもあった．そのような短所の中でも，採点の非信頼性は致命的ともいえるものである．多肢選択式の客観テストでは，採点は客観的に行われるので，採点ミスさえなければ同じ解答に対する評点は，誰が何度採点しても一致する．これに対して論述式テストでは，採点が主観的に行われるので，評点の完全な一致は望めない．同一解答に対して異なる採点者が採点した場合の評点が大きく食い違うことは，前にも触れたStarch and Elliottの

研究だけでなく，それに続く研究でも指摘されている

（Coffman，19713）ほか多数）．採点者の主観を評点に積極的に反映させたい場合には，評点のばらっきが意味を持っかもしれないが，入試の答案などにおける評点の食い違いは最低限にとどめなければならない．

日本における論述式テスト研究は多くないが，渡部・

平。井上（1988）4）は，高校生165名の作文に11名の採点者の与えた評点間の相関係数が，0．22〜0．57であった

と報告している．採点者間の一致度がこの程度では，到底十分なものとはいえない．この研究は，採点者内の非

信頼性も明らかにしている．すなわち，3名の採点者が

1週間の間隔をあけて同じ答案を2度採点したところ，

評点間の相関係数がもっとも低い採点者では，その値が 0．40にすぎなかった（最高はO．91）．このことは，いっ採点されるかによって，同じ受験者が有利になったり不利になったりすることを意味する．異なる採点者どうしの不一致にもまして，採点者内の不一致は深刻である．これまでの研究を見ると，採点者内の評点の不一致は小さ

いものではない．Brachtの研究（1967）でも，採点者

が同一論文に与えた2度の評点の相関係数が0．50であっ

たという（Hopkins et al．，19905））．

こうした問題は，採点が主観的に行われることから必然的に起こるものである．採点の基準自体が確固たるものでなく，人により時により主観的判断が揺れ動くということのほかにも，主観を系統的に歪めるいくっかの要因が指摘されている．たとえば，論述式テストを採点する際に，採点者が解答者と面識がある場合に，解答者の日常の勉学態度などが採点に影響することをChase

（1979）6）などが指摘している（このような効果は光背

効果と呼ばれる）．また，Hales and Tokar（1975）7）

は，優秀な答案の後に採点されるときよりも，劣った答案の後に採点されるときの方が，それに続く答案に与えられる評点が高くなることを報告している（このような効果は文脈効果と呼ばれ，多くの研究が同様のことを報告している）．最初の方で読まれた答案は，最後に近く読まれる答案よりも，高い評点を与えられやすいという

報告もある．

答案の外見上の特徴が採点に与える影響も無視できない．テストが行われる目的にもよるが，論述式テストで測ることを期待されるのは，多くの場合，そこで書かれた文章に表現された内容であって，誤字・脱字などではないはずである．しかし，内容にっいてのみ採点するように指示されていても，言葉遣い，外見上の特徴（たとえば，綴り，句読点，文法などの誤り，字の巧さ）が採点者の主観に影響して評点に反映されてしまうことが，

多くの研究によって指摘されている．長く書いた答案の方が高い評点を与えられるという研究報告も多い．日本における論述式テスト研究は，この点でもあまり多くない．渡部・曹（1992）e）は，新聞社の入社試験に用いられた小論文にっいて，原本（受験者の自筆）のコピーとともにワープロで印刷された答案を用意して，両者に与えられた評点を比較しているが，採点者ごとに異なる傾向がみられるなど，はっきりした結果は得られていない論述式テストでは客観テストと比べて，一問当たりに

要する解答時間が長くなるために，課題の数が限られる

のが普通である．このこともテストの信頼性を低くする

原因になる．ある論述式課題を解くことによって，受験

者は自分の能力を示すことになるが，別の課題への解答

で示されるその受験者の能力が同じ，ないし近いものだ

という保証はない．客観テストでは，1っのテストが多

くの項目を含んでいるので，比較的広い領域をカバーで

きるが，項目数の少ない論述式テストでは，どんな課題

が出されたのかによって，受験者の得点は大きく変動し

うる．たとえば，入試において1度の論述式テストの実

施だけで受験者を判断することがあるが，同一受験者の

得点が課題ごとに大きく変わるならばたまたまどの課

題が出題されたのかによって，受験者に有利・不利が生

じることになる．もし，このような課題ごとのばらっき

が無視できないものならば，少数の課題でのテスト実施

は，危険である．採点者間，採点者内の非信頼性の研究

に比べて，課題の違いによる得点の変動に関する研究は

(4)

論述式テストの利用にっいて一客観テストと比較して一

少ないが，これは決して無視できない問題である．

論述式テストの開発は，客観テストに比べて楽だといわれるが，計画をよく練ると大変であるということも指摘しておきたい．そして，採点に要する時間・労力は当

然大きい．

3 論述式テストの再評価

このように見てくると，論述式テストの欠点はかなり深刻なものである．しかし，それにもかかわらず，人気は根強く，場面により論述式テストが使われ続けた．論述式のテストの方が，教育場面で実際に出会うのと似た課題を受験者に提示できるので，表面妥当性（テストが何か重要なものを測っているという印象）が高くなるというのが一っの大きな理由であろう．客観テストを批判し，論述式テストを擁護する意見は，客観テストが優勢であった時期にも，周期的に強く現れている．客観式テストに解答するには再認（recognition）しか必要としないのに対して，論述式テスト（あるいは記述式テスト．

この用語の問題は後に論じる）は再生（recall）を要し，

より高次の能力を測れるというのは，典型的意見の一っである．論述式テストでは，創造性，論理的な思考力，

文章力などの，客観式テストでは測定できない能力を測ることができるという主張は，古くから繰り返されている．そして，197，80年代以降，論述式テストの大幅な復活，各種試験への再導入，そのほかのタイプの記述式テストの積極的な利用が見られるようになる．

ここまで，厳密に定義をせずに，論述式テストあるいは記述式テストという用語を使ってきた．このような，

解答者に解答を表出させるテストは，解答にどのくらいの自由度が残されているのか，書かねばならぬ文章の長短など，さまざまな次元による違いが大きい．したがって，何らかの基準で分類するのが便利である．解答の自由度が多少なりとも残されているテスト（非客観テスト）

を分類するためのスキームは，いろいろと提案されている．たとえば，Bennettは，解答者の反応がどの程度制

約されているかによってテスト項目を7段階に分類して

いる．もっとも制約の厳しい多肢選択（multiple

choice）項目では，解答者に許されているのは，いく

っかの選択肢の中から一っの正解を選ぶことだけである．

多肢選択式以外の項目は，constructed−response

itemsと総称されているが，その中でも，もっとも制約の緩い提示（presentaion）項目は，実技や実演をさせ

るもので，楽器を演奏させたり，科学実験を行わせたりする，というのがその例である（Bennett and Ward，

19939））．この分類に従うならば，本論で主に焦点を当てている論述式テストは，あるテーマに応じた解答を解

答者が最初から産出する組み立て（construction）項

目（制約の緩い方から2番目）を集めたテストということになるが，いくらか制約のきっいテストについても触れることがあるので，それらを便宜上，記述式テストと呼ぶことにする．

近年の論述式テスト再評価は，日本においても大学入試の科目の変化に端的に現れている．たとえば，石井1°）

は，1981年に，ある私立大学における論文試験導入の試みにっいて記している．また，共通一次試験あるいは現行の大学入試センター試験は，各大学の特徴を出すような多様な入試が広まることをねらいの一っとしている．

そして，これらのテストと論文テスト，実技テストなどを適切に組み合わせて入試を行うことを奨励している．

実際，二次試験に小論文を取り入れる大学は増え続けている．共通一次導入当初の1979年度に小論文を採用した国公立大学は65大学99学部であったのが1991年度には，

93大学205学部に及んでいる（鰭崎，1992エ1））．

客観テストの限界を指摘し，論述式テストを再評価するという動向は，アメリカでも顕著である．近年，各種テストに論述式テストが再導入されたり，記述式テスト

が活発に利用されるようになっている．Frederiksen

は，客観テスト偏重の弊害を早くから説いている一人であるが，コンピテンシーテスト（高等学校卒業生が，社会人として最低限必要な基礎学力を身にっけているかどうかを判定するために，全米の多くの州で行われているテスト）によい成績をとることが教師，学生双方に要求されるため，「テストにでるもの」すなわち，基本技能

（basic skills）を教師が教えるし，学生が勉強するこ

と，およびそのことから起こる問題点を指摘している

（1984）12）．教育進歩の全国評価（National Assess−

ment of Educational Progress：NAEP）の報告は，

これがかならずしも杞憂とはいえないことを示している．

1976年の調査において，基本技能を測る項目の成績は落ちていないが，より複雑な認知技能を反映する項目成績や作文能力は低下していることが報告されているのである．この報告を契機として，大学入試評議会の試験に，

英作文の論述式テストが加えられることになった学生・

生徒に要求される能力自体が，時代とともに基礎的な能

(5)

力から，より高い能力に変わりっっあるので，テストもそれに応じて，より複雑な能力を測る方向へ変わるべき

だという声もあがっている（Bennett and Ward， 1993 9））．

多くの大学・大学院入試に論述式テストが（再）導入されはじめるのも，このころである．その中から具体例として，1985年春に論述式課題が追加された医科大学入

試（Medical College Admission Test：MCAT）を

見ると，学生はっぎのような技能を示すことを期待され

ていたという（Mitchell et al．，198613））．（1）主要なア

イディアを展開する②概念とアイディアをまとめる（3）適切な情報と不適切な情報を区別する（4）別の仮説を展開する（5）アイディアを粘り強く論理的に提示する⑥文法などをまもりっつ，明確に書く（ただし，この論述式テストでは，満足すべき信頼性が得られなかったという）．

論述式が再評価されるようになった理由をまとめておこう．（1）表面的な妥当性，（2）客観テストでは測れないものを測っているという期待（何を期待するかは，場合による．典型的には，創造九文章力，論理的思考力など），

（3）問題解決過程に関する情報を与えてくれるという期待

（正答・誤答に関する情報だけでなく，学生の認知過程により接近できる），（4）学生の勉学意欲・態度によい影響を与えるという期待．古くからあった，これらの期待に加えて，近年，論述式テスト・記述式テストが広く使われるようになったのは，（5）テスト利用の目的が，選抜や集団内での配置など主として集団の利益を得ようとする方向から，学習者個人の利益を指向する方向へと変わりっつあること（教授や学習と密接に連絡を取り合うテスト利用），（6）カリキュラム改革の気運，（7）認知科学の進展により論述式テストで測られるものを探る手掛かりが得られるようになったこと，などの理由からであろう．

ここまで見てきたように，論述式テストには数々の短所があるにもかかわらず，客観テストで得られないものが期待されている．しかし，論述式テストには独自性があるという期待あるいは信念は，どこまで確認されているのだろうか．いまや論述式テストやそのほかの記述式テストを広く使っていこうという流れは押しとどめようもないし，教育評価の道具が増えることは，歓迎すべきだとしても，論述式と多肢選択式を比較し，論述式テス

トの独自性を調べた研究を冷静に振り返っておくことは

必要だろう．

4 論述式・記述式テストと客観テストの比較一論述式・記述式テストの独自性は確認されたのか一論述式・記述式テストを客観テストと比較して，その違いを見出そうとする研究は，古くから行われているが，

明確な結論定説は導かれていない．それには，いくつ

かの理由がある．

（1）論述式テストを実施するにあたっては，客観テストの場合と比較して，受験者，採点者に多くの労力，時間を期待しなければならない．すなわち，多くの受験者に比較的面倒なテストに解答してもらわねばならないし，

複数の協力者に採点を依頼しなければならない．この採点作業がまた厄介なものである．このように，研究の実施やデータ収集には，手間，時間，費用がかさむのが普通である．また，日本では入試データなどを利用しにく

い状況もある．したがって研究の数が少なくなる．

（2）ひとことで論述式テストといっても，そのバリエーションはいろいろな次元にわたり，これが一般化を困難にしている．簡単なテーマだけを与えて自由に作文させる場合と多くの材料が提示されていてそれらをもとに作文する場合，自由な発想が求あられる場合と論理的

な展開が求められる場合，教室で学習指導の目的で使われる場合と入試において選抜目的で使われる場合，

文章作成能力（writing ability）を測ろうとしている場合と何らかの教科学力を測るたあに作文を求める場合，全体的採点（holistic scoring）をする場合と分析的採点（analytic scoring）を行う場合などのうち，どれに該当するかによって，テストの特徴がまるで違うということもありうる．そのほかにも問題の構造化解答の自由度の程度には，ほとんど無限のバリエーションがある．このようなことから，ある研究で導かれた結論は，その研究で使われたテストに関して当てはまると

しても，何らかの次元において異なるテストに関しては，

結論の妥当性が低くなるかもしれない．

4．1妥当性の比較

客観テストでも論述式テストでも信頼性に関する研究

が多いが，約30年前にCoffman（1971）3）が指摘して

いるように，信頼性よりも，むしろ妥当性の研究が大事である．論述式テストの構成概念妥当性に関する先行研究の多くが採っている手法は，直接測定（論述式テスト）

による評点を間接測定（客観テスト）の得点と比較する

(6)

論述式テストの利用にっいて一客観テストと比較して一

ことで，両者の測る構成概念の違いを見ようというものである．この種の研究は，1950年代から行われているが，

そのうちのいくっかを挙げよう．

英作文能力（writing ability， English composi−

tion）の直接測定と間接測定の関係については， Edu−

cational Testing Service（ETS）などによる大規模な研究をはじめ，多くの研究が行われている．God−

shalk， Swineford and Coffman（1966）は，この分野の古典的研究で，多くの研究に引用されているが，5 っの論述式テスト（5人の採点者）とECT（English

Compositon Test）の各種下位テストとの相関係数を

調べ，0．46〜0．71という比較的高い値を得ているという

3）

DBreland and Gaynor（1979）14》は， TSWE（Test of Standard Written English：50問からなる多肢選択式テスト）得点と論述式テスト（3人が6段階で採点）

評点の間の相関係数をしらべ，0．63，0．63，0．58（被験

者は大学1年生）という結果を得ている．また，ETS は，英作文技能の客観テストを開発し，このテストと

140分の論述式テスト（信頼性O．84）との相関係数が0．75 であったと報告しているという（Hopkins et al．5））．

Hogan and Mishler（1980）15）は，より低学年の子を

被験者として，MAT−LIT（Metropolitan Achieve。

ment Test−Language Instructional Tests）という多肢選択式テストと20分の論述式テストとの相関を調べ 0．68（3年生140名），0．65（8年生160名）という結果を得ている．Huntly， Schmeiser and Stiggens（1979）

は，約50名の3っの大学生標本にっいて，American College Testing Program s English Usage Test

（75項目からなる多肢選択式テスト，文水準の技能を強

調）と3っの論述式テストの合計点（2名の採点者）と

の相関を求め，0．43，0．50，0．67という値を得ているという（Moss et al．，1982による）． Moss， Cole and

Khampalikit（1982）16）は，テストによる評価方法を

「直接」と「間接」に二分するのは単純化しすぎであるとして，評価方法を分類するための3水準（課題の構造化の程度，採点法，評価の水準）を提案している．そし

て，課題の構造化の程度と採点法を変えた3通りの得点

（多肢選択式テスト得点，論述式総合評点，論述式分析

評点）間の関連を，発達段階（4年生，7年生，10年生

の3学年）による関係の変化にも注目しっっ調べている．

そして，10年生で多肢選択得点と分析評点との相関が比較的高い（0．60），総合評点と分析評点との相関が低い

（もっとも高い10年生でも0．42）低学年では得点間の相関が低い，などの結論を得ている．

英作文以外の能力では，たとえばTraub and Fisher

（1977）ユT）が言語分野と数量分野に関するテストを多肢選択式と記述式とで実施し，探索的因子分析を利用して

分析している．その結果，数学的推理問題（mathe−

matical reasoning）では形式による差はほとんどな

く，言語理解問題（verbal comprehension）で異なる構成概念を測定している可能性を示す弱い証拠が得られたとしている．Ward（1982）18）は，反意語（antonyms），

文章完成（sentence completion），類推（analogies）

の3タイプの言語項目（verbal items）に関して，多

肢選択，自由記述式など複数の形式を比較している．因子分析の結果，反意語と文章完成に関しては，測られるものに差が無いのに対して，類推に関しては，第2因子の存在を示す弱い証拠が得られた．しかし，多特性多方法の比較によると，自由反応形式が他のものと差がある

という証拠は得られなかったという．

アメリカには，中等教育機関の優秀な学生が大学入学前に，大学の単位の一部を取得するためのプログラムが存在する．そして，その単位認定のために，特別進級テ

スト（Advanced Placement Test）というテストが使

われている．このテストの多くの教科・科目では，多肢選択式と記述式が併用されているので，これを比較した研究も行われている．Bennett， Rock， Braun， Frye，

Spohrer and Soloway（1990）19）は，エキスパートシステム（expert system）によって採点された，制約つきの記述式項目（誤りのあるコンピュータプログラムのデバグを求める）と他の2っの項目タイプ，すなわち（1）

多肢選択式②自由記述式（プログラムを書かせる）との

関連を検討している．そして，これらのデータと3因子

モデルの当てはまりを調べ，他のモデルへの当てはまりと比較するために，確認的因子分析を行った．その結果

バグを1っだけ含む制約っきの記述式項目を受験した群については，1因子モデルが当てはまり，バグが3っの制約っき記述式項目を受験した群は2因子モデルへの当

てはまりがいくらかよかった．また因子間相関を見ると，

このタイプの項目は，自由記述式とも多肢選択式とも高

い相関をもっていることがわかった．Bennett， Rock

and Wang（1991）2°）は，多肢選択式項目と自由記述式

項目とを含む特別進級コンピュータ科学テストのデータ

を使って，因子間相関を許す2因子の確認的因子分析を

(7)

行い，さまざまな指標により1因子モデルと2因子モデルとを比較した．そして，節約性（parsimony）の原理からみて1因子が良いという結論を得ている．This−

sen， Wainer and Wang（1994）21）は， Bennettらと同じ特別進級コンピュータ科学テストと化学テストのデータを別の方法で分析した．彼らの結論は，多肢選択式項目と自由記述式項目とでいくらか違ったものを測っているものの，その違いは小さいというものである．

これらの研究から，明確かっ一般的な結論を導くことはできないが，作文能力のテストにっいて論述式と多肢選択式のテスト間の相関が意外に高いこと，数学的能力にっいて形式間の相違が小さいこと，課題の構造化の程度が大きい記述式と多肢選択式との相違が小さいことな

どの傾向はうかがえる．しかし，Frederiksen12）がい

うように，これらの研究では，記述式テストを無理に多肢選択式テストに合わせているとみなすこともでき，公平な比較が行われていないとも考えられる．ただし，論述式テストで測ることができるといわれる文章表現力，

創造的思考，拡散的思考などが，ほんとうに論述式テストで測られていることを，実証的に示す研究が少ないの

も事実である．

入学試験などで使われるテストでは，その得点が入学後の成績と高い相関を持っこと，すなわち，高い予測妥当性を持っことが望ましい．客観テストと論述式テストのいずれが入学後の成績と高い相関（予測妥当性）を持っのかを調べた研究もいくっか見られる．最近の研究では，Bridgeman and I．ewis（1994）22）が，特別進級試験のうち，アメリカ史（American History ），ヨーロッ

パ史（European History），英語と作文（English Language and Composition），生物学（Biology）

にっいて，論述式部分と多肢選択部分の得点を，32大学の新入生の入学後の成績と照らし合わせている．そして，

アメリカ史と生物学に関しては，多肢選択式の得点の方が論述式の得点よりも新入生の平均成績（GPA：

grade point average）と高い相関を持っことがわかった．しかし歴史，英語，生物学の科目ごとに成績との相関を調べると，多肢選択得点と論述得点とで差は見られ

なかった．

4，2 そのほかの比較

Birenbaum and Tatsuoka（1987）23）は，分数のたし算課題にっいて，多肢選択式と記述式のテストを行っ

て得られたデータから，誤答タイプの違いなどを分析した．そして，記述式の方が受験者の認知過程に関して多くの情報が得られることを示している．論述式あるいは記述式の優位を示す，この種の研究は意外に少ない．

Breland et al．（1994）24）は，特別進級テスト成績の性差が，客観式部分と記述式部分とでどの程度違うのかを調べている．1986年の合衆国史（U．S．History）試験は，客観部の得点で大きな性差が見られたのに対して，

自由記述部の得点には性差が見られなかった（Bridge−

maneta1．，199422）でも，大学新入生の歴史成績と特別進級テストの論述部の評点では男女差が見られないのに，

多肢選択得点では男性の方が女性よりも1標準偏差近く

高かったことが報告されている）．そこで，Brelandらは，自由記述部の答案を2通りの方法（1：歴史的な内容に焦点を絞って採点 2：字の巧さ，文章の質などに

っいて採点）で再採点して，分析した．その結果，この種の自由記述式答案の採点には，英作文能力の要素が混入し，そのために女性の歴史知識の不足が作文能力の優秀さで補われている可能性が示された．

テスト形式が学生の勉学態度，意欲に影響を与える可能姓に言及する人もいる．「多肢選択式テストに備える学生は事実の暗記に時間をかけ，論述式テストに備えるときは事実間の関連を考え，問題解決の態度を身にっけ

る」という意見は典型的だろう．先駆者Frederiksen

（1984）12）は，教師が教えようとする内容，学生が勉強しようとする内容がテストで測られるものに限定されがちになることを指摘している．すなわち，使われるテストで測られるものを教師が教え，学生が学ぶ．逆に言えば，テストに出ないものは，大切なものでも教えられな

いし，学ばれない．この影響（これをthe real test biasと呼んでいる）は大であるとし，とくに基本技能

に焦点を当てた多肢選択式テストが教育に与える影響を憂慮している．そして，より高度な能力を測れるテストをもっと積極的に利用すべきだといっている．論述式テストが望まれる大きな理由の一つは，このような教育と評価の有機的な関連を求める動機にあるだろう．しかし，

この点に関しても，実証的な調査・研究はかならずしも多くない．今後の研究がとくに期待されるテーマである．

客観テストと論述式テストとで必要とされる能力の違いを認知心理学の観点から明らかにしようとする研究も，

今後の発展が期待される分野である．たとえば，

Quellmalz， Capell and Chou（1985）as）は，テストへ

(8)

論述式テストの利用にっいて一客観テストと比較して一

の解答に必要な認知成分，反応パタンの分析をしている．

彼らは，直接評価では，主題，一貫性，文体などの特徴が採点されるのに対して，多肢選択式テスト項目では文章の外見上の技巧が強調され，生産的な反応は含まれていないと結論している．Benton and Kiewra（1986）26）

は，論述式テストでの得点を，客観テストだけでなく，

4つの認知能力テストを使って説明しようとしている．

Ackerman and Smith（1988）27）は，多変量解析

（LISRELを利用した確認的因子分析）の手法に認知心

理学を援用して，論述式テストが測定する独自のものを明らかにしようとしている．しかし，いずれも十分に説得力のある結論を導いているとはいえない．

5 論述式・記述式テスト利用の今後の方向論述式テストでは，おもに採点に関する短所が数多く指摘されていること，それにもかかわらず論述式テストが使われるのには，相応の理由があることを見てきた．

これまでに行われた比較研究では，論述式テストの独自性は明確には示されていないことも否定できない．しか

し，それらの研究は論述式テストに意味がないことを決定的に示すものでもない．新たな視点に立って研究を進めれば，論述式テストの独自の可能性を明らかにすることができるかもしれない．最後に，論述式テスト・記述式テストの利用法が今後，どういう方向へ進められるのかを展望しておきたい．

5．1論述式テストを利用するに際しての留意ポイント論述式テストの信頼性の低さなど，欠点を指摘する研究が多くある一方，なんとかその欠点を克服しようとする努力も行われている．論述式テストにおいても，具体的な問題の出し方を変えたり，採点基準を予あ明確に定めるなどの工夫を行えば，信頼性をある程度高めることが可能だと思われる．論述式テスト・記述式テストの出題に関して，それが容易だというのは誤りで，いろいろと注意すべきポイントが挙げられるが，ここでは，採点をめぐる問題に焦点を絞って，先行研究の報告を拾って

いく．

Olson and Distefano（1980）28）は，採点尺度のいろいろなカテゴリーに属する代表的答案を準備することによって，信頼性を大きく向上させることができたと報告している．論述式テスト答案の採点では文脈効果が起こることはすでに述べたが，Hughes and Keeling

（1984）29）は文脈効果を減らす方策として，モデル答案

（model essay）の利用を提案し実験をしているが，意に反して文脈効果は減らなかった．文脈効果は相当に頑固なものらしい．石井ユ゜）は，出題のねらいや採点基準に関する打ち合わせを徹底することで，採点者間の食い違いを最低限にとどめることができたと報告している．

これらのことより，（1）採点に先立って，基準の明確化などの準備を十分に行う，②答案の順序をランダムに並べたセットを何通りか作り，それらをできるだけ多くの採点者に割り当てる，（3）採点結果に極端な食い違いがないかをチェックする，（4撮終的に複数の得点を合計する，

というのが採点の基本的な流れとなるだろう．

論述式テストの採点法としては，全体的に評価して，

一っの答案に一っの評点を与える全体的採点と，いくっかの観点別に評点を与える分析的採点がある．診断的な目的のために評価を行う場合には，分析的採点が望ましいとされるが，分析的採点は採点のコストがはるかに嵩むにもかかわらず，信頼性の向上はほとんど望めないと

いわれる．

評定の際のカテゴリーの段階数をいくっにするかによっても，信頼性は変わる．平井・渡部（1994）3°）は，100 点満点の粗評点を何通りかの段階カテゴリーに分けたうえで，段階反応モデルを当てはめ，測定精度を比較している．その結果，5っのカテゴリーに分けたとき，粗評

点のときと近い精度が得られることを見出した（100点で採点せず，5段階で採点しても測定精度はそれほど犠

牲にならず，労力は大幅に軽減するという．ただし，最

初から5段階で採点した場合は多少違った結果になるか

もしれない）．池田（1992）1）は，訓練された採点者ならば，段階数はできるだけ細かいほうがよさそうである，

としている．

採点に際してのコスト面の配慮は，教育の本来的目的からすれば，副次的なものとはいえ，実用上は無視できない．この面で，とくに受験者の多い試験における論述テスト利用は大きな制約を受ける．この欠点を克服する試みとして，採点のコンピュータによる自動化をめぐる研究も行われている．

1960年代のGarber（1967）， Page（1966）らによる先駆的研究では，コンピュータ採点と訓練された採点者による採点とで区別できない評点が得られている（Hop−

kins et al．5））．しかし，彼らのコンピュータ採点は，

単語数，単語の平均的長さ，文の長さの標準偏差，カン

(9)

マの数など，形式上の特徴に基づくもので，結果として，

人間の採点者と見分けられない評点が得られたとしても，

表面的・論理的な妥当性を欠くといわざるをえない．

近年，アメリカ合衆国では，大規模なテストにおいて，

記述式課題を多肢選択式課題と併用しようという要請が持上がるとともに，採点の自動化の必要性が生じている．

とくに，特別進級テストの記述式部分のコンピュータ採点の可能性，客観テスト部分との合成点の求め方の検討が活発に行われている．たとえば，Braun et a1．（1990）

31》は，特別進級コンピュータ科学テストにおいて，新しい形式の課題（誤りのあるプログラムを示し，その修正を求める）への答案を，エキスパートシステムを利用

してコンピュータ採点している．その結果，82％から95

％の答案を採点することができ，しかも人間の採点と高い一致を示した．また，このテストの客観部と自由記述部との相関は中程度であったという．課題の構造化の程度が高いならば，コンピュータ採点は，かなりうまく機能しそうである．日本語答案の自動採点は，英語の答案以上に困難が伴うことが予想される．日本ではこうした研究はまだあまり見られないが，池田（1993）32）は，解答範囲がある程度予想できる英文和訳・和文英訳問題の

コンピュータ支援評価の可能性を検討している．

こうした研究を進めるには，採点過程を明確化・客観化しなければならない．その結果として，利用者が測定目的に関する認識を深めるという副次的な効果も期待で

きる．

5．2独自性の確認への努力・テスト評価の新しいパラダイムの要請

論述式テストが批判され，客観テストが優勢であった時代には，信頼性や採点コストにおける客観テストの優位が強調された．実際，信頼性や効率は，テストの使い方を評価する上で大切なポイントではあるし，それらを重視するかぎり，客観テストが論述式テストに勝るのは間違いない．しかし，テストやその使われ方が適切であるかどうかを評価するポイントは，信頼性，効率だけではない．場合によっては，信頼性が多少犠牲になり，実施・採点に手間がかかるとしても，ほかの観点を重視すべきかもしれない．効率を尊重しすぎたことが，客観テスト批判をまねいたともいえる．客観テストでは得られず，論述式テストを使うことによって得られるメリットがあるのならば，論述式テストを積極的に利用すること

の十分な根拠となる．

そのためにも，客観テストと比較したときの論述式テストの独自性，特徴をいま以上に明確にしていくことが必要である，すでに概観したように，いままでのところ，

論述式テストの独自性にっいて，さまざまな「意見」はあるが，はっきりした証拠は乏しい．しかし，いくっかのヒントは得られている．論述式テストの構成概念妥当性を吟味するのには，既成の客観テストとの相関を調べるのでは，不十分だろう．なぜ論述式テストを使うのかを，しっかりと認識したうえで，課題を作成しなければならない．その点で，特色ある物語作成課題に関する平の研究（1995）33）は興味深い．Birenbaum and Tatsu−

oka（1987）23）に見られるような，学習や教授との関連で，論述式・記述式テストの利点を明らかにする研究も，

もっと数多く行われてよい．教育測定学だけでなく，認知心理学の力も借りて研究を進めることも必要になるだ

ろう．

ある研究で得られた結論をどこまで一般化できるか，

その可能性と限界を見極めることも大切である．論述式テストの各種条件を整理することができれば，論述式テストを使う上で役に立っだろう．

論述式テスト利用の合理的根拠を明らかにするためには，その特徴を明らかにしていくのと並行して，テストの使い方の評価基準そのものを見直していくことも必要であろう．テストやその使い方の適切さを評価するために，妥当性，信頼性といった概念があるが，これらは，

客観テストの発展過程で形成されてきたものである．したがって，従来の妥当性，信頼性概念では，非客観テス

トの使い方を評価するのに，そぐわない点が多々生じている．論述式テスト，さらには実技テストなどの利用が社会的なニーズに合い，広まりっっある現在，非客観テストの評価を視野に入れた，基準の作り直しが必要であ

る．

Linn， Baker and Dunber（1991）34）やMoss（1992）35）

は，performance assessmentの普及を前提として，

それらの使い方を吟味するために，従来の妥当性・信頼性の強調点を見直し，枠を広げていくことを提案している．Linn et a1．（1991）は，客観テストに変わりうる

評価法（alternative assessment）の登場を，妥当性

について再考察する契機として捉えている．そして妥当性評価の基準を拡張する必要性を指摘するとともに，

「テストを行うことにより，どのような結果が招来され

(10)

論述式テストの利用について一客観テストと比較して一

るのか」「受験生が解答するために，どのような認知過程が必要とされるのか」「ある特定のテストから得られる結果をどこまで一般化できるのか」など，8っの新しい基準を提案している．Moss（1992）は，「評価を行うことに伴う結果」（consequences of assessment use）

という観点からテストを見ることの重要性を強調している．これは，評価が教育システム全体に与える影響を考慮に入れて，テストの妥当性を吟味する必要を説くもの

である．

客観テスト全盛時代にも，テストの使い方の適切さを評価する作業はかならずしも十分に行われていなかった．

論述式テストが再評価され，利用が拡大しっっあるが，

その長所がどこにあるのかを認識すること，また特定のテストにおいてその良さが発揮されているのかどうかを確認する作業は欠かせない．テストの使い方は，それを

絶えず監視確認し続けなければ，誤用はいっでも起こ

りうるのである．また，客観テストそのものや，従来の妥当性概念がすべて否定されるものではない．教育評価のオプションが増えたことを歓迎し，いろいろなテストを適材適所に使い分けていくことがこれからの目標にな

る．

参考文献

〔1〕池田央 1992 テストの科学日本文化科学社

〔2〕天野正輝 1993教育評価史研究東信堂

〔3〕Coffman， W． E．， Essay examination， In Thorndike， R．L．（Ed．），Educational Measure−

ment（2nd ed．），Chap．10， Washington， DC：A merican Council on Education，1971．

〔4〕渡部洋・平由実子・井上俊哉 1988 小論文評価データの解析東京大学教育学部紀要，28，143−

164．

〔5〕 Hopkins， K．D．， Stanley， J．C．，＆Hopkins．

B．R．， Educαtionαl and Psツchologicαl Meαs−

urement and Evαluation， Prentice Hal1，1990．

〔6〕 Chase， C．1．， The impact of achievement

expectations and handwriting quality on

ScOr董ng eSSay teStS ， JOUrnal（ゾEdUCαtiOnαl Meαsurement，16，39−42，1979．

〔7〕Hales， L．W．，＆Tokar， E．， The effect of the

quality of preceding responses on the grade assigned to subsequent responses to an essay

question ， Journαl qf EdUCαtionαl Meαsure−

ment，12，115−118，1975．

〔8〕渡部洋・曹亦薇 1992 小論文評価における字の

美しさの影響にっいて東京大学教育学部紀要，3Z 253−256．

〔9〕Bennet， R．E．，＆Ward， W．C．（eds．）eonstruc−

tion ver8us choice in co8・nitive meαsurernent，

Lawrence Erlbaum Associates，1993．

〔10〕石井巌 1981 「論文試験とその評価」にっいて行動計量学，8，22−29．

〔11〕鰭崎浩 1991大学入試一改革の試み岩波ブッ

クレット181

〔12〕 Frederiksen， N．， The real test bias：influe

nces of testing on teaching and learning ，

Ainericαn Psツchologist，39，．193−202，1984．

〔13〕Mitchell， K．，＆Anderson， J．， Reliability of

holistic scoring for the MCAT essay ，、Ekluca−

tional and」Ps：ソcholo8icα1 Meαsωrement，46，771

−775，1986．

〔14〕Breland， H．M．，＆Gaynor， J．L， A compari−

son of direct and indirect assessments of

writing skill ， Journα1（ f．Educαtionαl Meas−

urement，16，119−128，1979．

〔15〕Hogan， T．P．＆Mishler， C．， Relationships between essay tests and objective tests of language skills for elementary school stu−

dents ，Journal Of Educαtional Meαsurement，

17，219−228，1980．

〔16〕Mosss， P．A．， Cole， N．S．＆Khampalikit， C．，

Acomparison of procedures to assess writ−

ten language skills at grades 4，7， and 10 ， Jou「nαl Of Educationαt Meαsurement，19．37−

47，1982．

〔17〕Traub， R．E．，＆Fisher， C．W．， On the equiva−

lence of constructed−response and multiple−

choice tests ，Applied Psycholo8icα1 Meαsure−

ment，1，355−369，1977．

〔18〕Ward， W．C．， Acomparison of free−response and multiple−chice forms of verbal aptitude tests ，Applied Psンchotogicα1 Meαsurement， 6，

1−11，1982．

〔19〕 Bennett， R．E， Rock， D．A．， Braun， H．1．， Frye，

(11)

D．，Spohrer， J，C．，＆Soloway， The relatior ship of expert−system scored constrained freeresponse items to muhiple−choice and open−ended items ，ノlpρ lied Psツcんologicα1

2しfeαsuremen ，14，151−162，1990．

〔20〕Thissen， D．， Wainer， H．＆Wang， X．， Are tests comprising both multiple−choice and free−response items necessarily less unidi−

mensional than multiple−choice tests？ An

analysis of two tests ，Journα1（ゾEducαtionαl MeαsこLrernen」t，31，113−123，1994．

〔21〕Bennett， R．E．， Rock， D．A．，＆Wang， M．，

Equivalence of free−response and multiple−

choice items ， Journal（ゾEducα ionαl Meαs−

urement，28，77−92，1991．

〔22〕 Bridgeman， B．，＆Lewis， C．， The relation−

ship of essay and multiple−choice scores with

grade in college courses ， Journα1（ゾEducα一 tional 1レteαsurement，31，37−50，1994．

〔23〕Birepbaum， M．，＆Tatsuoka， K．K．， Open−

ended versus multiple−choice response

formats−it does make a difference for dia−

gnostic purposes ， Applied Psycholo8icαl Meαsurement，11，385−395，1987．

〔24〕Breland， H．M．， Danos， D．0．， Kahn， H．D．，

Kubota， M．Y．，＆Bonner， M．Y．， Performance versus objective testing and gender：an ex−

ploratory study of an advanced placement history examination ，Journal（ゾEducαtionαt Meαsurement，31，275−293，1994．

〔25〕 Quellmalz， E．S．， Capell， F．J．，＆Chou， C．，

Effects of discourse and response more on the

measurement of writing competence ， Joω卜 nαlOf Educa ional Meαsurement，19，241−258，

1982．

〔26〕Benton， S．L，＆Kiewra， K．A．， Measuring

the organizational aspects of wri ting ability ，

Journα1 of Educationα1 Meαsurement，23，377−

386，1986．

〔27〕Ackerman， T．A．，＆Smith， P．L．， Acompari。

son of the information provided by essay，

multiple−choice， and free−response writing tests ， ApPlied」PsychotogicαI Meαsurement，

12，117−−128，1988，

〔28〕Olson， M．C．，＆DiStefano， P．， Describing

and testing the effectiveness of a contemporary

model for in−service education in teaching composition ， English Educαtion，12，69−76，

1980．

〔29〕 Hughes， D．C．，＆Keeling， B．， The use of

model essays to reduce context effects in essay

scori ng ， Journal Of」Educationαl Meαsure−

ment，21，277−281，1984．

〔30〕平井洋子・渡部洋 1994小論文評点のカテゴリ

化に関する測定論的考察行動計量学，21，21−31．

〔31〕 Braun， H．1．， Bennett， R．E．， Frye， D．，＆

Soloway， E．， Scoring constructed responses uSingexpert systems ，Journα1（）f Educαtionαl Measurement，27，93−108，1990．

〔32〕池田英子 1993記述式英語テスト問題における

コンピュータ支援評価法の吟味東京大学教育学部

紀要，33， 157−165．

〔33〕平直樹 1995物語作成課題に基づく作文能力評

価の分析教育心理学研究， 43，134−144．

〔34〕 Linn， R．L， Baker， E．L．，＆ Dunber， S．B．，

Complex， performance−based assessment：e xpectations and validation criteria ， Educd−

tional Researcher，15−21，1991，

〔35〕Moss， P．A．， Shifting conceptions of validity

in educational measurement ， Reuieω q〆

Educationαl Reseαrch，62，229−258，1992．

論述式テストの利用について : 客観テストと比較 して