• 検索結果がありません。

論述式テストの利用について : 客観テストと比較 して

N/A
N/A
Protected

Academic year: 2021

シェア "論述式テストの利用について : 客観テストと比較 して"

Copied!
11
0
0

読み込み中.... (全文を見る)

全文

(1)

論述式テストの利用について : 客観テストと比較 して

著者 井上 俊哉

雑誌名 東京家政大学研究紀要 1 人文社会科学

巻 36

ページ 7‑16

発行年 1996

出版者 東京家政大学

URL http://id.nii.ac.jp/1653/00008932/

(2)

〔東京家政大学研究紀要 第36集 (1),P.7〜16,1996〕

論述式テストの利用について 一客観テストと比較して一

井上俊 哉

(平成7年9月30日受理)

About the use of constructed−response tests   −in comparison with objective tests一

   Shunya INOUE

(Received September 30,1995)

1 は じ め に

 現代においてテストといえば,多肢選択形式(mul−

tiple−choice)を典型とする客観テストを想起する者が 多いであろう.しかし,歴史を遡れば,洋の東西を問わ ず,試験に用いられたのは,口述式あるいは論述式のテ

ストであった(ヨーロッパの大学の口頭試問,中国の科 挙).論述式のテストでは,受験者自身が解答を表出す

るのに対して,客観テストでは,受験者はあらかじめ用 意された選択肢や解答パターンの中から,各自が正しい

と考えるものを選んで解答する.

 かっての常識であった論述式テスト(本論で述べるこ とがらのいくらかは口述式のテストにもあてはまるが,

とりあげるのは筆記テストだけにしたい)が下火になり,

かわって客観式テストが発展した理由,そして近年,客 観式テストへの批判とともに,論述式あるいは記述式の テストが再評価されている背景を,主として実証的な手 法に基づく先行研究を参考にして,教育測定学的な観点 から論じていきたい.

2 論述式テストの短所の認識と客観テストの隆盛 今世紀初頭のアメリカにおいて,従来のテスト方式の 非客観性,採点の恣意性が指摘されるとともに,評価の 客観化・科学化が提唱された.歴史的に有名なのが,採 点者間の評点の食い違いの問題を指摘したStarch and Elliotの研究(1911〜1913)である.いろいろな教科に っいての答案を複数の教師が採点したところ,同じ答案 に対する評点が大きくばらっいたという(池田,19921)).

 この問題に対処すべく発展したのが,客観テストであ 教養部

る.たとえば多肢選択式のテストでは,正答として想定 される選択肢を含む複数の選択肢があらかじめ用意され ていて,受験者は,それらの選択肢の中から,各自が正

しいと考えるものを選ぶ選択肢の設定が適切になさ礼

一っの正答に関して合意が得られ,採点者のミスがない かぎりにおいて,この種のテストの採点は客観的に行わ れる(すなわち,誰がいっ採点しても,同一答案には同 じ得点が与えられる)ことになる.客観テストが世の中 に広まるにあたっては,第一次世界大戦時における陸軍 アルファ式知能検査の成功が大きなメルクマールになっ た.莫大な数の受験者の解答を採点するに当たっての効 率の向上は,いうまでもなく絶対的であった.また,採 点者の違いによる有利・不利が生じないため,公平性が 得られるという点においても,採点の客観性は重要であっ

た.第一次世界大戦中には,性格検査の分野でもWood worthの質問紙が発表されている.1926年には進学適

性検査(Scholastic Aptitude Test)が実施され,1937 年には,大学入試評議会(College Entrance Exami−

nation Board:CEEB)の論述式テストが多肢選択式

テストにとってかわられている.その後,数10年間にわ

たり,アメリカにおいて客観テストが発展普及するこ

ととなる.客観テストが広範に使われるようになるとと

もに,より客観的,科学的にテストを利用するための研

究も進展した.テストをめぐって築かれた理論は,多肢

選択式の項目を多数集めて構成される客観テストの利用

を前提としている.集団基準準拠による標準テストの利

用法も,テストとその使われかたを評価するための信頼

性・妥当性の概念も,客観テストの利用を念頭において

形成されてきたものである.この時代は,評価の客雛

効率性を重視する客観テスト全盛期ということができよ

(3)

う.日本でも,アメリカの教育測定運動の影響を受け,

1920年前後から,客観テストの導入が進あられた(天野,

19932)).

 客観テストが普及していくこの時代は,論述式テスト

のさまざまな短所を指摘する研究が数多く行われた時代 でもあった.そのような短所の中でも,採点の非信頼性 は致命的ともいえるものである.多肢選択式の客観テス トでは,採点は客観的に行われるので,採点ミスさえな ければ同じ解答に対する評点は,誰が何度採点しても一 致する.これに対して論述式テストでは,採点が主観的 に行われるので,評点の完全な一致は望めない.同一解 答に対して異なる採点者が採点した場合の評点が大きく 食い違うことは,前にも触れたStarch and Elliottの

研究だけでなく,それに続く研究でも指摘されている

(Coffman,19713)ほか多数).採点者の主観を評点に 積極的に反映させたい場合には,評点のばらっきが意味 を持っかもしれないが,入試の答案などにおける評点の 食い違いは最低限にとどめなければならない.

 日本における論述式テスト研究は多くないが,渡部・

平。井上(1988)4)は,高校生165名の作文に11名の採 点者の与えた評点間の相関係数が,0.22〜0.57であった

と報告している.採点者間の一致度がこの程度では,到 底十分なものとはいえない.この研究は,採点者内の非

信頼性も明らかにしている.すなわち,3名の採点者が

1週間の間隔をあけて同じ答案を2度採点したところ,

評点間の相関係数がもっとも低い採点者では,その値が 0.40にすぎなかった(最高はO.91).このことは,いっ採 点されるかによって,同じ受験者が有利になったり不利 になったりすることを意味する.異なる採点者どうしの 不一致にもまして,採点者内の不一致は深刻である.こ れまでの研究を見ると,採点者内の評点の不一致は小さ

いものではない.Brachtの研究(1967)でも,採点者

が同一論文に与えた2度の評点の相関係数が0.50であっ

たという(Hopkins et al.,19905)).

 こうした問題は,採点が主観的に行われることから必 然的に起こるものである.採点の基準自体が確固たるも のでなく,人により時により主観的判断が揺れ動くとい うことのほかにも,主観を系統的に歪めるいくっかの要 因が指摘されている.たとえば,論述式テストを採点す る際に,採点者が解答者と面識がある場合に,解答者の 日常の勉学態度などが採点に影響することをChase

(1979)6)などが指摘している(このような効果は光背

効果と呼ばれる).また,Hales and Tokar(1975)7)

は,優秀な答案の後に採点されるときよりも,劣った答 案の後に採点されるときの方が,それに続く答案に与え られる評点が高くなることを報告している(このような 効果は文脈効果と呼ばれ,多くの研究が同様のことを報 告している).最初の方で読まれた答案は,最後に近く 読まれる答案よりも,高い評点を与えられやすいという

報告もある.

 答案の外見上の特徴が採点に与える影響も無視できな い.テストが行われる目的にもよるが,論述式テストで 測ることを期待されるのは,多くの場合,そこで書かれ た文章に表現された内容であって,誤字・脱字などでは ないはずである.しかし,内容にっいてのみ採点するよ うに指示されていても,言葉遣い,外見上の特徴(たと えば,綴り,句読点,文法などの誤り,字の巧さ)が採 点者の主観に影響して評点に反映されてしまうことが,

多くの研究によって指摘されている.長く書いた答案の 方が高い評点を与えられるという研究報告も多い.日本 における論述式テスト研究は,この点でもあまり多くな い.渡部・曹(1992)e)は,新聞社の入社試験に用いら れた小論文にっいて,原本(受験者の自筆)のコピーと ともにワープロで印刷された答案を用意して,両者に与 えられた評点を比較しているが,採点者ごとに異なる傾 向がみられるなど,はっきりした結果は得られていない  論述式テストでは客観テストと比べて,一問当たりに

要する解答時間が長くなるために,課題の数が限られる

のが普通である.このこともテストの信頼性を低くする

原因になる.ある論述式課題を解くことによって,受験

者は自分の能力を示すことになるが,別の課題への解答

で示されるその受験者の能力が同じ,ないし近いものだ

という保証はない.客観テストでは,1っのテストが多

くの項目を含んでいるので,比較的広い領域をカバーで

きるが,項目数の少ない論述式テストでは,どんな課題

が出されたのかによって,受験者の得点は大きく変動し

うる.たとえば,入試において1度の論述式テストの実

施だけで受験者を判断することがあるが,同一受験者の

得点が課題ごとに大きく変わるならばたまたまどの課

題が出題されたのかによって,受験者に有利・不利が生

じることになる.もし,このような課題ごとのばらっき

が無視できないものならば,少数の課題でのテスト実施

は,危険である.採点者間,採点者内の非信頼性の研究

に比べて,課題の違いによる得点の変動に関する研究は

(4)

論述式テストの利用にっいて一客観テストと比較して一

少ないが,これは決して無視できない問題である.

 論述式テストの開発は,客観テストに比べて楽だとい われるが,計画をよく練ると大変であるということも指 摘しておきたい.そして,採点に要する時間・労力は当

然大きい.

3 論述式テストの再評価

 このように見てくると,論述式テストの欠点はかなり 深刻なものである.しかし,それにもかかわらず,人気 は根強く,場面により論述式テストが使われ続けた.論 述式のテストの方が,教育場面で実際に出会うのと似た 課題を受験者に提示できるので,表面妥当性(テストが 何か重要なものを測っているという印象)が高くなると いうのが一っの大きな理由であろう.客観テストを批判 し,論述式テストを擁護する意見は,客観テストが優勢 であった時期にも,周期的に強く現れている.客観式テ ストに解答するには再認(recognition)しか必要とし ないのに対して,論述式テスト(あるいは記述式テスト.

この用語の問題は後に論じる)は再生(recall)を要し,

より高次の能力を測れるというのは,典型的意見の一っ である.論述式テストでは,創造性,論理的な思考力,

文章力などの,客観式テストでは測定できない能力を測 ることができるという主張は,古くから繰り返されてい る.そして,197,80年代以降,論述式テストの大幅な復 活,各種試験への再導入,そのほかのタイプの記述式テ ストの積極的な利用が見られるようになる.

 ここまで,厳密に定義をせずに,論述式テストあるい は記述式テストという用語を使ってきた.このような,

解答者に解答を表出させるテストは,解答にどのくらい の自由度が残されているのか,書かねばならぬ文章の長 短など,さまざまな次元による違いが大きい.したがっ て,何らかの基準で分類するのが便利である.解答の自 由度が多少なりとも残されているテスト(非客観テスト)

を分類するためのスキームは,いろいろと提案されてい る.たとえば,Bennettは,解答者の反応がどの程度制

約されているかによってテスト項目を7段階に分類して

いる.もっとも制約の厳しい多肢選択(multiple

choice)項目では,解答者に許されているのは,いく

っかの選択肢の中から一っの正解を選ぶことだけである.

多肢選択式以外の項目は,constructed−response

itemsと総称されているが,その中でも,もっとも制約 の緩い提示(presentaion)項目は,実技や実演をさせ

るもので,楽器を演奏させたり,科学実験を行わせたり する,というのがその例である(Bennett and Ward,

19939)).この分類に従うならば,本論で主に焦点を当 てている論述式テストは,あるテーマに応じた解答を解

答者が最初から産出する組み立て(construction)項

目(制約の緩い方から2番目)を集めたテストというこ とになるが,いくらか制約のきっいテストについても触 れることがあるので,それらを便宜上,記述式テストと 呼ぶことにする.

 近年の論述式テスト再評価は,日本においても大学入 試の科目の変化に端的に現れている.たとえば,石井1°)

は,1981年に,ある私立大学における論文試験導入の試 みにっいて記している.また,共通一次試験あるいは現 行の大学入試センター試験は,各大学の特徴を出すよう な多様な入試が広まることをねらいの一っとしている.

そして,これらのテストと論文テスト,実技テストなど を適切に組み合わせて入試を行うことを奨励している.

実際,二次試験に小論文を取り入れる大学は増え続けて いる.共通一次導入当初の1979年度に小論文を採用した 国公立大学は65大学99学部であったのが1991年度には,

93大学205学部に及んでいる(鰭崎,1992エ1)).

 客観テストの限界を指摘し,論述式テストを再評価す るという動向は,アメリカでも顕著である.近年,各種 テストに論述式テストが再導入されたり,記述式テスト

が活発に利用されるようになっている.Frederiksen

は,客観テスト偏重の弊害を早くから説いている一人で あるが,コンピテンシーテスト(高等学校卒業生が,社 会人として最低限必要な基礎学力を身にっけているかど うかを判定するために,全米の多くの州で行われている テスト)によい成績をとることが教師,学生双方に要求 されるため,「テストにでるもの」すなわち,基本技能

(basic skills)を教師が教えるし,学生が勉強するこ

と,およびそのことから起こる問題点を指摘している

(1984)12).教育進歩の全国評価(National Assess−

ment of Educational Progress:NAEP)の報告は,

これがかならずしも杞憂とはいえないことを示している.

1976年の調査において,基本技能を測る項目の成績は落 ちていないが,より複雑な認知技能を反映する項目成績 や作文能力は低下していることが報告されているのであ る.この報告を契機として,大学入試評議会の試験に,

英作文の論述式テストが加えられることになった学生・

生徒に要求される能力自体が,時代とともに基礎的な能

(5)

力から,より高い能力に変わりっっあるので,テストも それに応じて,より複雑な能力を測る方向へ変わるべき

だという声もあがっている(Bennett and Ward, 1993 9)).

 多くの大学・大学院入試に論述式テストが(再)導入 されはじめるのも,このころである.その中から具体例 として,1985年春に論述式課題が追加された医科大学入

試(Medical College Admission Test:MCAT)を

見ると,学生はっぎのような技能を示すことを期待され

ていたという(Mitchell et al.,198613)).(1)主要なア

イディアを展開する②概念とアイディアをまとめる(3)適 切な情報と不適切な情報を区別する(4)別の仮説を展開す る(5)アイディアを粘り強く論理的に提示する⑥文法など をまもりっつ,明確に書く(ただし,この論述式テスト では,満足すべき信頼性が得られなかったという).

 論述式が再評価されるようになった理由をまとめてお こう.(1)表面的な妥当性,(2)客観テストでは測れないも のを測っているという期待(何を期待するかは,場合に よる.典型的には,創造九文章力,論理的思考力など),

(3)問題解決過程に関する情報を与えてくれるという期待

(正答・誤答に関する情報だけでなく,学生の認知過程 により接近できる),(4)学生の勉学意欲・態度によい影 響を与えるという期待.古くからあった,これらの期待 に加えて,近年,論述式テスト・記述式テストが広く使 われるようになったのは,(5)テスト利用の目的が,選抜 や集団内での配置など主として集団の利益を得ようとす る方向から,学習者個人の利益を指向する方向へと変わ りっつあること(教授や学習と密接に連絡を取り合うテ スト利用),(6)カリキュラム改革の気運,(7)認知科学の 進展により論述式テストで測られるものを探る手掛かり が得られるようになったこと,などの理由からであろう.

 ここまで見てきたように,論述式テストには数々の短 所があるにもかかわらず,客観テストで得られないもの が期待されている.しかし,論述式テストには独自性が あるという期待あるいは信念は,どこまで確認されてい るのだろうか.いまや論述式テストやそのほかの記述式 テストを広く使っていこうという流れは押しとどめよう もないし,教育評価の道具が増えることは,歓迎すべき だとしても,論述式と多肢選択式を比較し,論述式テス

トの独自性を調べた研究を冷静に振り返っておくことは

必要だろう.

4 論述式・記述式テストと客観テストの比較 一論述式・記述式テストの独自性は確認されたのか一  論述式・記述式テストを客観テストと比較して,その 違いを見出そうとする研究は,古くから行われているが,

明確な結論定説は導かれていない.それには,いくつ

かの理由がある.

 (1)論述式テストを実施するにあたっては,客観テスト の場合と比較して,受験者,採点者に多くの労力,時間 を期待しなければならない.すなわち,多くの受験者に 比較的面倒なテストに解答してもらわねばならないし,

複数の協力者に採点を依頼しなければならない.この採 点作業がまた厄介なものである.このように,研究の実 施やデータ収集には,手間,時間,費用がかさむのが普 通である.また,日本では入試データなどを利用しにく

い状況もある.したがって研究の数が少なくなる.

 (2)ひとことで論述式テストといっても,そのバリエー ションはいろいろな次元にわたり,これが一般化を困難 にしている. 簡単なテーマだけを与えて自由に作文さ せる場合と多くの材料が提示されていてそれらをもとに 作文する場合 , 自由な発想が求あられる場合と論理的

な展開が求められる場合 , 教室で学習指導の目的で使 われる場合と入試において選抜目的で使われる場合 ,

文章作成能力(writing ability)を測ろうとしてい る場合と何らかの教科学力を測るたあに作文を求める場 合 , 全体的採点(holistic scoring)をする場合と 分析的採点(analytic scoring)を行う場合 などのう ち,どれに該当するかによって,テストの特徴がまるで 違うということもありうる.そのほかにも問題の構造化 解答の自由度の程度には,ほとんど無限のバリエーショ ンがある.このようなことから,ある研究で導かれた結 論は,その研究で使われたテストに関して当てはまると

しても,何らかの次元において異なるテストに関しては,

結論の妥当性が低くなるかもしれない.

4.1妥当性の比較

 客観テストでも論述式テストでも信頼性に関する研究

が多いが,約30年前にCoffman(1971)3)が指摘して

いるように,信頼性よりも,むしろ妥当性の研究が大事 である.論述式テストの構成概念妥当性に関する先行研 究の多くが採っている手法は,直接測定(論述式テスト)

による評点を間接測定(客観テスト)の得点と比較する

(6)

論述式テストの利用にっいて一客観テストと比較して一

ことで,両者の測る構成概念の違いを見ようというもの である.この種の研究は,1950年代から行われているが,

そのうちのいくっかを挙げよう.

 英作文能力(writing ability, English composi−

tion)の直接測定と間接測定の関係については, Edu−

cational Testing Service(ETS)などによる大規模 な研究をはじめ,多くの研究が行われている.God−

shalk, Swineford and Coffman(1966)は,この分 野の古典的研究で,多くの研究に引用されているが,5 っの論述式テスト(5人の採点者)とECT(English

Compositon Test)の各種下位テストとの相関係数を

調べ,0.46〜0.71という比較的高い値を得ているという

3)

DBreland and Gaynor(1979)14》は, TSWE(Test of Standard Written English:50問からなる多肢選 択式テスト)得点と論述式テスト(3人が6段階で採点)

評点の間の相関係数をしらべ,0.63,0.63,0.58(被験

者は大学1年生)という結果を得ている.また,ETS は,英作文技能の客観テストを開発し,このテストと

140分の論述式テスト(信頼性O.84)との相関係数が0.75 であったと報告しているという(Hopkins et al.5)).

Hogan and Mishler(1980)15)は,より低学年の子を

被験者として,MAT−LIT(Metropolitan Achieve。

ment Test−Language Instructional Tests)という 多肢選択式テストと20分の論述式テストとの相関を調べ 0.68(3年生140名),0.65(8年生160名)という結果を 得ている.Huntly, Schmeiser and Stiggens(1979)

は,約50名の3っの大学生標本にっいて,American College Testing Program s English Usage Test

(75項目からなる多肢選択式テスト,文水準の技能を強

調)と3っの論述式テストの合計点(2名の採点者)と

の相関を求め,0.43,0.50,0.67という値を得ていると いう(Moss et al.,1982による). Moss, Cole and

Khampalikit(1982)16)は,テストによる評価方法を

「直接」と「間接」に二分するのは単純化しすぎである として,評価方法を分類するための3水準(課題の構造 化の程度,採点法,評価の水準)を提案している.そし

て,課題の構造化の程度と採点法を変えた3通りの得点

(多肢選択式テスト得点,論述式総合評点,論述式分析

評点)間の関連を,発達段階(4年生,7年生,10年生

の3学年)による関係の変化にも注目しっっ調べている.

そして,10年生で多肢選択得点と分析評点との相関が比 較的高い(0.60),総合評点と分析評点との相関が低い

(もっとも高い10年生でも0.42)低学年では得点間の相 関が低い,などの結論を得ている.

 英作文以外の能力では,たとえばTraub and Fisher

(1977)ユT)が言語分野と数量分野に関するテストを多肢 選択式と記述式とで実施し,探索的因子分析を利用して

分析している.その結果,数学的推理問題(mathe−

matical reasoning)では形式による差はほとんどな

く,言語理解問題(verbal comprehension)で異なる 構成概念を測定している可能性を示す弱い証拠が得られ たとしている.Ward(1982)18)は,反意語(antonyms),

文章完成(sentence completion),類推(analogies)

の3タイプの言語項目(verbal items)に関して,多

肢選択,自由記述式など複数の形式を比較している.因 子分析の結果,反意語と文章完成に関しては,測られる ものに差が無いのに対して,類推に関しては,第2因子 の存在を示す弱い証拠が得られた.しかし,多特性多方 法の比較によると,自由反応形式が他のものと差がある

という証拠は得られなかったという.

 アメリカには,中等教育機関の優秀な学生が大学入学 前に,大学の単位の一部を取得するためのプログラムが 存在する.そして,その単位認定のために,特別進級テ

スト(Advanced Placement Test)というテストが使

われている.このテストの多くの教科・科目では,多肢 選択式と記述式が併用されているので,これを比較した 研究も行われている.Bennett, Rock, Braun, Frye,

Spohrer and Soloway(1990)19)は,エキスパートシ ステム(expert system)によって採点された,制約つ きの記述式項目(誤りのあるコンピュータプログラムの デバグを求める)と他の2っの項目タイプ,すなわち(1)

多肢選択式②自由記述式(プログラムを書かせる)との

関連を検討している.そして,これらのデータと3因子

モデルの当てはまりを調べ,他のモデルへの当てはまり と比較するために,確認的因子分析を行った.その結果

バグを1っだけ含む制約っきの記述式項目を受験した群 については,1因子モデルが当てはまり,バグが3っの 制約っき記述式項目を受験した群は2因子モデルへの当

てはまりがいくらかよかった.また因子間相関を見ると,

このタイプの項目は,自由記述式とも多肢選択式とも高

い相関をもっていることがわかった.Bennett, Rock

and Wang(1991)2°)は,多肢選択式項目と自由記述式

項目とを含む特別進級コンピュータ科学テストのデータ

を使って,因子間相関を許す2因子の確認的因子分析を

(7)

行い,さまざまな指標により1因子モデルと2因子モデ ルとを比較した.そして,節約性(parsimony)の原理 からみて1因子が良いという結論を得ている.This−

sen, Wainer and Wang(1994)21)は, Bennettらと同 じ特別進級コンピュータ科学テストと化学テストのデー タを別の方法で分析した.彼らの結論は,多肢選択式項 目と自由記述式項目とでいくらか違ったものを測ってい るものの,その違いは小さいというものである.

 これらの研究から,明確かっ一般的な結論を導くこと はできないが,作文能力のテストにっいて論述式と多肢 選択式のテスト間の相関が意外に高いこと,数学的能力 にっいて形式間の相違が小さいこと,課題の構造化の程 度が大きい記述式と多肢選択式との相違が小さいことな

どの傾向はうかがえる.しかし,Frederiksen12)がい

うように,これらの研究では,記述式テストを無理に多 肢選択式テストに合わせているとみなすこともでき,公 平な比較が行われていないとも考えられる.ただし,論 述式テストで測ることができるといわれる文章表現力,

創造的思考,拡散的思考などが,ほんとうに論述式テス トで測られていることを,実証的に示す研究が少ないの

も事実である.

 入学試験などで使われるテストでは,その得点が入学 後の成績と高い相関を持っこと,すなわち,高い予測妥 当性を持っことが望ましい.客観テストと論述式テスト のいずれが入学後の成績と高い相関(予測妥当性)を持 っのかを調べた研究もいくっか見られる.最近の研究で は,Bridgeman and I.ewis(1994)22)が,特別進級試 験のうち,アメリカ史(American History ),ヨーロッ

パ史(European History),英語と作文(English Language and Composition),生物学(Biology)

にっいて,論述式部分と多肢選択部分の得点を,32大学 の新入生の入学後の成績と照らし合わせている.そして,

アメリカ史と生物学に関しては,多肢選択式の得点の方 が論述式の得点よりも新入生の平均成績(GPA:

grade point average)と高い相関を持っことがわかっ た.しかし歴史,英語,生物学の科目ごとに成績との相 関を調べると,多肢選択得点と論述得点とで差は見られ

なかった.

4,2 そのほかの比較

Birenbaum and Tatsuoka(1987)23)は,分数のた し算課題にっいて,多肢選択式と記述式のテストを行っ

て得られたデータから,誤答タイプの違いなどを分析し た.そして,記述式の方が受験者の認知過程に関して多 くの情報が得られることを示している.論述式あるいは 記述式の優位を示す,この種の研究は意外に少ない.

 Breland et al.(1994)24)は,特別進級テスト成績の 性差が,客観式部分と記述式部分とでどの程度違うのか を調べている.1986年の合衆国史(U.S.History)試験 は,客観部の得点で大きな性差が見られたのに対して,

自由記述部の得点には性差が見られなかった(Bridge−

maneta1.,199422)でも,大学新入生の歴史成績と特別 進級テストの論述部の評点では男女差が見られないのに,

多肢選択得点では男性の方が女性よりも1標準偏差近く

高かったことが報告されている).そこで,Brelandら は,自由記述部の答案を2通りの方法(1:歴史的な内 容に焦点を絞って採点 2:字の巧さ,文章の質などに

っいて採点)で再採点して,分析した.その結果,この 種の自由記述式答案の採点には,英作文能力の要素が混 入し,そのために女性の歴史知識の不足が作文能力の優 秀さで補われている可能性が示された.

 テスト形式が学生の勉学態度,意欲に影響を与える可 能姓に言及する人もいる.「多肢選択式テストに備える 学生は事実の暗記に時間をかけ,論述式テストに備える ときは事実間の関連を考え,問題解決の態度を身にっけ

る」という意見は典型的だろう.先駆者Frederiksen

(1984)12)は,教師が教えようとする内容,学生が勉強 しようとする内容がテストで測られるものに限定されが ちになることを指摘している.すなわち,使われるテス トで測られるものを教師が教え,学生が学ぶ.逆に言え ば,テストに出ないものは,大切なものでも教えられな

いし,学ばれない.この影響(これをthe real test biasと呼んでいる)は大であるとし,とくに基本技能

に焦点を当てた多肢選択式テストが教育に与える影響を 憂慮している.そして,より高度な能力を測れるテスト をもっと積極的に利用すべきだといっている.論述式テ ストが望まれる大きな理由の一つは,このような教育と 評価の有機的な関連を求める動機にあるだろう.しかし,

この点に関しても,実証的な調査・研究はかならずしも 多くない.今後の研究がとくに期待されるテーマである.

 客観テストと論述式テストとで必要とされる能力の違 いを認知心理学の観点から明らかにしようとする研究も,

今後の発展が期待される分野である.たとえば,

Quellmalz, Capell and Chou(1985)as)は,テストへ

(8)

論述式テストの利用にっいて一客観テストと比較して一

の解答に必要な認知成分,反応パタンの分析をしている.

彼らは,直接評価では,主題,一貫性,文体などの特徴 が採点されるのに対して,多肢選択式テスト項目では文 章の外見上の技巧が強調され,生産的な反応は含まれて いないと結論している.Benton and Kiewra(1986)26)

は,論述式テストでの得点を,客観テストだけでなく,

4つの認知能力テストを使って説明しようとしている.

Ackerman and Smith(1988)27)は,多変量解析

(LISRELを利用した確認的因子分析)の手法に認知心

理学を援用して,論述式テストが測定する独自のものを 明らかにしようとしている.しかし,いずれも十分に説 得力のある結論を導いているとはいえない.

5 論述式・記述式テスト利用の今後の方向  論述式テストでは,おもに採点に関する短所が数多く 指摘されていること,それにもかかわらず論述式テスト が使われるのには,相応の理由があることを見てきた.

これまでに行われた比較研究では,論述式テストの独自 性は明確には示されていないことも否定できない.しか

し,それらの研究は論述式テストに意味がないことを決 定的に示すものでもない.新たな視点に立って研究を進 めれば,論述式テストの独自の可能性を明らかにするこ とができるかもしれない.最後に,論述式テスト・記述 式テストの利用法が今後,どういう方向へ進められるの かを展望しておきたい.

5.1論述式テストを利用するに際しての留意ポイント  論述式テストの信頼性の低さなど,欠点を指摘する研 究が多くある一方,なんとかその欠点を克服しようとす る努力も行われている.論述式テストにおいても,具体 的な問題の出し方を変えたり,採点基準を予あ明確に定 めるなどの工夫を行えば,信頼性をある程度高めること が可能だと思われる.論述式テスト・記述式テストの出 題に関して,それが容易だというのは誤りで,いろいろ と注意すべきポイントが挙げられるが,ここでは,採点 をめぐる問題に焦点を絞って,先行研究の報告を拾って

いく.

 Olson and Distefano(1980)28)は,採点尺度のいろ いろなカテゴリーに属する代表的答案を準備することに よって,信頼性を大きく向上させることができたと報告 している.論述式テスト答案の採点では文脈効果が起こ ることはすでに述べたが,Hughes and Keeling

(1984)29)は文脈効果を減らす方策として,モデル答案

(model essay)の利用を提案し実験をしているが,意 に反して文脈効果は減らなかった.文脈効果は相当に頑 固なものらしい.石井ユ゜)は,出題のねらいや採点基準 に関する打ち合わせを徹底することで,採点者間の食い 違いを最低限にとどめることができたと報告している.

これらのことより,(1)採点に先立って,基準の明確化な どの準備を十分に行う,②答案の順序をランダムに並べ たセットを何通りか作り,それらをできるだけ多くの採 点者に割り当てる,(3)採点結果に極端な食い違いがない かをチェックする,(4撮終的に複数の得点を合計する,

というのが採点の基本的な流れとなるだろう.

 論述式テストの採点法としては,全体的に評価して,

一っの答案に一っの評点を与える全体的採点と,いくっ かの観点別に評点を与える分析的採点がある.診断的な 目的のために評価を行う場合には,分析的採点が望まし いとされるが,分析的採点は採点のコストがはるかに嵩 むにもかかわらず,信頼性の向上はほとんど望めないと

いわれる.

 評定の際のカテゴリーの段階数をいくっにするかによっ ても,信頼性は変わる.平井・渡部(1994)3°)は,100 点満点の粗評点を何通りかの段階カテゴリーに分けたう えで,段階反応モデルを当てはめ,測定精度を比較して いる.その結果,5っのカテゴリーに分けたとき,粗評

点のときと近い精度が得られることを見出した(100点 で採点せず,5段階で採点しても測定精度はそれほど犠

牲にならず,労力は大幅に軽減するという.ただし,最

初から5段階で採点した場合は多少違った結果になるか

もしれない).池田(1992)1)は,訓練された採点者な らば,段階数はできるだけ細かいほうがよさそうである,

としている.

 採点に際してのコスト面の配慮は,教育の本来的目的 からすれば,副次的なものとはいえ,実用上は無視でき ない.この面で,とくに受験者の多い試験における論述 テスト利用は大きな制約を受ける.この欠点を克服する 試みとして,採点のコンピュータによる自動化をめぐる 研究も行われている.

 1960年代のGarber(1967), Page(1966)らによる先 駆的研究では,コンピュータ採点と訓練された採点者に よる採点とで区別できない評点が得られている(Hop−

kins et al.5)).しかし,彼らのコンピュータ採点は,

単語数,単語の平均的長さ,文の長さの標準偏差,カン

(9)

マの数など,形式上の特徴に基づくもので,結果として,

人間の採点者と見分けられない評点が得られたとしても,

表面的・論理的な妥当性を欠くといわざるをえない.

 近年,アメリカ合衆国では,大規模なテストにおいて,

記述式課題を多肢選択式課題と併用しようという要請が 持上がるとともに,採点の自動化の必要性が生じている.

とくに,特別進級テストの記述式部分のコンピュータ採 点の可能性,客観テスト部分との合成点の求め方の検討 が活発に行われている.たとえば,Braun et a1.(1990)

31》は,特別進級コンピュータ科学テストにおいて,新 しい形式の課題(誤りのあるプログラムを示し,その修 正を求める)への答案を,エキスパートシステムを利用

してコンピュータ採点している.その結果,82%から95

%の答案を採点することができ,しかも人間の採点と高 い一致を示した.また,このテストの客観部と自由記述 部との相関は中程度であったという.課題の構造化の程 度が高いならば,コンピュータ採点は,かなりうまく機 能しそうである.日本語答案の自動採点は,英語の答案 以上に困難が伴うことが予想される.日本ではこうした 研究はまだあまり見られないが,池田(1993)32)は,解 答範囲がある程度予想できる英文和訳・和文英訳問題の

コンピュータ支援評価の可能性を検討している.

 こうした研究を進めるには,採点過程を明確化・客観 化しなければならない.その結果として,利用者が測定 目的に関する認識を深めるという副次的な効果も期待で

きる.

5.2独自性の確認への努力・テスト評価の新しいパラ   ダイムの要請

 論述式テストが批判され,客観テストが優勢であった 時代には,信頼性や採点コストにおける客観テストの優 位が強調された.実際,信頼性や効率は,テストの使い 方を評価する上で大切なポイントではあるし,それらを 重視するかぎり,客観テストが論述式テストに勝るのは 間違いない.しかし,テストやその使われ方が適切であ るかどうかを評価するポイントは,信頼性,効率だけで はない.場合によっては,信頼性が多少犠牲になり,実 施・採点に手間がかかるとしても,ほかの観点を重視す べきかもしれない.効率を尊重しすぎたことが,客観テ スト批判をまねいたともいえる.客観テストでは得られ ず,論述式テストを使うことによって得られるメリット があるのならば,論述式テストを積極的に利用すること

の十分な根拠となる.

 そのためにも,客観テストと比較したときの論述式テ ストの独自性,特徴をいま以上に明確にしていくことが 必要である,すでに概観したように,いままでのところ,

論述式テストの独自性にっいて,さまざまな「意見」は あるが,はっきりした証拠は乏しい.しかし,いくっか のヒントは得られている.論述式テストの構成概念妥当 性を吟味するのには,既成の客観テストとの相関を調べ るのでは,不十分だろう.なぜ論述式テストを使うのか を,しっかりと認識したうえで,課題を作成しなければ ならない.その点で,特色ある物語作成課題に関する平 の研究(1995)33)は興味深い.Birenbaum and Tatsu−

oka(1987)23)に見られるような,学習や教授との関連 で,論述式・記述式テストの利点を明らかにする研究も,

もっと数多く行われてよい.教育測定学だけでなく,認 知心理学の力も借りて研究を進めることも必要になるだ

ろう.

 ある研究で得られた結論をどこまで一般化できるか,

その可能性と限界を見極めることも大切である.論述式 テストの各種条件を整理することができれば,論述式テ ストを使う上で役に立っだろう.

 論述式テスト利用の合理的根拠を明らかにするために は,その特徴を明らかにしていくのと並行して,テスト の使い方の評価基準そのものを見直していくことも必要 であろう.テストやその使い方の適切さを評価するため に,妥当性,信頼性といった概念があるが,これらは,

客観テストの発展過程で形成されてきたものである.し たがって,従来の妥当性,信頼性概念では,非客観テス

トの使い方を評価するのに,そぐわない点が多々生じて いる.論述式テスト,さらには実技テストなどの利用が 社会的なニーズに合い,広まりっっある現在,非客観テ ストの評価を視野に入れた,基準の作り直しが必要であ

る.

 Linn, Baker and Dunber(1991)34)やMoss(1992)35)

は,performance assessmentの普及を前提として,

それらの使い方を吟味するために,従来の妥当性・信頼 性の強調点を見直し,枠を広げていくことを提案してい る.Linn et a1.(1991)は,客観テストに変わりうる

評価法(alternative assessment)の登場を,妥当性

について再考察する契機として捉えている.そして妥当 性評価の基準を拡張する必要性を指摘するとともに,

「テストを行うことにより,どのような結果が招来され

(10)

論述式テストの利用について一客観テストと比較して一

るのか」「受験生が解答するために,どのような認知過 程が必要とされるのか」「ある特定のテストから得られ る結果をどこまで一般化できるのか」など,8っの新し い基準を提案している.Moss(1992)は,「評価を行う ことに伴う結果」(consequences of assessment use)

という観点からテストを見ることの重要性を強調してい る.これは,評価が教育システム全体に与える影響を考 慮に入れて,テストの妥当性を吟味する必要を説くもの

である.

 客観テスト全盛時代にも,テストの使い方の適切さを 評価する作業はかならずしも十分に行われていなかった.

論述式テストが再評価され,利用が拡大しっっあるが,

その長所がどこにあるのかを認識すること,また特定の テストにおいてその良さが発揮されているのかどうかを 確認する作業は欠かせない.テストの使い方は,それを

絶えず監視確認し続けなければ,誤用はいっでも起こ

りうるのである.また,客観テストそのものや,従来の 妥当性概念がすべて否定されるものではない.教育評価 のオプションが増えたことを歓迎し,いろいろなテスト を適材適所に使い分けていくことがこれからの目標にな

る.

参考文献

〔1〕池田央 1992 テストの科学 日本文化科学社

〔2〕天野正輝 1993教育評価史研究 東信堂

〔3〕Coffman, W. E., Essay examination, In   Thorndike, R.L.(Ed.),Educational Measure−

  ment(2nd ed.),Chap.10, Washington, DC:A   merican Council on Education,1971.

〔4〕渡部洋・平由実子・井上俊哉 1988 小論文評価   データの解析 東京大学教育学部紀要,28,143−

  164.

〔5〕 Hopkins, K.D., Stanley, J.C.,&Hopkins.

  B.R., Educαtionαl and Psツchologicαl Meαs−

  urement and Evαluation, Prentice Hal1,1990.

〔6〕 Chase, C.1., The impact of achievement

  expectations and handwriting quality on

  ScOr董ng eSSay teStS , JOUrnal(ゾEdUCαtiOnαl   Meαsurement,16,39−42,1979.

〔7〕Hales, L.W.,&Tokar, E., The effect of the

  quality of preceding responses on the grade   assigned to subsequent responses to an essay

  question , Journαl qf EdUCαtionαl Meαsure−

  ment,12,115−118,1975.

〔8〕渡部洋・曹亦薇 1992 小論文評価における字の

  美しさの影響にっいて 東京大学教育学部紀要,3Z   253−256.

〔9〕Bennet, R.E.,&Ward, W.C.(eds.)eonstruc−

  tion ver8us choice in co8・nitive meαsurernent,

  Lawrence Erlbaum Associates,1993.

〔10〕石井巌 1981 「論文試験とその評価」にっいて   行動計量学,8,22−29.

〔11〕鰭崎浩 1991大学入試一改革の試み 岩波ブッ

  クレット181

〔12〕 Frederiksen, N., The real test bias:influe

  nces of testing on teaching and learning ,

  Ainericαn Psツchologist,39,.193−202,1984.

〔13〕Mitchell, K.,&Anderson, J., Reliability of

  holistic scoring for the MCAT essay ,、Ekluca−

  tional and」Ps:ソcholo8icα1 Meαsωrement,46,771

  −775,1986.

〔14〕Breland, H.M.,&Gaynor, J.L, A compari−

  son of direct and indirect assessments of

  writing skill , Journα1( f.Educαtionαl Meas−

  urement,16,119−128,1979.

〔15〕Hogan, T.P.&Mishler, C., Relationships   between essay tests and objective tests of   language skills for elementary school stu−

  dents ,Journal Of Educαtional Meαsurement,

  17,219−228,1980.

〔16〕Mosss, P.A., Cole, N.S.&Khampalikit, C.,

   Acomparison of procedures to assess writ−

  ten language skills at grades 4,7, and 10 ,   Jou「nαl Of Educationαt Meαsurement,19.37−

  47,1982.

〔17〕Traub, R.E.,&Fisher, C.W., On the equiva−

  lence of constructed−response and multiple−

  choice tests  ,Applied Psycholo8icα1 Meαsure−

  ment,1,355−369,1977.

〔18〕Ward, W.C., Acomparison of free−response   and multiple−chice forms of verbal aptitude   tests ,Applied Psンchotogicα1 Meαsurement, 6,

  1−11,1982.

〔19〕 Bennett, R.E, Rock, D.A., Braun, H.1., Frye,

(11)

   D.,Spohrer, J,C.,&Soloway, The relatior    ship of expert−system scored constrained    freeresponse items to muhiple−choice and    open−ended items ,ノlpρ lied Psツcんologicα1

   2しfeαsuremen ,14,151−162,1990.

〔20〕Thissen, D., Wainer, H.&Wang, X., Are    tests comprising both multiple−choice and    free−response items necessarily less unidi−

   mensional than multiple−choice tests? An

   analysis of two tests ,Journα1(ゾEducαtionαl    MeαsこLrernen」t,31,113−123,1994.

〔21〕Bennett, R.E., Rock, D.A.,&Wang, M.,

    Equivalence of free−response and multiple−

   choice items , Journal(ゾEducα ionαl Meαs−

   urement,28,77−92,1991.

〔22〕 Bridgeman, B.,&Lewis, C., The relation−

   ship of essay and multiple−choice scores with

   grade in college courses , Journα1(ゾEducα一    tional 1レteαsurement,31,37−50,1994.

〔23〕Birepbaum, M.,&Tatsuoka, K.K., Open−

   ended versus multiple−choice response

   formats−it does make a difference for dia−

   gnostic purposes , Applied Psycholo8icαl    Meαsurement,11,385−395,1987.

〔24〕Breland, H.M., Danos, D.0., Kahn, H.D.,

   Kubota, M.Y.,&Bonner, M.Y., Performance    versus objective testing and gender:an ex−

   ploratory study of an advanced placement    history examination ,Journal(ゾEducαtionαt    Meαsurement,31,275−293,1994.

〔25〕 Quellmalz, E.S., Capell, F.J.,&Chou, C.,

    Effects of discourse and response more on the

   measurement of writing competence , Joω卜    nαlOf Educa ional Meαsurement,19,241−258,

   1982.

〔26〕Benton, S.L,&Kiewra, K.A., Measuring

   the organizational aspects of wri ting ability ,

   Journα1 of Educationα1 Meαsurement,23,377−

   386,1986.

〔27〕Ackerman, T.A.,&Smith, P.L., Acompari。

   son of the information provided by essay,

   multiple−choice, and free−response writing    tests , ApPlied」PsychotogicαI Meαsurement,

   12,117−−128,1988,

〔28〕Olson, M.C.,&DiStefano, P., Describing

   and testing the effectiveness of a contemporary

   model for in−service education in teaching    composition , English Educαtion,12,69−76,

   1980.

〔29〕 Hughes, D.C.,&Keeling, B., The use of

   model essays to reduce context effects in essay

   scori ng , Journal Of」Educationαl Meαsure−

   ment,21,277−281,1984.

〔30〕平井洋子・渡部洋 1994小論文評点のカテゴリ

   化に関する測定論的考察行動計量学,21,21−31.

〔31〕 Braun, H.1., Bennett, R.E., Frye, D., &

   Soloway, E., Scoring constructed responses    uSingexpert systems ,Journα1()f Educαtionαl    Measurement,27,93−108,1990.

〔32〕池田英子 1993記述式英語テスト問題における

   コンピュータ支援評価法の吟味 東京大学教育学部

   紀要,33, 157−165.

〔33〕平直樹 1995物語作成課題に基づく作文能力評

   価の分析 教育心理学研究, 43,134−144.

〔34〕 Linn, R.L, Baker, E.L.,& Dunber, S.B.,

    Complex, performance−based assessment:e    xpectations and validation criteria , Educd−

   tional Researcher,15−21,1991,

〔35〕Moss, P.A., Shifting conceptions of validity

   in educational measurement , Reuieω q〆

   Educationαl Reseαrch,62,229−258,1992.

参照

関連したドキュメント

狭さが、取り違えの要因となっており、笑話の内容にあわせて、笑いの対象となる人物がふさわしく選択されて居ることに注目す

cin,newquinoloneなどの多剤併用療法がまず 選択されることが多い6,7).しかし化学療法は1

averaging 後の値)も試験片中央の測定点「11」を含むように選択した.In-plane averaging に用いる測定点の位置の影響を測定点数 3 と

 高齢者の外科手術では手術適応や術式の選択を

ダウンロードファイルは Excel 形式、CSV

WAV/AIFF ファイルから BR シリーズのデータへの変換(Import)において、サンプリング周波 数が 44.1kHz 以外の WAV ファイルが選択されました。.

図 3.1 に RX63N に搭載されている RSPI と簡易 SPI の仕様差から、推奨する SPI

こうした状況を踏まえ、厚生労働省は、今後利用の増大が見込まれる配食の選択・活用を通じて、地域高