一到達度評価の問題点と改善一

(1)

学力評価の基礎

一到達度評価の問題点と改善一

馬場道夫

（1981年10月31日受理）

最近の教育評価理論の展開は目覚ましいものがある。数理的解析から具体的実践まで様々な研究が行われているし，教室内の実践や研究仮説の証明についての比較的小規模の研究から，Head

Start計画の評価のような政策的，社会的規模のプロジェクトの教育的評価の問題まで，1）その研 b

?ﾌ域の幅も拡大してきている。本稿ではそのような教育評価の研究の展開を背景におきながらも，

我国における教育評価の動向に学力測定論の立場から検討を加えてみたい。

我国の教育評価は，戦後アメリカの影響を強く受け，客観テストの採用，通知票に代表される相対評価への傾斜を生じながら，多くの問題を残して来た。今日，客観テストに対しては，記述式テストが，相対評価に対しては，絶対評価が対案として主張されているように見える。絶対評価という表現も，アメリカでの研究動向の影響を受け，Criterion−Referenced Testの語がしばしば引用されている一方，形成的評価の影響の下に到達度評価が広く用いられ，相対評価の生ずる多くの問題を克服しようとする努力が顕著になっている。本稿で特に問題としようとすることは，この到達度評価の問題である。

1 到達度評価の教育における意味

到達度評価の概念は比較的明瞭である。佐々木は次のように述べている。2）

①国民的教養の基礎として欠かせない学力を，到達すべき目標として設定し，②それに到達させるための教材・授業計画（わかる授業）を組み立て，③たえず個々の子どもが到達したかどうかを確かめ（評価し），④つまずきがあれば回復の手だてをし，⑤必要があれば教え方も改善して，⑥すべての子どもの到達がはかれるような教科指導を確立していくことである。

しかし，上記の説明には，評価の問題のほかに，勿論それと表裏一体となって，学習指導の問題が述べられている。②の授業計画，④の回復の手だて，⑤の教え方の改善，⑥教科指導の確立，いずれもそうである。結局，純粋の意味での評価の問題は，①の到達目標の設定，③の到達の確認であり，これらの評価が学習指導と密接な関係をもって行われるべきだということであろう。評価論の観点でいえば，冨学力目標の設定とそれへの到達の確認が到達度評価の本質のようである。

ところで，このような到達度評価の観念が生じた前提には，明らかに相対評価への批判があった。

相対評価は，テスト結果の序列を示すだけで，教育評価の本来の機能である学習の改善に役立つ情報を教師にも生徒にも与えることができないで，生徒の能力の差別のみを拡大し，意識させる。特に，各評価段階の人数比率を決めておく強制配分法は，現実の生徒の成績と通信簿に示される評価

(2)

段階に不一致を起こさせるため，一般の批判の対象となり，3）それを回避することのできない欠陥を内在させていた。他方相対評価にもそれなりの長所があり，特に，絶対評価は基準設定に対して主観性が強くなるが，相対評価は平均点等，集団の成績を基準にするため客観性が高い，4）と主張

されていた。

以上の相対評価対絶対評価の問題は，改めて教育評価は一体何の意味で行うのかという，教育評価の一般的意義を問わせるものであるであろうが，ここでそのような大問題を包括的に扱うことは不可能であろう。しかし，明らかなことは，教育評価は教育に役立たねばならぬ，それもこども達の現在，及び将来に役立たねばならぬことである。この点でいえば，相対評価も全く教育に役立たぬとはいえない。第1に，それは生徒の成績やその他の特性の集団内での相対的地位を知らせ，現在及び将来にわたって集団内での役割りを知らせる。相対評価も通常，教科別の評価段階，場合によっては各教科内の色々な学習の側面について評価しているので，各生徒がどんな成績を示し，どのような能力・性質を有するかかなり多くの情報を生徒に提供できている。冷静にこの情報を利用するならば，個人はその将来にわたっての生活の方途をこの情報から把握し，この社会において適応し得た筈のものである。勿論これは，「正確」な相対評価が行われたとしてであるが。また，相対評価の動機づけの役割りも無視することができない。現代は競争社会といわれるが，この社会を否定するとしても，競争の動機なしで果たしてこの大量の教育内容を消化し，効率的に生きて行けるのかという疑問もある。結局，相対評価についていえば，その功罪を総合してどう考えるかであり，最近，相対評価が特に批判されたのは，進学競争の過酷化によって，競争の否定的側面が拡大し，相対評価の否定的側面が顕在化し，絶対評価への移行が考えられるようになったということではないだろうか。

他方，絶対評価についていえば，集団の成績に左右されないという本来の性質よりも，教育評価の学習指導における機能が強調され，生徒に教育目標への不到達箇所をフィード・バックすることにより，生徒の学習を助成しようとしている。この到達度評価の特徴は，先に示した佐々木の論述においても認められ，④のつまずきのための回復，⑤教え方の改善が触れられている。この考え方は，Bloom5）らの完全学習と形成的評価のそれと共通性を持ち，米国における傾向と一致している。

また当然，彼の教育目標の設定の重視の傾向とも一致している。梶田6）は，到達目標の備えるべき条件として，①到達の最小限の期待内容，②カリキユラム構造の反映，③到達目標の体系の広範性について述べ，到達度評価の教育的意義は，基礎学力さえ十分獲得していない生徒の増大に対処するために，「履習主義」的教育観を克服し，「修得主義」的教育観に立つ実践が必要で，このためにこそ教育目標の設定が重要であるとしている。7）そして，修得主義的教育観は，①ほとんどすべての子どもが，現行の小・中・高校のカリキユラムに定められた程度の学力を獲得することは十分に可能であるという能力観，②目標群の構造化の重要性，③目標と指導の機械的な一対一の対応の回避，④教師と生徒の個性に合った授業方略，⑤形成的評価の導入，⑥教育目標の学習者による内面化を考えるとしている。8）

要するに到達度評価は，相対評価の社会的不評への対応というよりも，本来教育評価のあるべき姿として再提起された絶対評価ということができるだろうし，内容的には，完全学習と形成的評価の総合したものとすることができる。

(3)

皿到達度評価の問題点

ところで，到達度評価が，いわば教育的善として提案されたところで，それは本当に全面的に善であるのか，という疑問も提出しておく必要があるように思われる。梶田は，既に注意深く，絶対評価が単に評点を甘くするだけの結果に終り，場合によってはかえって学力を低下させ，評価を教師の恣意に任せる危険性を指摘している。このことは，本質的に二つの問題を指摘している。一つは絶対的な評価目標の設定が教育に，特に生徒に対して何をもたらすのかということ，他は教育評価目標の設定が可能であったとしても，それが実際の評価へと客観的に結びつけることができるか

ということである。

教育目標の設定については，Bloomlo）を初めとして米国において多くの努力がなされ，我国においても広く知られるようになっている。我国においては，また橋本の私案11）もある。教科の具体的な内容については当然のことながら文部省の指導要領がある。それらの内容について，恐らく厳密な一致には到達できないとしても，おおよその一致は見るであろう。そうでなければ，実際に教育を組織し，運営し，実践することなど，できはしない。教育目標の設定は具体的で客観的である方が，それを後の評価と結びつけ，評価を行う際には都合が良い。しかし，人間の教育目標が完全に客観的な表現ができるというのは，幻想でしかないだろう。心理学における長い行動主義の歴史の後に，時代は新しい意識心理学の時代に入っている。内的な心理的過程を客観的行動的表現だけで量るのは，明らかに限界がある。人間が成長するのは，身長や体重ばかりでなく，100米疾走の時間や1分当たりの計算量ばかりでなく，理解力や分析力，総合力であり，創造力である。そして，

それらは客観的な行動を通じて時々表現されると考えなくてはならないであろう。そして，それらがそうであると確かめるためには，色々な工夫や技術が必要であるし，それもとても完全であるといえる状態ではない。

ところで，仮りに教育目標の設定がかなり客観的に行えたとして，それに沿った教育評価は，生徒に何をもたらすのだろうか。既に指摘されているように，それは最少限の到達目標であり，ほとんどの生徒が到達できる教育目標でもある。従って当然それによる評価は甘くなる。一般の絶対評価の解説においても絶対評価の得点分布は，多数の完全回答者を示し，満点に偏ったものとなると

される。12）これは，作問法の解説として述べられているのであるから，絶対評価の問題は，大部分の生徒が完全にできる問題を出題しなければならないことを「解説」する結果になっている。ここで教育目標と評価方法には易しい問題従って易しい到達目標へと移動するずれを生じて来る。ここで設定されたのは教育目標ではなく，評価目標であり，それは生徒に合わせて設定されるという結果を生むであろう。現在の日本の教育界における教育評価の認識がどの程度のものであるか定かではないが，今のままの状態で到達度評価が我国全域に流布されたならば，たちまちのうちに絶対評価は，生徒の学力に合わせた相対目標への設定と変化してしまうのではないだろうか。それを防ぐためには非常に厳格な教育目標の設定と，それを教育評価へ実現する非常に厳密な手続きを定めておくことが必要である。このことは後に触れるとして，教育目標の設定，特にその各学年に求め

られる学力水準は何処に置かれるべきかという問題がある。ほとんどすべての生徒ができる水準か，

他に何か基準があるのか。指導要領はそのことまで正確に指示はしていない。このことは，当然教育観に関わる。先に梶田の述べた〈ほとんどすべてのこどもができる〉水準は，こどもの教育可能性について述べた言葉であろうが，目標水準の設定の仕方によってはこどもを甘やかす結果になっ

(4)

てしまう。とすると，これは教育観というよりも教育政策の問題であろうし，この背景には，一部の教育者や教育学者が考えるように，すべてのこどもが同じ能率で同じ教育目標に到達できないし，

時間を限れば，あるこどもにとっては多くの教育目標は到達できなくなってしまうという事実が隠されているのである。要するに個人差はあまりにも大きい。40人学級も未だ実現できないでいるこの日本で，個人差に応じた手のゆきとどいた教育などまだできる訳もない。その中で到達目標を客観的に設定するとしたら，80パーセントのこどもが出来る目標は実現できなくて，50パーセン

トが出来る目標にせざるを得ないであろう。今の指導要領は一体何パーセントの目標を設定しているのであろうか。

そこで，いずれにしても教育目標の客観的設定とそれを評価へ具体化する手続きの問題が残されている。教育目標の客観的設定については，既に疑問が提出されている。しかし，実はこの疑問には2種あり，第1は既に指摘されたその主観性であり，心理学的方法論的問題でもある。他の疑問は，むしろ公共的客観性といわれるもので，どこまでそれが公教育としての一般性を持つかということである。大枠については，文部省指導要領もあるが，大きな抽象的な目標は実は実際の教育においての厳密な目標設定と直接結びつけることはできない。何が，どの程度まで，どの位の能率でできるかという具体的基準がなければならない。そして，このことは当然，教育目標の主観性と関係するのである。教育目標やその領域の定義のあいまい性については，既に多くの指摘があり，結局はテスト作成者がそれらをどう解釈するかにかかって来る。13）しかし，いずれにしても共通の評価目標から共通のテスト項目が作成されれば，少なくとも客観性の問題としては良いことになる。

この場合の共通のテスト項目とは，同じ評価目標，通常のことばでいえば，同じ種類の学力を測っていればよい。

このような問題は，従来のテスト理論でいえば，信頼性及び妥当性の問題であった。簡単にいえば，テストに測定誤差がなく，しかも，測定しようとするものを正確に測れていればよい。信頼性の問題は，最近，一般化性の問題として拡張し，ある観察からどの観察の範囲まで一般化できるかの問題に転化している。14）今，到達度評価は，教育目標の設定が重要であるといわれ，それに関してテスト項目が作成されるなら，テスト項目に対する回答結果から，その教育目標に関する評価が行われればよい。教育目標の分類学の発達によって次第にその領域が確定して来たので，従前と比べれば，テスト項目と教育目標との関係は明確なものになっているだろう。しかも，この問題は同時に妥当性の問題でもあって，教育目標の領域の範囲というよりも，その内容がどこまで具体化されているか，誰にでも分かり，共通のテスト項目にできるかの問題である。要するに，信頼性又は一般化性と・妥当性を高めるには，教育目標の内容と範囲の定義を明確なものにし，これを忠実に反映するテスト項目ができればよいのである。ところが，このことは実際には非常に困難なことのようである。評価目標が，具体的知識や書字や計算問題のような技能であればよいが，理解や応用，

総合のような学力であると，理解とは何か，どこまで理解できればよいか，どこまで応用できればよいか等が定義できないと，客観的測定はできないことになる。単純な応用問題であればテスト作成も容易で，評価目標との関係も明らかであるが，どこまで複雑な問題をやらせたらよいのか，ど

こまで転移力があればよいかは，明確にすることはできないであろう。

結局，到達度評価は，その意図としては，集団の成績に左右されない，生徒の学習に有効な情報を提供するために考えられたのであったが，結果としては，教育目標の定義の困難性，それに伴って生ずるテスト項目のあいまい性，到達基準（合格点）の設定の不確定のために，基本的な方法論

(5)

理上の欠陥を持っていることが明らかになった。このほかの到達度評価の実際的な問題点については，橋本によって概括されている。15）例えば，基本的目標の偏重，授業の形式化，不到達者への処置の不明などが指摘されている。以上の点が十分改善されないならば，到達度評価の使用は，むしろ危険とさえいえるのではないだろうか。しかし，要は，テスト項目が公共的に認められた教育目標と一致できることが重要で，そのような方法論と公式化した手続きを確立できればよい訳である。

そこで次にそのことを検討し，到達度評価の安全な実施の方法を追究してみよう。

皿教育評価の方法的規準化

既に到達度評価の改善の試みは色々なされており，橋本は相対評価で補完するよう提案している。

しかし，ここでは，到達度評価の方法そのものの改善を考えてみたい。勿論，このことも非常に多くの研究がなされており，ここで全面的な検討をすることはできないので，それらの研究を踏まえて，なるべく実用的な改善法を考えようとするものである。ただし，その考察の前提として，評価基準の問題を検討しておこう。

初めに到達度評価が結果的に甘い評価を生むのではないかという疑念が指摘されたけれども，これまでの考察から，到達度に明確な基準のないことは明らかである。強いて設定しようとすれば，

実際に，どの程度のテスト項目が，どの学年のこどもに，どの位できるかを確かめてみるしかない。

しかもこのとき，仮りに80％以上の生徒が完全に回答できる項目を到達点とすれば，結果的に基準を平均より甘くした集団準拠評価となってしまうだろう。つまり相対評価としか言えない。しかも，なお悪いことには，その「到達」基準以上の能力を持った生徒は，それぞれの現実に持っている能力について無視されるのである。この様な甘い基準の設定は，明らかにより有能な生徒にとって教育的ではない。そこで，到達度に恣意的な基準を設けるよりも，教育目標又はむしろ教育内容

を基準に考えることが必要のようである。そして，もしそのように考えるならば，到達度という考え方はかなり希薄になるので，むしろ教育評価の一般的手続きといった方がより適切であるだろう。

Hambleton16）によるとこの種の手続きで最も良い例は，次の二つの前提に基づいているという。

第1は，テストされるべき領域のすべての項目が書かれていること，第2に，テスト項目の選択は，

無作為又は階層的抽出によることである。統計学的比喩を用いるなら，教育内容をすべて書き出し，

これを母集団として，この項目母集団から，その代表的標本を無作為又は階層的抽出法によって選択し，これをテスト項目とすればよいということである。このような考え方を学力サンプリングと名づけ，多少，敷術，展開しておこう。

（1）第1は，母集団である教育内容をどう整理しておくかである。教育目標は色々な解釈が可能であり，主観性が入って，直接テスト項目へ転換できないが，教育内容は具体的でありすぎて，整理の必要があり，そこで再びテスト作成者の主観が入る可能性がある。また具体的であるために，

どのような学力のタイプが形成されたのかかえって意識されないかもしれない。その教育内容は単なる知識であったのか，理解されなくてはならないのか，応用力や時には創造力までが期待されるかもしれない。そこで，最近屡々いわれる教育明細表（Specification Table of Education）

が便利であろう。橋本はこれを目標の具体化表と呼びその作成手続きについて説明している。18）

横軸には，教育目標の分類が，例えば，知識，理解，応用，総合，評価のように並び，縦軸には教育項目が分類配置され，両者の交又として教育内容が明細化される。例えば，化学式の学習に

(6)

は，どのような知識が必要で，どのような原理や法則を理解し，どのような場面に応用できるか明細化される。このような教育明細表が客観的に安定したものとして作成され，これを母集団としてテスト項目が抽出できれば，理想的である。しかし，残念なことに，この教育目標の分類なるものは，詳しし｝説明があるが，あくまで人間の内部過程の問題なので，常に色々な解釈ができるだろうという欠点がある。そこで，この教育明細表から具体的なテスト項目を可能な限り作成しておき，いわばテスト項目バンクを用意するのである。このテスト項目バンクの内容及び教育明細表を，多数の専門家によって検討してもらい，公共的客観性を保証しておく。そしてテスト作成者は，このテスト項目バンクから，その都度テスト項目を選択し，テストを作成すればよい。

（2｝次に必要なことは，テスト項目の抽出法の規準化である。既に示唆されているようにこれには標本抽出の原理の応用が必要である。世論調査のように，すべて日本人の意見を調査できないとき，日本人全体を母集団と考え，それから何人かの人を「抽出」して調査し，それをもって日本人全体の調査に代えるのである。ここで抽出された標本構成は，できるだけ日本人全体に近い必要がある。そのことによってより的確な世論の推定ができる。

学力サンプリングの場合の母集団は，世論調査のように人ではなく，教育内容である。上例のようにテスト項目バンクを作った場合には，そのテスト項目群が母集団である。その教育内容をできるだけ正確に抽出されたテスト項目群に代表させることが必要である。このためには，できるだけ正確な項目抽出法がとられねばならない。無作為抽出又は階層別抽出法は，そのために従来用いられて来た方法である。このほか，できるだけ多くの標本抽出が望ましい。ここでいう標本抽出数はテスト項目数のことで，できるだけ多くのテスト項目が抽出された方が，代表性が高まるし，従って信頼性と妥当性も高まるであろう。勿論テスト時間内にすべての問題についての回答が可能でなければならない。このようにして，母集団であるテスト項目数と抽出された項目数が分かれば，テスト得点の信頼限界を計算することができるだろう。かくして，テスト得点か

ら母集団である教育内容をどれだけ修得したか，統計的推定が可能になる。つまり，テスト項目が80％修得されていれば，母集団である教育内容も80％修得していただろうと推定するのであ

る。このように考えれば，テスト得点は教育内容の修得の統計的推定値であり，その限りで，集団の得点に左右されない絶対評価を行っている結果とされる。多少比喩的に表現すれば，テスト得点は，教育内容の消化率を示すことになるであろう。

勿論以上の記述は・非常に簡単に学力サンプリングの考え方を述べたものであるし，これを教育現場に具体化するためには多くの問題が残されているが，上のことが理想的に行えるならば，相対評価や到達度評価に関わる多くの問題は解消してしまうだろう。教育目標の主観性は排除され，

到達基準の任意性はなくなり，相対評価における強制配分法の矛盾は解消する。但し，テストの得点は，当然個人差を示すであろうから，競争の圧力が非常に強い場合には，相対評価におけると同様の問題を生ずると思われる。しかし，そこに与えられたのは，事実であって，ゆがめられた事実や解釈ではない点が重要である。その事実を教育にどう生かすかは，教師の判断と工夫にまかされていることはいうまでもないであろう。しかし，与えられた事実が生徒を著しく損うのであれば，

それは教育か社会の在り様がどこか損われているというのも多分真実であるだろう。

(7)

おわりに

到達度評価の教育的意義について簡単に考察し，その問題点を明らかにし，その対策には対案として学力サンプリングの考え方を述べた。この考え方は数年前より，筆者の担当する「教育評価」

の講義において述べて来たものである。我国や米国において相対評価への批判が高まり，絶対評価への志向が強まる中で，学力サンプリングの考え方は，両者を乗り越えて，統一した評価の基本的方法論を素朴な形で提供しているように思われる。勿論この考え方は，筆者の創意によるものではなく，Gronlund18）などの著書にあった考え方を筆者が顕在化し，敢えて学力サンプリングという名称を与えたにすぎない。既に本文中に触れられているように同様の考え方は，米国において統計学的にも方法論的にも精緻化されてきている。しかし，筆者の意図は，敢えてこの考え方を素朴に表現することにより，問題の本質を明らかにし，この考え方の可能性を示唆すると共に，教育実践における素朴で着実な適用を可能にすることにあった。

引用文献

1）R．A． Berk（ed．）， E伽cαε oηαZ Eひα伽α診 oπ福e統o（∫oZo8y：銑θSZαεe（ゾ診んe．4rε

（Baltimore：The Johns Hopkins Univer．Press，1981）．

2）佐々木元禧（編）『到達度評価一一その考え方と進め方一』（明治図書，1979年）。

3）『いま学校で①』（朝日新聞社，1973年）。

4）梶田叡一（編著） r到達度評価の理論と教育革新』（明治図書，1979年）。

5）B．S．ブルーム， J．T．ヘスティング＆G．F．マドウス（梶田，渋谷，藤田訳）r教育評価法ハンドブック』

（第一法規，1973年）。

6）同書，12−15頁。

7）同書，24頁。

8）同書，27−30頁。

9）前掲書 4），11−12頁。

10）B．S． Bloom，距κoπomッoノ加肱cαεめηαZ Oわゾθc伽θ8：σ08η 伽εαπd 4がec伽θ1）omα πs

（New York：Kckay，1956）．

11）橋本重治『新・教育評価法総説上巻』（金子書房，1976年）。

12）久米康一「相対評価テストと絶対評価テストの作問法はどう違うか」r指導と評価』，1981年，8月号，

12−15頁。

13）R．A． Berk（ed．），α記er oアレR⑳rθηcθd．Mθα8拐rθmθπ孟：銑e 8εα e oゾ．Aπ（Baltimore：The Johns Hopkins Univer． Press，1980），P．13．

14）L．J． Van der Kamp， Generalizability and Educational Measurement． In．D．N．M． de Grui，ter

＆L．J．T。 Van der Kamp．（eds。），．Adひαηces πPsッcんoZo8・ cαZαπd E伽cαε oπαZ 1晩α8ωrεme砿

（New York：Wiley，1976）．

15）橋本重治『到達度評価の研究』（図書文化，1981），第12章。

16）同書，254頁。

17）R．K． Hambleton， Test Score Validity and Standard−Setting Method in R．A． Berk（ed．），

α 診er oルR⑳rεηcθd 1晩α8肱rθmθ厩：7偽θS観εoゾ．Arε（Baltimore：The Johns Hopkins Univer．

Press，1980）．

18）前掲書 15）， 67−83頁。

19）N．E． Gronlund， Meαsωrεmθ漉απd励α肱αε o厄π1「θαc配π8（London：Macmillan，1965）．