2016 年度日本テスト学会誌 Vol.13, No 事例研究論文教養教育段階におけるテストに関する授業開発と実践 -- テスト学教育の効果測定 -- Developing Lectures about Testing in a General Education Course

(1)

Correspondence concerning this article should be sent to: Takuya Kimura, Faculty of Human-Environment Studies, Kyushu University

事例研究論文

教養教育段階におけるテストに関する授業開発と実践

--「テスト学教育」の効果測定--Developing Lectures about Testing in a General Education Course

Measuring the Effectiveness of ‘‘the Pedagogy of Testing’’

木村拓也1_，西郡_大2

Takuya Kimura1_{, Dai Nishigori}2

1九州大学，2佐賀大学

(2)

教養教育段階におけるテストに関する授業開発と実践

--「テスト学教育」の効果測定--

木村拓也1_，西郡_大2 1_{九州大学，}2_佐賀大学本稿では，教養教育段階におけるテストに関する授業開発と実践を行い，その効果測定を行った。テスト学の講義として，これまでの生徒としての「受け手」の受動的態度から，科学的研究対象としての意識(能動的態度) への変化を促すことを狙い，テストを単一の学問ではなく，哲学・歴史学・法律学・社会学・心理学・数学・統計学といった大学諸学問の観点から分析して，十分に興味関心を喚起した上で，テスト評価技術である，テスト理論の知識を教授するという授業設計を行った。信頼性や妥当性などのテスト理論の考え方に触れ，様々な分析・設計の観点を知り，それを実際にレポートで自ら体験することで，テストの限界と効用の相克などを体感し，「テスト」が，一筋縄で結論を出すことが難しい，追及に値する学問・研究対象だと認識するときにはじめて，「テスト」に関する印象が向上するなどの「テスト学」教育の効果が現れるといった，「テスト学教育」の認知構造が確認できた。キーワード：テスト学教育，教養教育，授業開発，効果測定

Developing Lectures about Testing in a General Education Course

Measuring the Effectiveness of ‘‘the Pedagogy of Testing’’

Takuya Kimura1_{, Dai Nishigori}2

1_{Kyushu University,} 2_{Saga University}

In this paper, we discuss the possibility of an “Pedagogy of Testing”. First of all, we developed lectures on the topic of testing in a general education course. And then, we measured the effectiveness of this “Pedagogy of Testing”. Our purpose in these “Pedagogy of Testing” lectures is to encourage a change in consciousness from a passive attitude toward testing to an active (scientific and analytic) attitude. In these lectures, we teach the points of view of the academic disciplines, such as philosophy, history, law, sociology, psychology, mathematics, and statistics. After that, we teach test evaluation technologies and the knowledge of test theory. Knowing the elements of test theory such as reliability and validity and the points of view of a variety of test analyses and designs, freshmen or sophomore students can experience of test analysis and design through a report, and experience the dilemmas and the limitations of testing. When one recognizes that “testing” as an academic or research subject, the impression of “testing” improves well. We were thus able to understand the structure of the recognition of the “Pedagogy of Testing”.

(3)

1. 問題の所在—教養教育段階における「テスト学教育」の可能性木村(2010)で論じたように，米国の教員養成制度を模して始まった，我が国の戦後教員養成において，当初，教育測定が教職教養に位置づけられていたにも関わらず， Educational Measurement が「教育統計学」と測定を外 して訳出され，1954(昭和 29)年の教職教養の単位減 (20→14)において，「教育統計学」は必修単位から大学が独自に開講して選択科目として加えるその他の科目となり，1990(平成 2)年の改革以降は，選択科目としての記述すらなくなっていったのが，教員養成を巡る「テスト」の取扱いである(木村 2010:42- 44)。こうした状況から言えるのは，例えテストに近いとされる教育学部であったとしても，教員養成に関係が薄い関係上，専任教員をおくことは稀であるということである。勿論，理系も含めて，テスト関係の研究室が存在するところは少なく，我が国において，大学で「テスト」を学ぶ状況はかなり困難であるということである。実際に，2008 年に行ったテスト学会員調査(木村 2009，2010)でも，回答者数の半数ほどが「古典的テスト理論」や「項目反応理論」を大学の講義等ではなく，独学で修得したと回答している(木村 2010:35)。テストを教えるカリキュラム開発という観点では，先行研究として，柴山(1996)，松井・柴山(1997)の研究が挙げられる。そこでは，教員養成課程の制約の中で，「テスト学教育」を如何に行うかという科目構成・配置について論じられている。一方，筆者らのように，1999(平成 11) 年に，東北大学，筑波大学，九州大学にアドミッションセンターが設けられて以降，「テストの専門家」として，各大学のアドミッションセンターに奉職するケースも出てきた。そこでの業務は，アドミッション業務とともに，教養教育段階の講義を担当することが多い。そこで，まず，第一著者が，教養教育段階における「テスト学教育」を開始し，その後，同じ研究室出身の第二著者を誘い，講義開発と実践を行ってきた。本研究は，二人の共同開発研究の結果である。仮に，大学で「テスト」について学ぶ場合でも，専門科目における教育測定論（あるいは心理測定論）や教育評価などで学ぶことが一般的であろう。その受講者は，教育学や教育心理学，心理学，教育工学等に関係する分野の学生たちが中心である。一方で，テストや評価等に関しては，多くの人々が「受け手」として経験している。また教養教育を受講する学生の多くは直前に入試を体験しているため，テストに対して，肯定的・否定的を問わず，印象が新鮮である。一方で，「作り手」の視点でテストを科学的観点からとらえ直す機会は皆無と言っても過言ではない。そこで筆者らは，一部講義内容・スライド・ビデオ等を共有，時には，出張講義をしながら，共同で授業開発を行った。両者に共通するのは，「テスト学教育」をテスト理論のみに焦点を当てず，社会の中での「テスト」の位置付けまでを講義対象としたことである。テストの基本的考え方（信頼性や妥当性，テスト理論等）から，テストの歴史学/社会学/心理学など様々な観点からテストについて講義することでテストが学問的に検討に値する分野であることを知ってもらうため，「テスト」をテーマとした教養教育科目を開講してきた。テストを科学的観点から捉え直すように設計された授業を実施することにより，テストそのものへの興味を促進して，受験イメージに引きずられた否定的/受動的な態度ではなく，テストに対する科学的研究対象としての意識(肯定的/能動的態度)を引き出すことが本事例研究の対象となる授業の最終的な目的であり，その効果測定によって明らかになる授業の効果と授業の履修によって副次的に生まれる種々の事象を本研究の成果として設定する。その成果指標としては，「テストが学問的に検討する分野であること」を知る，つまりテストそのものへの興味をもってもらうことが起点となっておこる，「テストに対する考え方や捉え方の変化」であると設定可能である。本稿では，第一著者が担当した京都大学，長崎大学，九州大学での講義と，第二著者が担当した佐賀大学での講義を対象に，受講者に対して行った質問紙調査の結果をもとに，テスト学教育の効果測定として，学生の「テスト観の変化」や「意識の変化」について検証した結果を報告する。表 1 は，筆者らが，これまで各勤務大学で開講してきた「テスト学教育」関連講義の受講者数であり，これまで約 800 人近い学生に教授してきた。教養教育段階における「テスト学教育」の可能性としては，専門教育よりも教養教育段階の方が，テストの専門分野に近い，心理学，教育学，情報学等の分野以外の学生に対しても受講に門戸が開かれるため，受講者数が多いことが予想される。これにより，「テスト学」の啓蒙的要素を含意した授業の展開は，テストに関心を持つ母集団の拡大に貢献できると推察される。木村(2009, 2010)でも，現在テストを専門とする人々は分野移動によることが多いことがわかっている。そうであれば，テスト関連講義を教養教育段階で受講することにより，興味が喚起され，将来的な分野移動の可能性の種を蒔くこ

(4)

とにもつながると考えられる。表 1．テスト関係学講義受講者数京都大学長崎大学佐賀大学九州大学年度計 2008 90 90 2009 87 87 2010 9 * 24 77 110 2011 83 43 126 2012 102 86 188 2013 53 29 82 2014 92 92 2015 24 24 合計 186 209 259 145 799 * 但し，この年度のみ教育学部専門科目「比較教育学講義—学力測定政策の日米比較」として開講した。 2. 授業内容 2.1.「テスト学への招待」について --京都大学，長崎大学，九州大学での授業開発と実践 (1) 授業の概要本授業は，2008 年度から 2015 年度にかけて実施してきたものである（2008・2009 年度は「テストの科学とその歴史」，2010〜2012 年度は「社会と歴史—テストの科学とその歴史」，2013〜2015 年度は「テスト学への招待」として開講）。シラバスには，「入学試験・就職試験・資格試験・昇格(昇任)試験等々，人生において幾度も直面する『テスト』でありながら，『テスト』に関する科学的な知識に接する機会は殆どない。そこで，本講義では，皆さんがいままで当たり前のように受けてきた『テスト』を哲学・歴史学・法律学・社会学・心理学・数学・統計学といった大学諸学問の観点から分析し，更に，テスト理論と呼ばれるテスト評価測定技術についての導入的な解説を行う。『テスト』を単に『害悪』と捉えるのではなく，『テストの結果が，個人の処遇や人生を大きく左右するものであるが故に，その実施にあたっては，細心の注意を払うべき類のものである』との認識に立って，よりよい『テスト』を実施していくための『基礎教養』の修得を目指す」という概要を記している。授業の内容は，表 2 の通りである。前半を人文社会科学から見たテスト，後半を統計科学から見たテストとテーマを区切り，それぞれ，テスト学文献リストを配布し，その中から 1 冊選んで書く読書レポート，仮想テストデータを配布し，古典的テスト理論で分析をするデータ演習レポートを課している。講義内容は，「テスト学の基礎」では，身近なテストを思い出してもらいながら，CBT などの現代的なトピックを交え，テスト作題手順などについて基礎知識を教授する。「テストの社会学」では，メリトクラシー論を通してみたテストのあり方を講義し，「テストの哲学」では，アファーマティブ・アクションなどの米国のテストを巡る裁判事例，人種分離統合教育の歴史を解説した上で，マイケル・サンデル教授の正義論の講義を踏まえながら，社会哲学における分配の公正原理からみた大学入試の社会的役割を考察する。また，同時に，NHK の BS ワールドドキュメンタリーで報道された「SAT の真実」というコンテンツも教材として同時に活用している。次に，「テストの歴史学」では，江戸時代の試験制度を概観し，現代テストとの異同を確認し，「テストの心理学」では，公正感からみた面接テストの設計について講義する。更に，「テストの法律学」では，調査書や指導要録を巡る裁判事例や内申書裁判の事例からテストの法律学が問題にしてきた論点について解説をして，前半の講義を終える。各回とも，テストという共通テーマを各学問の立場から見ることで，学問分野ごとのものごとの見方の違いを意識的に話すよう心掛けている。表 2. 講義内容（2015 年度シラバスより抜粋） * 下線は，著者間で共有している講義コンテンツまた，後半では，合否入替り率の図などを参考に，合計得点の二次元平面での仕組みを解説することに始まり，標準偏差と分散についての解説から偏差値の紹介，相関係数の解説を行い，テスト理論の理解に必要不可欠な基本統計量の理解を深めた上で，データ演習レポートで行う，項目分析の各種道具立てや信頼性係数の算出方法，折半法などの考え方を解説する。その後，テストデータの実際の分析方法，信頼性・妥当性の考え方を具体に見せる意味で，人事アセスメントの考え方と M-1 グランプリ1)_{の得点データを用いた独自} の分析結果を例示として解説し，古典的テスト理論の道第 1 回：オリエンテーション第 2 回：テスト学の基礎—テスト学の最前線，暗黙のルール第 3 回：テストの社会学—学歴社会の理論，メリトクラシー論第 4 回：テストの哲学（1）—アファーマティブ・アクション第 5 回：テストの哲学（2）—正義論から見たテスト第 6 回：テストの心理学—社会心理学から見た入試の公平感第 7 回：テストの歴史学—江戸時代の試験と SAT 第 8 回：テストの法律学—教育法体系における試験，裁判事例第 9 回：テストの数学—合計得点・二段階選抜・合否決定第 10 回：統計学の基礎（1）—偏差値第 11 回：統計学の基礎（2）—相関係数第 12 回：テストの統計学（1）—項目分析と統計的方法第 13 回：テストの統計学（2）—信頼性・妥当性第 14 回：テスト現場の実際（1）—人事アセスメントの考え方第 15 回：テスト現場の実際（2）—M-1 グランプリの信頼性

(5)

具立ての実際の活用場面の理解を深めている。後者の M-1 グランプリの得点データ分析では，平均点と標準偏差などの基本統計量を審査員ごとに算出するところから始め，審査員の寄与率を求めるために共分散比を算出したり，講義で解説したα係数を年別に算出したり，審査員 1 人を除外した時のα係数の上下動について確認したり，年別に Spearman の順位相関係数を求めてみたり，一般可能性理論のD研究を行い得点の変動要因を分散成分で分解し，特に審査員と漫才師の相性による得点の大小がどれくらい生じているのかを可視化してみたり，計数得点を偏差値やパーセンタイル順位に変換して集計した時の順位の変化をみてみたり，審査員の 1 人が出版している本の中にある審査基準の記載からルーブリックを復元してみたりして，講義で解説した様々なテスト理論の道具立てを具体的なデータで分析してみせることで理解を深めてもらう工夫をしている。講義は，以下の 3 点を踏まえて設計した。1 点目は，数学の忌避感を誘導しないことである。そのために，テスト理論の数学的な説明からはあえて入って行かず，先に，テストに関する人文社会科学系の講義から行い，十分に興味関心を喚起してから，テスト理論の説明をするように心がけた。そのため，レポート課題も人文社会科学系の読書レポートとテスト理論で分析するデータ演習レポートの２つを用意した。2 点目は，「テストが学問的に検討する分野であること」を実感してもらうために，様々な学問分野におけるテストに関する研究蓄積を紹介しながら，教養教育段階にふさわしい多面的な学問観を感じさせる内容にしたことである。3 点目は，具体的な実用例や分析事例を見せ，その有意性を確認してもらうことである。上にも述べたように，人事採用や M-1 グランプリなど学生にとって身近であったり、将来の強い関心ごとなどのテーマに引きつけたりして，これまで講義で解説してきたテスト理論の道具立てによる分析事例を紹介した。 (2) 学生に課した課題 -—読書レポートとデータ演習レポート学生に課した課題は，前半(1-8 回)に対応する人文社会科学からみたテストについて，中間課題として読書レポートを課した。後半(9-15 回)では，統計科学から見たテスト，つまり，テストの基本的考え方（信頼性や妥当性，テスト理論等）に対応するものとして，古典的テスト理論に基づくデータ演習レポートを課している。読書レポートについては，「テスト関係参考図書一覧から一冊を読んで，自らテーマを設定し論じる」こととした。どの本を読むかを迷ったら，「『テスト・スタンダード』を読んで，従来の日本のテストを取り上げ，『テスト・スタンダード』に書かれてある内容と比較検討する」をレポートのテーマとしても良い(ただし，タイトルは自分で相応しいものをつけること)とした。表 3 は，学生たちが提出したレポートのタイトルである。表 3.レポートタイトルの例（2013 年度）データ演習レポートについては，「テスト分析に挑戦」と題して，「次のテスト・データ(仮想，20 人・10 項目) を用いて，（１）項目分析，（２）信頼性係数の推定(折半法，α係数)をエクセル上で実行し，どういうテストの性質を持っているか解釈をしなさい」とした。項目分析では，基本統計量，G-P 分析，点双列相関係数，共分散比などを算出させ，信頼性係数の推定では，折半法については，奇偶法や統計的方法などの選択は任せ，スピアマン・ブラウンの公式やキューダー & リチャードソンの公式を紹介して計算させている。中には，講義で学習意欲が喚起されたのか，サンプルサイズが小さい中でではあるが，R や大学ライセンスや試用版の JMP を使い，仮想データで指示がない項目反応理論の計算をしてくるなど，テスト理論の学習に熱心な学生もいた。なお，データ演習レポートについては，演習を通してそれぞれの分析の基本的な考え方に触れてもらいたいというのが主旨であるため，専門教育等で実施されるようなサンプルサイズの大きいデータを素材とするのではなく，数値的な分析が苦手な学生でも，「これぐらいのデータなら挑戦してみよう」と思える程度のデータを演習素材として提示している。・バイト先の人事アセスメントのアセスメント・教育の現場に立つ者から考える学習評価・現代日本の本当に使える？心理テスト・全国学力テストの必要性と今後のあり方について・九州大学全学教育における選抜を目的とすることによる GPA の妥当性の変化・D.アドキンズ氏の『試験問題の作り方』を読んで・センター試験(数学 I・A)は問題だらけ・格差社会への対応，・本当の学力とは何か・教育と試験の制度化に至るまでの歴史・現代の学歴社会と明治の試験制度・ロールシャッハテストの歩み～これまでとこれから～・入試数学作題・先入観とテスト・知能に影響を与えるもの・今の大学入試の現状，・試験と社会の上昇移動について

(6)

2.2.「教育の実際—テストを科学的に考える」 --佐賀大学での授業開発と実践 (1) 授業の概要佐賀大学における授業は，2010 年度から 2013 年度にかけて実施してきた（2014 年度以降は，教養教育のカリキュラムが変更されたため実施していない）。文系，理系の学部から 1，2 年生を中心とする 77 名（2010 年度）， 43 名（2011 年度），86 名（2012 年度），53 名（2013 年度）の履修登録があった。なお， 2013 年度は制度変更移行期のため 1 年生の受講はなかった。授業名は，「教育の実際（テストを科学的に考える）」とし，「大学生になるためには入学試験があり，大学の講義には試験があり，資格を取るためには資格試験，就職を希望するなら採用試験と，私たちは，何らかの形で『テスト』と関わりを持っている。しかし，人生において何度も直面する『テスト』でありながら，『テスト』そのものについて，十分に考える機会は多くはない。本講義では，『テスト』そのものを科学的に考え，現実的な場面における評価，選抜，試験などの本質に迫っていく」という概要でシラバスを作成した。具体的な授業計画を表 4 に示す。授業内容は，先行して実施していた第一著者の授業資料を参考に構成するとともに，テストに対する科学的なアプローチとして，池田（1992）を手本に内容を作成した。また，テストの歴史や制度，身の周りのトピック等を題材として取り入れることにより初めてテスト技術を学ぶ学生にもわかりやすい内容を意識した。なお， 15 回のうち 5 回は，共通化を図るために筆者らで共有する内容で授業を行い，そのうち 1 回は，特別講師として第一著者が佐賀大学で授業（「M-1 をグランプリを科学する」）を担当した。講義は，以下の 4 点を踏まえて設計した。1 つ目は，「テスト・スタンダード」（前掲）で示されるテストの定義を前提にすることで，これまでの学校生活等で受検してきた，いわゆる学力検査を中心としたものが「テスト」であるという学生たちの認識を改めたいという点である。 2 つ目は，テストは，あくまで「技術」であり，技術である以上，限界があるとともに，技術的観点から見たときの「良いテスト」とは何かを意識してもらいたいという点である。3 つ目は，テストには，「作成・実施・検証」という，一連のプロセスがあり，「テストの受け手からはみえないテスト」について知ってほしいという点である。 4 つ目は，「テスト」と「実生活」との関係において，様々な角度からアプローチすることで「テストの本質」を少しでも考えてもらいたいという点である。表 4.授業内容（2013 年度シラバスより抜粋） * 下線は，著者間で共有している講義コンテンツ (2) 学生に課した課題--テストの設計に挑戦授業の最終回では，「テストの設計に挑戦」というテーマで，身の周りにはない新たなテストを設計することに挑戦させた（個別課題）。これは，授業で触れたことを踏まえて自由な発想でテストを作ることを通して，テスト作成の視点や問題点などを意識してもらうことを目的としたものである。具体的には，テストの信頼性と妥当性を必ず考慮することを前提に，テスト作成の背景と目的，測定すべき特性の設定，対象者，計画，信頼性と妥当性を確保するための工夫など，検討しなければならない項目を提示し，それらについてレポートとしてまとめさせた（テスト項目を作成するわけではない）。レポートの評価は，測定対象の明確性，信頼性・妥当性の確保，論旨の明確性，オリジナリティなどを評価観点とした。また，テスト作成においては，『テスト・スタンダード』（日本テスト学会編,2007），『見直そう，テストを支える基本の技術と教育』(日本テスト学会編,2010)などを紹介することで，本課題とともに自己学習の促進も図った。学生たちが提案したテストで斬新だったものについて表 5 に示す。テストを何かしらの特性を測るための道具として捉えている学生は，現実的には開発や実施が困難なものでも，提案するテストに説得力がある一方，その本質が理解できていない学生については，提案するテストのコンセプトや設計方針が整理されておらず，自分が知りたいことを単に調べるアンケート調査のようなものになっていた。第１回：本講義で取り扱う「テスト」の定義第２回：テストが用いられる場面第３回：戦前と戦後の入試 -旧制高校の入試とは？- 第４回：アメリカの入試制度第５回：偏差値とは何か？基本的な統計指標第６回：ペーパーテストを吟味する第７回：テスト理論（古典的テスト理論，項目反応理論）第８回：大規模調査を考える-全国学力調査を題材に- 第９回：就職採用試験をテストの側面から考える第10 回：面接試験を考える第11 回：様々な誤差，分析で知っておくべき統計的性質第12 回：特別講義（M-1 グランプリを科学する）第13 回：テスト・試験の公平性第14 回：社会心理学からみる公平性 -個人の公正感とは？- 第15 回：テストの設計に挑戦

(7)

表 5．最終課題で学生が設計したテストの例テスト名テスト設計の背景と目的「もっている人」判定テストサッカーや野球の一流選手が，「もっている」という言葉を使っているのを聞いたが，各分野で活躍している人を対象としてテストすることで「もっている」が何であるのかを把握する。 KY 度判定テスト「KY」という言葉があるが，自分の周りに KY はおらず，実際どの程度の人たちが KY 要素を持っているのか調べるためのテストを作る。結婚認定テスト自分は，スピード婚なるものが理解できない。そこで，結婚したいと思っているカップルに「互いの結婚への意識や理解度」を測定することで結婚して上手くいくかどうかを検討するためのテストを開発する。夢リットテスト（夢＋メリット）はたして将来の夢を持っていなければならないのか，自分には夢を持つメリットが分からないため，夢の実現度や夢を持つメリットについて測定するテストを開発する。 3. 「テスト学教育」の効果測定それぞれの授業実践についての効果測定について，「テスト学への招待」を 3.1 節，「教育の実際（テストを科学的に考える）」を 3.2 節にまとめる。前者の効果検証では，テストに対する印象やテスト観，テスト学の捉え方といった受講者意識の変化について質問紙調査による分析だけでなく，学生の講義成績や読書レポートへの取組みなどの学習行動も含めて多角的な視点から探索的な分析を行っている。一方，後者の効果検証では，テストに対する受講者意識の変化という視点は前者と同じだが，探索的なものではなく，前述した授業設計において重視した４つのポイントを項目化することで，焦点を絞った意識の変化を検証するとともに，自由記述内容の定性的な分析を通して意識の変化の方向性を整理した。また，性別や教員免許取得の予定有無といった属性，受講前における授業内容の関心の程度によって，テスト学教育に対する関心の高まりに特徴的な違いが生じるのかを検証した。以下，講義開始前と講義終了時に実施した調査をもとに集計しているが，回答者が成績に影響すると考え，ネガティブな回答が得にくい状況であるのは容易に想像できる。この点は，本調査の限界として差し支えない。ただし，授業に対する評価は，各大学で行われている授業評価アンケートの結果をみると，概ね，好評であったと言える。具体的には，2011 年度長崎大学では，「総合的に見て，この授業は自分にとって満足できるものであった」の質問に対し 5 点満点で 3.92(N=50，SD=0.82, 教養科目の全体平均値は不明)，2012 年度長崎大学では「総合的に見て，この授業は自分にとって満足できるものであった」の質問で 4.47(N=85，SD=0.76, 教養科目の全体平均値は不明)，2012 年度佐賀大学では，「この授業を受講して満足が得られた」の質問に対し 5 点満点で 4.15(N=55, SD=0.63 教養科目全体平均値 3.94)，2013 年度九州大学では，「総合的に考えて，現在この授業に満足している」の質問に対し 5 点満点で 4.60(N=17，SD は不明, 同一カテゴリーの科目平均値 4.20)，2014 年度九州大学では，「総合的に考えて，現在この授業に満足している」の質問に対し 5 点満点で 4.10(N=74，SD=0.99, 同一カテゴリーの科目平均値 3.90)であった。全体平均が不明な年度もあるが，概ねほかの講義よりも総合的に満足度の高い講義が展開できたものと思われる。 3.1.「テスト学への招待」の効果測定筆者らは，講義内容が固まり始めた，2012 年度から互いに相談をしながら，当該授業の受講学生を対象とした質問紙調査を行っている。本研究で分析するデータは 2012 年度の 102 名(長崎大学)，2013 年度，2014 年度の 121 名(九州大学)の計 223 名2) _{であり，いずれも同じ講} 義資料を使っている。調査については，講義開始前と全講義終了時に行っており，一部の項目は事前，事後の効果がわかるよう重複させてある。調査項目は，講義開始前が，1. 「『テスト』と聞いて、まず思い浮かぶイメージを思いつく限り全て挙げて下さい。」(自由記述)，2.「あなたの『テスト』についての印象について伺います。」(4 択： 1. 非常に悪い，2. あまりよくない， 3. まあまあよい，4 非常によい)，3.「『テスト』は社会にとって必要だと思いますか？」(2 択：1.不必要，2.必要)，4.「『テスト』が『必要』or『不必要』と考えた理由を具体的に記述して下さい。」(自由記述)，5.「あなたにとって『テスト』であると思うものを、思いつく限り全て挙げて下さい。」 (自由記述)，6.「『テスト』は公平であるとの意見に対してあなたの見解を教えて下さい。」(2 択： 1. 反対 2. 賛成)，7.「『テスト』は公平であるとの意見に対して『反対』 or『賛成』と答えた理由について具体的に記述して下さい。」(自由記述)，8.「『テストで測れる能力』とあなたが考えるものを具体的に記述して下さい。」(自由記述)， 9.「『テストで測れない能力』とあなたが考えるものを具体的に記述して下さい。」(自由記述)であり，講義終了時が，1.「講義を全て聞き終わったあとのあなたの『テスト』についての印象について伺います。」(4 択： 1. 非常に悪い，2. あまりよくない， 3. まあまあよい，4 非常

(8)

によい)，2.「講義を全て聞き終わったあとで、『テスト』と聞いて、思い浮かぶイメージを思いつく限り全て挙げて下さい。」(自由記述)，3.「講義終了後の『テスト』に関する印象と初回の『テスト』観に対する印象の比較してみて感じるものを選択してください。」(2 択：1. テスト観が変わらない，2. テスト観が変わった)，4.「問 3 の理由を書きなさい。『1. テスト観が変わらない』と回答した人は、変わらなかった理由を、『2. テスト観が変わった』と回答した人は、変わった理由を書きなさい。」(自由記述)，5.「講義を全て聞き終わったあとで「テスト」は社会にとって必要だと思いますか？」(2 択：1. 不必要， 2. 必要)，6.「講義内容を踏まえて、『テスト』が『必要』 or『不必要』と考えた理由を具体的に記述して下さい。」 (自由記述)，7.「講義を全て聞き終わったあとで『テスト』は公平であるとの意見に対してあなたの見解を教えて下さい。」(2 択：1. 反対，2. 賛成)，8.「講義内容を踏まえて、『テスト』は公平であるとの意見に対して『反対』or 『賛成』と答えた理由について具体的に記述して下さい。」 (自由記述)，9.「この講義の中で最もあなたの印象に残ったこととその理由を書きなさい。」(自由記述)，10.「『テスト学』の真髄を、あなたは何と感じましたか？」(自由記述) である(本項目は九州大学のみでの質問項目)。 (1) 単純集計「テストの印象」について，4 件法で「非常に良い」「まあまあよい」「あまりよくない」「非常に悪い」を事前事後に問うた結果，有効回答者数 189 名中，印象が向上したのは 106 名(56.1%)。その大部分 83 名（43.9%）は，「あまりよくない」から「まあまあよい」への小さな変化である。印象が低下したのは 13 名(6.9%)，印象が変化しなかったのは 70 名(37.0%)であった。 (表 6)。表 6. 「テストの印象」の変化講義開始前の解答％は全体％非常に良いまあまあよいあまりよくない非常に悪い講義終了時の解答非常に良い 4 (2.1%) 4 (2.1%) 11 (5.8%) 2 (1.1%) まあまあよい 2 (1.1%) 48 (25.4%) 83 (43.9%) 5 (2.7%) あまりよくない 0 (0.0%) 10 (5.3%) 18 (9.5%) 1 (0.5%) 非常に悪い 0 (0.0%) 0 (0.0%) 1 (0.5%) 0 (0.0%) 次に，「テストの必要性」について，2 件法で「必要／不必要」を尋ねたところ，189 名中 184 名(97.4%)が初回も講義終了時も必要と回答している。初回で「不必要」，講義終了時で「必要」回答したのは 4 名(2.1%)，初回で「必要」講義終了時で「不必要」と回答したのは 1 名 (0.5%)であった。更に，「テストの公平性」について，「公平である」かについて「賛成／反対」の 2 件法で尋ねたところ，188 名中 66 名(35.1%)が初回「反対」で講義終了時も「反対」と変わらず，また，初回で「賛成」で講義終了時に「反対」と回答したのは，78 名(41.5%)である。逆に，初回で「反対」で講義終了時に「賛成」と回答したのは，14 名(7.5%)，初回から講義終了時まで「賛成」であったのは 30 名(16.0%)であった。最後に，講義を通して，「テスト観が変わった」と回答したのは，187 名中 174 名(93.0%)であった。こうした単純集計からは，テストの基本的な考え方（信頼性や妥当性，テスト理論等）やテストについて様々な学問分野からの講義によって，テスト観が変わり，テストに対する印象が変化した学生が多いなど，テストに対する興味関心を促進して，テストに対する能動的な態度変化を起こすことに，講義が一定の成果を与えたことが想像される。ただし，テストが必要かどうかについては，もともと必要であると回答した学生が 189 名中 185 名と，多くの学生には変化が見られなかったことがわかる。また，テストの公平性については，賛成/反対で聞いており，反対には，公平とは言えないという中間的な意見も含まれており，必ずしも反対イコール不公平とはならないことにも留意して考える必要があるが，当初からテストは公平ではないと思っていた学生にとっては印象が変わらなかったが，当初テストが公平だと思っていた学生が，テストは公平だと思わなくなっているという意味で，テストに対する印象変化を与えたと言ってもいいのかもしれない。ただし，具体的に，どういう印象の人が，どういう風に印象を変化させているのかまでは単純集計では深くわからない。 (2) テキストマイニングによる印象変化の測定以下，自由記述部分を中心に，テストイメージ等に関するテスト学教育の効果測定について，多重対応分析した結果を報告する。テキストマイニングについては，数理システムのテキストマイニングスタジオ ver.5.0 で実行した。形態素解析によって，品詞ごとに分かち書きしたのち，単語については，名詞・形容詞・動詞のうち上位 100 位を，係り受けについては，名詞と形容詞・形容動詞・動詞・サ変接続名詞の係り受けについて上位 100

(9)

位を抽出した。出現を 1，非出現を 0 とするデータセットを構築し，それを多重対応分析によって布置した。テキストマニングによる自由記述結果の分析を導入した狙いは，単純集計だけでは垣間見ることのできない，初回と最終回の印象変化の対応関係や，テスト観の変化と講義の印象との対応関係，テスト学の真髄とテスト観の変化との対応関係を確認するためである。 a.「テスト」イメージの事前事後の関係性「テスト学教育を行う前後に，「『テスト』と聞いて，思い浮かぶイメージを思いつく限り全て挙げて下さい」と尋ね，多重対応分析した結果が図 1 である。当初どういうイメージをもっていた学生が，講義後にどういうイメージを持つようになったのかを視覚的に理解できるようになることが本分析の狙いである。単純に見て，テスト学教育を行った後の方が当たり前であるが，事後で出現した単語にテスト理論固有の専門用語が増えている。第一象限には，その専門用語が羅列されてあるが，特に，事前のイメージとの関係性はないようである。第二象限では，事後のイメージとして，「妥当性」「信頼性」「公平性」「完璧ではない」「難しい」が挙げられており，事前のイメージとして「心理テスト」「知能テスト」「製品テスト」「スポーツテスト」「面接」「受験」が上がっている。事前の入試をはじめとしてさまざまな経験を通したテストにまで興味関心が事前にあり，事後にテスト理論の考え方が印象に残った学生群であると思われる。第二象限の左端で，事前に「知能テスト」のイメージをもっていた学生が，事後のイメージで「妥協」「完璧なテストは存在しない」「なかなか難しい」との布置が近いことも大変興味深い。第三象限では，事前に学校関係のテストを想起した学生群であり，事後イメージとして，「面接」「入試」「不公平」などを挙げており，テストが不公平なものであるとの印象が残った学生群である。第四象限では，事前に「TOEIC」「漢検」「司法試験」「国家試験」などさまざまな試験を挙げ，事後のイメージも「心理テスト」「センター試験」など，ほかのテスト名称を上げるにとどまっている。「テスト」イメージの事前事後の関係性で言えば，事前に，「心理テスト」「知能テスト」「製品テスト」など，他の学生が「入試」や「TOEIC」といった身近なテストを挙げている中で，より特殊なテストについて目が向いている学生ほど，測定関連の専門用語に興味が湧き，より印象に残ったさまがうかがえる。図 1．「テスト学教育」受講前後におけるテストイメージの変化

(10)

図 2．「テスト学教育」受講前後における「テスト観の変化理由」と「講義で印象に残ったこと」の関係性表 7．「この講義の中で最もあなたの印象に残ったこととその理由を書きなさい。」に対する回答例具体的な意見テストの信頼性や妥当性，M-1 グランプリの信頼性はどうかなどについて。テストを「受験」する側から「科学」する側へというテーマのもとこの講義を受けて，テストを科学するというのは初めての試みだったので勉強する意欲がわき，よく理解することができたから。授業で，複数の学問からテストを見たことが新鮮だった。専攻の授業を受けていると，他領域の考え方に意識的になれないが，テストにはいろいろな側面があっていろいろな学問の題材になりえて，面白いと思った。「テストが完璧に測れる能力はない」ということが印象に残りました。初回レポートで私は，「テストで測れる能力」として，「学力」「処理能力」「言語能力」など多くの能力を挙げていました。しかし，どのタイミングにも誤差が紛れ込む可能性は十分にあり，「完璧な測定」は実現不可能であるとわかりました。だからといって「テスト＝悪・不要」とするのではなく，妥協やある程度の誤差を容認したうえで，できる限り最善のテストを目指そうという考え方も心に残っています。テストの分類や作成手順。テストの分類は予想外に多岐にわたり，またテストが使われる場面などによって作成手順も異なる。さらに，テスト実施の後には，信頼性や項目分析などによる数学的なチェック。これほどまでにテストをつくるのは大変なものだと知った。特に，公平性がいやというほど叫ばれる大学入試の試験作成はどれほど難しいのだろうと感じた。今回の講義で私が印象に残ったのは統計学の講義です。最初は統計学の講義は全く楽しみではなく，難しそうで嫌でした。しかし，実際に講義を受けていくと内容は難しかったのですが先生の説明通りに計算を進めていくと様々な数値が算出でき楽しくなりました。とくに標準偏差や偏差値は自分に身近な数値であるにも関わらず，仕組みがわからなかったのですが算出に成功し，また資料を読み，先生の話を聞いて合点がいき，なるほどと思いました。他にも通過率や相関係数など様々な分析方法が知れて大変興味深かったです。一番印象に残ったことはテストデータを用いての項目分析を行い，信頼性を推定，考察したことである。心理的，社会的などといった考え方でなく，数学的な考え方でテストの信頼性を推定し，数字の結果から判断するということに，その方法に難しさを感じつつも，おもしろさを感じた。実際に点双列相関係数やα係数によって項目やテスト全体の性能が評価できること，KR20 の公式でα係数を推定することでテストの等質性を考えることは，非常に興味深く，印象に残った。ただのテストデータでここまで考察することができることに，感動をも覚えた。 M-1 グランプリをテスト理論で分析共分散比を算出することで審査員の中で誰が決勝進出へ大きく寄与しているかを絞り出したり，α係数や順位相関係数で審査員の評価の違いがうかがえたり，妥当性を検証することで１点の違いで決勝を逃している人などを見つけ出したりすることができるので，採点基準がいかに重要であるかが学習でき，統計で様々な分析ができることを知れた。何が正しいか何が公平かというと個人の理念や価値観によるとこが大きいがそれで片付く問題ばかりではなく，また何が正しいかと考える場合は個人の立ち位置問題によっても異なるがそれは解決不可能の可能性がある。これらを踏まえ私はテストにおける公平性だけでなく様々なものにおいて公平性を保つということはほぼ不可能なことであるという考えに至った。テストには長い歴史があるが評価法はあまり変わっていない。長い歴史があるのならば今と昔でかなり違っているのではないかと思ったが，そうではないと知り印象に残った。加えて，講義での先生の「新しい技術革新は必ず起こるという考えは正しいとは限らない」という説明にも考えさせられるものがあった。

(11)

b.「テスト学」講義の印象と「テスト観」の変化理由の関係性次に，「テスト学」講義で最も印象に残ったことと「テスト観」の変化理由の関係性について見た結果が，図 2 である。「テスト学」講義でどういう印象を持った学生がどういう理由でテスト観を変化させているのかという対応関係を視覚的に理解することが本分析の狙いである。また，最終的なイメージと「テスト学の講義」での印象との対応関係をみる狙いで，この分析にのみ「最終的なテストのイメージ」を分析に加えた。第一象限では，講義の印象が「様々な視点」「見方が変わる」「項目分析」「信頼性係数」他，基本統計となっており，変化理由が「テスト科学」「奥深い」「テスト観」「分析が必要」など，テストデータの分析を通して見えた新しい世界観に惹かれた様子がうかがえる。第二象限では，講義の印象，変化理由ともに「信頼性」「妥当性」「α 係数」であり，テスト理論の重要性を認識した学生群であることがわかる。この層がテストの最終的な印象が「非常に良い」学生群であることも特筆すべきであろう。第三・第四象限では，講義印象がテストの「公平性」「採点基準」「M-1」「人種」「アファーマティブ・アクション」「採点」であり，変化理由も「テストの公平」「知って驚く」「作成する側」「新たな視点」であることから，テストが作成される側の新しい観点からテストを見た結果，テスト学が追求する「公平性」の観点に関心を持つ層であるとうかがえる。この第三象限には，最終印象で「まあまあ良い」と回答した学生の回答が布置されているが，先の表 6 によれば，講義終了時に「まあまあ良い」と回答した学生は全体の 73.1%である。また，全体の 43.9%にあたる 83 人が「あまり良くない」から「まあまあ良い」に講義後変化した学生であり，この第三象限付近に含まれる講義印象や変化理由が，テストに対する肯定的変化を促進するキーワードとなっていると考えても良い。やはり，テスト学教育において，それまで高校生として身近であった「テスト」が，テスト理論をはじめとする科学的方法で，まったく違うような世界を垣間見る知的刺激を伴った経験によって，あるいは，また，テストの作成側の視点を新たに知り，テスト学がより公平を目指している学問であると感じることによって，テスト学やテストに対する肯定的な印象の変化へつながることが示唆されよう。なお，表 7 に，「テスト学」講義で最も印象に残ったことの自由記述の例を挙げた。図 3．「テスト学教育」受講後における「テスト観」の変化理由と「テスト学」の真髄把握の関係

(12)

表 8．「『テスト学』の真髄を，あなたは何と感じましたか？」に対する回答例具体的な意見公平性の追求だと思う。テストは社会にとって必要不可欠なものだ。だからこそ公平性が求められる。いかに人間性，人間としての価値を公平に測るか。それがテスト学の真髄だと考える。「決して公平になることはないが，これを公平だとみなさなければ世の中が成立しないもの」と感じた。テスト学は，テストは万能でないという前提条件のもと，しかしそれが今あるベストな方法であると信じて，よりよいテストについて研究することであると感じた。テスト学の真髄は「他分野」だと思う。１つの分野の視点のみに絞ってテストのことを考えてみても，説得力のある議論を展開することはできない。様々な視点から見ることで，心理学的な意見や実際の数値を得ることができ，テストというものについて深く考えることができると思った。理想を追求し続けることである。信頼性と妥当性のバランスなど，テストは完全な存在とはならないものである。ある意味では様々な妥協によって成立しているといってもよいのかもしれない。しかしながらこの学問には，少しでもよいテストを作成しようとする姿勢こそがもっとも需要な要素だと思われる。受験者のためにテストを統計学的に分析したり，様々な集団からデータを集めたりといった並々ならぬ努力が必要とされる。ゴールは存在しないと知りつつも，そこに向かって走り続けることこそがテスト学の真髄だと私は考える。テスト学は，テストを行う者とテストを受ける者双方に関わり，より良いテストとは何か，どうすれば実現できるのかを数学的な仮定や数々の理論を駆使して考える，オールラウンドな学問である。その存在意義は大きく，知名度は低い。巷のテストに関する流言飛語から多くの人の身を守るためには，この学問をもっと広めていくことが必要なのかもしれない。けれどもそこには，人々がテストの理論を知るという，そのこと自体によって，テストが妥当性を失う可能性もあるということも忘れてはならない。人が人を測ることがいかに難しいのかを理解することこそが，テスト学の神髄なのかもしれない。「テスト学はブラックでありホワイトな科目」であると感じた。「ブラック」については２，３回目の講義からうすうす感じていたことだが，テストの数学の手前まで，その感覚は次第に大きくなった。端的にいうとテスト学は「人を評価するテストを評価する科目」である。これは，どのように人を評価するかということを考えていくことであり，「人を評価する方法」を学ぶ科目として，人を差別することに長けた残酷な科目であると感じた。「ホワイト」については，テストの数学を学んでから感じた。合格する実力がある人でも，そうなりえない場合をできるだけ避けるために，より公正なテストを作るために努力する学問として，テスト学をホワイトな学問として見る目になった。「テスト学」の神髄は文系理系の両面から，あるテストが持っている本質を見抜いて，現行されているテストの問題点を洗いだして改善の道を考えていくこと，だと私は感じた。なぜならば，テストは法学・心理学・社会学・歴史学・哲学，数学・統計学という多角的視点からからその実態をとらえることで，考えさせられる問題(アファーマティブ・アクションや学校の成績処理)が多く浮かび上がるからだ。解釈する過程においては信頼性係数や妥当性係数が用いられ，数値によってはっきりとテストを分析することができる。しかしながら，数の解釈はここまでの答えで述べたように後付けであることや数値には勘定されないデータ(試験時の受験生のメンタルや問題形式)が介在していることも考慮に入れなければならないので，「100％このテストは○○だ」とは言えないと思う。テストを分析する人の推測が必要になる場合があると感じた。 c.「テスト学の真髄」の規定要因の探索最後に，「テスト観」の変化理由と，講義で感じた「テスト学の真髄」についての内容把握について見た結果が図 3 である。表 8 は，「テスト学の真髄」に関する自由記述の例が挙げてある。ここでは，質問項目の関係から 2013 および 2014 年度の九州大学のみのデータ(N=121 名)である。「テスト学」講義で何を真髄だと感じた学生がどういう理由でテスト観を変化させているのかという対応関係を視覚的に理解することが本分析の狙いである。右側の第一象限・第四象限には，真髄の把握として「公平性の追求」「誤差を考える」と「信頼性/妥当性の向上」「ベストではなくベターを目指す」の二つのクラスターが有り，変化理由として前者が「テストの科学」「奥深い」，後者が「信頼性/妥当性」があり，テストを科学と考えたり，テスト理論に関係したりする内容が布置されている。第二象限，第三象限にまたがるクラスターとして，真髄の把握として「完全なテストは存在しない」「テストの分析」「学問を感じる」であり，変化理由は「知って驚いた」「テスト観」「新たな観点」「テストの公平」「分析が必要」が挙げられており，完全なテストが存在するという前提が覆された学生層であり，且つ，データ分析に興味を惹かれた層であることが伺える。また，第三象限の下側に真髄の把握が「社会への寄与」であり，変化理由の「作る側」が同時布置されたクラスターがあり，作成面側からみた時に，社会貢献を感じた層が存在することがうかがえる。つまり，テストの科学性に驚いた学生は，公平性追及にテスト学の真髄を垣間見，テストに関する新たな視点に驚きを持った学生は，完全なテストはないことにテスト学の真髄を垣間見，テスト分析や作る側の視点に驚きを持った学生は，学問としてのテストをみること，及び，その社会的寄与にテスト学の真髄を垣間見ていることが伺える。なお，表 8 に，「テスト学」の真髄を何と感じたか，についての自由記述の例を挙げた。 (3)「テスト学教育」の得点分析従属変数を「講義成績」（総得点[出席点20%，読書レポート40%，データ演習レポート40%とした100点満点にし，独立変数をダミー変数として，文理の別(文系を 0，理系を 1 とした)や，講義開始前の「『テスト』は公平であるとの意見に対してあなたの見解を教えて下さい。」(反対を 0，賛成を 1 にした)や，講義終了後の「講義を全て聞き終わったあとで『テスト』は公平であると

(13)

の意見に対してあなたの見解を教えて下さい。」(反対を 0，賛成を 1 にした)と，テキストマイニングで得られたカテゴリー(「変化理由」「講義印象」「真髄把握」)を投入して，ステップワイズ法により，重回帰分析を行った (2013 年度，2014 年度の九州大学データのみ，N =92， 基本統計量や分布に関する情報は表 9 の通りである)。なお，レポートの評価は，採点基準3) _{を事前に提示し} ており，年度間に評価観点に差異がでないようにしてある。なお，βは標準偏回帰係数である。結果は，表10 〜12である。ただし，一般的に個々の単語・係り受けの出現頻度が低くなりやすく，少数の個人の影響を受けること，つまり，従属変数の値の極めて高い（低い）学生が，使用した単語・係り受けが特徴的なものであると，偏回帰係数の値の絶対値が大きくなり，独立変数として残ってしまう可能性がある。そこで，出現頻度も合わせて記載し，解釈を加えることとした。その結果，読書レポート(自 由度調整済R2_{=.256)では，}_{「真髄_学問を感じる」} (β=.363，出現頻度数33)，「理系」(β=-.245，出現頻度 数73) となっている。すなわち，テスト学に学問を感じた学生，文系の学生ほど，読書レポートを頑張り，評価が高かった。表9. 講義成績の基本統計量（N=92） N 平均標準偏差歪度尤度四分位範囲 2013 読書 18 74.2 8.6 -0.3 -0.9 11.3 データ 17 78.5 15.0 -2.1 6.9 17.5 総得点 17 83.6 7.0 0.2 -0.6 9.5 2014 読書 78 81.3 8.6 0.7 0.5 10 データ 75 79.2 13.9 -1.0 2.5 15 総得点 75 79.4 10.8 0.1 -0.9 18 データ全体読書 96 79.9 9.0 0.5 0.6 10 データ 92 79.1 14.0 -1.1 3.1 15 総得点 92 80.2 10.3 0.0 -0.8 15.8 *表中の「データ」は「データ演習レポート」を，「読書」は「読書レポート」を指す。表10.読書レポート得点に対する重回帰分析結果(N=92) 偏回帰係数標準偏回帰係数 t値 VIF 項目 B 標準誤差 β 切片 79.60 1.46 0 54.39*** 理系ダミー -4.53 1.65 -.245 -2.74*** 1.02 変化理油_妥当性 7.18 2.21 .290 3.25*** 1.01 講義印象_信頼性係数 -11.65 4.78 -.225 -2.44* 1.09 真髄_学問を感じる 6.88 1.73 .363 3.97*** 1.07 ***：p<.001，**：p<.01，*：p<.05 表11.データ演習レポート得点に対する重回帰分析結果 (N=92) 偏回帰係数標準偏回帰係数 t値 VIF 項目 B 標準誤差 β 切片 83.59 2.04 0 41.00*** 初回_テストは公平 -6.82 2.75 -.242 -2.48* 1.03 変化理由_α係数 -11.58 5.13 -.220 -2.26* 1.02 講義印象_標準偏差 -15.18 6.62 -.222 -2.29* 1.01 真髄_ベターを目指す 12.87 6.01 .209 2.14* 1.03 ***：p<.001，**：p<.01，*：p<.05 表12．総得点に対する重回帰分析結果(N=92) 偏回帰係数標準偏回帰係数 t値 VIF 項目 B 標準誤差 β 切片 78.18 1.26 0 61.89*** 変化理由_偏差値 -6.39 2.85 -.218 -2.24* 1.04 真髄_学問を感じる 6.68 2.07 .312 3.22** 1.03 真髄_ベターを目指す 11.15 4.32 .248 2.58* 1.01 ***：p<.001，**：p<.01，*：p<.05 データ演習レポート(自由度調整済R2_{=.164)では，}_「初回_テストは公平」(β=-.242，出現頻度数54)，「真髄_ベ ターを目指す」(β=.209，出現頻度数5) となっている。 すなわち，初回アンケートでテストは公平であると考えない学生ほど，データ演習レポートを頑張り，評価が高かった。一部，テスト学の真髄をベストでなくベターを目指す学問と感じた学生が，データ演習レポートを頑張り，評価が高かったようである。 最終成績である総得点(自由度調整済R2_{=.171)では，} 「真髄_学問を感じる」(β=.312，出現頻度数33)，「真髄_ ベターを目指す」(β=.248，出現頻度数5)となっている。 すなわち，学問としてテスト学を認識した学生の成績が，本講義の課題を頑張り，最終成績が高くなる傾向にあることが分かる。一部，テスト学の真髄をベストでなくベターを目指す学問と感じた学生が，総合得点が高く，評価が高かったようである。テスト学を，学問として，その奥深さや原理的な相克状況などを垣間見せることこそ，テストへの親近性・理解がふかまり，テスト学教育の効果が現れているようである。 (4)「テスト学教育」における読書レポートの文献選択表13は，過去8年間計9回にわたって行われた講義にお

(14)

ける読書レポートの文献として選択されたものの一覧である。大学や年度によって，読書レポートとデータ演習レポートを選択させていたりしたので，過去8年間計9回の受講者数(N=540)よりも小さい値(N=277)となっている。読書レポートについては，特定の書籍を指定するのではなく，初回講義で出版されているテスト関係のさまざまなジャンルの書籍を提示した文献一覧(2015年度講義配布版で，149冊)を配布しており4)_{，その中かから，好} きなものを受講生に選択させる形をとっている。ちなみに，ジャンルは表14の通りである。まず，表13を見ると，最も多いのが『テスト・スタンダード』(日本テスト学会編，2007)(22.1%)である。これは読書レポートの際に，「どの本を読むかを迷ったら，「『テスト・スタンダード』を読んで，従来の日本のテストと比較検討する」をレポートのテーマとしても良い」という指示を与えたので当然の結果かもしれない。また，『見直そう，テストを支える基本の技術と教育』(日本テスト学会編，2010) (6.4%)も3位であり，日本テスト学会が編集した本が多く選ばれていることがわかる。また，表13では，1冊しか選択がなかった文献を省いているが，その水準も含めれば，過去8年間で78冊の本が選択されており，149冊を分母にして割ると，リスト中の約半分の 52.3%もの本が選択されていることが分かる。テストの基礎文献から，テストの歴史，心理テスト，入試の作題に関わるものまで，学生の関心は多岐にわたり，また，講義で解説した当人たちにとって新規の学習内容も踏まえて，熱心にレポートしてくれる学生が多かったのもの印象的である。表13．読書レポートの文献選択(N=277) 順位書誌情報度数割合 1 日本テスト学会2007:『テスト・スタンダード —日本のテストの将来に向けて』金子書房. 55 22.1% 2 村上宣寛_談社. 2008:『心理テストはウソでした』講 17 6.8% 3 日本テスト学会2010:『見直そう，テストを支える基本の技術と教育』金子書房. 16 6.4% 4 天野郁夫2007:『増補試験の社会史』平凡社 12 4.8% 5 吉川徹2009:『学歴分断社会』ちくま新書. 10 4.0% 6 石川巧2010:『「いい文章」ってなんだ？--入試作文・小論文の歴史』ちくま新書. 5 2.0% 7 尾木直樹2009:『「全国学力テスト」はなぜダメなのか』岩波書店. 5 2.0% 8 荒井克広・倉元直樹編 2008:『全国学力調査』金子書房 5 2.0% 9 苅谷剛彦1995:『大衆教育社会のゆくえ』中公新書 5 2.0% 10 松田薫1991:『「血液型と性格」の社会史—血液型人類学の起源と展開』河出書房新社 4 1.6% 浜林正夫・深山正光・山口和孝 1998:『これでいいのか，大学入試』大月書店 4 1.6% 池田央1992:『テストの科学—試験にかかわるすべての人に』日本文化科学社 4 1.6% 井上健治1970:『テストの話』中公新書. 4 1.6% S.J.グールド2008:『人間の測り間違い—差別の科学史上・下』河出文庫. 4 1.6% 15 上野健爾・岡部恒治編2005:『こんな入試になぜできない大学入試「数学」の虚像と実像』日本評論社 3 1.2% H,B.ライマン1967:『テストの結果と解釈』日本文化科学社. 3 1.2% 中井仁・伊藤卓編2008:『検証「共通1 次・センター試験」』大学教育出版 3 1.2% D.アドキンズ1970『試験問題の作り方』日本文化科学社. 3 1.2% 江利川春雄2011:『受験英語と日本人—入試問題と参考書から見る英語学習史』研究社. 3 1.2% 小林雅之2008:『進学格差—深刻化する教育費負担』ちくま新書 3 1.2% E.G.カーマイン・R.A.ツェラー1983:『テストの信頼性と妥当性』朝倉書店 3 1.2% イアン･ディアリ2004:『知能』岩波書店. 3 1.2% 安田亨2003:『入試数学伝説の良問100』講談社 3 1.2% 24 島田康行2012:『「書ける」大学生に育てる— AO 入試現場からの提言』大修館書店. 2 0.8% L.J.カミン1974=1997:『IQ の科学と政治』黎明書房. 2 0.8% 野口裕之・大隅敦子2014:『テスティングの基礎理論』研究社 2 0.8% 池田央1978:『テストで能力がわかるか』日経新書. 2 0.8% J.M.ウッド他2006:『ロールシャッハテストはまちがっている』北大路書房 2 0.8% 天野郁夫2005:『学歴の社会史教育と日本の近代』平凡社 2 0.8% R.P.ドーア1978:『学歴社会—新しい文明病』岩波現代選書. 2 0.8% 芳沢光雄2008:『出題者の心理からみた入試数学』ブルーバックス． 2 0.8% 鎌原雅彦他1998:『心理学マニュアル質問紙法』北大路書房. 2 0.8% 中井浩一2007:『大学入試の戦後史受験地獄から全入時代へ』中公新書 2 0.8% 日本教育心理学会編1973:『大学入試を考える』金子書房. 2 0.8% 日本教育学会入試制度研究委員会編1983:『大学入試制度の教育学的研究』東京大学出版会. 2 0.8% 櫻田大造2013:『大学入試担当教員のぶっちゃけ話』中公新書ラクレ. 2 0.8% 竹内洋1995:『日本のメリトクラシー—構造と心性』東京大学出版会. 2 0.8% 竹内洋1991:『立志・苦学・出世—受験生の社会史』講談社 2 0.8% （1冊の書籍も含めれば，水準は79）

(15)

表14.テスト関係文献一覧のジャンル区分 3.2.「教育の実際（テストを科学的に考える）」の効果測定 2013 年度以前の 3 年間にわたる授業実践において蓄積した受講者アンケートをもとに，授業前後の意識の変化として適切な要素を整理・項目化し，2013 年度に受講した学生を対象に質問紙調査を行った。調査目的は，授業を受ける前と全授業終了後で，テストの捉え方にどのような変化が生じるのかを明らかにすることである（前者を「事前調査」，後者を「事後調査」と呼ぶ）。同調査は，記名式で実施し，両方の質問紙に回答した 34 名5) _を分析の対象とした。回答者の属性は，男性 22 名（64.7%），女性 12 名（35.3%），教員免許の取得予定は，予定あり 18 名（52.9%），予定なし 16 名（47.1%）であった。事前調査の項目は，「教員免許の取得予定」「本講義に対する現時点での関心の程度」「テストの作り手の立場になったとき必要だと考える能力やスキル知識等」（自由記述）「テストにまつわるエピソード」（自由記述），表 15 に示す項目に対する意識（どの程度意識しているか，または，これまで意識したことがあるか）で構成した。なお，「教員免許の取得予定」を尋ねた理由は，本授業が教養教育科目であり，教育機関と関係すると思われがちなテストに対して，教職を目指す学生と目指さない学生で，そもそもの関心の程度が異なると考えられるためである。事後調査の項目は，事前調査との共通項目である，表 15 の項目に対する意識（どの程度意識しているか，または，これから意識しそうか）」と「テストの作り手の立場になったとき必要だと考える能力やスキル，知識等」（自由記述）に加え，「全授業を終えての授業テーマに関する関心の高まり」を尋ねた。表 15 の選択肢は，「まったく意識しない」「ほとんど意識しない」「どちらともいえない」「少し意識する」「意識している」という５件法で構成し，それぞれに 1～5 点を付与することで各項目の平均値の差を比較した。その結果，すべての項目で受講後における平均点が高くなった。特に，「自分が受けるテスト得点が何を意味しているか」「自分が受けるテストがどのような目的で行われているか」「様々なテストがどのような仕組みで実施されているか」「それぞれのテストが何を測っているか」「良いテストとは何か」という項目で，統計的な有意差が確認された。その理由として同授業では，『テスト・スタンダード』（日本テスト学会編,2007）を踏まえ，テストを「能力，学力，性格，行動などの個人や集団の特性を測定するための用具であり・・・」と定義し，テストの目的や測定対象，テストの信頼性，妥当性，誤差といった基本的な考え方を，可能な限り学生に意識してもらうことを意図して授業を行ったことが要因の１つであると考えられる。表 15．受講前後における学生の意識の変化質問項目受講前受講後受講後-受講前自分が受ける「テスト得点」が何を意味しているのか 3.41 3.97 0.56* 自分が受ける「テスト得点」の信憑性 3.56 3.94 0.38 自分が受ける「テスト得点」に含まれているかもしれない「誤差」 3.29 3.50 0.21 自分が受けるテストがどのような目的で行われているか 3.41 4.03 0.62** 自分が受けるテストの種類や形式の特徴 3.38 3.82 0.44 様々なテストがどのような仕組みで「作成」されているのか 2.76 3.26 0.50 様々なテストがどのような仕組みで「実施」されているのか 2.38 3.44 1.06*** 日本と外国におけるテストの違い 2.47 2.76 0.29 それぞれのテストが何を測っているか 2.97 3.85 0.88*** 良いテストとは何か 2.85 3.53 0.68* *p < .05 **p < .01 ***p < .001 1. テストに関する総論書・解説書 2. テストの心理学的研究 2-1. 知能/心理テスト関係 2-2. 尺度構成法(心理テスト作成方法) 2-3. 人事試験関係 3. テストの社会学的研究 3-1. 学歴社会論 3-2. テストの歴史社会学関係 3-3. 進路指導・学生獲得戦略関係 4. テストの制度論的研究 4-1. 大学入試関係 4-2. 学力調査関係 4-3. その他のテスト史研究 5. テスト理論の研究書 5-1. 総説(古典的テスト理論を含む) 5-2. 項目反応理論 5-3. 言語テスト関係 5-4. テストの作題研究 5-5. その他

2016 年度日本テスト学会誌 Vol.13, No 事例研究論文 教養教育段階におけるテストに関する授業開発と実践 -- テスト学教育 の効果測定 -- Developing Lectures about Testing in a General Education Course

事例研究論文

教養教育段階におけるテストに関する授業開発と実践

--「テスト学教育」の効果測定--Developing Lectures about Testing in a General Education Course

Measuring the Effectiveness of ‘‘the Pedagogy of Testing’’

教養教育段階におけるテストに関する授業開発と実践

--「テスト学教育」の効果測定--

Developing Lectures about Testing in a General Education Course

Measuring the Effectiveness of ‘‘the Pedagogy of Testing’’

2016 年度日本テスト学会誌 Vol.13, No 事例研究論文教養教育段階におけるテストに関する授業開発と実践 -- テスト学教育の効果測定 -- Developing Lectures about Testing in a General Education Course