パフォーマンス評価における一般化可能性に関する研究

(1)

パフォーマンス評価における一般化可能性に関する

研究

著者

佐々木典彰

号

1 学位授与機関

Tohoku University

学位授与番号

教情博第1号

URL

http://hdl.handle.net/10097/59751

(2)

学位の種類

学位記番号

学位授与年月日

学位授与の要件

研究科・専攻

学位論文題目

論文審査委員

ささきのりあき

佐々木典彰

博士(教育情報学)

教情博第

1 号

平成 19 年 3 月 27 日

学位規則第 4 条第 1 項該当

東北大学大学院教育情報学教育部(博士課程後期 3 年の課程)

教育情報学専攻

パフォーマンス評価における一般化可能性に関する研究

(主査)

教授村木英治

教授渡部信一

名誉教授池田

央

(立教大学)

<論文内容の要旨>

学校教育をはじめさまざまなところでパフォーマンス評価 (performance assessments) が実施されつつある。パフォーマンス評価の大きな特徴は、評定が観察(主観的評価)によって行われることである。観察は評定者の主観に基づくため、評定結果が評定者ごとに異なるのは当然である。しかし、評定結果が毎回異なると、どの結果を採用すればよいのかが分からなくなる。すなわち、毎回の評定結果をどのくらい一般化できるかが問題となる。そこで本論では、パフォーマンス評価における一般化可能性について議論した。本論は第 I 章から第 N章までの 4 つの章から構成される。まず第 I 章では、パフォーマンス評価の目的や特徴について先行研究をもとに整理した。次に第 E 章では、パフォーマンス評価における一般化可能性の検討方法について、一般化可能性理論 (generalizability theory) の基礎を解説し、適用例、及び応用例を示した。そして、通常の一般化可能性理論では扱われないカテゴリカルなデータにおける一般化可能性の検討方法も示した。そして第 E 章では、一般化可能性を高めるための方法について、調査、実験、及びシミュレーションを行い、議論した。詳しくは以下に述べる。第 I 章では、まず、評価そのものについて整理し、パフォーマンス評価においてはまず信頼性

(3)

が問題になることを述べた。第 E 章では、まず、一般化可能性理論の適用例として、大学生による口頭発表を実施し、そこで得られた評定データを一般化可能性理論に適用した。その結果、評定者数が少ない場合、いくら評定項目を増やしても高い信頼性は期待されないことなどが示された。次に、応用例として、相(例えば、項目、評定者など)に制約条件(経費に関する条件)がある場合の一般化可能性の検討方法を示した。そして、一般化可能性理論と非線形計画法を組み合わせ、全体の総費用が最小限になるときの評定者数や項目数などを求める方法を示し、利用可能な C プログラムも作成した。次に、カテゴリカルなデータにおける一般化可能性の検討方法については、まず名義尺度における検討を行った。先行研究で既に示された単相計画の場合の方法に基づ、き、 2 相計画の場合の方法を示し、 MATLAB プログラムを作成した。次に、順序尺度における検討を行った。系列カテゴリ一法を応用し、)1慎序尺度データを間隔尺度に変換した上で、通常の一般化可能性理論を適用する方法を示し、 MATLAB プログラムを作成した。そして、それぞれの方法の特徴や問題点を考察した。第 E 章では、一般化可能性を高めるための方法について、①項目に関する方法、②評定者に関する方法、及び③評定段階数に関する方法の 3 点を議論した。①項目に関する方法については、評価者が重視する評価観点(項目群)と一般化可能性の関係を調査及び実験を通して調べた。まず、評価者がもっ評価観点を明らかにするために、小学校、中学校、及び高等学校の教員を対象にした調査を行った。その結果、評価者は 3 つの評価観点、をもつことが示された。次に、各評価観点、がどのくらい重視されるかを調べるために、大学生を対象にして、質問紙を用いた実験を行った。そして、評価観点ごとに一般化可能性係数(以下、 G 係数)を求めた。その結果、評定者に重視されにくい評価観点の方が、 G 係数が高かった。この理由としては、評定者に重視されにくい評価観点においては、各評定者の項目の定義が異なり、そのことが被評定者の分散成分を高め、結果的に G 係数が高くなったことがあげられた。したがって、評定者が項目の定義や内容を十分に理解し、評定者間で共有し合うことが、まずもって必要であることが示された。次に、②評定者に関する方法については、評定者内の評定のばらつきに注目し、ぱらつきの程度が一般化可能性 (G 係数)にどのような影響を及ぼすかについてシミュレーションを行った。その結果、評定者内の評定のばらつきが大きい評定者が多いほど G 係数が高かった。したがって、一般化可能性の観点からは、評定のばらつきが大きい評定者を評定者集団に多く含めることが望まれることが示された。次に、③評定段階数に関する方法については、 3 段階、 5 段階、及び 7 段階の 3 つの評定段階数を設定し、それらが G 係数にどのような影響を及ぼすのかについてシミュレーションを f子った。その結果、評定段階数が大きいほど G 係数が高かった。最後に、第 W章では、本論の成果と課題を述べた。

(4)

本論の貢献は、①さまざまなパフォーマンス評価の場面を想定し、そこでの一般化可能性の検討方法を示したことと、②一般化可能性を高めるための方法について、一般化可能性理論からは直接的に得られないものを、調査、実験、及びシミュレーションによって示したことの 2 点である。今後の課題としては、本論では扱われなかった統計学的な手法に基づき、一般化可能性の検討方法を構築していくことなどがあげられた。

<論文審査の結果の要旨>

本博士論文の第 l 章において、佐々木は評価の機能を Measurement，

Assessment

,

E

v

a

l

u

a

t

i

o

n

という 3 つの専門用語を用い、よくまとめている。また、それらの概念を基にパフォーマンス評価を行うことの利点とともに、評価の結果の標準化における困難さも十分に検討している。パフォーマンス評価に応用される心理データ解析の手法のひとつである、一般化可能性理論 (generalizability theory) をそれらの検討を基に導入した。これらのパフォーマンス評価と一般化可能性理論に関する過去の文献のレビューはよくまとまっており、またそれらのトピックに関連する重要文献はすべて網羅している。第 2 章では一般化可能性理論について、統計学的に説明している。それらはコンサイスであり、かつ理解しやすいものとなっている。佐々木はまた従来、間隔尺度のデータを対象としていた一般化可能性理論を名義尺度や順序尺度データへ応用する手法について述べている。これらの手法は研究対象として新しく興味深いものである。佐々木の今後の更なる研究が強く望まれる。佐々木はまた同章において、非線形計画法を一般化可能性理論に応用し、ある一定の限られた費用のもとで最適な評定者や評定項目の数を算出できる方法を考案し、コンビュータプログラムのコードを作成し添付している。また最新の研究テーマである多変量一般化可能性理論についても、同章で簡潔にまとめている。第三章の「一般化可能性を高めるための方法」では、実験データを採集解析し、パフォーマンス評価を効果的に行うために有用な示唆を導き出している。本論文に用いられている心理統計的手法は、一般化可能性理論、因子分析法、共分散構造分析など多岐にわたる。また、それらの分析に、 Mplus 、項目反応理論モデ、ルを基に項目反応データをジェネレートする RESGEN など多くのソフトが使用されている。さらに必要となれば MATLAB でコードを作成するなど、将来の心理データ解析および処理の専門家として必要なトレーニングは、本論文執筆の過程で十分に身に着けたものと思われる。

(5)

論文審査者のひとりから、本論文全体がやや拡散的であり、扱われている各研究トピック聞に結合性が弱く、全体的に集約性にかけるのではないかという指摘があった。指導教員および外部論文査読者の共通意見として、その指摘は認めることができるが、しかしそれらひとつひとつのトピックは佐々木自身の今後の研究活動においてさらに進展させていくことができるほど重要な課題であり、かつ佐々木はそれらの研究をさらに継続する意思を示している。本論文において、それらの研究トピックの選択に関するセンスや研究活動の持続、そしてデータ解析結果に対する考察において、本論文著者の佐々木は今後のアカデミックな研究活動を十分に遂行できる能力を有するものであり、本論文は博士(教育情報学)の学位論文として合格であると認めることに、本論文審査委員全員の合意が得られた。

パフォーマンス評価における一般化可能性に関する研究