• 検索結果がありません。

パフォーマンス評価における多次元尺度を構成する項目反応モデル

N/A
N/A
Protected

Academic year: 2021

シェア "パフォーマンス評価における多次元尺度を構成する項目反応モデル"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

パフォーマンス評価における多次元尺度を構成する

項目反応モデル

Item response theory model that assumes multi-dimensional ability

scales for performance assessment

八木嵩大

1

宇都雅輝

1

Shudai Ysgi

1

Masaki Uto

1

1

電気通信大学

1

The University of Electro-Communications

Abstract: Performance assessment has been attracted much attention in various assessment fields, such as entrance exam, educational measurement, and personnel appraisal. A main problem of performance assessment is that the accuracy of ability measurement depends strongly on char-acteristics of raters (e.g., severity and consistency). To resolve the problem, item response theory models that incorporate rater characteristic parameters have been proposed. Although those mod-els assume unidimensionality, that is a single dimension is being measured, the assumption might not be satisfied in many performance assessment because evaluation is generally conducted using an assessment criteria consisting of multiple sub-scales. To solve the problem, this study proposes a new multi-dimensional item response theory model that incorporates rater characteristic param-eters. Moreover, this study demonstrates the effectiveness of the proposed model through a real data application.

1

はじめに

近年,大学入試や人事考課,教育評価などの様々な 評価場面において,受験者の実践的かつ高次な能力の 測定を目指すパフォーマンス評価が注目されている [1]. パフォーマンス評価は,現実的な課題に対する受験者の パフォーマンスをレビュアーが直接採点する評価法で あり [2],論述式試験や面接試験,実技試験などの様々 な形式で活用されてきた.一方で,パフォーマンス評 価の問題として,受験者の能力測定精度がレビュアー の特性に依存する点が指摘されてきた [3][4].この問題 を解決する手法の一つとして,レビュアーの特性を表 すパラメータを付与した項目反応モデルが近年多数提 案されている [5].これらのモデルではレビュアーの特 性を考慮して受験者の能力を推定できるため,素点平 均などの単純な得点化手法と比べて,高精度な測定能 力を実現できることが報告されている [1]. 他方,これらの項目反応モデルでは,測定対象の能 力に一次元性を仮定している.しかし,実際のパフォー マンス評価では,測定対象の能力に複数の下位尺度を 連絡先:電気通信大学・情報理工学部 宇都研究室        (所属機関住所:東京都調布市調布ヶ丘 1-5-1 西10 号館 428 室内        E-mail: [email protected] 仮定し,個々の下位尺度に対応した複数の評価項目に 基づいて採点が行われることがあり,この場合には必 ずしも一次元性は満たされない.また,個々のパフォー マンスに対して単一の評点のみを与える総括的評価の 場合でも,レビュアーは複数の観点で対象を分析した上 で評点を決定していると考えられ,一次元的に評価が なされている保証はない.一次元性が満たされない場 合に一次元性を仮定したモデルを適用すると,データ に対するモデル適合が低下し,モデルパラメータの推 定値にはバイアスが生じることが知られている [6, 7]. 以上の問題を解決するために,本研究では,パフォー マンス評価における測定対象能力に多次元性を仮定し た新たな項目反応モデルを提案する.具体的には,補償 型多次元項目反応モデルにレビュアーの特性パラメー タを付与し,テスト項目の特性パラメータを評価項目 の特性を表すパラメータとみなしたモデルを提案する. 提案モデルの特徴は以下のとおりである.1)各評価項 目の内容とパラメータ値を分析することで,個々の項 目が測定している能力尺度を解釈できる.2)評価項目 とレビュアーの特性を考慮した多次元尺度での能力測 定を行うことができる. また,本研究では,提案モデルのパラメータ推定法 としてマルコフ連鎖モンテカルロ(MCMC)を用いた 人工知能学会研究会資料 SIG-ALST-B801-04

(2)

手法を提案し,実データ実験により提案モデルの有効 性を示す.

2

項目反応モデル

項目反応理論は,コンピュータ・テスティングの普 及とともに,近年様々な分野で実用化が進められてい る数理モデルを用いたテスト理論の一つである.項目 反応モデルの利点として,以下のような点が挙げられ る.1)推定精度の低い異質項目の影響を小さくして能 力推定を行うことができる.2)異なる項目への受験者 の反応を同一尺度上で評価できる.3)欠測データから 容易にパラメータを推定できる. 一般的な項目反応モデルで扱うデータは受験者のテ スト項目への回答であり,「受験者」×「テスト項目」の 2 相データとなる.これに対し,本研究では,パフォー マンス評価データ U として「受験者」×「評価項目」 ×「レビュアー」の 3 相データを仮定する.ここで,受 験者 i ∈ {1, · · · , I} のパフォーマンスに対するレビュ アー r∈ {1, · · · , R} の評価項目 j ∈ {1, · · · , J} の評点 を xijrとするとき,データ U は次式で定義できる. U ={xijr|xijr ∈ {−1, 1, · · · , K}} (j = 1,· · · , J, i = 1, · · · , I, r = 1, · · · , R) (1) ここで,{1, · · · , K} は評価カテゴリの集合を表し,xijr= −1 は欠測データを表す. 通常の項目反応モデルはこのような多相データに対し て直接には適用できない.この問題を解決するために, レビュアーパラメータを加えた項目反応モデルが近年 多数提案されている [4, 5].次節では,Uto and Ueno[1] のモデルを紹介する.

2.1

レビュアー特性パラメータを付与した項

目反応モデル

Uto and Ueno[1] は段階反応モデルにレビュアーパ ラメータを付与したモデルを提案している.このモデ ルでは,受験者 i のパフォーマンスに関してレビュアー

r が評価項目 j について評点 k を与える確率 Pijrkを次

式で定義する.

Pijrk= Pijrk∗ −1− Pijrk∗ (2)

       Pijrk = 1 1+exp [−αjαr(θi−bjk−ϵr)] k = 1,· · · , K − 1 Pijr0 = 1 PijrK = 0 ここで,θiは受験者 i の能力パラメータ,αjは評価項 目 j の識別力パラメータ,bjkは評価項目 j において評 点 k を得るための困難度を表す.ただし,bj1< bj2< · · · < bjK−1とする.また,αrはレビュアー r の評価の 一貫性,ϵrはレビュアー r の評価の厳しさを表す.ま た,パラメータの識別性のために αr=1= 1,ϵ1= 0 を 仮定している. このような項目反応モデルでは,レビュアーの特性 差を考慮して受験者の能力を測定できるため,素点平 均などの単純な得点化手法と比べて,高精度な能力測 定を実現できることが報告されている [1].しかし,実 際のパフォーマンス評価では,測定対象の能力に複数 の下位尺度を仮定し,個々の下位尺度に対応した複数 の評価項目に基づいて採点が行われることがあり,こ の場合には必ずしも一次元性は満たされないといえる. また,個々のパフォーマンスに対して単一の評点のみ を与える総括的評価の場合でも,レビュアーは複数の 観点で対象を分析した上で評点を決定していると考え られ,一次元的に評価がなされている保証はない.一 次元性が満たされない場合に一次元性を仮定したモデ ルを適用すると,データに対するモデル適合が低下し, モデルパラメータの推定値にはバイアスが生じること が知られている [6, 7]. 他方で,このような能力の多次元性を仮定したモデ ルとして,多次元項目反応モデルが知られている.

2.2

多次元項目反応モデル

本研究で扱うような多値データを扱う多次元項目反 応モデルとして,多次元段階反応モデルが知られてい る.このモデルでは,受験者 i が項目 j において評点 k を得る確率 Pijkを次式で定義している.

Pijk = Pijk∗ −1− Pijk∗ (3)

       Pijk = 1 1+exp[−(αT jθi−βjk)] k = 1,· · · , K − 1 Pij0 = 1 PijK = 0 αTj θi= Ll=1 αjlθil (4) ここで,θi={θi1,· · · , θiL},αj ={αj1,· · · , αjL} であり,L は能力の次元数,θilは受験者 i の l∈ {1, · · · , L} 次元目の能力,αjlは項目 j の l 次元目の能力に対する識 別力を表す.また,βjkは項目 j において評点 k を得る ための困難度を表す.ただし,βj1< βj2<· · · < βjK−1 とする.なお,多次元段階反応モデルにおける βjk各次元の識別力 αjlと交絡するため,一般的な項目困 難度とは解釈が異なる.そのため,以下の MDIFFjkを 項目困難度として解釈することが一般的である. MDIFFjk = βjk MDISCj (5) MDISCj= v u u t∑L l=1 α2 jl (6)

(3)

MDIFFjkは項目 j の評点 k に対する多次元困難度と 呼ばれ,MDISCjは項目 j の多次元識別力と呼ばれる. このようなモデルを用いることで,多次元の能力尺 度を仮定した能力測定が可能となる.しかし,2 章の冒 頭で述べたように,既存の多次元項目反応モデルは 2 相 データへの適用を仮定しており,本研究で扱うような 3 相データには適用できない.この問題を解決するため に,本研究では,多次元項目反応モデルにレビュアー 特性パラメータを付与した新たなモデルを提案する.

3

提案モデル

提案モデルは,多次元段階反応モデルにレビュアー特 性パラメータを付与したモデルとして定式化する.提 案モデルでは,受験者 i のパフォーマンスに関してレ ビュアー r が評価項目 j について評点 k を与える確率 Pijrkを次式で定義する.

Pijrk= Pijrk∗ −1− Pijrk∗ (7)

       Pijrk = 1 1+exp[−αrTjθi−βjk−ϵr)] k = 1,· · · , K − 1 Pijr0 = 1 PijrK = 0 ここで,αjlは評価項目 j の l 次元目の能力に対する識別 力を表す.また,βjkは評価項目 j において評点 k を得る ための困難度を表す.ただし,βj1< βj2<· · · < βjK−1 とする.提案モデルにおいて,多次元識別力および多次 元困難度はそれぞれ式 (5),式 (6) で表せる.また,モ デルの識別性のために,αr=0= 1,ϵ0= 0 を仮定する. 提案モデルでは,3 相データから,レビュアーの特性 を考慮して多次元の能力尺度を仮定した能力測定を行 うことができる.さらに,評価項目の識別力パラメー タ αjを項目の内容と合わせて分析することで,個々の 次元がどのような能力を測定しているかを解釈するこ とができる.例えば,ある次元 l に着目して識別力を 比較したとき評価項目 j と評価項目 j′の値が突出して 高かった場合,l 次元は評価項目 j と j′に共通する尺 度を測定していると解釈できる.評価項目間の共通性 は評価項目 j と j′の内容から解釈する.反対に,ある 項目 j に着目したときどの次元の識別力が高いかを分 析することで,その項目がどのような尺度を測定して いるかを分析できる.そのため,評価観点の一つとし て総括的評価を含め,総括的評価の識別力を解釈する ことで,総括的評価がどのような尺度で構成されてい るかを把握することができる.

3.1

パラメータ推定

本研究では,提案モデルのパラメータ推定手法とし て,MCMC を用いた手法を提案する. 各パラメータの集合を θ = 11,· · · , θIL},αj = 11,· · · , αJ L},β = {β11,· · · , βJ K−1}, αr =1,· · · , αR},ϵ = {ϵ1,· · · , ϵR} と表す.また, 各パラメータの事前分布を g(θ|τθ),g(αj|ταj),g(β|τβ), g(αr|ταr),g(ϵ|τϵr) とする.ここで,τθ,ταj,τβ,ταrτϵrは各事前分布のパラメータ(ハイパーパラメータ) を表す.このとき,反応データ U を所与として,パラ メータの事後分布は以下のように導かれる. g(θ, αj, β, αr, ϵ,|U) ∝ L(U|θ, αj, β, αr, ϵ) g(θ|τθ)g(αj|ταj)g(β|τβ)g(αr|ταr)g(ϵ|τϵr) (8) ここで, L(U|θ, αj, β, αr, ϵ) = Ii=1 Jj=1 Rr=1 Kk=1 (Pijrk)zijrk (9) zijrk= { 1 : xijr= k のとき 0 : 上記以外 (10) 提案アルゴリズムでは,式 (8) の事後分布をシミュ レーションにより求める.ここでは,MCMC の一種で ある Gibbs サンプリングと Metropolis Hastings を組 み合わせた手法を利用する. ここで,λ = (θ, αj, β, αr, ϵ) とする.アルゴリズム の大枠は,τ ∈ λ を λ−τ = λ\{τ} を所与としてサンプ リングすることを繰り返すというものである.具体的 には,τ の現在値を t とするとき,候補値 t∗を提案分 布 N (t, σ2 0) からサンプリングし,サンプリングされた τ∗を次の採択確率で採択/棄却を決定する. a(t∗|t) = min ( Ll=1 L(U|τ = t∗, λ−τ)g(τ = t∗) L(U|τ = t, λ−τ)g(τ = t) , 1 ) MCMC では,上記の手順を十分に繰り返し,得られ た複数のサンプルの平均値を EAP 推定値とする.な お,分布が収束したと推測されるまでのバーンイン期 間は,パラメータの初期値の影響が残るため推定に利 用しない.各パラメータの事前分布は,θil∼ N(0, σ2θ), αjl∼ LN(1, σα2j),βjk∼ N(0, σ 2 β),αr∼ LN(1, σα2r), ϵr∼ N(0, σϵ2) とする.ここで,N (µ, σ2) は平均 µ,標 準偏差 σ の正規分布を,LN (µ′, σ′2) は平均 µ′,標準偏 差 σ′の対数正規分布を表す.

4

評価実験

本章では,実データ適用を通して,提案モデルの有 効性を評価する. パフォーマンス評価の実データを収集するために,本 研究では次の被験者実験を行った.1)あるテーマを題 材としたエッセイを 34 名の受験者に執筆させた.2)レ ビュアー 5 人に表 1 のルーブリック [2] を用いて採点を 行わせた.表 1 のルーブリックは,評価項目 1 と評価 項目 2 が「問題解決力」,項目 3 から項目 5 が「論理

(4)

表 1: ルーブリック 評点 項目1:背景と問題 (与えられたテーマ から自分で問題を設 定する) 項目 2:主張と結論 (設定した問題に対 し,展開してきた自 分の主張を関連づけ ながら結論を導く) 項目3:根拠と事実(主 張 を 支 え る 根 拠 を 述 べ,根拠の真実性を立 証する事実を明らかに する) 項目4:対立意見の 検討(自分の主張と 対立する意見を取り 上げ,それに対して 論駁を行う) 項目5:全体構成(問 題の設定から結論に いたる過程を論理的 に組み立て表現する) 3 与えられたテーマか ら問題を設定し,論 ずる意義も含め,そ の問題を取り上げた 理由や背景について 述べている. 設定した問題に対し, 展開してきた自分の 主張を関連づけなが ら,結論を導いてい る.結論は一般論に とどまらず,独自性 を有している. 自分の主張の根拠が述 べられており,かつ根 拠の真実性を立証する 信頼できる複数の事実・ データが示されている. 自分の主張と対立す るいくつかの意見を 取り上げ,それらす べてに対して論駁 (問題点の指摘)を 行っている. 問題の設定から結論 にいたる論理的な組 み立て,記述の順序, パラグラフの接続が 整っている.概要は 本文の内容を的確に 要約している. 2 与えられたテーマか ら問題を設定し,そ の問題を取り上げた 理由や背景について 述べている. 設定した問題に対し, 展開してきた自分の 主張を関連づけなが ら,結論を導いてい る. 自分の主張の根拠が述 べられており,かつ根 拠の真実性を立証する 信頼できる事実・デー タが少なくとも一つ示 されている. 自分の主張と対立す る少なくとも一つの 意見を取り上げ,そ れに対して論駁(問 題点の指摘)を行っ ている. 問題の設定から結論 にいたる論理的な組 み立て,記述の順序, パラグラフの接続が おおむね整っている. 1 与えられたテーマか ら問題を設定してい るが,その問題を取 り上げた理由や背景 の内容が不十分であ る. 結論は述べられてい るが,展開してきた 自分の主張との関連 づけが不十分である. 自分の主張の根拠は述 べられているが,根拠 の真実性を立証する信 頼できる事実・データ が明らかにされていな い. 自分の主張と対立す る意見を取り上げて いるが,それに対し て論駁(問題点の指 摘)がなされていな い. 問題の設定から結論 にいたるアウトライ ンはたどれるが,記 述の順序やパラグラ フの接続に難点のあ る箇所が散見される. 0 1未満の水準 1未満の水準 1未満の水準 1未満の水準 1未満の水準 図 1: スクリープロット 的思考力」を測定していると想定して作成されている [2].また,総括的評価として表 2 のルーブリックを用 いて 5 段階での採点も行わせた. 本研究では,このデータに対して提案モデルを適用 する.提案モデルを利用するためには事前に次元数を 決定する必要がある.項目反応理論における次元数の 検証には,因子分析に基づくスクリープロットを用い ることが一般的である [8].そこで,本研究でもこの方 法で次元数を決定する.ただし,因子分析では本研究 で扱うような 3 相データを利用できないため,レビュ アー得点の代表値として最頻値を用いることで「受験 者」×「評価項目」の 2 相データに変換して因子分析 を適用した.得られたスクリープロットを図 1 に示す. 図の横軸は次元数を表し,縦軸は固有値を表す.一般 に,固有値が 1 を下回る直前の次元数を最適値として 採用する.図 1 より最適な能力の次元数は L = 2 であ り,ルーブリック作成者の想定した下位尺度数と適合 していることがわかる.以上から,本研究では L = 2 を用いて実データ適用を行う.

4.1

パラメータの推定例

ここでは,実データに提案モデルを適用して得られ たパラメータ推定値の解釈を行う.モデルのパラメー タ推定には MCMC を用いた.バーンイン期間は 30000 とし,自己相関を考慮して 30000 時点から 50000 時点 までのサンプルを 100 間隔で収集して推定値を用いた. 得られたパラメータ推定値を表 3,表 4,表 5 に示す. まず,表 3 の評価項目の識別力に着目すると項目間・ 次元間で異なる特徴があることがわかる.これらの解 釈については,次節で尺度の解釈として説明する. 次に,表 3 の評価項目の多次元困難度を比較すると, これらも項目間で差異があることがわかる.例えば,項 目 4 の「対立意見の検討」は,MDIFFj0が総括的評価 を除くと最も高い.これは最低点を取る確率が他の項 目より高いことを意味しており,対立意見の生成が受 験者にとって難易度が高いことを示唆している.また, 項目 3 の「根拠と事実」は MDIFFj2がもっとも高く, 最高点を取ることが難しいことがわかる.根拠を提示 しない受験者は少ないが,その信頼性は十分に示せて いないことを示唆している. また,表 4 に着目すると,レビュアーによって評価 の厳しさパラメータや評価の一貫性パラメータに差異 があることが見受けられる.例えば,レビュアー 3 は

(5)

表 2: 総括的評価に用いたルーブリック 評点 評価の説明 4 ・主題分に対して,明確かつ興味深い立場で論じている. ・十分に吟味された適切な根拠,あるいは説得力のある事例に基づいて検証している. ・常に一貫した立場に立ち,論理的に構成されている. ・一意に読める自然な文章表現で記述されている. ・語の選択が適切であり,文章構造に多様性が認められる. ・文法,用語,句読点などの誤りが少ない. 3 ・主題分に対して,明確かつよく考えられた立場で論じている. ・主張を支持する適切な根拠または事例を用いて検証を行っている. ・基本的に立場がぶれず,論理的に構成されている. ・一意に読める自然な文章表現で記述されている. ・語の選択が適切であり,文章構造に多様性が認められる. ・文法,用語,句読点などの誤りが少ない. 2 ・主題分に対して,明確な立場をとっている. ・主張を支持する根拠または事例を用いて検証している. ・適切に構成されているが,部分的に論理の飛躍が見受けられる. ・語の選択が不適切な箇所が見受けられる. ・文章構造の多様性がやや少ない. ・文法,用語,句読点などの誤りがしばしば見受けられる. 1 ・主題分に対して,立場が曖昧である. ・根拠または事例は提示しているが,主張を正当化するには十分ではない. ・部分的に立場がぶれている.あるいは,論理的に構成されていない部分が散見する. ・語の選択や文章構造に誤りが多く,内容の理解が難しい箇所が見受けられる. ・文法,用語,句読点などの誤りが多い. 0 ・主題分に対して,立場が非常に曖昧である.あるいは,立場を示していない. ・主張を支持する根拠または事例がほとんど提示されていない. ・立場に一貫性がない.あるいは,構成が非論理的である. ・語の選択や文章構造に深刻な誤りがあり,内容の理解が困難な箇所が多く見受けられる. ・文法,用語,句読点などの誤りが非常に多い. 表 3: 項目パラメータの推定値 項目 1 項目 2 項目 3 項目 4 項目 5 総括的評価 αjl=1 0.928 1.049 0.400 0.656 1.128 1.111 αjl=2 0.490 0.796 1.058 0.526 0.968 1.027 MDISCj 1.049 1.317 1.131 0.841 1.486 1.513 MDIFFjk=0 -4.103 -3.244 -3.265 -1.999 -2.787 -1.953 MDIFFjk=1 -1.443 -0.821 0.407 -0.387 -0.673 -0.288 MDIFFjk=2 1.243 1.362 2.407 2.037 1.909 0.802 MDIFFjk=3 — — — — — 2.413 表 4: レビュアーパラメータの推定値 レビュアー αr ϵr 1 1.000 0.000 2 1.155 -0.056 3 0.740 -0.211 4 0.872 -1.096 5 1.199 0.549 若干評価の一貫性が低く,レビュアー 4 は他のレビュ アーより厳しいことがわかる.

4.2

尺度の解釈

ここでは,表 3 の評価項目の識別力パラメータに基 づいて,尺度の解釈を行う. まず,次元 l = 1 に着目すると項目 1 と項目 2 の値 が相対的に大きいことがわかる.上述のとおり,項目 1 と項目 2 は「問題解決力」を測定していると仮定し ている [2].提案モデルの次元 l = 1 は,これと対応す る能力尺度を示していると解釈できる. 次元 l = 2 に着目すると,項目 3 の値が大きいこと がわかる.項目 3 は「論理的思考力」のうち「根拠と 事実」の検討に関する能力を測定するものである.松 下ら [2] は,項目 4 と項目 5 も「論理的思考力」の測定 項目と想定していたが,本分析ではこれらは明らかな 尺度を構成しなかった.この理由について考察する. まず,項目 4 は全体として識別力が低い(多次元困 難度 MDIFFj0が高い)ことがわかる.これは,前節で 述べたようにこの項目は難易度が高いため,低得点を 取る確率が極端に高く,能力を適切に識別できなかっ たためと解釈できる.この理由の一つとして,エッセ イの分量が 400 文字程度と短く,対立意見を引き出す のが難しかったことが考えられる. 反対に項目 5 は識別力が両次元で高くなっているこ とがわかる.表 1 の内容を精査すると,この項目は,「論 理的思考力」と「問題解決力」のどちらとも類似する内 容となっていることが読み取れる.例えば,「問題の設 定から結論まで導く」という点に着目すると「問題解 決力」に類似し,「論理的に組み立て表現する」に着目

(6)

表 5: 受験者パラメータの推定値

受験者i θil=1 θil=2 受験者i θil=1 θil=2

1 0.978 -0.455 18 -0.310 -0.942 2 1.190 0.796 19 -0.142 -0.932 3 0.341 -0.009 20 -0.533 0.665 4 -0.598 -0.253 21 0.757 0.181 5 1.115 -0.643 22 0.640 0.165 6 -0.499 -0.135 23 -0.041 -0.957 7 1.410 1.148 24 -0.335 -0.148 8 0.845 -0.301 25 -0.305 0.014 9 0.778 1.144 26 0.485 0.153 10 -0.244 0.194 27 -0.738 -0.459 11 1.137 0.107 28 0.533 0.485 12 0.167 -0.252 29 1.829 0.695 13 -0.490 -0.619 30 -0.397 0.665 14 0.566 0.237 31 0.151 1.345 15 0.328 1.065 32 0.038 1.258 16 -1.649 -1.063 33 -0.366 0.701 17 0.245 0.041 34 -1.514 0.377 すると「論理的思考力」と類似した項目と解釈できる. さらに,3 章で議論したように,提案モデルでは総括 的評価を同時に分析することで,総括的評価がどのよ うな尺度を構成しているかを分析できる.表 3 の「総 括的評価」の列から,本実験の場合には「総括的評価」 は「論理的思考力」と「問題解決力」の両能力を概ね 均等に測定していることが読み取れる.また,多次元 識別力は全体的に高く,能力測定に適した性質を示し たことがわかる.

4.3

多次元能力の推定

次に,表 5 に基づき,受験者の能力について述べる. 表より,受験者の能力も次元によって異なる値を示し たことがわかる.例えば,受験者 5 に着目すると,次 元 l = 1 の能力が高く,次元 l = 2 の能力は低くなって いる.逆に,受験者 20 に着目すると,次元 l = 1 の能 力は低く,次元 l = 2 の能力は高くなっている.能力 の一次元性を仮定したモデルでは,このような下位尺 度ごとの推定は実現できないが,提案モデルでは能力 の多次元を導入したことにより,このような分析が実 現できる. ただし,本実験では,能力値パラメータの推定の標 準誤差が平均で約 0.61 と比較的高かった.これを改善 するためには,受験者に対する評価データ数を増やす 必要がある.今回は受験者はひとつの課題だけを解い た場合を想定したモデルとしたが,実際には,複数の 課題を解く場合が一般的である.そのため,課題の相 を加えた 4 相モデルを多次元モデルに拡張することが, 能力測定の精度の改善に有効であると考えらえる.

5

まとめと今後の課題

本研究では,パフォーマンス評価において,測定対 象の能力に多次元性を仮定した新たなモデルを提案し た.さらに,提案モデルのパラメータ推定手法として MCMC アルゴリズムを提案し,実データ実験により提 案モデルの有効性を示した. 本実験では評価項目数が少なかったため,次元数が 少なかった.実際には,多数の細目評価項目で採点を する場合もあり,より多くの次元が仮定できることも ある.今後はそのようなデータに対しても提案モデル を適用し,その有効性を検証していきたい.

参考文献

[1] M. Uto,M. Ueno; Item Response Theory fot Peer Assessment. IEEE Transactions on learning

thechnologies, Vol. 9. No. 2, pp. 157-170 (2016);

[2] 松下佳代,小野和宏,高橋雄介; レポート評価にお けるルーブリックの開発とその信頼性の検討.大 学教育学会誌, Vol. 35, No. 1, pp. 107-115 (2013); [3] 植野真臣,ソンムァンポクポン,岡本敏雄,永岡 慶三; ピアアセスメントにおける評価者特性を考 慮した項目反応理論. 電子情報通信学会論文誌. D, Vol. J91-D, No. 2, pp. 377-388 (2008); [4] 宇佐美慧; 採点者側と受験者側のバイアス要因の 影響を同時に評価する多値型項目反応モデル. — MCMC アルゴリズムに基づく推定—. 教育心理研 究, Vol. 58, No. 2, pp. 163-175 (2010);

[5] M. Uto,M. Ueno; Empirical comparison of item response theory models with rater’s parameters.

Heliyon, Vol. 4, No. 5, pp. 1-32 (2018);

[6] Brenda H.Loyd, H.D.Hoover; Vertical equating using the rasch model. Journal of Educational

Measurement, Vol.17, No.3, pp.178-193 (1980)

[7] Hutten, Leah R; Some Empirical Evidence for Latent Trait Model Selection. Paper presented at

the Annual Meeting of the American Educational Research Association, (1980);

[8] Fabrigar, L. R., Wegener, D. T., MacCallum, R. C., & Strahan, E. J; Evaluating the use of exploratory factor analysis in psychological re-search. Psychological Methods, Vol. 4, No. 3, pp. 272-299 (1999);

表 1: ルーブリック 評点 項目 1 :背景と問題 (与えられたテーマ から自分で問題を設 定する) 項目 2 :主張と結論(設定した問題に対し,展開してきた自分の主張を関連づけ ながら結論を導く) 項目 3 :根拠と事実 (主張 を 支 え る 根 拠 を 述べ,根拠の真実性を立証する事実を明らかにする) 項目 4 :対立意見の検討(自分の主張と 対立する意見を取り上げ,それに対して論駁を行う) 項目 5 :全体構成(問題の設定から結論にいたる過程を論理的 に組み立て表現する) 3 与えられたテーマか
表 2: 総括的評価に用いたルーブリック 評点 評価の説明 4 ・主題分に対して,明確かつ興味深い立場で論じている. ・十分に吟味された適切な根拠,あるいは説得力のある事例に基づいて検証している.・常に一貫した立場に立ち,論理的に構成されている. ・一意に読める自然な文章表現で記述されている. ・語の選択が適切であり,文章構造に多様性が認められる. ・文法,用語,句読点などの誤りが少ない. 3 ・主題分に対して,明確かつよく考えられた立場で論じている. ・主張を支持する適切な根拠または事例を用いて検証を行っ
表 5: 受験者パラメータの推定値

参照

関連したドキュメント

(採択) 」と「先生が励ましの声をかけてくれなかった(削除) 」 )と判断した項目を削除すること で計 83

「就労に向けたステップアップ」と設定し、それぞれ目標値を設定した。ここで

調査対象について図−5に示す考え方に基づき選定した結果、 実用炉則に定める記 録 に係る記録項目の数は延べ約 620 項目、 実用炉則に定める定期報告書

項目 評価条件 最確条件 評価設定の考え方 運転員等操作時間に与える影響 評価項目パラメータに与える影響. 原子炉初期温度

検討対象は、 RCCV とする。比較する応答結果については、応力に与える影響を概略的 に評価するために適していると考えられる変位とする。

 筆記試験は与えられた課題に対して、時間 内に回答 しなければなりません。時間内に答 え を出すことは働 くことと 同様です。 だから分からな い問題は後回しでもいいので

が 2 年次 59%・3 年次 60%と上級生になると肯定的評価は大きく低下する。また「補習が適 切に行われている」項目も、1 年次 69%が、2 年次

実効性 評価 方法. ○全社員を対象としたアンケート において,下記設問に関する回答