評価者の弁別力推定の為の項目反応モデル―3相順位データへの適用―

(1)

位データへの適用―

著者川端一光

雑誌名明治学院大学心理学紀要 = Meiji Gakuin

University bulletin of psychology

巻 25

ページ 1‑19

発行年 2015‑03‑31

その他のタイトル An item response model for estimation of a rater s discrimination power ―An application to three‑mode ranking data―

URL http://hdl.handle.net/10723/2471

(2)

『心理学紀要』（明治学院大学）第 25 号　2015 年　1–19 頁

【原著】

評価者の弁別力推定の為の項目反応モデル

―3 相順位データへの適用―

問題と目的

　視覚・聴覚・触覚といった人間の感覚を利用して，評価試料（以降，“試料”と表記）の特性を把握する方法を官能検査（sensory analy- sis）と呼ぶ（例えば，佐藤，1978）。新製品開発や製品検査といった実務場面において，一般消費者で構成される評価者集団（パネル）や少数の専門家による官能検査は，欠かすことのできない重要な工程となっており，早川（2009）

の解説にもあるように，既に多数の国際標準規格が ISO（International Organization for Stan- dadization）によって提供されている。

　官能検査では試料の特性に対する感覚を，適当な測定法を利用して数値に変換する。この測定法には，試料を単独で提示し評価させる採点法（評定尺度法），試料を一対にして提示し評価させる一対比較法，試料を複数同時に提示し評価させる順位法などがある（井上，2012）。

　特に順位法は実施の効率性，評価者にとっての分かりやすさという点で，実務場面の官能検査に限らず，様々な目的の質問紙調査で広く用いられている。

　順位法の使用用途は 2 つある。1 つ目は試料間の特性の差異に関する評価者の弁別力を測定することである。この目的の場合，評価者に提示される試料には客観的な順位（以降，“客観順位”と表記）が付与されている。例えば，評価者の重量弁別力を測定するために，5.05 g（1 位），4.95 g（2 位），4.90 g（3 位）のように客観順位があらかじめ付与されている刺激を提示し，触覚のみでこの順位を判断させるような状況である。判断された順位を以降では“判断順位”と呼ぶ。弁別力の指標として，客観順位と判断順位間で定義される spearman の順位相関係数や，kendall の一致性係数などが利用できる（佐藤，1985）。

　弁別力を測定できるという性質上，順位法は要　約

　本研究では，3 相順位データに対応する項目反応モデルが提案された。本モデルは，Mallows-Bradley-Terry モデル

（Mallows, 1957）を拡張したもので，複数評価観点における試料の嗜好度母数と，試料の客観的順序に対する評価者の弁別力母数で構造化されている。本研究では，モデル中の母数を推定するための Metropolis-Hasting アルゴリズムも同時に提案された。

　標本サイズ＝180，評価試料数＝4，評価観点数＝15 という設定でのシミュレーション研究の結果，考案した推定アルゴリズムには，一定の真値復元力があることが確認された。

　実データへの適用研究では，183 名の学生から質問紙調査によって順位判断データを得た。スポーツ 4 種目の順位評価を 15 の観点から評価させたものである。このデータに対して提案モデルを適用した結果，データ分布の実態に沿った形で，嗜好度母数と弁別力母数の解釈が可能であった。

キーワード：順位法，項目反応理論，Mallows-Bradley-Terry モデル

川　端　一　光

（明治学院大学心理学部）

(3)

評価者の選抜に適した方法でもある。また弁別力を向上させるための評価者訓練の際にも活用できる。

　2 つ目の使用用途は，各試料に対する客観順位を作成することである。例えば，新規開発した 4 種の発泡酒 A，B，C，D の“香り”の好ましさについて，大学生 100 名に順位付けを行わせ，各商品に割り当てられた順位の度数と比率によって，客観順位を作成するような状況である（Table1 を参照）。

Table 1　度数による客観順位の作成例　　　　（括弧内は比率）

発泡酒 1 位 2 位 3 位 4 位客観順位

A 5（.05） 13（.13） 68（.68） 14（.14） 3 位 B 10（.10） 6（.06） 16（.16） 68（.68） 4 位 C 48（.48） 20（.20） 17（.17） 15（.15） 1 位 D 22（.22） 48（.48） 13（.13） 17（.17） 2 位

　客観順位作成のためのより洗練された方法として，順位選好過程を確率モデルとして表現する様々な統計手法が考案されている。

Critchlow，Flinger & Verducci（1991）やそれに基づく Alvo & Yu（2014）のレビューでは，

Thurstone（1927）による順序統計量に基づくモデル（order statistics models），一対比較法に基づく Mallows（1957）の Mallows-Bradley- Terry モデル（以降では，MBTM）といった嚆矢的手法と，それから派生した様々な確率モデルが紹介されている。

　これらのモデルには，未知母数として各試料の平均的嗜好度（本稿ではαで統一）が表現されており，評価者集団の順位回答パタンからこの母数が推定されるという特徴がある。得られた数値は，間隔尺度上で表現された嗜好度であるから，試料間の客観順位が把握できるばかりでなく，嗜好度における試料の類似性・非類似性についても定量的に考察できる。

　一方で，1 つ目の使用用途である評価者の弁別力を捉えるための順位法に対応する確率モデルは上述のレビューでは中心的話題ではない。

むしろ関連した研究は，多次元尺度構成法

（Multi-Dimensional Scaling，MDS）の文脈で報告されている。例えば，順位データに対応した個人差 MDS（Carroll & Chang，1970）では，

多次元の尺度空間における個人差を尺度の単位の違いとして捉え，その尺度の違いを重み母数として表現している¹。しかし，後述するように，

この重み母数は評価者の弁別力の指標として直接的に表現されていない。

　Coombs（1950，1964）による展開法やその拡張である多次元展開法（Schöneman &

Wang，1972）における個人の理想点（ideal point）と呼ばれる母数は，弁別力の指標として有望である。理想点とは，各試料の嗜好度を一次元尺度上に布置したとき，同一尺度上に表現された個人の尺度値であり，その理想点と各試料の嗜好度との距離によって，個人の判断順位が決まる。例えば，4 つの試料 A，B，C，D の尺度値が［0.2，−0.3，0.5，1.0］であり，評価者 iの理想点が−0.4 であるのなら，評価者iの判断順位は，［A＝2 位，B＝1 位，C＝3 位，D＝4 位］

となる。つまり理想点が明らかとなれば，集団全体で定義される嗜好度の序列に関する評価者 iの弁別力について言及できる。

　しかし上述の 2 方法は，複数の評価者が 1 組の試料を単一観点から評価した 2 相データ（試料×評価者）に対応するものであり，実際の官能検査の状況に対応していない。実務・研究場面で利用される官能検査では，3 相の実験計画を立てることが多く，例えば，大藪・木村・三宅（2008）では食パンの官能検査を，色，きめ，

香り，味（苦み），軟らかさ，等の複数観点から行わせている。先述した 4 種の発泡酒の例でいえば，“のどこし”“コク”“キレ”といった複数観点で順位評価するような 3 相データ（試料×観点×評価者）に対応した方法ではないということである。

　この点で，3 相データに対応した多次元展開法（Desabro & Carroll，1985）で定義されている理想点は，弁別力の指標として最も可能性がある。ただ，この方法は，任意の多次元空間に複数観点から評価された試料と個人を布置す

(4)

ることを目的としているため，推定する母数が非常に多いという特徴がある。

　多次元展開法では，評価者iが観点jから試料kを評価した時の嗜好度α^ijkについて，

αijk＝αj+

Σ

_d＝1^D ^w^（x^jd ^id^−y^kd^）² ^（1）

という加法モデルを仮定する（Desabro &

Carroll，1985）。ここで，d（＝1, . . . ，D）は構成される多次元尺度空間の識別子である。αjは観点j特有の嗜好度母数であり，x^idは評価者iの第d次元での理想点を，ykdは試料kの第d次元での嗜好度母数を表現している。

　またwjdは，第d次元での観点jにおける知覚空間の単位の違いを表現する母数である。

w^jdが小さいということは，次元dにおいて，

評価者iの理想点と各試料の嗜好度が近接しており，かつ試料間の嗜好度の差異も小さいということを意味している。

　このモデルでは評価者数×観点数×試料数分の嗜好度α^ijkについて，これを構造化するα^j， w^jd，xid，ykdという複数の未知母数を推定する。

高次元空間での現象の記述力は高くなるが，モデルの倹約度は決して高いとは言えない。弁別力の推定も含めた発展的モデリングを考える場合に，3 相データに対応した，より倹約的なモデルがあれば非常に有用である。

　以上を踏まえ，本研究では官能検査の実務において一般的な 3 相データに対応した，平均的嗜好度と弁別力推定のための倹約的な統計モデルと母数推定アルゴリズムを提案する。この方法を利用することで，

　⃝ 最小限の母数で，集団全体での平均的嗜好度を，評価観点別に推定できる

　⃝ 各観点での客観順位を総合的に弁別する能力を評価者別に推定できる

　⃝ 推定された弁別力で条件づけた判断順位の選択確率を推定できる

　⃝ 推定された弁別力が個人毎に異なる知覚空

間の単位の違い（課題の難易度の違い）も表現する

といった利点を享受できる。

　提案手法の妥当性について研究 1 のシミュレーション，そして研究 2 の実データへの適用によって試みられる。また，本研究ではモデリングの簡潔性に配慮し，比較試料数が 4 の場合に限定して議論する。

モデル MBTM

　本研究では，提案するモデルの核に，Mal- lows-Bradley-Terry モデル（Mallows，1957）

を置く。本モデルは，項目反応理論（Item Re- sponse Theory；IRT）（Lord & Novick, 1968）における項目反応モデル（例えば Mura- ki（1992）の一般化部分採点モデル）と形状がよく似ており，モデル拡張や対応する母数推定法の考案の際に先行研究の知見を参照できるという利点がある。そこで，最初に，本稿での記号の用例の確認も含めて MBTM を解説する。

　評価者 i（＝1，2, . . . ，I）が試料 k（＝1，2, . . . ， K）に対して順位法によって評価することを考える。K 個の試料について，評価者 i が行う可能性のある判断順位（パタン）の総数は K! であるが，その中の特定の判断順位を l（＝1，2, . . . ，K!）で表現する。

　今，試料 A，B，C，D について，“A＝3 位”

“B＝2 位”“C＝1 位”“D＝4 位”という順位付けがなされたとする。K! 個の判断順位の内，［3，

2，1，4］という特定のパタンが得られたという状況である。ここでω（k）という関数を導入する。l

これは，特定の判断順位lにおいて，k番目の試料に順位を与える関数である。判断順位lとして，［3，2，1，4］を仮定するならば，k＝1 のとき，この関数はω（1）＝3 という結果を返すこl

ととなる。したがって，［3，2，1，4］という判断順位を得るためには，

(5)

　　ωl＝［ω（1）,l ω（2）,l ω（3）,l ω（4）］' （2）l

のように，4 つの関数を含んだ関数ベクトルωl

が必要になる。この関数ベクトルは，K個の試料に対して，より一般的に

　ωl＝［ω（1）,l ω（2），…，l ω（k），…，l ω（K）］' （3）l

と表記される。この関数ベクトルは第 l 番目の判断順位データとも解釈できる。

　評価者 i が特定の判断順位 l を得る確率について，MBTM では次の項目反応モデルを適用する。

P（il ωl|α）＝ exp

［ Σ

^K^k＝1^（K−^ω^（k））^l ^α^k

］

_（4）

［ Σ

^K!m＝1exp

［ Σ

^Kk＝1（K−ω（k））m αk

］

ここで，

　　　α＝［α1, α2,…，αk,…，α^K］' （5）

であり，αkは試料 k の平均的嗜好度を表現する母数であり推定の対象となる。

　このモデルでは母数の識別のために，

Σ

K

k＝1α^k＝0 （6）

という制約がおかれる。また，（4）式は確率を表現しているから，0 ＜_―P（il ωl|α）＜_―1 であるし，

全ての判断順位で求められた確率の和は

Σ

^K!l＝1P（il ωl|α）＝1 となる。

　（4）式は Mallows（1957）で明示された嗜好度母数 πについて対数変換を行うことで得られることに注意されたい。もちろん，この変換に対して左辺の確率は不変である。ただし，母数の単位が Mallows（1957）と異なり，対数変換された後の尺度で母数を解釈することとなる。

　（4）式を利用した上で MBTM の拡張を試みた研究として，Critchlow & Flinger（1993）

が挙げられる。また Croon & Luijkx（1993）

では，K 個の試料の内，上位 n 個までに順位付けをさせる課題に対応する確率モデルを，

Pendergrass & Bradley（1960）の 3 点比較法

（triple comparison method）のための確率モデルを拡張する形で提案しているが，このモデルは（4）式の和記号の上限が n に設定されるだけであり，実質的に Mallows（1957）の下位モデルと捉える事ができる。

　（4）式で表現される MBTM は，評価者iが単一の観点から K 個の試料を順位付けした場合に，特定の判断順位 l を選択する確率を表現しており，2 相データに対応するものである。

評価者 i が複数の観点から，K 個の試料を順位付けする 3 相データには対応していない。また個人の弁別力に関する直接的な母数も導入されていない。本研究では MBTM の問題点を補う形で，弁別力推定のための倹約的な確率モデルを提案する。

提案モデル

　評価者 i が観点 j から K 個の試料に順位付けすることを考える。このとき，特定の判断順位 l を行う確率を

Pijl（ωjl|θi，αj）＝ exp

［ Σ

^Kk＝1（K−ω（k））jl αjkθi

］

［ Σ

^K!m＝1exp

［ Σ

^Kk＝1（K−ω^jm（k））αjkθi

］

（7）

と表現する。ここで，θiは評価者 i の観点によらない弁別力母数を表現している。αjkは観点 j で評価した時の，試料 k の嗜好度母数である。

両母数は通常未知であり推定の対象となる。嗜好度母数αkがさらに観点の違いを表現するようになり，かつ，弁別力母数θiが導入がされた点が，MBTMに対する本モデルの拡張である。

　母数の識別のために，

Σ

K

k＝1αjk＝0 （8）

という制約がおかれる。

(6)

　評価者 i の観点 j における判断順位 l は，（7）

式で定義される確率を K! 個持つ多項分布から生成されたものと考える。後のシミュレーション研究ではその前提の下でデータを生成する。

　θiの解釈　θiは弁別力の指標であるが，より正確には，“集団で求められた平均的嗜好度α の序列を正確に見抜けるか”，に関する指標である。提案モデルでは，未知である客観順位の推定を行いつつ，その順位に整合的あるいは非整合的な評価者を把握することが出来る。

　提案モデルでは評価者 i に弁別力が無い場合

（集団全体で決まる客観順位を見抜けない場合）

にはθi＝0 となる。（7）式から，θi＝0 のとき，

すべての l について Pijl（ωl|θi，αj）＝1/K! であり，各判断順位の選択確率はチャンスレベルとなることを確認されたい。

　弁別力が平均的である場合にはθi＝1であり，

θiが 1 を大きく超えると，評価者 i の全ての観点における判断順位は客観順位に完全一致するようになる。

　客観順位と平均的に逆の判断を行う弁別力をもつ評価者についてはθi＝−1 となり，θiが

−1 を大きく下回ると，全ての評価観点における判断順位は，客観順位と逆転したものに完全一致するようになる。

　項目特性曲線　Figure 1 にα1＝0.875，α2＝

−1.025，α3＝0.375，α4＝−0.225 という条件で，

弁別力θによって 4 つの判断順位の確率が変化する様子を描画した（Figure 1 を参照）。これが提案モデルにおける項目特性曲線（Item Characteristic Curve；ICC）（例えば豊田，

2002）となる。

　嗜好度母数の序列から客観順位は［1，4，2，3］

であり，θiが高い評価者ほどその判断の選択確率が高くなる。一方で，2 位と 3 位を誤って評価した［1，4，3，2］という判断については，θiが高くなるほど選択確率が低くなる。

　θiが 0 の部分では，破線の水平線の高さが対応する確率になっている。この確率は 1/4!＝

0.042 であり，当該評価者がチャンスレベルでしか回答できないことを意味している。

　θiが負に大きくなると，［4，1，3，2］の選択確率が高くなる。この順位づけは嗜好度の序列

（［1，4，2，3］）と完全に逆である。［4，1，2，3］のように一部が逆の順位付けの場合には，θiが負に大きくなるほど，選択確率が低くなる。

　Figure 1 は 24（＝4!）の判断順位の内，4 つのみを選択表示したものである。Figure 2 に，

Figure 1 と同じαの条件で，24 本の ICC を描画した（Figure 2 を参照）。特定のθiで条件付けしたときの 24 個の確率の和は 1 になることを確認されたい。

Figure 1．4 つの ICC

（α=［0.875，−1.025，0.375，−0.225］′）

Figure 2．全ての ICC

（α=［0.875，−1.025，0.375，−0.225］′）

(7)

　課題の困難度と弁別力の関係　観点 j において K 個の試料の嗜好度母数αjが得られる。この母数をもとに，試料の客観順位を作成することができるが，αjの標準偏差 SD（αj）が小さい場合は，大きい場合に比較して，より弁別が難しい課題であると解釈できる。ここで課題の弁別困難度（難易度）の指標として SD（αj）を利用することを考える。この指標は，集団全体で定義されるものであり，個人に依存していないことに留意されたい。

　観点 j で評価された試料 k に対して，評価者 i の弁別力θiを乗じた値を

　　　　　　　　βijk＝αjkθi （9）

と定義する。ここで評価者 i の観点 j における評価試料の嗜好度の標準偏差 SD（βij）を求めたならば，以下の比を評価者 i における弁別の困難度の指標として利用できる。

　　　困難度比＝SD（βij）/SD（αj）＝θi （10）

これは評価者 i の弁別力に他ならない。

　つまり，θi＝1.5 の評価者における知覚空間では，平均的な弁別力（θi＝1）の評価者よりも，

嗜好度の散布状況が 1.5 倍拡大されていることになり，より容易に弁別できると解釈することができる。

　αjが基準集団で推定されており既知であるという前提で，新たな評価者 i についてθiを推定する場合，評価者 i がどのような集団に属していようが，θiは基準集団内で相対評価される。また，課題の困難度 SD（αj）と個人の弁別力とを独立に評価できていることにも大変意義がある。

　Figure 3 は，Figure 1，Figure 2 の嗜好度を 2 倍しα1＝1.75，α2＝−2.05，α3＝0.75，α4＝

−0.45 という条件で描画された ICC である

（Figure 3 を参照）。嗜好度が 2 倍されているので，試料間の弁別がつき易い状況である。

Figure 2 と ICC の形状を比較すると，Figure

3 において，確率の変化が急峻であり，平均的な弁別力（θi＝1）の持ち主でも，0.4 以上の確率で客観順位と整合的な判断を行えることが明らかである。Figure 3 は，Figure 1，Figure 2 の試料をθi＝2 の評価者が把握する場合の知覚空間における ICC とも解釈できる。

　提案モデルのθiとは，弁別力の指標であると同時に，個人毎に異なる知覚空間の単位の違いを表現する母数である。先述した個人差 MDS や多次元展開法で定義される重み母数 w は，知覚空間の単位の違いのみを表現するために導入された母数であり，積極的に弁別力の指標として利用できない。その点，提案モデルでは，単一の母数で弁別力と知覚空間の単位の違いを表現するから，倹約性は高い。

母数推定法

　モデルに対応する母数推定法として，本研究ではマルコフ連鎖モンテカルロ法（Markov Chain Monte Carlo；MCMC）（例えば，小西・

越智・大森，2008）を併用したベイズ推定を利用する。MCMC 法のアルゴリズムの枠組みとしては，Metropolis-Hasting 法（Hasting，1970）

Figure 3．全ての ICC

（α=［1.75，−2.05，0.75，−0.45］′）

(8)

（以降では M-H 法と略記）を採用する。アルゴリズムの構成にあたって，Patz & Junker（1991），

宇佐美（2010），室橋（2008）による，項目反応モデルに対する実装例を参考にした。

　M-H 法では，モデルの尤度と母数の事前分布が必要となる。以下にその設定について述べる。

　嗜好度に関する尤度　評価観点 j におけるαj

の尤度は次式で与えられる。

L（j αj|θ^，Ωj）＝

Π

_i＝1^I

Π

_l＝1^K!^P^ijl^（^ω^jl^|^θⁱ^，^α^j^）^Z^ijl^（11）

ここでΩjは観点jにおいて I 人の評価者が，

K 個の試料を順位付けした結果が収められたサイズ I×K の順位データ行列を表現している。

またθはサイズ I×1 の弁別力母数ベクトルである。Zijlは評価者 i の観点 j における判断順位を指示する関数で，判断順位 l を選択する場合には Zijl＝1，選択しない場合には Zijl＝0 となる。

　弁別力に関する尤度　評価者 i の弁別力の尤度は次式で与えられる。

L（jθj|A，Ωi）＝

Π

_j＝1^J

Π

_l＝1^K!^P^ijl^（^ω^jl^|^θⁱ^，^α^j^）^Zijl^（12）

ここでΩiは，評価者 i が全ての観点において，

K個の試料を順位付けした結果が収められたサイズ J×K の順位データ行列である。Aはサイズ J×K の嗜好度母数行列である。

　事前分布　嗜好度母数αjkの事前分布としては標準正規分布を仮定する。

　　　　αjk〜Normal（μ^α＝0，σ^α＝2）（13）

ここで Normal（μ^α，σ^α）は，母平均μ^α，標準偏差σαの正規分布を表現している。またσαの数値は，項目反応理論の 2 母数ロジスティックモデルに含まれる困難度母数を推定するための Patz et al（1999）の設定を参考にした。

　弁別力母数θiの事前分布としては，μ_θ＝1 の正規分布を設定する。

　　　　θi〜Normal（μ_θ＝1，σ_θ＝1）（14）

　IRT の項目反応モデル同様に，提案モデルの母数は尺度不定であるから，この事前分布の設定によって，θの原点と単位が決定され，その尺度上で嗜好度母数αが表現される。

　条件付き事後分布　M-H 法では当該母数に関する条件付き事後分布が必要となる。この事後分布は上述した尤度と事前分布の積に比例するから容易に導出できる。観点 j の嗜好度αj

の条件付き事後分布は，

P（j αj|θ^，Ωj）∝ L（j αj|θ^，Ωj）

Π

_k＝1^K ^P（^α^jk^{）（15）}

となる。ただし P（αjk）はαjkに対応する事前分布の確率密度である。また，評価者 i の弁別力 θiの条件付き事後分布は，

P（jθi|Ωi，A）∝ L（iθi|A，Ωi）P（θi）（16）

となる。ただし P（θi）はθiに対応する事前分布での確率密度である。

　提案分布　MCMC 法を利用することで，母数の事後分布の形状が一般的に知られていない確率分布であっても，そこから無数に標本

（MCMC 標本）を抽出することで，事後分布を経験的に構成することができる。M-H 法では，

その標本が興味のある事後分布から抽出されることを確保するために，提案分布を設定し，その分布から候補として挙げられた母数を MCMC 標本として採用するか，あるいは棄却するかの判断を繰り返していく。提案分布の選択法には様々な方法があるが（例えば，Patz et al，1991），本研究では宇佐美（2010）を参考に，αjkとθiの提案分布に標準偏差が 0.05 で，

互いに独立なK次元の多変量正規分布を利用する。

(9)

　M-H アルゴリズム　本研究では，上述した尤度と事前分布に基づき，提案したモデルに対応した M-H アルゴリズムを構成する。

　本アルゴリズムでは最初に観点 j の嗜好度母数αjの標本抽出から行う。先ず，αjに含まれる K 個の要素に対応した標準正規乱数を K 個生成する。生成された乱数は偏差化することで，

（8）式の制約を満たす。この偏差化された K 個の標準正規乱数をαjの初期値として設定し，

α^tjとする。t はアルゴリズムの反復回数を表現する。

　次に，α^tjを平均ベクトルとして持つ K 次元の多変量正規分布から，次の反復の候補値αj＊

を抽出する。この多変量正規分布の共分散行列の非対角要素は 0 であるため，実質，K 個の独立な正規分布から，1 つずつ正規乱数を発生させたことになる。この多変量正規分布が αjに関する提案分布である。（8）式の制約を意図して，提案分布から抽出された母数についても偏差化しα＊jに収める。

　この候補値を MCMC 標本として採択し，

t+1 回目の反復に利用するかについて，次の採択確率に基づいて判断する。

P（αj＊|α^tj）＝min

｛

^LL^（（^jj ^αα^＊^j^j^t^||^θθ^t^t^，^，^ΩΩ^jj^））^ΠΠ^K^k＝1^K_k＝1^P（P（^αα^＊^j^j^t^kk^））^，1

｝

（17）

勿論，この採択確率はモデルに依存しているので，別のモデルであれば構成要素も変化する。

　M-H 法ではこの採択確率と，区間［0，1］から発生させた一様乱数 urを比較することで，候補値の採択の可否を決定する。本研究では P（α^＊^j|α^tj）>urならば，αjt＋1＝α＊j そうでなければ αjt＋1＝αjtとする。

　以上で観点 j におけるαjtの更新が終了したので，別観点のαjtの更新を行う。この判断を J 個の観点全てで行う。最終的に，全ての観点においてαjt＋1

となっている。

　弁別力母数θiについては，最初に平均＝1，

標準偏差＝1 の正規乱数を初期値として与え，

θitを作成した上で，個人毎に採択確率，

P（θ^＊ⁱ|θ^tⁱ）＝min

｛

^L^L^（^（ⁱⁱ ^θ^θ^＊ⁱⁱ^t^|^|^A^A^t＋1^t＋1^，^，^Ω^Ωⁱⁱ^）P（^）P（^θ^θ^＊ⁱⁱ^t^）^），1

｝

^（18）

を求め，上述の方法によってθi＊＝θit＋1かθit＋1=θit

かの 2 者択一の判断を行う。この作業を，全評価者について順に行っていく。ここで，A^t+1であり，嗜好度母数行列が全て更新後の値になっていることに注意されたい。

　全評価者のθitがθit＋1に更新されたら，θit＋1として嗜好度母数のアルゴリズムに戻る。

　この一連の過程を任意の収束基準が満たされるまで繰り返すことによって，経験的に事後分布を生成することができる。その平均値を母数の推定値として採用する。

研究 1：シミュレーション研究 目的

　提案モデルに対応する母数推定アルゴリズムが適切に機能するかについて，シミュレーション研究によって明らかにする。ここでは，後述する実データへの適用に配慮し N＝180，J＝15 という設定で母数推定アルゴリズムの真値復元力を検証する。

方法

　シミュレーションデータ行列　推定対象となる母数の真値として，αjkには標準正規乱数を，

θiについては平均＝1，標準偏差＝1 の正規乱数を与えた。これらの真値と（7）式の項目反応モデルをもとに評価者 i が観点jで判断順位 l を選択する確率 Pijl（ωjl|θi，αj）を全ての l（＝1, . . . ，K!）について求め，それを母数として持つ K! 次元の多項分布から，評価者 i の観点 j における判断順位を無作為抽出した。この作業を全ての観点，全ての評価者について行うことで，

シミュレーションデータ行列を生成した。またデータセット毎に母数の真値も異なるように設定した。

(10)

　真値復元精度の指標　本研究では提案した母数推定法の精度を真値復元状況によって評価する。具体的には平均平方誤差（Root Mean Square Error，RMSE）を利用する。試料 k の嗜好度母数αkについては，シミュレーションデータセット数を S とするとき，

RMSEαk＝

√ ^Σ

^S^s＝1

^Σ

^J^j＝1^J×S^（^＾^α^sjk⁻^α^sjk^）² ^（19）

とする。ここで，αsjkは，第 s 番目のシミュレーションデータにおける観点 j の試料 k の嗜好度母数の真値を，＾αsjkは推定値をそれぞれ表現している。また s＝1，2，. . . ，S である。弁別力母数θiについては，

RMSEθi＝

√ ^Σ

^S^s＝1

^Σ

^J^j＝1^I×S^（^＾^θ^si⁻^θ^si^）² ^（20）

とする。ここで，θsiは第 s 番目のシミュレーションデータにおける評価者 i の弁別力母数の真値を，^＾θsiは推定をそれぞれ表現している。

　本研究では，母数推定に要する計算時間に配慮して，生成するデータセット数 S を 20 に設定した。

　分析プログラム　M-H アルゴリズムの実行やシミュレーションデータ生成に当たっては，

計算機言語 R（R core team，2014）にて分析プログラムを作成し，利用した。ただし，R での M-H アルゴリズムの実装にあたっては，宇佐美（2010）が項目反応モデルの母数推定に利用したプログラムを参考にした。

結果・考察

　本研究では，Geweke の指標（1992）にもとづき，全母数のマルコフ連鎖が大局的に事後分布に収束するアルゴリズムの反復回数（これを burn-in 期間と呼ぶ）として 100,000 回を設定した。また，弁別力母数θについては記憶媒体の容量の制限に配慮して，180 個中，20 個のみについて，マルコフ連鎖の記録を行った。

burn-in 期間以降の 800,000 回の反復で得られた MCMC 標本の算術平均を用いて，各母数の推定値とした。

　20 のデータセットの内，Geweke の指標の観点から全マルコフ連鎖の収束状況が 90％未満のデータセットにおける推定値は RMSE の評価の際に区別した。該当するデータセット数は 10 となった。

　Table 2 に，各母数の RMSE を掲載した

（Table 2 を参照）。全母数の事後分布への収束が良好なS＝10 条件では，＾αjkは真値付近±約 0.13 の範囲で平均的に分布していることが明らかとなった。小数点第 1 位での変動であり，無視できない大きさなので，推定値が近接した試料間の順位づけについては注意が必要であろう。また，^＾θiは真値付近±0.329 の範囲で平均的に分布していることが明らかとなった。αの 3 倍の誤差であるから，解釈にはより注意が必要である。

Table 2　各母数の RMSE

収束条件 α1 α2 α3 α4 θ

S=10 .120 .108 .137 .140 .329

S=20 .146 .150 .150 .155 .342

　収束が良好でないデータセットの結果を含め

たS＝20 条件では，全母数で相対的に RMSE

が大きくなっているが，その増分は極端なものではなく，アルゴリズムが発散しているとは考え難い。

　Table 3 に，推定値と真値間の相関係数を求め，データセット数分の平均を求めた結果を掲載した（Table 3 を参照）。母数やデータセット数の条件に依らず，相関係数は 0.99 以上であり，非常に高い。真値の分布の形状はかなり精度高く復元されていることが分かる。収束が良好でないデータセットを含めても高い相関係数が得られていることから，提案した M-H アルゴリズムには一定の母数復元力があると考えられる。

(11)

Table 3　推定値と真値の相関係数の平均値

収束条件 α1 α2 α3 α4 θ

S=10 .994 .993 .994 .994 .945

S=20 .994 .994 .994 .994 .944

研究 2：適用例 目的

　シミュレーション研究により，N＝180，J＝

15 という条件において，提案アルゴリズムに一定の母数復元力が確認されたので，次に実データに適用し，結果の解釈可能性の観点から，

モデルや母数推定アルゴリズムの妥当性について検証する。

方法

　調査参加者　都内の私立大学生 189 名に対して，後述する順位判断課題が含まれた質問紙調査を実施した。回答に先だって，同意書への署名を求めていたが，2 名の参加者について署名に不備があったので，分析から除外した。また，

1 つでも欠損のあった回答についても分析から除外した。結果として，分析に用いた標本サイズは 183 となった。性別の内訳は，女性 129 名

（平均年齢＝20.093，SD＝1.228），男性 54 名（平均年齢＝20.462，SD＝1.969）であった。

　課題　評価対象となる試料を知らないことによるデータの欠損を回避するため，全評価者にとって身近なスポーツの競技種目を試料とした。平田（2000）では大学生にとって関心をもたれやすい種目として，野球，テニス，サッカー，

バスケットボールが挙げられている。そこで，

本研究では，この 4 種目を評価対象試料とした。

　課題では，この 4 試料について 15 の観点から順位付けさせた。そのうちの 13 の観点は，

平田（2000）に掲載されているスポーツのイメージに関する形容語のリストの中から選出した。

具体的には，“さわやか”“汗”“楽しい”“走る”

“疲れる”“健康”“体力”“精神力”“苦しい”“努力”“熱い”“感動”“青春”である。また，平田（2000）が述べるように，スポーツのイメー

ジは特定の競技種目と強く結び付いているため，評価観点として“スポーツ”を導入した。

さらに，4 種目に対する個人毎の嗜好度を評価するために，“やってみたい”という観点も付け加えた。

　種目の経験の有無が弁別力に影響を及ぼすかを検討するため，質問紙の最後で，上述 4 試料について，経験したことのない種目の記述回答を求めた。ソフトボール経験者については野球経験者として処理した。

結果・考察

　各母数の事前分布や提案分布の設定，初期値の設定等については，シミュレーション研究の設定を採用した。また，マルコフ連鎖についても，シミュレーション研究の設定同様に burn- in 期間を 100,000 回とし，その後の 800,000 回の反復で得られた MCMC 標本を用いて，母数推定値を得た。Geweke の指標の観点からは全母数のマルコフ連鎖の収束率は92.5%であった。

　＾αjの分布と推定精度　Table 4 に＾αjとそれに基づく客観順位を掲載した（Table 4 を参照）。観点別に各試料の嗜好度（そして客観順位）が変動していることが伺える。

　Figure 4 は＾αjの分布を観点別に描画したものである（Figure 4 を参照）。同一試料の嗜好度の観点による推移を表現している。折れ線が交差している部分では，観点によって試料の順位が変動している。

　各母数の推定精度を表現する標準誤差

（MCMC 標本の標準偏差）を，Table 5 に掲載した（Table 5 を参照）。殆どの母数において，

標準誤差は小数点以下第 2 位での変動であり，

推定精度が高いことが伺える。この結果は，本モデルと母数推定法が実データに対して適切に機能していたことの証左として考えることができる。

　＾αjの解釈　推定された嗜好度母数が解釈可能であるか，そして，提案したモデルが実データに対して妥当に機能しているかについて検証するために，Table 4 に掲載された嗜好度母数

(12)

Table 4　観点別の＾αjとSD（＾αj）（括弧内は客観順位）

観点野球テニスサッカーバスケット SD（＾αj）

スポーツ 0.144（2 位） −0.500（4 位） 0.618（1 位） −0.263（3 位） .425

さわやか −0.834（4 位） 0.588（1 位） 0.321（2 位） −0.074（3 位） .536

汗 0.513（1 位） −0.825（4 位） 0.052（3 位） 0.260（2 位） .503

楽しい −0.220（4 位） 0.068（2 位） 0.045（3 位） 0.108（1 位） .129

走る −0.676（3 位） −0.913（4 位） 1.237（1 位） 0.352（2 位） .858

疲れる −0.797（4 位） −0.408（3 位） 0.593（2 位） 0.612（1 位） .618

健康 −0.161（3 位） 0.465（1 位） −0.013（2 位） −0.290（4 位） .286

体力 −0.552（3 位） −0.603（4 位） 0.617（1 位） 0.538（2 位） .578

精神力 0.261（1 位） 0.100（2 位） −0.176（3 位） −0.185（4 位） .189

苦しい −0.141（3 位） −0.384（4 位） 0.235（2 位） 0.290（1 位） .277

努力 0.428（1 位） −0.183（3 位） −0.013（2 位） −0.232（4 位） .260

熱い 0.596（1 位） −0.498（4 位） 0.069（2 位） −0.167（3 位） .399

感動 0.808（1 位） −0.624（4 位） 0.275（2 位） −0.459（3 位） .577

青春 1.030（1 位） −0.993（4 位） 0.357（2 位） −0.393（3 位） .763

やってみたい −0.148（4 位） 0.172（1 位） −0.042（3 位） 0.018（2 位） .116

Figure 4．＾αの観点による推移

(13)

を利用して，評価者集団が各種目に対して抱いているイメージを検証した。具体的には，4 つの嗜好度母数を利用して（4 変数を利用して）

15 観点のクラスタリングを行い，各クラスタ―

内で種目別に嗜好度の平均値を求め比較した。

　Table 4 の嗜好度母数行列について階層的クラスター分析（ward 法）を利用したところ，

3 クラスターが抽出された。

　第 1 クラスタには，“汗”“努力”“精神力”，

そして“苦しい”というように，心身の鍛練に関与しうる 4 観点が含まれていた。また，“スポーツ”“熱い”“感動”“青春”という 4 観点も含まれていたが，これらの観点は，中学・高校の青春時代を通じて評価者が直接的もしくは間接的に経験した部活動での取り組みを連想させるものと解釈できる。以上の 8 観点を踏まえ，

本クラスタを“部活イメージクラスタ”と命名した。

　第 2 クラスタは，種目に関する身体的なイメージに関連した 3 観点（“走る”“疲れる”“体力”）で構成されているから，“身体イメージクラスタ”と命名した。

　第 3 クラスタには，“楽しい”“やってみたい”

という種目への取り組みに対する興味関心を表

現する 2 観点が含まれていた。また，第 1 クラスタで定義される，部活動での真剣な種目への取り組みではなく，“さわやか”“健康”のような，もっと関与の浅い取り組みを印象付ける 2 観点が含まれていた。以上，4 観点を踏まえて本クラスタを“趣味・健康イメージクラスタ”

と命名した。

　Table 6 に各試料の嗜好度の平均値をクラスタ別に掲載した（Table 6 を参照）。部活イメージクラスタでは，嗜好度の序列は 1 位 : 野球，

2 位 : サッカー，3 位 : バスケットボール，4 位 : テニスの順であった。特に，野球とサッカーが他の種目に対して相対的に嗜好される結果となった。両種目は中学・高校時代に生徒が部活動で取り組むスポーツとして代表的であり，高い能力をもった生徒達はプロ選手の予備軍として各種マスコミでも取り上げられることも多いため，評価者集団において，“中学・高校時代の部活の代表”というイメージが形成されていた可能性がある。本クラスタに含まれる観点“スポーツ”における嗜好度の順位は，Figure 4 から，1 位：サッカー，2 位：野球である。野球とサッカーの強い印象のため，バスケットボール，テニスの部活動のイメージは相対的に Table 5　＾αjの標準誤差（MCMC 標本の SD）

観点野球テニスサッカーバスケット

スポーツ .048 .061 .070 .050

さわやか .092 .068 .056 .050

汗 .063 .090 .048 .051

楽しい .043 .038 .037 .039

走る .084 .094 .124 .074

疲れる .087 .065 .073 .074

健康 .044 .059 .040 .047

体力 .072 .073 .074 .070

精神力 .045 .040 .041 .042

苦しい .043 .053 .045 .048

努力 .056 .044 .040 .044

熱い .069 .062 .045 .047

感動 .088 .073 .057 .063

青春 .106 .102 .067 .068

やってみたい .040 .040 .037 .037

(14)

低く評価されてしまったものと解釈することができる。

　身体イメージクラスタでの嗜好度の序列は，

1 位 : サッカー，2 位 : バスケットボール，3 位 : テニス，4 位 : 野球の順であった。サッカーとバスケットボールが相対的に嗜好される結果となったが，両種目は，他の 2 種目に比較してフィールドを長時間にわたり走り続ける必要があるから，疲れやすい種目であり，より体力が必要であるとイメージされた可能性が高い。

　趣味・健康イメージクラスタでの嗜好度の序列は，1 位：テニス，2 位：サッカー，3 位：

バスケットボール，4 位 : 野球の順であった。2 位のサッカーと 3 位のバスケットボールの嗜好度の差はわずかであるから，第 1 位のテニスが非常に強く嗜好されていることが明らかとなった。テニスは年齢や性別を問わず取り組める種目である。大学生の趣味としてのサークル活動や，高齢者の健康維持活動に盛んに利用されていることからも，この結果は納得がいくものである。運動量の多いサッカーや，バスケットボールは，趣味・健康目的の評価者にとっては選択し難い種目であると考えられる。

　一方，野球は運動量という点ではそれほど高くなく，競技する者を選ばないはずであるが嗜好度が最も低い。この点については，種目に参加するための装備面での準備事項が他種目と比較して多く，軽い気持ちで始められないということが影響したのかもしれない。

　以上，15 の観点を 3 つのクラスタに次元縮約することで，4 つの種目に対する評価者集団のイメージについて一定の解釈が可能であった。提案モデル中に表現された嗜好度母数の推定値が，ノイズでもアーティファクトでもなく，

実データの分布を代表している可能性は非常に

高いと考えられる。

　観点の困難度　ここでは弁別の困難度の観点から，Figure 4において特徴的な点を考察する。

Figure 4 を参照すると，観点“走る”において試料間の嗜好度の差が相対的に大きい。両観点における困難度は，Table 4 からSD（＾α走る）

＝.858 である。他の困難度の数値を参照すると，

この観点は，15 の評価観点の内，弁別が最も容易であることが伺える。

　“走る”という評価観点は，一試合中に走る距離と解釈すれば，全評価観点中，最も客観的な評価観点となりうる。多くの評価者にとってその判断は容易であり，1 位：サッカー，2 位：

バスケットボール，3 位：野球，4 位：テニスという序列が一様に報告されていた可能性がある。ただし，野球とテニスの試料間の差（0.237）

はサッカーとバスケットボールの差（0.885）

よりも相対的に小さく，この部分での弁別はそれほど容易ではないことも伺える。

　“走る”に次いで“青春”も困難度の低い観点であった（SD（＾α青春）＝.763）。野球とサッカーが非常に高く嗜好されているが，先述したように，両種目は中学・高校時代に生徒が取り組む種目の代表として認知されている可能性があり，弁別が容易であったと考えられる。

　Figure 4 から，“やってみたい”において試料間の嗜好度の差が相対的に小さい。両観点における困難度は，Table 4 からSD（＾αやってみたい）

＝.116 である。他の困難度の数値を参照すると，

この観点は，15 の評価観点の内，弁別するのが最も難しいことが伺える。

　“やってみたい”という観点は，“楽しい”と同様に，個人の嗜好を聞いている評価観点である。各評価者がやってみたい種目については，

嗜好の個人差が強く反映され，特定の種目に集 Table 6　クラスタ別の嗜好度の平均

クラスタ名野球テニスサッカーバスケット

部活イメージ .455 −.488 .177 −.144

身体イメージ −.675 −.641 .816 .501

趣味・健康イメージ −.341 .323 .078 −.060

(15)

中する可能性は低くなるので，各試料の嗜好度は互いに接近し，弁別が難しくなったと予想される。“楽しい”という観点の困難度も SD（＾α走る）＝.129 と“やってみたい”に次いで高い。こちらも，嗜好の個人差を反映した結果と解釈できる。

　^＾θiの分布　Figure 5 は^＾θiのヒストグラムである（Figure 5 を参照）。平均は 1.271，SDは 0.529 であった。また，最大値は2.868，最小値は−0.133 であった。また，Figure 6 は^＾θiとその標準誤差（MCMC 標本の標準偏差）の散布図である

（Figure 6 を参照）。^＾θiの値が大きくなるほど

標準誤差は大きくなっていき，最大で 0.618 となった。

　標準誤差の平均値は 0.369，SD は 0.008 であった。平均的には全ての評価者の標準誤差は 0.369 近傍の狭い区間に集中して分布していることが伺える。標準誤差の 0.369 は無視できるほど小さい値ではない。^＾θiの解釈の際にはある程度の幅を持たせる工夫が必要だろう。特に，高弁別力と推定された評価者ほど，^＾θiに含まれる誤差も多くなることに注意が必要である。

　ヒストグラムの形状は正規分布に近く，弁別力について，個人差が存在していることが強く示唆される結果となった。弁別力は理論的には負値をとりうるのだが，この評価者集団では，

該当する評価者は最小値（−0.133）を獲得した 1 名のみであった。

　^＾θiと他指標との関連　上述の 2 名の評価者

（最大値，最小値）の判断順位と客観順位（推定された嗜好度による順位）との整合性を確認するために，基準との不一致度も考慮した重みづけκ係数（−1＜κ＜1）を求めたところ，最大の弁別力を持つ評価者で 0.760，最小の弁別力者で−0.013 となった。^＾θiとκの間には対応関係があるように見受けられた。

　そこで，全評価者について重み付きκ係数を

Figure 7.θˆͱॏΈ෇͖κ܎਺ͱͷࢄ෍ਤ

48 Figure 5．θ＾のヒストグラム

Figure 6．θ＾と標準誤差（MCMC 標本の SD）

の散布図 Figure 7．θ＾と重み付きκ係数との散布図

(16)

求め，^＾θiとの散布図を描画した。この散布図が Figure 7 である（Figure 7 を参照）。散布図における積率相関係数は r＝0.884 であり，両指標には高い整合性があることが明らかとなった。提案したθiは，客観的順位に対する弁別力の指標として，一定の妥当性を保持していると考えられる。

　SD（^＾βj）の比較　先述した弁別力が高い評価者（^＾θ＝2.868）と弁別力が低い評価者（^＾θ＝−

0.133）では，試料間の知覚空間の単位が異なる。

このことは，両者において課題の困難度が異なるとも解釈できるのであった。Table 4 で示した SD（＾αj）を基準（θ＝1）として，両評価者の観点別の課題の困難度 SD（^＾βj）を縦軸に配置した棒グラフを Figure 8 として描画した（Fig- ure 8 を参照）。弁別力が低い評価者の知覚空間の単位は基準の 0.133 倍であり，弁別力が高い評価者の単位は 2.868 倍となっている。弁別力が低い評価者の単位を基準とするならば，弁別力が高い評価者の単位は 21.515 倍である。

弁別力が低い評価者よりも，21.515 倍広い空間

に 4 試料を位置づければ良い後者において，客観順位の弁別が容易であることは想像に難くない。

　弁別力と種目経験の関係　種目の経験の有無が弁別力に対して影響を及ぼしているかについて，経験が無かった種目の合計点（1 から 4 点の範囲に収まる）と^＾θの間で相関係数を求めたところ，r＝0.105 であり 5% 水準で有意でなかった（t（181）＝1.427，p＝0.155）。経験の有無によって，種目に対するイメージは変化する可能性があるが，個人が経験している種目がそれぞれ異なるので，全員が経験している種目に対して偏った回答をしたとしても，集団全体としてみたときその偏りは相殺されてしまったのかもしれない。θとκには高い相関が確認されているので，上述の結果をもってθの妥当性の低さを主張するには根拠が足りないと考えられる。

　以上の結果・考察を総合すると，嗜好度母数，

弁別力母数は，様々な観点から解釈可能性が高く，実データの分布とその背後に存在する評価 Figure 8．SD（＾β）の比較

評価者の弁別力推定の為の項目反応モデル―3相順 位データへの適用―

位データへの適用―

著者 川端 一光

雑誌名 明治学院大学心理学紀要 = Meiji Gakuin

University bulletin of psychology

巻 25

ページ 1‑19

発行年 2015‑03‑31

その他のタイトル An item response model for estimation of a rater s discrimination power ―An application to three‑mode ranking data―

URL http://hdl.handle.net/10723/2471

評価者の弁別力推定の為の項目反応モデル

川 端 一 光

Σ

［ Σ

］

［ Σ

［ Σ

］

Σ

Σ

［ Σ

］

［ Σ

［ Σ

］

Σ

Π

Π

Π

Π

Π

｛

｝

｛

｝

√ Σ

Σ

√ Σ

Σ

評価者の弁別力推定の為の項目反応モデル―3相順位データへの適用―

著者川端一光

雑誌名明治学院大学心理学紀要 = Meiji Gakuin

川　端　一　光

√ ^Σ

^Σ

√ ^Σ

^Σ