• 検索結果がありません。

シリーズ臨床心理学研究と統計学 3. 評定データの 信頼性

N/A
N/A
Protected

Academic year: 2021

シェア "シリーズ臨床心理学研究と統計学 3. 評定データの 信頼性"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

シリーズ臨床心理学研究と統計学 3. 評定データの 信頼性

著者 井上 俊哉

雑誌名 東京家政大学附属臨床相談センター紀要

6

ページ 73‑77

発行年 2006

出版者 東京家政大学附属臨床相談センター

URL http://id.nii.ac.jp/1653/00010033/

(2)

シリーズ臨床心理学研究と統計学

3.評定データの信頼性

哉田俊m 田上町 ㎞井S

1.評定者間の信頼性

 臨床心理学研究では,診断名への分類,症状の 重篤度の評定,ロールシャッハテストの採点,作 文や作品の採点など,判定・評定が用いられるこ

とが多い。このような判定・評定の結果には,評 定者による違い,同じ評定者であっても評定ごと の違いが測定誤差として紛れ込むおそれがある。

したがって,判定・評定の結果を利用,解釈する 際には,その信頼性を慎重に吟味しなければなら ない。種々の誤差要因について包括的に目配りす るには,一般化可能性理論という理論が有効であ るが,ここでは評定者の違いから生じる誤差変動 のみに注目する。

 評定者間信頼性(interrater reliability)は,複数 の「評定者(Rater)」が人の行動,作品,反応な どの「評定対象(Target)」を評定したデータに基 づいて推定される。これまでに数多くの信頼性の 指標が提案されているが,ここでは,κ(カッパ)

係数と級内相関係数を紹介する。κ係数は評定値 がカテゴリカルである場合に,級内相関係数は評 定値が間隔尺度以上であるときに用いられる代表 的な指標である。

2.コーエンのカッパ係数

評定データがカテゴリカルである場合にもっ ともよく用いられるのは,一致率Poである。一

致率は,複数の評定者の評定が一致したセル度数 の合計Σf。を,総度数(N)で割った値として 求められる。2名の評定者が200の評定対象を3 つのカテゴリーに分類した結果が表1のような 連関表にまとめられているとする。このとき,2

名の評定が一致したセル度数の合計は

Σf。 ・=io6+28+6−140・総度数は200だから・一 致率はP。−14%。。=・・7になる・

  表1:評定データの例(Hubert,1977【1】より)

評定者2

    

AAA

評定者1 Al A2 A3 計

106 10 4120

22   28   10   60

 2  12   6  20

130   50   20  200

 一致率はわかりやすくて計算も簡単だが,偶然 の一致の介在を排除できないことが最大の短所と なる。2名の評定者がまったくデタラメに評定し たとしても一致率がゼロにならないことを理解す るには,ジャンケンのあいこのことを考えてみる とよい。ふたりの人がそれぞれまったくデタラメ に手を出しても,かなりの確率で二人の手は一致 する(ふたりがグー・チョキ・パーをそれぞれ1/3 の確率でデタラメに出すとき,あいこになる確率

は1/3である)。

 評定データをもとに,2名の評定が偶然に一致す る確率p,を求めるには,表1のような連関表の左 上から右下の対角線に並ぶセル(すなわち評定が 教養部 情報処理研究室

(3)

井 上 俊 哉

一致するセル)の期待度数の合計Σf.を,総度数 Nで割ればよい(期待度数については,たいてい の統計の教科書で解説されているので,ここで詳 しく説明することはしない)。表1のデータにおい ては,評定が一致するセルの期待度数の合計は,

Σfc=(120 x l3%0+(60 x 5(%0+(20×2%0=95・

なので,偶然の一致率の推定値は,

P。−9刀B。一・・475となる・

 偶然の一致率を除く工夫が組み込まれていて,

理論的に優れているのがコーエンのκ(カッパ)

係数(Cohen sκ)[2]である(「コーエンの一致係 数」と呼ばれることもある)。κ係数を求める一一 般式は,κニΣf・一Σf・あるいはκ=P・−P・であ       N一Σf.       1−Pc

る。観測された一致率Poが偶然の一致率Pcと等 しいときにκ=0,PoがPcを上回るときκ>0にな る。2名の評定(分類)が完全に一致するとき,

すなわち連関表の対角線にすべての度数が集中す るときκ=1となり,これがκ係数の最大値であ る。表1の数値例については,

κ=140−95ニ0・7−O・475ニ0.4285_となる。

 200−95   1−0.475

 Primavera et al.(1996)[3]は,名義尺度に関する

評定者間の信頼性を報告するのに,一致率ではな くκ係数を使用するよう強く推奨している。だが,

実際には一致率を用いる研究が多い。Primavera et al.は,単一事例研究(Single−case research)が多く掲 載されるJournal of ApPlied Behavior Analysis

(JABA)という学術誌の1992年25巻1号に掲載さ れた10論文について評定者間信頼性の報告の実 態を調べている。その結果,掲載された10論文す べてが評定者間信頼性を報告していたものの,そ のうち6論文では一致率しか示されておらず,κ 係数を示した論文は一っもなかったという。筆者 もJABAの2002年分を調べてみたが,事態はあま

り変わっていない。掲載されたほとんどすべての 論文が評定者による評定データを用いており,そ れらのすべてが評定者間の信頼性を報告している が,ごく一部の例外を除き,単純な一致率のみが 示されている。

 κ係数が一般化しない理由として,まず,一致 率と比べて計算が面倒であること,が考えられる。

だが,この点に関しては,SPSSを用いることで簡 単に解決することができる。SPSSの[分析]メニ ューから[記述統計]一[クロス集計表]とたど り,あらわれるダイアログボックスで[統計]ボ タンをクリックし,さらに[カッパ(κ)]を選択 するだけでよい(図1参照。あらかじめデータを 適切に入力しておくことはいうまでもない)。

 得られる値が思いがけず小さくなってしまうこ とも,κ係数の普及を妨げているのかもしれない。

質問紙検査の信頼性について0.8,0.9など,1に 近い値を見慣れている研究者にとって,低くなり がちなκ係数の値は気になるだろう。この点にっ いては,偶然の一致を排除することの必要性を含 め,一致率とは違うκ係数の特性に関する理解・

認識が研究者間で共有される必要があるだろう。

なお,ここでは触れないが,κ係数は評定者が3 名以上の場合にも拡張されている。

図1:SPSSでκ係数を求める

(4)

3.級内相関係数

 評定値が間隔尺度以上である場合の代表的な指 標が級内相関係数である。評定者が2名で,彼(女)

らがすべての対象を評定している場合には,通常 の相関係数(ピアソンの積率相関係数)を用いる こともできるが,評定者が3名以上のとき,ある いは評定者が2名であっても対象によって異なる 評定者が割り当てられているようなケースでは,

級内相関係数を用いることになる。

 級内相関は,「評定対象の変動」と「評定対象の 変動+測定誤差による変動」の比に着目するもの で,測定誤差の影響が小さいほど,1に近い値を

とる。Shrout&Fleiss(1979)[4]は, k人の評定者が

n個の対象を評定する場面を以下の3つに場合分

けしている。

 ① ランダムに選ばれたn組のk人がn個の対   象のいずれかを評定する場合

 ② ランダムに選ばれた同一のk人がn個の対   象のすべてを評定する場合

 ③ 特定のk人がn個の対象のすべてを評定す   る場合

 ①のケースは,「対象」を被験者間要因とする一 元配置分散分析モデルの枠組みから捉えることが できる。②と③は,いずれも「対象」と「評定者」

を要因とする二元配置分散分析モデルに基づく級 内相関である。②と③の違いは,評定者要因を変 量効果要因と見るか(②),固定効果要因と見るか

(③)の違いである。Shrout&Fleissは,3つのケ ースそれぞれに適した級内相関を示すために,そ

れぞれをICC(1,1), ICC(2,1), ICC(3,1)と表記

している(ICCはIntraclass Correlation CoefEcientの略)。 ICC(1,1)は双生児研究

について触れる。

3.1 1CC(2,1)とICC(2, k)

 「k人の評定者は評定者母集団から無作為に選 ばれた人たちで,彼(彼女)らが選ばれたのはた またまであった」とみなすならば,ICC(2,1)を用 いる。Shrout&Fleissの表記にしたがうと,

ICC(2,1)亭ま,

      BMS−EMS

ICC(2,1)=

     BMS+(k−1)EMS+k(JMS−EMS)/n で求められる。式中にあらわれるBMSは対象間の 平均平方,EMSは誤差の平均平方, JMSは評定者 間の平均平方,nは評定対象の個数である。

 表2:評定データの例(Shrout&Fleiss 197914】より)

﹂123456 象象象象象象 対対対対対対

︵Uハ01

 BMS, EMS, JMSは, Excelの分析ツールの[繰 り返しのない二元配置]で出力される分散分析表 から読み取ることができる。たとえば,無作為に 選ばれた4名の評定者が6個の対象すべてを評定 したデータが表2のようであるとき,これに[繰 り返しのない二元配置]を適用した出力(表3)

から,BMS=11.242, EMS=1.019, JMS=32.486で あることがわかる。以上をICC(2,1)の公式に代入 すると,

         ll.242−1.019

1cq2,1)=

       =0.290

    1・1.242+(4−1)1.019+4(32.486−1.019)/6

という結果が得られる。

表3:分散分析表 などでよく用いられるが,評定の信頼性を

求める場面での利用頻度は高くないと思

われる。ここでは,ICC(2,1)とICC(3,1)

変動要因 平方和 自由度平均平方  F P一値 対象間

対象内(評定者)

対象内(誤差)

合計

56.21 97.46 15.29 168.96

5  11.242  11.027  0.000 3  32.486  31.866   0.000 15  1.019

23

(5)

井 上 俊 哉

 ICC(2,1)は評定者一人当たりの信頼性の推定 値であるが,Shrout&Fleissは, k人の評定平均に 関する信頼性ICC(2, k)も示している。 ICC(2, k)

を求める式は,

      別昭一Eル偲1CC(2, k)=

    BMS+(JMS−EMIs)/n

である。ICC(2,1)の式と比べると分母が小さくな っており,一般にICC(2,1)≦ICC(2, k)となる(等 号はk=1のときに成立)。表2の4人の評定者の合 計に関してICC(2,4)を求めると

       ll.242−1.019

1CC(2,4)=

      =0.620

    11.242+(32.486 一 1.Ol9)/6

となる。

 以上,ICC(2,1)とICC(2, k)の式,およびExcel の分析ツールを援用してこれらを求める方法を示

したが,SPSSを使えば,以下の手順でICC(2,1),

ICC(2, k)をさらに容易に求めることができる。

 ①[分析]一[尺度]一[信頼性分析]を選ぶ。

 ②[統計]ボタンをクリックする。

 ③あらわれるダイアログボックス(図2)に   おいて,[級内相関係数]にチェックを入れ,

  [モデル]として「2元配置変量」を選び,[タ   イプ]として「絶対一致」を選んで,[続行],

  さらに[OK]をクリックする。

 これで,図3のような出力を得る。出力中,「単 一測定値」の行にある.290がICC(2,1),「平均測 定値」の行にある.620がICC(2,4)の値である。

SPSSでは級内相関の信頼区間が出力されること にも注目しておこう。

図2:SPSSで級内相関を求める

 (参考)[モデル]として「2元配置変量」を選

  ぶことの意味に簡単に触れておこう。

 ICC(2,1), ICC(2, k)では,評定者要因が変量

 効果を持つ(評定者が評定者母集団から無作   為に選ばれた)とみなされる。対象要因も変   量効果を持つとみなされるので,「2元配置変

  量」である。次節のICC(3,1),ICC(3, k)では,

  評定者要因は固定効果,対象要因は変量効果   として扱われる(固定効果と変量効果が混ざ   っている)ので,[モデル]としては「2元配   置混合」を選ぶ。[タイプ]として「絶対一致」

  と「一致性」を選び分ける点に関しては,3.3   節で触れる。

3.2 1CC(3,1)と1CC(3, k)

 「評定者として,いまここにいる特定のk人の みを想定すればよい」場合には,ICC(3,1)を用い る。Shrout&Fleissの表記にしたがうと,ICC(3,1)

は,

      BMS−EMS

Icc(3・1)=BM[9+(k−1幽

級内相関係数

8 df1 df2

 一 ス均測定値

29

D620

.019 D039

.761 D929

11,027 P1,027

55

15

P5

.000 D000 人的効果と測定効県の両方が変量であるときの二元変t効果モデル。

 a・完全一致定職を使用したタイプA級内相関係数。

 b・交互作用効果の有無にかかわらず、推定量は同じです。

図3:SPSSの出力(級内相関係数)

(6)

と表される。式中のBMSは対象間の平均平方, EMS は誤差の平均平方,kは評定者の人数である。表2 のデータに関するICC(3,1)は,表3の分散分析表 から関連する数値を選んで代入すると,

      11.242 一一 1.019

       ニ0.715

 1CC(3,1)=

     11.242+(4−1》.019 となる。

 ケース3についても,ケース2の場合と同様,k 人の評定平均に関する信頼性としてICC(3, k)が 定義されている。

     BMS−EMS

 lCC(3,k)ニ

       BMS

 表2のデータに関してICC(3,4)を求めると,

1CC(3,4)=

11.242 一 1.019

     =0.909  11.242

となる。

 SpSSでICC(3,1)およびICC(3, k)を求める手順 は,ICC(2,1), ICC(2, k)の場合とほぼ同様である

が,級内相関係数の[モデル]として「2元配置 混合」,[タイプ]として「一致性」を選ぶ点が異

なる。

 (参考)SPSSの[分析]一[尺度]一[信頼性   分析]メニューで,評定者を項目と見なして   α係数を求めたものはICC(3, k)と一致する。

3.3 一致性・絶対一致とは?

 SPSSで級内相関を求める際の選択肢「一致性」,

「絶対一致」は,McGraw&Wong[5]のいう

consistencyとabsolute agreementの区別に対応し ている。McGraw&Wongによると, consistencyで は対象相互の相対的位置の一貫性が問題とされる のに対してabsolute agreementでは,評定値間の完 全な一致が要求される。したがって,たとえば5 個の対象に対して,評定者Aが1,2,3,4,5,評定 者Bが3,4,5,6,7と評定した場合,consistencyに よる級内相関は1になるが,absolute agreementに

よる級内相関は1にならない。

 McGraw&Wongは,二元配置モデルに基づく

ICCを,「評定者要因を変量効果と見なす/固定効 果と見なす」「一致性による/絶対一致による」の 組合せで4つに分類しており,SPSSのオプション もこれに対応しているものと思われる。先に挙げ

たShrout&FleissのICC(2,1), ICC(2, k)は「評定

者要因が変量効果を持つと見なした,絶対一致に

基づく指標」,ICC(3,1), ICC(3, k)は「評定者要

因が固定効果を持つと見なした,一致性に基づく 指標」ということになる。

引用・参考文献

[1] Hubert,L. 1977 Kappa revisit ed. Psycho70gr cal   Bulletin,84(2),289−297.

[2] Cohen,J. 1960 A coe伍cient of agreement for   nominal scales. Educa・tfr)na/and Psychological   Me∂suremen t,20(1),37−46.

[3] Primavera,L.H., Allison,D.B.,& Alfonso,V.C.

  Measurement of dependent variables.  In

  R.D.Franklin, D.B.Allison,&B.S.Gorman(Eds.)

  1996L)esign and analysis Ofsi7gle−case research.

  Lawrence Erlbaum Associates., pp.41−91

[4] Shrout,P.E. &  Fleiss,J.L.  1979 1ntraclass

  correlations:Uses in assessing rater reliability.

  Psycho70gica1、Bulletin,86(2),420−428.

[5]McGraw,K.0.&Wong,S.P. 1996 Forming   inferences about some intraclass correlation

  coefHcients. Psyc/i〜o/bgica1 ルf6thods,  1  (1),

  30−46.

参照

関連したドキュメント

を軌道にのせることができた。最後の2年間 では,本学が他大学に比して遅々としていた

「臨床推論」 という日本語の定義として確立し

 仮定2.癌の進行が信頼を持ってモニターできる

大学は職能人の育成と知の創成を責務とし ている。即ち,教育と研究が大学の両輪であ

現行選挙制に内在する最大の欠陥は,最も深 刻な障害として,コミュニティ内の一分子だけ

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

最愛の隣人・中国と、相互理解を深める友愛のこころ

キャンパスの軸線とな るよう設計した。時計台 は永きにわたり図書館 として使 用され、学 生 の勉学の場となってい たが、9 7 年の新 大