• 検索結果がありません。

知られざる Pearson(1913)の Broad-Category 補正式

N/A
N/A
Protected

Academic year: 2021

シェア "知られざる Pearson(1913)の Broad-Category 補正式"

Copied!
22
0
0

読み込み中.... (全文を見る)

全文

(1)

0.カテゴリー尺度による相関係数の問題

Pearsonは1896年に相関係数を提案した後,相関係数の様々な変化形や問題点に対して検討を行っ

ており(椎名,2017),その中の一つに,Broad categoryの研究がある(Pearson, 1913)。彼によ ればBroad categoryとは one of a finite small number of groups into which we class a variable. For example: we may divide General Health into the categories Very Robust, Robust, Normally Healthy, Rather Delicate, Delicate and Very Delicate. (p. 116)であり,現在のLikert尺度を含む順序付きカ テゴリー尺度に相当しよう。Pearsonの相関係数はデータの連続性を前提とするから,Broad catego- ryは相関係数の計算値に影響するはずである。本稿の目的は,重要な問題を扱っているのにもかか わらず,ほとんど言及されないPearson(1913)の論点を整理・紹介することにより,21世紀にはいっ ても解決されていない「カテゴリー尺度の妥当性問題」の理解に貢献することである。

本稿での数式番号(i),(ii),……は元論文によるものであり,本稿の著者によって付け加えら れた数式には(KS1),(KS2),……等の番号を付けることにする。この論文でPearsonは,随所で やや奔放な展開を行い,さらに用語や記号の使用法も揺れているため,論旨をつかむのはなかなか やっかいであるが,4つの部分に整理できそうである。すなわち

1:相関と偏相関の理論を使って相関係数補正の理論式(ix, p. 118)を導出する部分

2: 切断正規分布の理論を用いて相関係数補正の計算式(xii)を導出する部分(ただしPearson

は切断正規分布という用語を用いていない)

3:様々な補足・数値的確認と理論的詰め Sheppardの補正式との関係

4:実データ解析の例

である。以後の記述では,原論文の表現を変更した場合がある。また,時代の制約により,Pearson は母数と標本統計量を区別しないが,この傾向は本稿にも引き継がれているのに留意されたい。

知られざる Pearson(1913)の Broad-Category 補正式

―カテゴリー尺度による相関係数の問題―

椎名 乾平

(2)

さて「真の」連続変数 が存在する時,Broad categoryを使用してデータを得るならば,情 報が省略されることになるから,相関係数の劣化,特に絶対値の減少が,予想される。データとし て与えられるのはグループ化や丸め処理の結果,変数 が 個の(順序付き)クラスのどれかに,

変数 が 個の(順序付き)クラスのうちどれかに,割り当てられた結果である。従って,デー タは の分割表(相関表)の形で与えられる。Pearson(1913)は潜在2変量正規分布を仮定 した上で

(ix)

という補正式の提案をしており(p. 118), が推定されるべき真の相関であり,この式がこの論 文の最も重要な結果である。 は,クラス のクラス評点(Class-markあるいはClass index)と 呼ばれ,また, はクラス評点を用いた相関(論文の途中からClass index correlationと呼ばれ ている。Egon Pearson, 1923も参照), , は真の得点 とクラス評点との相関である。

クラス評点とは耳慣れない用語であるが,冒頭の引用のとおり,現在「カテゴリースコアー」と 呼ばれているものに事実上等しい。したがって現在ならば,クラスの中央値を与えたり(Sheppard, 1897),整数を与えたり(Likert, 1932),最適得点を与えたり(Lancaster, 1958)するオプションが 考えられるが,Pearsonは 番目のクラスのクラス内平均値を としたとき,この平均値をクラ ス評点とするのが自然(reasonable, p. 116)という。このような場合 と書く。

さて は直接観測できないので(ix)式の評価には工夫が必要である。(ix)の導出を示す前に,

まず(ix)式に含まれる様々な変数について調べてみる必要があろう。

1.(ix)式に現れる様々な変数

は直接観測できる量ではないが,仮に観測できたとして,真の得点とクラス評点の相関 を 求めてみる。 は に中心化されているとする。相関係数の定義より

であるから,右辺の各項を求める必要がある。 を 番目のクラスの 番目のデータとし, を クラス に含まれるデータ数とするとき( ,ただし はすべてのデータペアー数),

(クラス内平均)

(クラス評点の分散)

(3)

ここで,クラス内平均をclass indexとするなら , となるので

(ii)

(真の得点とクラス評点の共分散)

であるが,クラス内平均をclass indexとするなら

(KS1)

(真の得点の分散をクラス内平均を用いて表現)

(KS2)

となる。この式より なので,クラス化すると分散が小さくなるというやや逆説的な性質 が読み取れる。

以上の結果より

  

(i)

となる(ちなみにこれは相関比の平方根と同じである)。同様に である.

(クラス評点間の相関)

  を相関表で が 番目のクラス, が 番目のクラスである時の観察頻度とし,このセルに 対応する長方形領域での の平均値を,それぞれ としセルワイズ平均と呼ぶ(付録B,

定理4参照)。クラス評点間の相関は単純に考えれば

(KS3)

(4)

であり,クラス内平均をclass indexとするなら(ii)を用いて

(KS4)

とできそうだ。(KS3)(KS4)は現在,評定尺度を用いた相関係数の計算に使われている形に最も 近い。しかし,Pearsonこの式を当然と考えず,まずセルワイズ平均を用いて

(x)

という形を提案する。

 以上の解説中の, 等はデータから直接計算できる量ではないので,これらの結果 はとりあえず理論式と考えるべきであろう。

(ix)は(i)を用いると以下のようにも変形でき,

さらに が仮定できれば

(Pearsonの(xii)の別表現,KS5)

と書くこともできる。(KS5)では,通常,標準偏差の積である分母が,分散の積になっているの に注目されたい。

2.理論式(ix)の導出

さて,(ix)式はどのように導かれたのか? Pearsonは(ix)式を導出するための2つの方法を 示している。第1の方法(p. 117–118)は直感的な説明と共に与えられており,まずPearson は

(iv)

が成立すると断言する。また

(viii)

も成立するものと断言する。そして,この二つの式を組み合わせるとPearsonの補正式

(5)

(ix)

が容易に導き出される。ただし(iv)(viii)の証明はなく,簡単な説明があるが,この説明は必ず しも明快ではない。(iv)の証明は付録Bに示した。一方(viii)は必ずしも成立せず,注意が必要 なのをやはり付録Bに示した。

(ix)式はLikert方式のアンケートなどで得られるデータから相関係数を推定する時に極めて重 要と思われるが,Pearsonの高名にもかかわらず,現在使用されていないどころか存在も知られて いない。その理由の一つは,どうも(iv)式の根拠となっている,“Then clearly since a given will have a constant class-mark, the correlation of and for a constant is zero (1913, p. 117)とい

うPearsonの説明法が強引で誤りを含む点にありそうである(ここでのPearsonの説明は不適切

かもしれないが,それでも結果として(iv)は正しい。付録A参照)。例えば,Wis´niewski(1935, 1936)もPearsonの断言に対して疑問を投げかけている。これに対してPearson(1935)は no doubt of the absolute truth (p. 369)と反論はしている。

(ix)式を導出する第2の方法は偏相関を用いるものである(p. 118の脚注†)。まず偏相関係数 の性質より一般に

となる(例えば,池田(1976, p. 186) 参照)。ここでさらに分子を変形すると

ここで変数を置き換えて

とし,さらに分子に注目すると,(iv)より なので

(尚,Pearsonの導出にはミスプリがある)。Pearsonはこの式が0になると主張するがその根拠

(6)

は明瞭ではない。だが,Pearsonの主張を認めれば,直ちに

(ix)

が導かれる。

Peters and Van Voorhis(1940, Pp. 393–403.)はPearson(1913)を引用せずに,補正に必要な係 数の数値表(p. 398, Table XXXIII)を示しているが,これはPearson(1913)のp. 121の表の数値 と実質的に同じものである。Peters and Van Voorhisが不勉強といってしまえばそれきりだが,一 つの要因としては冒頭に述べたとおりPearson(1913)が晦渋なせいもあるかもしれない。

(iv)から導かれる性質 さて

(iv)

が成立するならば

(KS6)

が成立し,これは, から を予測する回帰係数と から を予測する回帰係数がぴったり同じ になるのを示す。

また,(iv)が成立するならば

も成立しなければならないので,

(KS7)

が成り立たねばならず,従って, から を予測する回帰係数と から を予測する回帰係数も ぴったり同じになる必要がある。

(iv)の別解

(KS6)(KS7)が切断正規分布の一般的性質であることを示し,それを通じて(iv)を示すこと ができる。基準化された2変量正規分布を縦輪切りにして,各輪切り内の の平均と, の平均 の間の関係を考えると 付録A(A6式)で示すように, という関係が成立する(Arnold, Beaver, & Groeneveld, 1993, p. 474も参照)。一方,切断される前の2変量基準正規分布の回帰直線 は であるから,両者の回帰直線は等しいことがわかる。 すなわち

の回帰係数は等しいことになり,ここから(iv)が成立する。

(7)

一方(viii)については,付録Bに示すように,この条件がどのようなデータでも成立すると言 うのは誤りであろう。従って(ix)の一般的妥当性は保証されず,この問題はその後100年以上に わたって放置されてきたようである。少なくとも,類似した用途の公式である,Spearmanによる 相関の希薄化修正公式と比べると,ほとんど何の進展もないと言うべきであろう(椎名,2017)。

2.計算式(xii)の導出

さて, の分割表(相関表)から,どのようにクラス評点を求めればよいのだろうか? 元の連 続変数に対してクラスの下限 と上限 が与えられており,かつ が と中心化されている ならば,切断正規分布の理論(付録A)より,

(KS8)

である。はっきりとは書かれてはいないがp. 131の「服装と知能」相関の計算例を見ると,

Pearsonは真の変数(潜在変数)が基準正規分布に従うと仮定した上で,データの累積分布よりク

ラスの境界点(閾値)の スコアーを求め,この境界点をクラスの下限 ,上限 として を求 めている。すなわちPearsonは という推定値を用いて

(KS9)

を求め,これをクラス評点としている。一方 であるから, が中心化され ている条件下で(KS9)を代入すると

(KS10)

従って(i),(KS9)より

 (iii)

となる。ここで が消えたのに注目されたい。

次に (これは1913年の論文の中ほどよりClass index correlationと呼ばれている。Egon Pearson(1923)も参照されたい)を求めてみると,先に述べたとおりPearsonは

(8)

(x)

とする。さらに と仮定できるならば(この仮定についてPearsonは慎重である),

(KS4)すなわち

(KS4)

が得られ,さらに(KS9)(KS10)を代入して

(KS11)

が現れる。上式は順序カテゴリーによってデータが与えられた時の相関計算においてもっと注目 されてもいい式で,これだけでも補正式として機能する。

ここで,さらに(ix) を認め,これに(iii)と(KS11)を代入すれば,Pearsonの 与えた最終的計算式

(xii)

が導かれる。ただし(xii)の変域は[−1,1]にならないように思われる。

(xii)は(iv),(viii),(x),及び という仮定,を組み合わせて導かれたものであ り(viii)を含むので危険な式である。一方,付録Aに示すとおり,切断正規分布の理論を用いれば,

(viii)を含んでいない(x)式を直接計算することができる。しかしPearsonは を求める

(9)

式には到達しなかったようである。実際に(x)式を計算してみると優れた性能を示すのがわかる。

それどころか,ややover-correctionになる傾向さえ見て取れる。その原因の一つは(KS2)に示し たとおり,クラス化すると分散が減るためかもしれない。

最後に,簡単なシミュレーションの結果を紹介する。基準2変量正規分布で あるいは とし,変数Xを3つのクラス,変数Yを4つのクラスに分割し,Xのクラス境界値を−1.5, 1.5, Yのクラス境界値を−1, 0, 1と定め,10000個の正規乱数を発生させて3×4の分割表を作り,この 分割表から母相関の復元を試みた。その結果

の場合,クラス得点に連続整数を割り当てる(Likert方式)

Pearsonの補正式(xii)を用いる

の場合,クラス得点に連続整数を割り当てる(Likert方式) 

Pearsonの補正式(xii)を用いる

となり,Likert方式と比べて良い推定値を与えてくれた。本シミュレーションでは が成 立しているので,付録B最後で示すとおり,予想どおりの結果とも言えるが,しかしこの推定誤 差のレベルが大きいのか小さいのかはにわかに判定できない。ちなみに。多分相関係数(Olsson, 1979)を用いると,母数に非常に近い推定値を得ることができた。何にしても,本格的な数値実験 を行ってみる価値はありそうである。

付記

本研究の一部は,科研費23530871(代表者 椎名乾平),16H02050(代表者 坂上貴之)の援助 を受けた。

[References]

Arnold, B. C., Beaver, R. J., & Groeneveld, R. A. (1993). The nontruncated marginal of a truncated bivariate normal distribution. Psychometrika, 58, 471–488.

池田 央(1976).統計的方法Ⅰ 基礎 新曜社

Lancaster, H. O. (1958). The structure of bivariate distributions. The Annals of Mathematical Statistics, 29, 719–736.

Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 140, 1–55.

蓑谷 千凰彦(2012).正規分布ハンドブック 朝倉書店

Olsson, U. (1979). Maximum likelihood estimation of the polychoric correlation coefficient. Psychometrika, 44, 443–460.

Pearson, E. S. (1923). The probable error of a class-index correlation. Biometrika, 14, 261–280.

Pearson, K. (1913). On the measurement of the influence of “Broad Categories” on correlation. Biometrika, 9, 116–139.

Pearson, K. (1935). On the corrections for broad categories, being a note on Mr Wis´niewski’s memoir. Biometrika, 27, 364–372.

Peters, C. C., & van Voorhis, W. R. (1940). Statistical procedures and their mathematical bases. New York: McGraw-Hill.

Sheppard, W. F. (1897). On the calculation of the most probable values of frequency constants for data arranged according to equidistant divisions of a scale. Proceedings of the London Mathematical Society, 29, 353–380.

椎名乾平(2017).相関係数の起源と多様な解釈 心理学評論,59.

Wis´niewski, J. (1935). On the validity of a certain Pearson’s formula. Biometrika, 27, 356-363.

Wis´niewski, J. (1936). On the validity of a certain Pearson’s formula-A rejoinder. Biometrika, 28, 190–192.

(10)

付録 A 切断正規分布の統計量と各種性質

正規分布 の の範囲のみ残し,残りの部分を無視したものは切断正規分布 と呼ば れ(蓑谷,p. 230), を正規分布の確率分布関数としたとき,確率密度は , 元の正規分布が 〜 の場合における の

平均は  (A1)

分散は  (A2)

で与えられる(蓑谷, p. 231)

以下,正規分布は基準化されているとすると,2変量正規分布の確率密度関数と分布関数はそれ ぞれ

  

であり,周辺分布は

である。条件付き分布は

となり,前者は 〜 ,後者は 〜 と解釈できる。

領域 で定義された切断正規分布の確率密度関数は

   (A3)

ここで である。簡単のために として,周辺分布を

求めると

(11)

同様に

(A4)

条件付き確率は

だが,指数部分は

なので

となる。

●期待値の計算 期待値を求めるために

に部分積分 を行うと

となる。上式の積分部分をどうするかだが,ここで以下のような変数入れ替えが可能なのに留意し,

(A5)

(12)

同様に ,さらに 

に留意すると,積分部分は

となるので,これを代入し整理すると

となる。同様に

である。変域を定めることにより以下のような結果が得られる。

これより   ただし (A6)

  ただし

が得られる。

●分散の計算 一般に

(13)

この性質と(A4)を用いると,

ここで変数入れ替え(A5)を行うと

こ こ で

   

の 部 分 に 注 目 す る と

   

と お い た と き

は切断正規分布の期待値であり,(A1)を用いて

(14)

となる。そこで

となる。 も同様。これらの結果を元の式に代入し整理すると

が得られる。分散は で与えられる。ここで とすると

従ってこの場合の分散は  である。

(15)

●共分散の計算

ここで,先ほどと同様に として

なので

(A5)による変数入れ替えを行うと

ここで再び切断正規分布の平均値を用いると, として

(16)

同様に

なので,これらを代入すると

さらに, に対する先ほどの結果に対応して

なので,これを代入すると

(17)

1/γをくくりだして整理すると

結局

となる。共分散はこの結果を用いて, で与えられる。

なお,変域を とすると

(18)

付録 B 切断正規分布の理論を用いて(iv)の証明し,また(viii)の意味を解明する。

記号の用法は概ね付録Aと同じである。XにはP個のクラスが,YにはQ個のクラスがあるとする。

Xのクラス境界値を Yのクラス境界値を

とし,領域 をクラスs, 領域 をクラスtと呼ぶことにする。 等を既 に定義されているクラス評点とし,クラス評点がXのクラス評点かYのクラス評点かを区別する ために状況によって という記号を用いる。

は階段状の関数であり領域 で ,領域 において とする。

とする。すると

(最終式は定理2を先取りしている)

ここで は,クラスsで定義された分散で,級内分散に相当する。以上のような設定下で 成立する定理を列挙する。

定理 1

定理 2

(19)

定理 3

同様に  

定理 4 クラスsとクラスtの直積で定義される長方形領域 上での 2次元切断正規分布の平均値を とし,セルワイズ得点(あるいは平均)と呼ぶことに

する。すなわち として

また同様にクラス得点を と書

く。すると

証明  のみ証明する。他も同様である。さて付録Aより

ただし

である。変数を書き直すと

(20)

定理 5 定理4と(A6)と定理2を最終行で用いると

定理 6 最終行で定理5を用いると

従って

(21)

を得る。この関係を手掛かりに新しい補正式を導けそうであるが,詳細は検討中である。

●(iv)式の証明

(iv)式は偏相関係数 と同値である。この偏相関係数を残差間の相関と捉えると,

を回帰係数として,残差の共分散を  と置くのに等しい。

ここで である。さて 空間を縦方向に分割し

のように区分ごとに積分を行う。ここで任意の区分

に注目し, とする。付録Aの結果を用い,また に留意すると

となる。X上のすべての区間で同様の結果となるので, の分子は0となり(iv)式が成立する。

●(viii)式の解釈

(viii) の 意 味 を 切 断 正 規 分 布 を 用 い て 解 釈 す る。(viii) は, 偏 相 関 係 数 と同値である。そこで,上の証明と同様に,この偏相関係数を残差間の相関と捉えると,

になるはずである。ここで回帰係数 は,

である。すると

(22)

と の 条 件 下 で(viii)と同値の関係(下記参照)が再現されるだけである。そこで(viii)

の各項を見直してみると定理3,定理5より

で あ る か ら, が 成 り 立 つ な ら,

確かに であり, ならば と

なる。しかし,そもそも が常に成立するかどうかは定かでないので,従って(viii)

は証明するべきことを仮定し,その仮定から導き出されたある関係を述べたものと解釈できる。

参照

関連したドキュメント

式目おいて「清十即ついぜん」は伝統的な流れの中にあり、その ㈲

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o

賠償請求が認められている︒ 強姦罪の改正をめぐる状況について顕著な変化はない︒

3  治療を継続することの正当性 されないことが重要な出発点である︒

  支払の完了していない株式についての配当はその買手にとって非課税とされるべ きである。

神はこのように隠れておられるので、神は隠 れていると言わない宗教はどれも正しくな

を負担すべきものとされている。 しかしこの態度は,ストラスプール協定が 採用しなかったところである。