社会システム分析のための統合化プログラム7 ― 多変量解析 ―

(1)

社会システム分析のための統合化プログラム７

― 多変量解析 ―

福井正康・細川光浩

福山平成大学経営学部経営情報学科

概要

我々は教育での利用を主な目的に、社会システム分析に用いられる様々な手法を統一的に扱うプログラムを作成してきたが、今回は多変量解析のうち、重回帰分析、判別分析、主成分分析、

数量化Ⅰ類、数量化Ⅱ類、数量化Ⅲ類をシステムに組み込んだ。この論文では各分析について統計量の定義を示し、プログラムの操作法を説明している。

キーワード

社会システム分析，OR，統計，多変量解析，重回帰分析，判別分析，主成分分析，数量化理論，

ソフトウェア，統合化プログラム

URL: http://www.heisei-u.ac.jp/~fukui/

(2)

１章はじめに

我々はこれまで主に教育を目的に、様々な分析手法をプログラム化してきたが^1-5)、多変量解析は統計分析の基礎であり、社会システム分析に関する統合ソフトウェアを作成する際に避けて通ることはできない手法である。今回我々は、重回帰分析、判別分析、主成分分析及び、数量化Ⅰ，

Ⅱ，Ⅲ類に関するプログラムをシステムに組み込んだ。これらの分析を選んだ理由は、量的データとカテゴリデータとの対比という意味で、重回帰分析と数量化Ⅰ類、判別分析と数量化Ⅱ類、

主成分分析と数量化Ⅲ類について類似性が見られるからである。これらはいずれもよく知られており、テキスト類も豊富であることから、ここではプログラムで利用した統計量についての定義を中心に解説し、その後で分析画面と出力画面を例示することにする。

我々は初心者への対応を重視し、分析画面や出力画面について、要点は押さえつつ、できるだけ簡素化することを心掛けた。一度のクリックで結果が表示されることはこれまでの分析と同じである。しかし、多くの統計分析用のソフトウェアが世に出ている現在、利用者からの批判も多いと思われる。どの程度分析を取り入れて、分かり易さを残すか、難しい問題である。平成１３年度後期から一部の分析を卒業論文や大学院の講義で利用しており、一応の評価は得られている。

今後平成１４年度からセミナーや学部の講義で本格的に活用する予定である。

２章重回帰分析

重回帰分析は、目的変数を複数の説明変数の線形回帰式で予測する手法である。データは以下の表2.1の形式で与えられる。

実測値は以下のような１次式と正規分布する誤差



_で与えられるものと考える。



    

 0

1

b x b y

p

i i

i ，



_

~ N ( 0 , 

²

)

^{分布［異なる}



^{について独立］}

線形回帰式は偏回帰係数

b

_i^，

b

₀を用いて、以下の形で与えられる。

0 1

b x b Y

p

i i

i



 

 



これらの偏回帰係数は実測値と予測値のずれの2乗和

EV

が最小になるように決定される。









ⁿ

y Y EV

1

)

2

(

   最小化

即ち、

b

_i^と

b

₀^{についての}

EV

^{の微係数を}0とおいて以下の式を得る。

i y

b

i

 ( S

^¹

S )

^，









^p

i i i

x b y b

1 0

表2.1 重回帰分析のデータ

目的変数説明変数

1

… 説明変数p

y

1

x

₁₁ ^…

x

_p₁

y

2

x

₁₂ ^…

x

_p₂

：：：

y

n

x

₁_n ^…

x

_pn

(3)

ここに、

S

^¹は説明変数の共分散行列

S

^{の逆行列、}

S

_yは目的変数と説明変数の共分散ベクトルである。







 



ⁿ _i _i _j _j

ij

x x x x

n

₁

( )( )

1 ) 1

(

  

S

^，







 



ⁿ _i _i

i

y

y y x x

n

₁

( )( )

1 ) 1

(

  

S

偏回帰係数は変数の平均や分散によって影響を受け、係数の重要性が分かりにくいが、データを以下のように標準化して重回帰分析を行なうと変数の影響力の強さがはっきりと示される。ここに

s

_y²^，

s

_i²は目的変数及び説明変数

i

^{の不偏分散である。}

s

y

y y

_

 y

^



~

_，

i i i

i

s

x x

_

 x

^



~

これらの新しいデータ

~ y

__と



x

i

~

で作った重回帰式の偏回帰係数

b ~

_i

を標準化偏回帰係数と言い、回帰式は以下のように表わされる。





^p

i i i

x b Y

1

~ ~

~



標準化偏回帰係数と偏回帰係数との関係は

b ~

_i

 b

_i

s

_i

s

_y

で与えられる。

重相関係数

R

は実測値と予測値の相関係数であり、以下のように与えられる。

) (

_y _Y

yY

s s

s R 

ここに、

s

_yY^は実測値

y

^と予測値

Y

^{の共分散、}

s

²_y^と

s

_Y²は実測値と予測値の不偏分散である。







 



ⁿ

yY

y y Y Y

s n

1

) )(

1 ( 1

   ,





 



ⁿ

y

y y

s n

1

2

( )

1 1

  ,





 



ⁿ

Y

Y Y

s n

1

2

( )

1 1

 

実測値の全変動

SV

^{は回帰変動}

RV

^{と残差変動}

EV

の和として表わされる。

RV EV Y

Y Y

y y

y SV

n n

n

      

   



 1

2 1

2

( ) ( )

) (

 

  

 

全変動に占める回帰変動の割合は、予測値が実測値を説明する割合を表わしていると考えられ、

その値を寄与率という。寄与率は重相関係数の 2 乗に等しいことが示されるので、記号

R

²^で表

わすことにする。

V S RV R

²



寄与率や重相関係数の値は説明変数の数が増えれば大きくなることが知られており、これを緩和するために以下のような自由度調整済み重相関係数

R

^{が考えられている。}

) 1 (

) 1 1 (



 

 SV n

p n R EV

重回帰式の有効性は回帰変動と残差変動を比べて、回帰変動が十分大きいことが重要で、この検定には、以下の性質が利用される。

(4)

1

~

,

) 1

(  

^ ^

 F

_p_n _p

p n EV

p

F RV

^分布

重回帰式全体の有効性とは別に、それぞれの偏回帰係数の有効性も検討される。これらは偏回帰係数が

0

と異なることを示して確かめられる。この検定には以下の性質が利用される。

 0

b

i ^の検定

~

₁

) 1

(  

^ ^



_n _p

ii i

i

t

p n EV a

t b

^分布

0

 0

b

^の検定 ₁

1 1

0

~

) 1 1 (



 



 





 

 





p p n

i p

j

ij j i

t p

n EV a x n x

t b

^分布

ここに

a

^ij^は

A  ( n  1 ) S

^{としたときの行列}

A

^の逆行列

A

^¹^の

i, j

^{成分である。}

説明変数

i

を除く他の説明変数で作った

x

_i_の予測回帰式を以下のように書く。

) ( 0 )

( 1

) (

1 1 ) (

1 1

) ( 1

i p i p i

i i i i i i

i

b x b x b x b x b

X

_



_

  

_ __



_ __

  

_



また、説明変数

i

を除く他の説明変数で作った目的変数の予測回帰式を以下のように書く。

) ( 0 )

( 1

) (

1 1 ) (

1 1

) ( 1

i p i p i

i i i i i i

i

b x b x b x b x b

Y

_

 

_

   

_ __

 

_ __

   

_

 

実測値からこれらの予測値を引いた値をそれぞれ

x

_i_^，

y

_i_^として、



 i i

i

x X

x   

^，

y

_i



_

 y

_

 Y

_i_^，

この

x

_i_^と

y

_i_の相関係数を偏相関係数と呼び、

r ~

_iyで表わす。偏相関係数は他の変数の影響を除いた相関係数と見ることができ、以下のように表わすこともできる。

yy ii iy

iy

r r r

r  

~

ここに

r

^iy,

r

ⁱⁱ,

r

^yy は、目的変数と説明変数を合せた相関行列

R

^の逆行列

R

^¹^{の成分である。}

 







 









1 1

1

1 1

1











p py

p y

yp y

r r

R

^，

 







 











pp p

py

p y

yp y

yy

r r

r

r r

r

r r

r











1

1 11

1 1

R

1

具体的な分析画面を図 2.1 に表わす。「相関行列」ボタンでは目的変数と説明変数を含んだ相関行列

R

が表示される。その際、相関係数を0と比較する検定の確率値も表示される。「重回帰分析」ボタンでは、テキスト画面とグリッド画面の２つのウィンドウが開き、分析結果と分散分析表が表示される。これらは図2.2と図2.3に示される。「予測値と残差」ボタンでは、図2.4のように各レコード毎の実測値、予測値、残差が示される。また、「実測／予測値の散布図」ボタンでは、図2.5のように実測値と予測値の散布図が描かれる。

(5)

図2.1 重回帰分析画面図2.2 重回帰分析出力画面

３章判別分析

判別分析は外的基準によって群別に分類されたデータから、群を判別するための線形（場合によっては 2 次）関数を見出すことを目的としている。データは例えば2群の場合、表3.1のような形式で与えられる。

変数の一般的な表式

x

^_i_^{において、}



^{は外的基準（群）、}

i

^は変数、



^{はレコード番号を表わ}

す。ここでは、最初に2群の場合の理論について考える。

２つの群

G

₁^と

G

₂^{について、群}

G

₁

 G

₂^から、

G

_^（

  1 , 2

）の要素を取り出す確率を

P

_

とし、

G

_^の要素を

G

_^（

  

^{）と誤判別する損失を}

C

_^{とする。また、群}



^{の確率密度関}

図2.3 重回帰分析分散分析表

図2.4 予測値と残差

図2.5 実測値と予測値の散布図

表3.1 判別分析のデータ（2群の場合）

群1 群2

変数1 … 変数p ^変数1 … 変数p

1

x

11 …

x

¹_p₁

x

₁₁² _…

x

²_p₁

1

x

12 …

x

¹_p₂

x

₁₂² _…

x

²_p₂

：：：：

1 1n₁

x

… ¹

pn1

x

₁²

n2

x

_… ²

pn2

x

(6)

数を

f

_

(x )

^{とすると、}

G

_^の要素を

G

_^{と誤判別する確率}

Q

_^{は以下となる。}





 

 _R

f d

Q ( x) x

ここに領域

R

_^は、

R

_^{内の要素を}

G

_の要素と判別する領域である。これから、誤判別による損失

L

は以下のように与えられる。

















 ₂ ₁

1

1 2

)]

( )

( [

) (

) ( )

(

1 1 21 2

2 12 1

1 21

2 2 12 1

1 21

12 2 12 21 1 21

R R

R

R R

d f P C f

P C d

f P

C

d f P C d f P C

Q P C Q P C L

x x x

x x

x x x

x

これより、損失を最小にするためには

R

₁^として第2項の被積分関数が負になる領域を選べばよい。

即ち各群の領域として、以下のような領域を考えれば良いことが分かる。

} 0 ) ( )

(

|

{

₁₂ ₂ ₂ ₂₁ ₁ ₁

1

 x C P f x  C P f x 

R

^，

} 0 ) ( )

(

|

{

₁₂ ₂ ₂ ₂₁ ₁ ₁

2

 x C P f x  C P f x 

R

これを

h  C

₁₂

P

₂

C

₂₁

P

₁として書き換えて、以下のような条件を得る。

} log ) ( ) ( log

|

{

₁ ₂

1

f f h

R  x x x 

^，

} log ) ( ) ( log

|

{

₁ ₂

2

f f h

R  x x x 

ここに、

log h

を判別の分点という。

今、群



^の変数

i

^の平均

m

^_i ^{と各群共通な共分散}

s

_ijをそれぞれ以下のように求め、





^

 



 ⁿ

i

x

m n

1

，



 



 

 

²

1 1

2 1

) )(

1 ( 1

 







 n

j j i i

ij

x m x m

n

s n

^，

これらを成分とする平均ベクトル

m

^^{と共分散行列}

S

を用いて、以下の多変量正規分布の確率密度関数を考える。

 

    

 ( )

^

( )

2 exp 1

|

| ) 2 ( ) 1

(

^ ¹ ^



 S x m S x m

x

^t

f

k

これを判別関数に代入して以下の線形判別関数を得る。

) (

) 2 (

) 1 (

) ( ) ( log

2 1 1 2 1 2

1 1

2 1

m m S m m m

m xS

x x











 t

t

f f z

これから、

z  log h

^のとき群1と判定し、

z  log h

^のとき群2と判定する。

変数

z

^{の確率分布は、個体}

x

^が群1に属するか、群2に属するかに応じて、以下のような正規分布に従うことが知られている。

) , 2 (

~ N D

²

D

²

z x  G

₁^の場合

) , 2 (

~ N D

²

D

²

z  x  G

₂^の場合

ここに、

D

²はマハラノビスの平方距離と呼ばれ、以下で定義される。

(7)

) (

)

(

¹ ² ¹ ¹ ²

2



^t

m  m S

^

m  m

D

この性質から誤判別の理論確率は以下で与えられることが分かる

 

 



 

 



 



  

  D

D Z h

D dz D z D

Q

^h

log 2

2 ) 2 exp (

2

1

²

log

2 2 2 21 2



 

 



 



 



 



  

  z D D dz Z h D D

D

Q

h

2 1 log

2 ) 2 exp (

2

1

²

log 2

2 2 12 2



これは判別分析の有効性を示している。

判別分析では、判別関数の係数についてもその有効性を検定できる。変数

i

^の係数が0であるかどうかの検定は、以下の性質を利用する。

1 , 2 1 2 1 2

1 2 1

2 2 2 1 2

1

2

~

1

) 2 )(

(

) (

) 1 (











 

_n _n _p

i i

i

F

D n n n

n n n

D D n n p n

F n

^分布

ここに、

D

_i²^{は両群の変数}

i

を除いたマハラノビスの平方距離である。

以上のように線形判別関数で表わされる判別分析が実行可能な条件は、分布が多変量正規分布に従うことに加えて2群の共分散が等しいことである。この検定には以下の性質が利用される。

2 2 ) 1 1 (

2 1 1

2 2

2 1 2 1

2

~

|

| log | ) 1 ( 6

1 3 2 2 1 1

1 1 1 1

2 1

 





 

 









 



 







 

 

 



n n p p

n n

p p p n

n n

n 

 　

S S

S

_分布

ここに、

S

^^は群



の共分散行列である。

３群以上の判別には以下の判別関数を考え、

z

_^{が最大になる群}



に属するものと判定する。



 



 

C P

z

^t ^t

log

2

1

 

 xS

^

m m S

^

m

但し、

C

_^は群



を他の群と間違えた場合の損失である。上で与えた2群の場合の判別関数はこの判別関数を用いて、

z  z

₁

 z

₂として求めることができる。

具体的な判別分析画面を図 3.1 に示す。データの形式は、先頭列で群分けする場合と最初から群分けされている場合が扱える。但し後者の場合、予め群の数を入力しておかなければならない。

各群の生起確率や誤判別損失の値は、オプションボタンの「指定する」を選び、テキストボックス内に値をカンマ区切りで入力することによって、自由に設定することができる。但し、確率の値は合計が1になることが必要であるので、無限小数の場合は1/3のように、分数で入力する。

また2群の判別の場合、「等共分散の検定」で等共分散性を調べることができる。

図3.2に「等共分散の検定」の出力結果を示す。図3.3と図3.4に2群の判別分析と判別得点の出力結果を示す。判定は判別得点を判別の分点と比較して決定される。比較のために同じデータを用いて3群以上の判別のプログラムを実行した出力結果が図3.5と図3.6である。本来は3群以上で利用すべきであるが、2群の判別で用いても問題はない。

(8)

４章主成分分析

主成分分析は、変数の1次結合により、新しい意味付けのできる特徴的な変数を作り出すことを目的としている。この新しい変数を主成分と呼ぶ。

主成分分析のデータ形式は表4.1で与えられる。

我々は新しい変数として以下の1次式を考える。





^p

i i i

x u y

1



特徴的な変数とは、データの変化に最も敏感であることと考え、係数

u

_i^は変数

y

^{の不偏分散}

s

²^が

図3.1 判別分析画面

図3.2 等共分散の検定

図3.3 判別分析実行画面（2群形式）

図3.4 判別得点（2群形式）

図3.5 判別分析実行画面（3群以上形式）図3.6 判別得点（3群以上形式）

表4.1 主成分分析のデータ変数1 変数2 … 変数p

x

11

x

₂₁ …

x

_p₁

x

12

x

₂₂ ^…

x

p2

：： … ：

x

₁n

x

₂_n …

x

_pn

(9)

最大になるように求める。但し、スケールの自由度を無くすため係数に^t

uu  1

^{の制約を付ける。}

ここに

u

^は成分が

u

_i^{の縦ベクトルである。}

不偏分散

s

²^{は係数ベクトル}

u

^{と共分散行列}

S

を用いて以下のように与えられる。

t

uSu

n

y n y

s  

  

1

2

( )

1 1

  ，







 



ⁿ _i _i _j _j

ij

x x x x

n

1

) )(

1 ( ) 1

(

  

S

この制約付き最大化問題は、Lagrangeの未定定数法を用いて以下の量

L

^{の極値問題となり、解}

は行列

S

の固有方程式で与えられる。

) 1

( 





^t

uSu

^t

uu

L 

^→

Su   u

この最大固有値に対する固有ベクトル

u

^{を用いて作られた変数}

y

^を第1主成分といい、順次固有値の大きい方から第2主成分、第3主成分と呼ぶ。一般に

p

^{変数の場合、第}

p

^{主成分まで選ぶ}

ことができる。

係数

u

_iは変数の平均や分散から影響を受けるので、変数を標準化して分析を実行する場合も多い。この場合固有方程式は相関行列

R

を用いて上と同様に与えられる。

u Ru  

正規化された固有ベクトルを求めることは、線形変換における座標回転の角度を決めることを意味する。即ち、主成分分析は、座標回転によって最も分散の大きな主軸を選び、さらにその主軸に直交し、分散が最大になるような軸を次々と定めてゆく方法である。

これらの固有方程式の第

a

^固有値



_a^{に対する固有ベクトル}

u

^aの成分を以下のように表わす。

) (

₁â ₂â â_p

a

t

u  u u  u

固有値



_a^は第

a

主成分の分散を表わすことが知られている。このことから、全分散

s

²^に対す

る第

a

^{主成分の分散の割合}

c

_aは以下で与えられ、寄与率と呼ばれる。

i p a i

c

a

 

1





因子負荷量

r

_ai^は第

a

^{主成分と変数}

i

の相関係数として与えられるが、これは共分散行列と相関行列を元にした場合に分けて、それぞれ以下のような形に表わされる。

i a i a

ai

s

r  u



（共分散行列から），

r

_ai

 

_a

u

_i^a^{（相関行列から）}

ここで

s

_i²^は変数

i

^{の不偏分散である。}

主成分得点

y

_^a^{は個体毎の第}

a

主成分の値として以下のように定義される。





^p

i i a i

a

u x

y

1



主成分分析において主成分を区別するためには、その固有値の大きさに差がなければならない。

そこで固有値を



1

 

2

   

_rとした場合、大きいほうから

r

個だけ値が異なり、残りは

(10)

p r

r

 



_1



_2

  

となるかどうかのAndersonによるsphericityの検定を行なう。この検定には以下の性質が利用される。

2

2 ) 2 )(

1 ( 1

1

2

log ( ) log ( ) ~

__ __













 



 







  p p r p r

r a

a p

r a

a

n p r p r

n   



^分布

実際の主成分分析のメニュー画面を図4.1に与える。主成分分析は、表4.1に与えたデータの形から実行する場合に加え、それを集計した共分散行列や相関行列から実行する場合も想定される。

それ故データの形式としてこれら３つの場合が含まれている。等固有値の検定にはデータ数も必要になることから、集計結果からの計算ではデータ数を入力する必要もある。計算を実行するモデルには、通常のデータから計算する「共分散行列から」と標準化されたデータから計算する「相関行列から」の2種類がある。勿論、データ形式で相関行列を選んだ場合は共分散行列からの計算はできない。

計算結果の表示としては「共分散行列」や「相関行列」も必要と思われるので加えてある。主成分分析は「主成分分析」ボタンで実行され、出力例は、図4.2に示される。

等固有値の検定結果は図4.3に示される。ここに表示された第

i

^主成分の



²^{値は、固有値を大}

きさの順番に並べた場合、第

i

主成分以降の固有値がすべて等しいとみなせるかどうかの検定値であり、等固有値確率はその確率値を表わす。それゆえ等固有確率が有意水準より大きい主成分以降が利用に適さないことを示している。極端な例として、第1主成分の等固有値確率が有意水準より小さい場合、主成分分析自体があまり意味を持たない。

「主成分得点」の出力は各主成分毎に図4.4に与えられ､２つの主成分に関する主成分得点の散布図は図 4.5 に与えられる。これによって主成分で見た場合の個体の類似度を把握することが容易となる。

図4.1 主成分分析のメニュー

図4.2 主成分分析出力結果

(11)

５章数量化理論

数量化理論はカテゴリデータを用いる分析で、各カテゴリに数値を与えてデータを数量化し、

その構造や特徴を探る手法である。今回のプログラムでは数量化Ⅰ類からⅢ類まで分析に組み込んだ。数量化Ⅰ類は、目的変数をカテゴリデータから推測する手法で、量的データの重回帰分析に相当する。数量化Ⅱ類はカテゴリデータに関する線形判別関数を定義し、個体を分類することが狙いであり、判別分析に相当する。数量化Ⅲ類は 0/1 データによる主成分分析に類似の分析法である。

5.1 数量化Ⅰ類

数量化Ⅰ類の変数は目的変数とアイテム毎に複数個含まれるカテゴリ変数からなる。データの基本的な形は表5.1.1に示される。カテゴリデータは各アイテム中の１つのカテゴリを選択するようになっており、選択された値が1で、他の値が0であるように定められている。これはデータの一般的な書式

x

_ij_を用いて以下のように表わすこともできる。

} 1 , 0

 {



x

ij ^，

1

 

 ri

j

x

ij_

表5.1.1 数量化Ⅰ類のデータ

目的変数アイテム1 アイテムp

カテゴリ1 … カテゴリr1 … カテゴリ1 … カテゴリrp

y

1

x

₁₁₁ … ₁ ₁

r1

x

…

x

_p₁₁ … ₁

prp

x

y

2

x

₁₁₂ … ₁ ₂

r1

x

…

x

_p₁₂ … ₂

prp

x

：：：：：

図4.3 等固有値の検定結果

図4.5 主成分得点散布図図4.4 主成分得点出力結果

(12)

y

n

x

₁₁_n …

x

_r_n

11 …

x

_p₁_n … _pr_n

x

p

目的変数は第2アイテム以降の第1カテゴリを除いた、以下の式で予測される。





  





^p

i r

j ij ij r

j

j j

i

x a x

a Y

2 2

1 1

1

ˆ

1



ここに、係数

a ˆ

_ijは以下の残差変動

EV

を最小化するように求める。残差変動

EV

^の係数

a ˆ

_ijについての微係数を0として、以下の解を得る。









ⁿ

y Y EV

1

)

2

(

   →

a ˆ  (

^t

XX )

^¹^t

Xy

ここに、各行列やベクトルは以下のように定義されるが、第2アイテム以降の第1カテゴリを外しているのは、行列^t

XX

の正則性を失わせないためである。

ˆ ) ˆ

ˆ ˆ

ˆ ( ˆ

ˆ

₁₁ ₁ ₂₂ ₂ ₂

2

1 r p prp

r

t

a  a  a a  a  a  a

)

(

₁ ₂ _n

t

y  y y  y

 







 









n pr n

p n

r n

n r n

pr p

r r

pr p

r r

p p p

x x

























2 2

22 1

11

2 22

2 2 222

2 1 112

1 21

1 2 221

1 1 111

2 1

X

さて、係数

a ˆ

_ijについて第1カテゴリがないことに違和感を感じる場合は、以下のような基準化された係数

a

_ij^（

i  1 , 2 ,  , p

^，

j  1 , 2 ,  , r

_i^{）を導入する。}









^rⁱ

k ik ik ij

ij

a a x

a

1

~

_，

 

  

 a else j a i

ij

ˆ

1 , 1

~ 0

ここに、

x

_ik^{はアイテム}

i

^{、カテゴリ}

k

に関するデータの平均である。パラメータ

a ~

_ij_{をカテゴリ}

ウェイト、

a

_ijを基準化されたカテゴリウェイトという。

基準化されたカテゴリウェイト

a

_ijを用いて予測値は以下の形で与えられる。



 





^p

i r

j ij ij

i

x a y

Y

1 1



分析の寄与率

R

²^{と重相関係数}

R

は、以下のように全変動

SV

^{に占める、回帰変動}

RV

^の割合

とその平方根で与えられる。

RV EV y

Y Y

y y

y SV

n n

n

      

   



 1

2 1

2

( ) ( )

) (

 

  

 

SV RV

R

²



^，

R  RV SV

各アイテムと目的変数の共分散行列

s

_ij

, s

_iy

, s

_yy^{を以下で定義する。}

(13)







 



ⁿ _i _i _j _j

ij

X X X X

s n

1

) )(

1 ( 1

   ，







 



ⁿ _i _i

iy

X X y y

s n

1

) )(

1 ( 1

   ，





 



ⁿ

yy

y y

s n

1

)

2

1 ( 1

 

ここに、アイテム

i

^の予測値

X

_i_^{及びその平均}

X

_i^{は以下で与えられる。}





^rⁱ

j ij ij

i

a x

X

1

~



 ，





ⁿ _i

i

X

X n

1

 

上で定義した共分散行列を用いた相関行列

R

^の逆行列

R

^¹^の成分

r

^ij

, r

^iy

, r

^yy^{から、アイテム}

i

と目的変数との偏相関係数

r ~

_iyは以下のように求められる。

yy ii iy

iy

r r r

r  

~

実際の分析メニュー画面は図5.1.1に与える。入力にはアイテム毎にカテゴリ名が記されているものとアイテム内をカテゴリ数に分け0/1で回答を表わしたものの2種類のデータが利用できる。

もちろん 0/1 で表わされたデータには、アイテム毎のカテゴリ数を与える必要があり、テキストボックス内にカンマ区切りで入力する。コマンドボタン「0/1型への変換」ではカテゴリ名データからもう１つの入力型である0/1型データに変換する。出力結果を図5.1.2に示す。

カテゴリウェイトと基準化されたカテゴリウェイトの値はコマンドボタン「カテゴリウェイト」をクリックすることによって得られる。また、これらの値による予測値から得られる重相関係数と寄与率も与えられる。出力画面は図5.1.3に示す。

図5.1.1 数量化Ⅰ類メニュー画面

図5.1.2 0/1型データへの変換

図5.1.3 カテゴリウェイト

図5.1.4 相関と偏相関

(14)

目的変数とアイテム間の相関行列、目的変数とアイテム間の偏相関係数及び、個体毎のアイテムの予測値は「相関/偏相関」ボタンで得られ、図 5.1.4 にその出力結果を示す。目的変数に対する予測値と残差は「予測値と残差」ボタンで図5.1.5のように与えられ、その「散布図」を図5.1.6 に示す。

5.2 数量化Ⅱ類

カテゴリデータで群分類を行なう数量化Ⅱ類は、群の数を

m

^、群



^{のデータ数を}

n

_^、アイテ

ム数を

p

^{、アイテム}

i

^{のカテゴリ数を}

r

_i^{として、表}5.2.1のデータ形式を元にする。

表5.2.1 数量化Ⅱ類のデータ

アイテム

1

^アイテム

p

カテゴリ1 … カテゴリr1 … カテゴリ1 … カテゴリrp

群

1

x

111 ^… ₁¹₁ r1

x x

¹_p₁₁ ^… ¹ ₁

prp

x

：： … ：：

1 11n₁

x

… ¹₁

1 1n

x

r ¹₁

n1

x

p … ¹

n1

pr_p

x

：：：：：

群

m

x

₁₁₁m …

x

₁^m_r₁

1

m

x

p₁₁ … ^m_pr

x

p₁

：： … ：：

m n_m

x

₁₁ … ^m_r_n

x

m

11

m n

p _m

x

₁ … ^m_pr_n

m

x

p

一般にデータを

x

_ij^_

 { 0 , 1 }

^{の形で表わすと、}

 ( 1 , 2 ,  , m )

^は群、

 ( 1 , 2 ,  , n

_

)

^は個体、

i ( 1 , 2 ,  , p )

^{はアイテム、}

j ( 1 , 2 ,  , r

_i

)

はアイテム毎のカテゴリである。各変数には次の関係がある。

1

 

 ri

j

x

ij^_ ^，

x p

p

i r

j ij

i





1 1



判別関数は係数

a ˆ

_ij

( i  1 ,  , p , j  2 ,  , r

_i

)

を用いて以下のように与えられる。

図5.1.5 予測値と残差

図5.1.6 予測値と実測値の散布図

(15)



 



^m

i r

j ij ij

i

x a y

1 2

ˆ

^_



この係数を求めるために、群間の分散

s

²_B^と全分散

s

²を以下のように定義し、群間の分散の比率である分散比



²

 s

_B²

s

²を最大化することを考える。





 



^m

B

n y y

s n

1

2

( )

1 1



  ，



 

 



^m ⁿ

y y

s n

1 1

2

( )

1 1

 





ここに、

y

^^は群



における判別関数値の平均で、

y

は判別関数値の全平均である。

準備として、表5.2.1から各アイテムの第1カテゴリを除いたデータについて、以下のような行列を定義しておく。



 







 







m n pr m

n p m

n m

n

m pr m

p m

m

n pr n

p r

n

pr p

r

m p m

m m

p p p

x x



















































2 12

12

1 21

121 121

1 1

2 1

1 1 1

12

1 1 1

21 1

1 1 1

121

1 1

1

X

m m

pr m

p m

m

m pr m

p m

m

pr p

r

pr p

r

B

n n

x x

p p p p

 

 



 

 





 







 





 



















































1

2 12

12

2 12

12

1 1

2 1

1 1

12

1 1

2 1

1 1

12

1 1

X

n x

x x

x

x x

p p

pr p

r

pr p

r

 

 





 







 

























2 1

12

2 1

12

1 1

X

ここに、

n

はすべての群のデータ数の合計である。

分散比



²^の

a ˆ

_ij^{についての微係数を}0とすると解くべき方程式は以下となる。

ˆ 0 ) ( S

_B

 

²

S a 

ここに、

a ˆ

，

S

^，

S

_B^{は上で定義した行列}

X

^，

X

_B^，

X

を用いて以下で与えられる。

ˆ ) ˆ

ˆ ( ˆ

ˆ

₁₂ ₁ ₂

1 p prp

r

t

a  a  a  a  a

^，

(16)

) )(

( X X X X

S 

^t

 

^，

S

_B



^t

( X

_B

 X )( X

_B

 X )

社会システム分析のための統合化プログラム7 ― 多変量解析 ―

社会システム分析のための統合化プログラム７

我々は教育での利用を主な目的に、社会システム分析に用いられる様々な手法を統一的に扱う プログラムを作成してきたが、今回は多変量解析のうち、重回帰分析、判別分析、主成分分析、

キーワード

社会システム分析，OR，統計，多変量解析，重回帰分析，判別分析，主成分分析，数量化理論，

URL: http://www.heisei-u.ac.jp/~fukui/

Ⅱ，Ⅲ類に関するプログラムをシステムに組み込んだ。これらの分析を選んだ理由は、量的デー タとカテゴリデータとの対比という意味で、重回帰分析と数量化Ⅰ類、判別分析と数量化Ⅱ類、

２章 重回帰分析

重回帰分析は、目的変数を複数の説明変数 の線形回帰式で予測する手法である。データ は以下の表2.1の形式で与えられる。

即ち、

これらの新しいデータ

で与えられる。

その値を寄与率という。寄与率は重相関係数の 2 乗に等しいことが示されるので、記号

重回帰式の有効性は回帰変動と残差変動を比べて、回帰変動が十分大きいことが重要で、この 検定には、以下の性質が利用される。

0

また、説明変数

図2.1 重回帰分析画面 図2.2 重回帰分析出力画面

３章 判別分析

判別分析は外的基準によ って群別に分類されたデー タから、群を判別するため の線形（場合によっては 2 次）関数を見出すことを目 的としている。データは例 えば2群の場合、表3.1のよ うな形式で与えられる。

とし、

数を

これを

} log ) ( ) ( log

ここに、

これから、

z  log h

変数

これは判別分析の有効性を示している。

ここに、

４章 主成分分析

主成分分析は、変数の1次結合により、新しい 意味付けのできる特徴的な変数を作り出すことを 目的としている。この新しい変数を主成分と呼ぶ。

特徴的な変数とは、データの変化に最も敏感であることと考え、係数

図3.5 判別分析実行画面（3群以上形式） 図3.6 判別得点（3群以上形式）

ここに

この最大固有値に対する固有ベクトル

これらの固有方程式の第

そこで固有値を

log ( ) log ( ) ~

実際の主成分分析のメニュー画面を図4.1に与える。主成分分析は、表4.1に与えたデータの形 から実行する場合に加え、それを集計した共分散行列や相関行列から実行する場合も想定される。

きさの順番に並べた場合、第

５章 数量化理論

数量化理論はカテゴリデータを用いる分析で、各カテゴリに数値を与えてデータを数量化し、

5.1 数量化Ⅰ類

図4.5 主成分得点散布図 図4.4 主成分得点出力結果

さて、係数

 a else j a i

ここに、

各アイテムと目的変数の共分散行列

実際の分析メニュー画面は図5.1.1に与える。入力にはアイテム毎にカテゴリ名が記されている ものとアイテム内をカテゴリ数に分け0/1で回答を表わしたものの2種類のデータが利用できる。

図5.1.3 カテゴリウェイト

5.2 数量化Ⅱ類

カテゴリデータで群分類を行なう数量化Ⅱ類は、群の数を

図5.1.5 予測値と残差

ここに、

我々は教育での利用を主な目的に、社会システム分析に用いられる様々な手法を統一的に扱うプログラムを作成してきたが、今回は多変量解析のうち、重回帰分析、判別分析、主成分分析、

Ⅱ，Ⅲ類に関するプログラムをシステムに組み込んだ。これらの分析を選んだ理由は、量的データとカテゴリデータとの対比という意味で、重回帰分析と数量化Ⅰ類、判別分析と数量化Ⅱ類、

２章重回帰分析

重回帰分析は、目的変数を複数の説明変数の線形回帰式で予測する手法である。データは以下の表2.1の形式で与えられる。

重回帰式の有効性は回帰変動と残差変動を比べて、回帰変動が十分大きいことが重要で、この検定には、以下の性質が利用される。

図2.1 重回帰分析画面図2.2 重回帰分析出力画面

３章判別分析

判別分析は外的基準によって群別に分類されたデータから、群を判別するための線形（場合によっては 2 次）関数を見出すことを目的としている。データは例えば2群の場合、表3.1のような形式で与えられる。

４章主成分分析

主成分分析は、変数の1次結合により、新しい意味付けのできる特徴的な変数を作り出すことを目的としている。この新しい変数を主成分と呼ぶ。

図3.5 判別分析実行画面（3群以上形式）図3.6 判別得点（3群以上形式）

実際の主成分分析のメニュー画面を図4.1に与える。主成分分析は、表4.1に与えたデータの形から実行する場合に加え、それを集計した共分散行列や相関行列から実行する場合も想定される。

５章数量化理論

図4.5 主成分得点散布図図4.4 主成分得点出力結果

実際の分析メニュー画面は図5.1.1に与える。入力にはアイテム毎にカテゴリ名が記されているものとアイテム内をカテゴリ数に分け0/1で回答を表わしたものの2種類のデータが利用できる。