• 検索結果がありません。

Classes Yutaka Matsuno's Homepage 20160520

N/A
N/A
Protected

Academic year: 2018

シェア "Classes Yutaka Matsuno's Homepage 20160520"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

応用統計 第 4

記述統計 (4) 2 次元データの解析 (2)

応用情報工学科

准教授 松野 裕

matsuno.yutaka@nihon-u.ac.jp

2016 5 20

前回の講義と演習について

定量的データの定性的データの相関を見るための指標である、相関比の意味を考えてみる。

相関比=

級間変動 級内変動+級間変動

であり、取りうる値は0から1である。級内変動は、各定性的データのグループごとに、そのグループ内の平 均と、それぞれのデータの偏差平方和の和である。級間変動は、そのグループごとに、データ数と、そのグ ループの平均と全体の平均の偏差平方和の積の和である。

• 1となるのは、級内変動が0になるときである。すべての定性的データのグループに含まれるデータが 同一であるときである。すべてのデータが、定性的データとの対応によってはっきりと分けられるとき である。

• 0となるのは、級間変動が0になるときである。各グループの平均が同一であるときである。すべての データが、定性的データとの対応に関係なく、定性的データによる相関はないと言える。

1 定性的データと定性的データの相関

前回の続きで、定性的データと定性的データの相関について講義する。定性的データと定性的データの相関 は、クラメールの連関係数を指標として用いる。表1に、例として「性別」と「好きな麺類」のクロス集計表 (2変数を掛けあわせた表のことをクロス集計表という)を考える。例えば、男性で、うどんが好きと答えた人 は74人、女性でパスタが好きと答えた人は61人である。表1において、34,61,53,38,40,74は実測度数と呼 ばれる。クラメールの連関係数の値は以下のステップで求められる。

1. クロス集計表を用意する。

2. 2に記した計算を行う。これらは期待度数と呼ばれる。期待度数は、もし「性別」と「好きな麺類」 が全く関係していない場合に期待される度数である。

1

(2)

表1 「性別」と「好きな麺類」のクロス集計表

!" #$% &'(

)* +, -. /+ .,0

1* +0 ,2 3, ./4

34 .2. .43 +22

*5

6789:

;

;

表2 期待度数の計算

!" #$% &'(

)* +,-./0123445 +,-./+4+23445 +,-./+1023445 +,- 6* +71./0123445 +71./+4+23445 +71./+1023445 +71

01 +4+ +10 344

*8 9

:;<=>

9

3.  マス目ごとに(実測度数期待度数期待度数)2

を計算する。実測度数が期待度数からずれていればいるほど、値は大 きくなる。表3のようになる。

表3 (実測度数−期待度数)2

期待度数

の計算

4. 前で計算した値をすべて足す。これをピアソンのカイ二乗統計量と呼び、χ20で表す。

χ20=(34 −

148×72 300 )2 148×72

300

+(61 −

148×101 300 )2 148×101

300

+(53 −

148×127 300 )2 148×127

300

+(38 −

152×72 300 )2 152×72

300

+(40 −

152×101 300 )2 152×101

300

+(74 −

152×127 300 )2 152×127

300

= 8.0091

2

(3)

5. クラメールの連関係数は

χ20

全データの個数× (min{クロス集計表の行数,クロス集計表の列数} − 1)

である(min(a, b)a, bのうち、小さい方を返す関数である。)この場合以下のように計算される。

√ 8.0091

300 × (min{2, 3} − 1) =

√ 8.0091 300 × (2 − 1) =

√ 8.0091

300 = 0.1634

クラメールの連関係数は0から1の値をとり、1に近いほど相関があると言える。ただし「クラメールの連関 係数がXX以上ならば、2変数は強く関連している」との統計学的な基準はない。一応の目安として、1.0-0.8, 0.8-0.5, 0.5-0.25, 0.25以下の4つの範囲に分け、最後の0.25以下の場合は「関連していない」ということが 多い。

2 単回帰分析

二変数x, yを考える。xが年齢、yが血圧とすると、xはある程度yを決定する。このように2変数xy の間に、一方xが他方yを左右ないしは決定する関係があるとき、xは独立変数(independent variable) yは従属変数(dependent variable)という(あるいは説明変数、被説明変数ということもある)。2変数の 間のこのような関係を分析することを単回帰分析という。一方、ある変数が複数の他の変数によって決定され る関係を分析することを重回帰分析という。実用の場では、単回帰分析を用いることが大半である。回帰分析 を行う対象となるデータは、すべて定量的データである。

回帰関係を調べるために適切な直線を求めよう。最小2乗法による。求める直線を回帰式と呼び、 y = bx + a

とする。ここでbを回帰係数, aを切片という。各点(xi, yi)y = bx + aと距離の和が最小になるように a, bを求める。そのために2乗和(sum of squares):

L =

n

i=1

{yi− (bxi+ a)}2

を最小にするa, bを求める。La, b2変数関数の2次式だから、最小を求めるためにa, bでそれぞれ偏 微分して0とおくと、結果として、

na + (xi)b =yi

(xi)a + (xi2)b =xiyi

となる。これを正規方程式(normal equation)ということがある。これをa, bについて解くと、 b = ∑ xiyi− nxy

∑ xi2− nx2 , a = y − bx

となる(x =∑ xi/n, y =∑ yi/n)

3

(4)

回帰と相関の考え方には、つながりがある。bを変形すると、以下になる。 b = ∑(xi− x)(yi− y)

∑(xi− x)2 ここで

∑(xi− x)(yi− y) =xiyi− nxy,

∑(xi− x)2=x2i − nx2

を用いた。

単相関係数rxyと書くと

rxy = ∑(xi− x)(yi− y)

√∑(xi− x)2√∑(yi− y)2 =

(xi−x)(yi−y) n

(xi−x)2

n

(yi−y)2

n

= cxy sxsy

と比較する。ここで、sx, sy{x1, . . . , xn}, {y1, . . . , yn}の標準偏差であり、cxyは、それらの共分散と呼ば れる。

b = rxy· sy sx

= cxy sxsy

· sy sx

= cxy s2x が得られる。これから、切片a = y − bxも求められる。

問 上式を示せ。

また、rxy2 を決定係数(coefficient of determination)という。目安として、r2xy0.5(rxy0.7程度) より大きい場合は、その回帰式は信頼できるが、あくまで目安である。

参考文献

今回の内容は、「マンガで分かる統計学、高橋信著、オーム社」、「統計学入門、東京大学教養学部統計学教 室、東京大学出版会」、「それ、根拠あるの?と言わせないデータ・統計分析が出来る本、柏木吉基、日本実業 出版社」を参考にした。

4

表 1 「性別」と「好きな麺類」のクロス集計表 !&#34; #$% &amp;'( )* +, -. /+ .,0 1* +0 ,2 3, ./4 34 .2. .43 +22*56789:;; 表 2 期待度数の計算 !&#34; #$% &amp;'( )* +,-./0123445 +,-./+4+23445 +,-./+1023445  +,-6* +71./0123445 +71./+4+23445 +71./+1023445 +71 01 +4+ +10 344*89:;&lt;=&gt;9

参照

関連したドキュメント

The statistical procedure proposed in this paper has the following advantages over the existing techniques: (i) the estimates are obtained for covariate dependence for different

Key words and phrases: Linear system, transfer function, frequency re- sponse, operational calculus, behavior, AR-model, state model, controllabil- ity,

The main aim of the present work is to develop a unified approach for investigating problems related to the uniform G σ Gevrey regularity of solutions to PDE on the whole space R n

In the case of single crystal plasticity, the relative rotation rate of lattice directors with respect to material lines is derived in a unique way from the kinematics of plastic

Starting out with the balances of particle number density, spin and energy - momentum, Ein- stein‘s field equations and the relativistic dissipation inequality we consider

&amp;BSCT. Let C, S and K be the classes of convex, starlike and close-to-convex functions respectively. Its basic properties, its relationship with other subclasses of S,

Therefore Corollary 2.3 tells us that only the dihedral quandle is useful in Alexander quandles of prime order for the study of quandle cocycle invariants of 1-knots and 2-knots..

[r]