• 検索結果がありません。

記述統計 経済統計 鹿野研究室

N/A
N/A
Protected

Academic year: 2018

シェア "記述統計 経済統計 鹿野研究室"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

2014 年度前期

はじめに

前回の復習

 度数分布表、ヒストグラムによる記述統計。

 位置の尺度(平均・メディアン・モード)、散らばりの尺度(分散・標準偏差)による記 述統計。

今回学ぶこと

 二次元データ(二変数)の散布図。

 共分散と相関係数。

 テキスト該当箇所:3章。

1 二次元データと散布図

1.1

二次元データから分かること

 例:生徒6名の、数学と英語のデータ(サンプル数n = 6)。

番号i 数学Xi 英語Yi

1 85 65

2 90 80

3 45 75

4 70 55

5 60 55

6 40 30

平均 X =65.00¯ Y =60.00¯ 標準偏差 sX =18.71 sY =16.33

⊲ 各個体につき英語と数学、二つの変数。∴コレは データ(講義ノート#01)。

 二次元データの数学的表現:変数をそれぞれX1,X2, . . . ,XnY1,Y2, . . . ,Ynと表記。

Xiの平均と標準偏差をX¯sXと置く。

Yiの平均と標準偏差をY¯sYと置く。 1

(2)

20 40 60 80 100

20406080100

Xi

Yi

1:数学(Xi)と英語(Yi)の散布図

i番目の変数のペアを、ベクトル風に(Xi,Yi)と表記。

⊲ 例:数学と英語の成績データ

(85, 65), (90, 80), (45, 75), (70, 55), (60, 55), (40, 30). (1)

 Remark:多次元データ(二次元以上のデータ)を分析⇒変数の間の が分

かる。

⊲ 例:数学と英語の成績の間には、どんな関係(法則)がある?

関係性を、 で表す。散布図。

関係性を、 (数値)で測る。共分散と相関係数。

1.2

散布図

 散布図:横軸に変数Xi、縦軸に変数Yiの値をとり、二次元データ(Xi,Yi)を図示したもの

を と呼ぶ。

各個体の変数ペア(Xi,Yi)X − Y平面上の座標と考え、図に打ち込んで行けば良い。

右上がりXiYi 相関がある」と言う。

右下がりXiYi 相関がある」と言う。

判別がつかないXiYiに相関が見られない(無相関)」と言う。

 例:数学と英語の成績データ(図1)。横軸=数学Xi、縦軸=英語Yi

右上がりの関係Xiが大きいほどYiも大きい傾向。数学で良い成績の生徒ほど、 英語でも良い成績。

⊲ 個別に生徒の成績を眺めていたら、得られなかった発見!

 Remark(Xi,Yi)に直線の関係Yi = a + bXiがハッキリ現れれば「 相関」、ぼん やり現れれば「 相関」。

2A:弱い正の相関。

2B:強い負の相関。

2C:相関が見られない。

(3)

0 2 4 6

0246

Xi

Yi

0 2 4 6

0246

Xi

Yi

0 2 4 6

0246

Xi

Yi

2:さまざまな散布図

2 共分散と相関係数

2.1

共分散

 共分散:個体i毎に「Xiの平均値X¯からのズレ」(Xi− ¯X)と「Yiの平均値からのズレ」(Yi− ¯Y) を掛け合わせて(Xi− ¯X)(Yi− ¯Y)を求め、その平均をとった値

sXY = 1 n

(X1− ¯X)(Y1− ¯Y) + (X2− ¯X)(Y2− ¯Y) + · · · + (Xn− ¯X)(Yn− ¯Y)

= 1 n

n



i=1

(Xi− ¯X)(Yi− ¯Y) (2)

を、 と呼ぶ。分散s2(講義ノート#02)と異なり、共分散sXY は正にも負にも

(ゼロにも)なり得る。データ次第。

sXY >0 ⇔XiYi 相関」

sXY <0 ⇔XiYi 相関」

sXY = 0 ⇔XiYiは無相関」

 Remark:なぜ共分散sXYで「変数間の関係」が測れるの?⇒データから計算した際に、

(Xi− ¯X)(Yi− ¯Y)(Xi− ¯X)(Yi− ¯Y)がとり得る符号を整理すると、下表の通り。

(Xi− ¯X) (Yi− ¯Y) (Xi− ¯X)(Yi− ¯Y)

ケースI ⊕ ⊕ ⇒

ケースII ⊖ ⊕ ⇒

ケースIII ⊖ ⊖ ⇒

ケースIV ⊕ ⊖ ⇒

ケースIIII:平均値( ¯X, ¯Y)を軸に、XiYi (Xi− ¯X)(Yi− ¯Y) > 0

⊲ ケースIIIV:平均値( ¯X, ¯Y)を軸に、XiYiが !⇒(Xi− ¯X)(Yi− ¯Y) < 0

⊲ 個体を個別に見ると、同調する個体、反発する個体あり。平均的に、どちらの勢力 が強い?⇒共分散sXY で評価。

(4)

0 X Xi

0YYi

(Xi− X)(Yi− Y)> 0

(Xi− X)(Yi− Y)< 0

(Xi− X)(Yi− Y)> 0 (Xi− X)(Yi− Y)< 0

I I I

I I I I V

3:共分散sXYと散布図の対応関係

 Remark:共分散sXYと散布図の対応関係は?⇒平均値( ¯X, ¯Y)で散布図を4つの領域に分 割(図3)。領域I∼IVはそれぞれ、上表のケースI∼IVに対応。

正の相関:領域IIIIにデータが集まる散布図に の傾向。一方共分 散を求めるとsXY >0

負の相関:領域IIIVにデータが集まる散布図に の傾向。一方共 分散を求めるとsXY <0

2.2

相関係数

 相関係数:共分散sXY を、Xiの標準偏差sXYiの標準偏差sYの積で割った値 rXY = sXY

sXsY

, 1 ≤ rXY 1. (3)

を、 と呼ぶ。共分散sXYと異なり、相関係数rXYは下限(−1)と上限(+1) あり。

標準偏差の符号はsX >0sY >0(講義ノート#02rXYの符号は、 で決まる。

 Remark:共分散sXY(上限・下限不明)を相関係数rXY(上限・下限あり)に直しては

じめて、相関の を評価できる。

rXY +1に近い の相関。

rXY 1に近い の相関。

共分散sXY の大きさは、変数XiYiの測定単位に依存。相関の「強弱」を議論で きない。⇒ sXY から判明するのは、相関の だけ。

(5)

どんなYiなら、Xiと完璧に同調する?Yi = Xi」のとき。このときsY = sX。ま た共分散(2)式にYi= Xiを代入すれば

sXY = 1 n

n

i=1

(Xi− ¯X)(Xi− ¯X) = . (4)

rXY = s

2 X

sXsX = 1

どんなYiなら、Xiと完璧に反発する?Yi = −Xi」のとき。このときsY = sX(注:

符号が逆転しても標準偏差は同じ)。また(2)式にYi= −Xiを代入すれば

sXY = 1 n

n

i=1

(Xi− ¯X)(Xi− ¯X) = −1 n

n

i=1

(Xi− ¯X)(Xi− ¯X) = . (5)

rXY = s

2 X

sXsX = −1

よってrXY がとり得る範囲は1 ≤ rXY 1

 例:数学(Xi)と英語(Yi)の二次元データ。(再掲)

i Xi Yi (Xi− ¯X) (Yi− ¯Y) (Xi− ¯X)(Yi− ¯Y)

1 85 65 20 5 100

2 90 80 25 20 500

3 45 75 20 15 300

4 70 55 5 5 25

5 60 55 5 5 25

6 40 30 25 30 750

平均 65.00 60.00

標準偏差 18.71 16.33

共分散は

sXY = 1

6(100 + 500 + · · · + 750) = . (6)

標準偏差sX = 18.71sY = 16.33と上式の計算結果から、相関係数は rXY = 175

18.71 · 16.33 . (7)

まとめと復習問題

今回のまとめ

 二次元データ(Xi,Yi)の散布図。

 共分散と相関係数。

(6)

復習問題

出席確認用紙に解答し(用紙裏面を用いても良い)、退出時に提出せよ。

1. 次の2次元データ(Xi,Yi)の共分散sXY と相関係数rXY を求める。まず表の空欄を埋め、 それを材料に計算してゆく。(表は解答に書き込まなくとも良い。)なお、Xiは平均X =¯

1

n Xi = 3、分散s2X = 1

n(Xi− ¯X)2= 1、標準偏差sX =



s2X = 1である。

i Xi Yi (Xi− ¯X) (Yi− ¯Y) (Xi− ¯X)2 (Yi− ¯Y)2 (Xi− ¯X)(Xi− ¯X)

1 2 8 1 5 1 25 5

2 4 2 1 1

3 4 2 1 1

4 2 0 1 1

(a) Yiは平均Y =¯ 1n Yi =__、分散sY2 = 1n(Yi− ¯Y)2=__、標準偏差sY=

 s2Y =_

_。

(b) 共分散はsXY = 1n(Xi− ¯X)(Yi− ¯Y) =__。 (c) 以上から、相関係数はrXY = ssXY

XsY =

__。

参照

関連したドキュメント

[r]

2006 年 6 月号から台湾以外のデータ源をIMF のInternational Financial Statistics に統一しました。ADB のKey Indicators of Developing Asian and Pacific

告した統計をもとに編集されている 1 。国際連合統 計委員会(United Nations Statistical Commission、以 下 UNSC

現行制度で,メキシコの統計行政の中枢にある国 立統計地理情報院(Instituto Nacional de Estadística y Geografía: INEGI)は,統計総局(La Dirección

Classification: SITC),もう1つは世界税関機構(World Customs Organization: WCO)が定める「商品の名称 および分類についての統一システム」(Harmonized

国(言外には,とりわけ日本を指していることはいうまでもないが)が,米国

カメルーン国立統計研究所 (Institut National de la Statistique du Cameroun) は, 2001 年に独立採算制

アセアン域内の 2017 年の輸出より,対日本のほうが多かったのはフィリピン 16.2 %の 1 ヶ国だけ で,輸入では 1