• 検索結果がありません。

資料置き場 hustat2017 20171006

N/A
N/A
Protected

Academic year: 2018

シェア "資料置き場 hustat2017 20171006"

Copied!
92
0
0

読み込み中.... (全文を見る)

全文

(1)

統計学 第2週 データの記述(2)

担当者: 高木 真吾

質問等は, stakagi@econ.hokudai.ac.jp までお願いします.

October 6, 2017

(2)

はじめに

はじめに

本日の概要 1次元のデータ 2次元のデータ 演習問題

解答編

(3)

本日の概要

データの特性

データセットの代表と言えるのは? (平均など)

散らばりの程度を示す尺度は? (分散・標準偏差)

変数同士の関係とは? (共分散・相関係数)

キーワード

平均値・分散値・標準化・共分散・相関係数・順位相関係数

(4)

1次元のデータ

はじめに

1次元のデータ

表記上の注意

データセットの特性 値:代表=中心値, 最も目にする値 データセットの特性 値:練習問題

データの特性値:散 らばり

分散の計算

補足:ヒストグラム から平均を求める 補足:チェビシェフ の不等式による平均 からの乖離の評価 平均・分散・標準偏 差の性質

応用:データの標準化 データの標準化:例 2次元のデータ 演習問題

解答編

(5)

表記上の注意

1変数(1次元)のデータ:例)変数 x という一変数からなる大き

n のデータ

{x

1

, x

2

, . . . , x

n

}

2変数(2次元)のデータ:例)変数 x と変数 y という二変数から

なる大きさ n のデータ

{(x

1

, y

1

), (x

2

, y

2

), . . . , (x

n

, y

n

)}

k k v

1

... v

k

k

(6)

本日の内容

データの特性

データセットの代表と言えるのは? (平均など)

散らばりの程度を示す尺度は? (分散・標準偏差)

変数同士の関係とは? (共分散・相関係数)

(7)

データセットの特性値:代表=中心値,最も目にする値

平均値:全体の中で「釣り合い」のとれる点の位置 x = ¯

1

n

P

n

i=1

x

i

代表的特性値,理論的にも良い性質,だが外れ値で大きく変動

(頑健 robust でない)

中央値:全体の中で真ん中になる点の位置

データの大きさが奇数:真ん中の値,偶数: n/2 番と n/2 + 1

番の中間点を中央値とする

少数の外れ値には反応しにくい(外れ値に対して頑健)

最頻値:データセットに含まれる点のうち最も多く観測される点の

位置

(8)

データセットの特性値:代表=中心値,最も目にする値

発展的話題

「平均値」は,偏差二乗和を最小にする概念

min

µ

X

n

i=1

(x

i

− µ)

2

−→ ˆ µ = ¯ x

「中央値」は,偏差絶対和を最小にする概念

min

µ

X

n

i=1

|x

i

− µ| −→ ˆ µ = median

(9)

データセットの特性値:練習問題

8人の年間所得がそれぞれ 210, 230, 250, 260, 290, 320, 340, 360

万円,平均所得は?

平均: x = ¯

210 + 230 + · · · + 340 + 360

8 = 282.5

中央値: med

x

=

260+290

2 = 275

8人の年間所得がそれぞれ 210, 230, 250, 1580, 290, 320, 340, 360

万円,平均所得は?

平均: x = ¯

210 + 230 + · · · + 360 + 1580

8 = 447.5

(10)

データセットの特性値:練習問題つづき

7人の年間所得がそれぞれ 210, 230, 250, 320, 1290, 1340, 1580

円,平均所得は?

平均: x = ¯

210 + 230 + · · · + 1340 + 1580

7 ≈ 747.5

中央値: med

x

=320

上の結果から言えることは?

ひとつの値を入れ替えるだけで平均は大きく変動,中央値はそ

れよりは頑健(例1,2)

二つの異なるグループが混じっているようなデータでは平均も

中央値もデータ全体を代表するような中心ではない

(11)

データの特性値:散らばり

分散: 「中心からの距離(2乗で評価) 」の「平均値」

すべてのデータを中心(平均)からの距離に変換:

z

i

≡ (x

i

− ¯x)

2

分散:中心から平均的にどの程度乖離しているかの尺度:

s

2x

= 1

n

X

n

i=1

z

i

= 1

n

X

n

i=1

(x

i

− ¯x)

2

(1)

標準偏差( s

x

:分散の平方根(もとのデータと単位が一致するの

でこちらを見た方が良い)

p

(12)

分散の計算

分散値の定義式から以下の関係が成立

s

2x

= 1

n

X

n

i=1

(x

i

− ¯x)

2

= 1

n

X

n

i=1

x

2i

| {z }

二乗の平均

|{z} x ¯

2

平均の二乗

(2)

つまり,データを『二乗した平均』と『平均の二乗』の差.

手計算する場合,後者の方が簡単.証明は以下の通り.

s

2x

= 1

n

X

n

i=1

(x

i

− ¯x)

2

= 1

n

X

n

i=1

(x

2i

− 2¯xx

i

+ ¯ x

2

)

= 1

n

X

n

i=1

x

2i

− 2 · ¯x · 1

n

X

n

i=1

x

i

+ ¯ x

2

= 1

n

X

n

i=1

x

2i

− 2 · ¯x

2

+ ¯ x

2

= 1

n

X

n

i=1

x

2i

− ¯x

2

(13)

補足:ヒストグラムから平均を求める

Table 1: 変数 x に関する n 人のヒストグラム

階級値(位置) 度数(重み) 相対度数(重み) 階級値 × 度数(力)

a1 n1 r1 a1n1

a2 n2 r2 a2n2

... ... ... ...

ak nk rk aknk

... ... ... ...

aK nK rK aKnK

PK

k=1 nk = n

PK

k=1 rk = 1

PK

k=1 aknk

(14)

補足:ヒストグラムから平均を求める

ヒストグラムの左右を釣り合いのとれる位置を x¯ とする

一般性を失うことなく x¯ の位置は,am am+1 の間にあるとする.

相対度数で考えるヒストグラムなら

x¯ よりも左に係る力は

L = (¯x−a1)×r1+(¯x−a2)×r2+· · ·+(¯x−am)×rm =

Xm k=1

x−ak)×rk

x¯ よりも右に係る力は

R = (am+1−¯x)×rm+1+(am+2−¯x)×rm+2+· · ·+(aK−¯x)×rK =

XK k=m+1

(ak−¯x)×rk

(15)

補足:ヒストグラムから平均を求める

両者が釣り合っているなら L = R つまり L − R = 0 なので Xm

k=1

x − ak) × rk +

XK k=m+1

x − ak) × rk =

XK k=1

x − ak) × rk = 0

これを x¯ について整理すると

¯ x =

XK k=1

ak · rk,

ただし

PK

k=1 rk = 1 となることを利用した.

ところで,階級 k の相対度数が rk = nk

n であることを利用すれば,平均値

(16)

補足:チェビシェフの不等式による平均からの乖離の評価

ヒストグラムはデータの全体像を示してくれるが,いつも入手可能な情報 とは限らない.

データセットの平均値と分散値が分かれば,どの程度の観測点の割合が平 均に近いところにあるか,遠いところになるかについて一定程度までは評 価できる(チェビシェフの不等式)

平均値,分散値は

¯

x = 1 n

Xn i=1

xi, s2 = 1 n

Xn i=1

(xi − ¯x)2 =

Xn i=1

(xi − ¯x)2 · 1 n

(17)

補足:チェビシェフの不等式による平均からの乖離の評価

このとき,分散値について,以下の性質がある s2 =

Xn i=1

(xi − ¯x)2 · 1 n =

X

{i:|xi−¯x|≥λ·s}

(xi − ¯x)2 · 1 n

| {z }

x ± λ · s¯ より外側にある観測点

+ X

{i:|xi−¯x|<λ·s}

| {

x ± λ · s¯ より内側にある観測点

X

{i:|xi−¯x|≥λ·s}

(xi − ¯x)2 · 1 n =

X

{i:|xi−¯x|≥λ·s}

|xi − ¯x|2 · 1 n

X

{i:|xi−¯x|≥λ·s}

λ2 · s2 · 1

n = λ

2 · s2 ·

P

{i:|ai−¯x|≥λ·s}

| {zn }

x ± λ · s¯ より外側にある観測点の相対頻度

(18)

補足:チェビシェフの不等式による平均からの乖離の評価

つまり λ2 · s2 · P{i:|x

i−¯x|≥λ·s}

1

n ≤ s2 なので,

x ± λ · s¯ より外側にある観測点の相対頻度) 1 λ2 が成り立つ.

◆ データの全体像が分からなくても,平均値・分散値の情報だけから, x ± λ · s¯ より外側にある観測点の相対頻度は,1/λ2 以下であることが 分かる

λ = 2 のとき,平均値から標準偏差の2倍より外側にある観測点の割

合は 25 %以下(標準偏差の2倍より内側にある観測点の割合は 75

%以上)

λ = 4 のとき,平均値から標準偏差の4倍より外側にある観測点の割

合は 6.25 %以下(標準偏差の4倍より内側にある観測点の割合は 93.75 %以上)

(19)

補足:チェビシェフの不等式による平均からの乖離の評価

ヒストグラム(度数分布)が分かっていればデータセットの全体像が明ら かなので上記のような不等式による結果は必要ない.

◆ 上記の不等式の結果は,データの性質によらない結果なので,非常に 粗い評価である(ヒストグラムの数値と見比べると粗さがわかる)

◆ ヒストグラム(度数分布)のように,データの性質・全体像がわかっ ていればもっと正確に評価できることは言うまでもない

(20)

平均・分散・標準偏差の性質

データ: {x

1

, x

2

, . . . , x

n

}

平均・分散・標準偏差: x ¯s

2

x

s

x

データを変換: y

i

= a + b · x

i

, (i = 1, 2, . . . , n)

新データ: {y

1

, y

2

, . . . , y

n

}

このとき新データの平均・分散・標準偏差について以下の関係が成

り立つ

平均  : y = a + b · ¯x ¯

分散  : s

2y

= b

2

· s

2x

標準偏差: s

y

= b · s

x

(21)

平均・分散・標準偏差の性質:証明

平均:y = a + b · ¯x¯

¯

y = 1 n

Xn i=1

yi = 1 n

Xn i=1

(a + b · xi)

= a + b · 1 n

Xn i=1

xi

!

= a + b · ¯x

分散:s2y = b2 · s2x

s2y = 1 n

Xn i=1

(yi − ¯y)2 = 1 n

Xn i=1

{(a + b · xi) − (a + b · ¯x)}2

= 1

Xn

(b · x − b · ¯x)2 = b2 · 1

Xn

(x − ¯x)2 = b2 · s2

(22)

応用:データの標準化

標準化:平均と分散を別の値に変換する

比較可能性

標準化の公式:データ {x

1

, . . . , x

n

} が平均 x ¯ ,標準偏差 s

x

のとき,

y

i

≡ m + s ·

x

i

− ¯x

s

x

, i = 1, 2, . . . , n (3)

と変換すると,新しいデータ {y

1

, . . . , y

n

} の平均・分散・標準偏差は

平均: m

分散: s

2

(標準偏差 s

となる.

(23)

データの標準化:例

例) 偏差値:平均 50 点,標準偏差 10 への標準化

ただし,問題の難度が異なっている場合,異なる科目の点数の

合計となっている,など厳密な比較にはなっていないとの批判

もある

TOEFL などでは問題ごとに難度を調節した標準化を行っている

( item response theory という方法)のでより厳密な比較可能性

(24)

例題

平成 19 年度センター試験の英語得点の受験者全員における平均値

131.08 ,標準偏差の値が 40.35

ある英語のみの得点で合格が決まる大学での合格者平均点が 165

, 合格者最低点が 145 点.

この学校の合格にはいわゆる偏差値で 55 程度は必要,今年の結果

は妥当といえるか(偏差値を得点に換算) ?

偏差値 55 となるこの試験での得点は,

  131.08 + 40.35 · (55 − 50)/10 = 151.255

偏差値 55 では最低点をなんとかクリアしているが, 「安全

圏」ではなさそう.

(25)

例題

平成 19 年度センター試験の英語得点の受験者全員における平均値

131.08 ,標準偏差の値が 40.35

ある英語のみの得点で合格が決まる大学での合格者平均点が 165

, 合格者最低点が 145 点.

この学校の合格にはいわゆる偏差値で 55 程度は必要,今年の結果

は妥当といえるか(得点を偏差値に換算) ?

165 点を偏差値換算:

  50 + 10 · (165 − 131.08)/40.35 ≈ 58.41

145 点を偏差値換算:

  50 + 10 · (145 − 131.08)/40.35 ≈ 53.45

(26)

2次元のデータ

はじめに

1次元のデータ 2次元のデータ

共分散 相関係数

順位データについて の相関係数

演習問題 解答編

(27)

二変数の散らばり

変数 x y の関係について考える

X-Y 平面上でどのように散布しているかを見る

そこから関係,散らばりに関する尺度を構成する

1. 散布図の作成(それぞれの平均 x, ¯ ¯ y も書き込む)

2. 平均を原点のように見たグラフ作成

データを (x

i

− ¯x, y

i

− ¯y) に変換したことと同等

(28)

二変数の散らばり

Table 2: 月別支出額データ

月 みかん(円) 風邪薬(円) アイス(百円)

1 251 2349 5.1

2 209 1648 6.7

3 195 866 9.8

4 148 178 13.6

5 155 88 19

6 121 97 22.5

7 96 163 25.6

8 85 166 27.5

9 121 266 23.5

10 192 1740 19.5

11 251 2488 14.4

12 288 4304 9.5

平均 176 1196.1 16.4

(29)

みかんと風邪薬とアイス

10203040

sales

orange cold med ice cream

(30)

みかんと風邪薬

100 150 200 250

01000200030004000

orange

cold medicine

(x

i

x)(y

i

y) > 0

(x

i

x)(y

i

y) < 0

(x

i

x)(y

i

y) > 0

(x

i

x)(y

i

y) < 0

(31)

アイスとみかん

150200250

orange

(x

ix)(yiy) < 0 (x

ix)(yiy) > 0 (x

ix)(yiy) < 0 (xix)(yiy) > 0

(32)

アイスと風邪薬

5 10 15 20 25

01000200030004000

ice cream

cold medicine

(x

ix)(yiy) < 0

(x

ix)(yiy) > 0

(x

ix)(yiy) > 0

(x

ix)(yiy) < 0

(33)

二変数の散らばり:共分散

共分散: 二つの変数が中心(平均)から見て,

同符号の方向へ散布する傾向があるのか,異符号の方向へ散布

する傾向があるのか.

また中心からの乖離の程度はどの程度か?

s

xy

= 1

n

X

n

i=1

(x

i

− ¯x)(y

i

− ¯y) (4)

正の共分散:同符号の方向へ散布傾向,共分散の絶対値大=中心か

ら乖離

負の共分散:異符号の方向へ散布傾向,共分散の絶対値大=中心か

(34)

共分散の計算

共分散値の定義式から以下の関係が成立 sxy = 1

n

Xn i=1

(xi − ¯x)(yi − ¯y) = 1 n

Xn i=1

xiyi

| {z } 積の平均

− x · ¯y¯

|{z} 平均の積

(5)

つまり,変数 xy の『積の平均』から『平均の積』を引いたものとして 計算される

手計算する場合,後者の方が簡単.

練習 :上の関係式(5)を証明してください.

sxy = 1 n

Xn i=1

(xi− ¯x)(yi− ¯y) = 1 n

Xn i=1

xiyi− ¯x· 1 n

Xn i=1

yi

| {z }

¯ y

−¯y· 1 n

Xn i=1

xi

| {z }

¯ x

x· ¯y

(35)

共分散の計算

練習 「みかん」と「アイス」は正の共分散,「風邪薬」と「アイス」は負 の共分散.

◆ 「みかん」への支出額を {xi}12

i=1「アイス」「風邪薬」をそれぞれ

{yi}12i=1{zi}12i=1 とする.

表を用いて, 1

12

X12 i=1

xi = 21.12 12 ,

1 12

X12 i=1

yi = 19.67 12 ,

1 12

X12 i=1

zi = 14.35 12 1

12

X12 i=1

x2i = 41.92 12 ,

1 12

X12 i=1

yi2 = 38.61 12 ,

1 12

X12 i=1

zi2 = 39.30 12

(36)

共分散の計算

Table 3: みかん(百円)とアイス(百円)

みかん アイス    

x1 x3 x21 x23 x1 · x3 1 2.51 0.51 6.30 0.26 1.28 2 2.09 0.67 4.37 0.45 1.40 3 1.95 0.98 3.80 0.96 1.91 4 1.48 1.36 2.19 1.85 2.01 5 1.55 1.90 2.40 3.61 2.95 6 1.21 2.25 1.46 5.06 2.72 7 0.96 2.56 0.92 6.55 2.46 8 0.85 2.75 0.72 7.56 2.34 9 1.21 2.35 1.46 5.52 2.84 10 1.92 1.95 3.69 3.80 3.74 11 2.51 1.44 6.30 2.07 3.61 12 2.88 0.95 8.29 0.90 2.74 合計 21.12 19.67 41.92 38.61 30.00

(37)

共分散の計算

以上より

みかん(百円)

平均  :x¯1 = 21.12/12 = 1.76

分散  :s21 = 41.92/12 − (21.12/12)2 = 0.40

標準偏差:s1 = ps21 = 0.40 = 0.63

アイス(百円)

平均  :x¯3 = 19.67/12 = 1.64

分散  :s23 = 38.61/12 − (19.67/12)2 = 0.53

標準偏差:s3 = ps23 = 0.53 = 0.73

(38)

共分散の計算

Table 4: 風邪薬(千円)とアイス(百円)

風邪薬 アイス    

x2 x3 x22 x23 x2 · x3 1 2.35 0.51 5.52 0.26 1.20 2 1.65 0.67 2.72 0.45 1.10 3 0.87 0.98 0.75 0.96 0.85 4 0.18 1.36 0.03 1.85 0.24 5 0.09 1.90 0.01 3.61 0.17 6 0.10 2.25 0.01 5.06 0.22 7 0.16 2.56 0.03 6.55 0.42 8 0.17 2.75 0.03 7.56 0.46 9 0.27 2.35 0.07 5.52 0.63 10 1.74 1.95 3.03 3.80 3.39 11 2.49 1.44 6.19 2.07 3.58 12 4.30 0.95 18.52 0.90 4.09 合計 14.35 19.67 36.90 38.61 16.34

(39)

共分散の計算

以上より

風邪薬(千円)

平均  :x¯2 = 14.35/12 = 1.20

分散  :s22 = 36.90/12 − (14.35/12)2 = 1.64

標準偏差:s2 = ps22 = 1.64 = 1.28

アイス(百円)

平均  :x¯3 = 19.67/12 = 1.64

分散  :s23 = 38.61/12 − (19.67/12)2 = 0.53

標準偏差:s3 = ps23 = 0.53 = 0.73

(40)

共分散の計算結果

みかんとアイスの共分散 sxy = 1

12

X12 i=1

xiyi − ¯x · ¯y = 30.00 12

21.12 12 ·

19.76

12 = −0.38

アイスと風邪薬の共分散 syz = 1

12

X12 i=1

yizi − ¯y · ¯z = 16.34 12

19.76 12 ·

14.35

12 = −0.60.

(みかん・アイス) ペアも,(アイス・風邪薬) ペアも同時に大きな値になり

にくい

(みかん・アイス) ペアの方が,(アイス・風邪薬) より平均付近に集まって いる

(41)

相関係数

相関係数:共分散を −1 から 1 の区間に変換

rxy = sxy

sx · sy =

Pn

i=1(xi − ¯x)(yi − ¯y)

pPn

i=1(xi − ¯x)2

pPn

i=1(yi − ¯y)2

(6)

◆ 相関係数が正:平均から見て同符号の方向に散布,1 に近いほど強い 線形関係

相関係数が1のとき,yi = α + β · xi, β > 0 for i = 1, 2, . . . , n 成立

◆ 相関係数が負:平均から見て異符号の方向に散布,-1 に近いほど強い 線形関係

-1 y = α − β · x , β > 0 for i = 1, 2, . . . , n

(42)

相関係数の計算例

相関係数:それぞれの変数の分散と共分散が必要

相関係数 =

X Y の共分散 pX の分散 · Y の分散

練習 「みかん」と「アイス」の相関係数:−0.840

s2x = 1 12

X12 i=1

x2i−¯x2 = 41.92 12

 21.12 12

2

, s2y = 1 12

X12 i=1

yi2−¯y2 = 38.61 12

 19.67 12



rxy = qsxy

s2xs2y = −0.840

練習 「アイス」と「風邪薬」の相関係数:−0.641

(みかん・アイス) ペアの方が,(アイス・風邪薬) より強い負の線形関係

(43)

みかんと風邪薬

1000200030004000

cold medicine

(x

i

x)(y

i

y) > 0

(x

i

x)(y

i

y) < 0

(x

i

x)(y

i

y) > 0

− −

(44)

アイスとみかん

5 10 15 20 25

100150200250

ice cream

orange

(x

ix)(yiy) < 0 (x

ix)(yiy) > 0 (x

ix)(yiy) < 0 (xix)(yiy) > 0

(45)

アイスと風邪薬

1000200030004000

cold medicine

(x

ix)(yiy) < 0

− −

(x

ix)(yiy) > 0

(x

ix)(yiy) < 0

(46)

相関係数に関する補足

以下は相関係数に関する補足です

変数 x y の相関係数 r

xy

は,両方の変数を平均0,分散1に

基準化した変数同士の共分散と考えることもできる.

相関係数 r

xy

は, −1 ≤ r

xy

≤ 1 である

1

相関係数が ±1 であるとき, y = α ± βx β > 0 )という関係

になる.

1

一 般 に

pPn

i=1(xi x¯)2

pPn

i=1(yi y¯)2

Pn

i=1(xi x¯)(yi y¯) ≤

pPn

i=1(xi x)¯ 2

pPn

i=1(yi y)¯ 2 が 成 り 立 つ( コ ー シ ー・シュワ ル ツ の 不 等 式 )の で相関係数は常に 1 から 1 の間の値をとる.

(47)

補足

−1 ≤ r

xy

= s

xy

/(s

x

s

y

) ≤ 1 について,

v

i

= (y

i

− ¯y) − s

xy

s

2x

· (x

i

− ¯x), i = 1, 2, . . . , n

とおいて,

0 ≤ n 1

X

n

i=1

v

i2

= 1

n

X

n

i=1



(y

i

− ¯y) − s

xy

s

2x

· (x

i

− ¯x)



2

= s

2y

− 2 · s

xy

s

2x

· s

xy

+

s

2xy

s

4x

· s

2x

= s

2y

· (1 − r

xy2

)

つまり 1 − r

2

xy

≥ 0 ⇔ |r

xy

| ≤ 1

(48)

補足

r

xy

= ±1 であるとき,すべての点において v

i

= 0

このとき,

y

i

= ¯ y + s

xy

s

2x

· (x

i

− ¯x), i = 1, 2, . . . , n

全ての観測点が上の直線上に乗っていることが条件.

直線の傾きは

sxy

s2x

なので,共分散の符号に依存

(49)

補足

直線上にない点があると相関係数が(絶対値)1より小さくなる

n 個の (x, y) のペアは直線上にあるとする.

x = ¯ x となる位置に y = ¯ y ± a となる二点を加える(直線上に

ない二点)

この時,相関係数は

r

xy

= q s

xy

s

2xy

+ 2a

2

s

x

/n

< 1

となり,乖離幅 a が小さければ1に近いが,乖離すればするほ

ど,1より小さくなる.

(50)

順位データについての相関係数

2種類の順位を示すデータについての関係(2種類の評価の関連性)

◆ <男性の好きな花/女性の好きな花>ランキング

スピアマンの順位相関係数

◆ それぞれのランクデータ(1 位から n 位まで)に通常の相関係数の公 式を適用.

rS = 1 − 6 n3 − n

Xn i=1

(Ri − Ri)2 (7)

ただし,Ri は一方の評価者による対象 i のランクで,R

i はもう一方

の評価者のランクである.

ケンドールの順位相関係数: 各データ点の組み合わせを考え,順位が逆転 がない方が相関が高いと考える

(51)

順位データについての相関係数(つづき)

ケンドールの順位相関係数(一方の変数のランクデータを {R

i

}

n

i=1

他方を {R

i

}

ni=1

とする)

両方の評価者によるランク付けが正順となっている場合と逆順

となっている場合をカウント

正順: R

i

> R

j

かつ R

i

> R

j

」あるいは「 R

i

< R

j

かつ

R

i

< R

j

逆順: R

i

> R

j

かつ R

i

< R

j

」あるいは「 R

i

< R

j

かつ

R

i

> R

j

すべてのケースについて,正順か逆順かを数える

(52)

順位データについての相関係数(つづき)

ケンドールの順位相関係数(一方の変数のランクデータを {R

i

}

n

i=1

他方を {R

i

}

ni=1

とする)

すべてのケースについて,正順か逆順かを数える

合計 n(n − 1)/2 ケースあるうち,正順の場合の数を G ,逆順を

H .このとき

r

K

= G − H

n(n − 1)/2 (8)

明らかに両者で評価が完全に一致する(しない)とき, r

K

= 1

r

K

= −1

(53)

順位データについての相関係数(つづき)

内容 桜 菊 バラ 梅 ユリ

チュー カーネー

椿 total

リップ ション

男( R) 1 2 3 4 5 6 7 8

女( R’) 3 1 2 5 4 7 6 8

正順 (G) 5

逆順 (H) 2

(54)

順位データについての相関係数(つづき)

内容 桜 菊 バラ 梅 ユリ

チュー カーネー

椿 total

リップ ション

男( R) 1 2 3 4 5 6 7 8

女( R’) 3 1 2 5 4 7 6 8

正順 (G) 5 6 5 3 3 1 1 24

逆順 (H) 2 0 0 1 0 1 0 4

内容:桜(男は 1 位,女 3

男は残り 7 個すべて下位,女はそのうち 5 個だけ下位にランク:

正順:5個

逆順:一致しない2個

(55)

順位データについての相関係数(つづき)

内容 桜 菊 バラ 梅 ユリ

チュー カーネー

椿 total

リップ ション

男( R) 1 2 3 4 5 6 7 8

女( R’) 3 1 2 5 4 7 6 8

正順 (G) 5 6 5 3 3 1 1 24

逆順 (H) 2 0 0 1 0 1 0 4

内容:菊(男は 2 位,女 1

男は残り 6 個すべて下位,女も 6 個すべて下位にランク:正順

6個・逆順0個

(56)

演習問題

はじめに

1次元のデータ 2次元のデータ 演習問題

演習問題 最後に 解答編

(57)

演習問題

問題 : 1,3,4は宿題

1. 別表1の民間給与実態調査の(度数分布)表を用いて,男性給与所得者の 平均,中央値,最頻値を求めてください.

2. 別表2のような金価格(円/ kg)の推移を考えるとき,毎日 3kg を5回 購入し続けることと,毎日 1.2 万円で購入できる金を5回購入し続けるこ とを考える.5回購入後の平均購入単価(支出総額/購入総量)を考える と,どちらの購入方法のほうが単価が低いか(等しいか).

3. Table 2 28ページ)を用いて,「みかん」と「風邪薬」への支出額につい て,平均・分散・共分散・相関係数を求めてください.

4. 下の Table 5 を用いて,夫の妻の家事に関する考え方が一致しているかど

うかを調べてください(順位相関係数を求めてください).

(58)

演習問題

Table 5: 家事:夫の協力,妻の要望

項目 夫のランク 妻のランク

窓掃除 1 3

風呂掃除 2 1

食材買出 3 8

布団干し 4 6

洗濯物取込 5 9

ごみ出し 6 5

照明掃除 7 4

掃除機 8 7

玄関掃除 9 10

換気扇掃除 10 2

(59)

最後に

回答は A4 用紙 に記入してください

複数枚にわたるときはホッチキスなどでまとめてください

氏名の記入と学籍番号の記入を忘れないでください

提出は,次週 水曜日の 13 時までに メールボックスへお願いします

(60)

問題2

方法1:毎回 H (単位 kg) の購入,方法2:毎回 M 円購入

単価(価格)Pt 円/ kg

購入額:方法1:H · Pt , 方法2:M

購入量:方法1:H (kg),方法2:M/Pt (kg)

T 回購入するときの平均購入単価

◆ 方法1:毎回一定額を支払う 購入費用

購入総量

=

XT t=1

H · Pt T · H =

1 T

XT t=1

Pt

◆ 方法2:毎回一定量を購入

購入費用 購入総量

= PTT · M

t=1 M/Pt

= 1

T

XT t=1

1 Pt

!−1

(61)

算術平均

MT 1 T

XT t=1

Pt

調和平均

HT 1 T

XT t=1

1 Pt

!−1

幾何平均

(62)

Pt が正数である限り,「算術平均 幾何平均」が成立する.もし MT ≥ GT が成立するとき,

f (p) 1 T + 1

XT t=1

Pt + p

!

YT t=1

Pt · p

!1/(T +1)

= 1

T + 1 (T · MT + p) − G

TT · p1/(T +1)

= T

T + 1 · MT +

1

T + 1 · p − G

T /(T +1)

T · p1/(T +1)

これが任意の正数について非負であるなら帰納法により「算術平均 幾 何平均」が言える.

f(p) = 1

T + 1

1

T + 1G

T /(T +1)

T · p−T /(T +1)

より p = GT で最小値を持ち,f (GT) = T

T +1 · (MT − GT) なので非負.

(63)

「幾何平均 調和平均」については,Pt が正数である限り,

HT−1 = 1 T

XT t=1

1 Pt

YT t=1

1 Pt

!T1

= 1

QT

t=1 Pt

T1 = G

−1 T

したがって

G−1T ≤ HT−1 ⇐⇒ GT ≥ HT

正数を扱う限り,「算術平均 幾何平均 調和平均」

単価を小さくしたい時には,毎回の購入額を一定にする方がよい.

(64)

解答編

はじめに

1次元のデータ 2次元のデータ 演習問題

解答編

相関係数 問題5

統計学 第二週 – 64 / 92

(65)

問題1

平均: 514.38 万円(ボーナスなし 433.58,中央値 400 500 万円

平均: 272.26 万円(ボーナスなし 236.14,中央値 200 300 万円

平均: 415.04 万円(ボーナスなし 352.59,中央値 300 400 万円

(66)

問題2

方法1:毎回 H (単位 kg) の購入,方法2:毎回 M 円購入

単価(価格)Pt 円/ kg

購入額:方法1:H · Pt , 方法2:M

購入量:方法1:H (kg),方法2:M/Pt (kg)

T 回購入するときの平均購入単価

◆ 方法1:毎回一定額を支払う 購入費用

購入総量

=

XT t=1

H · Pt T · H =

1 T

XT t=1

Pt

◆ 方法2:毎回一定量を購入

購入費用 購入総量

= PTT · M

t=1 M/Pt

= 1

T

XT t=1

1 Pt

!−1

(67)

算術平均

MT 1 T

XT t=1

Pt

調和平均

HT 1 T

XT t=1

1 Pt

!−1

幾何平均

(68)

Pt が正数である限り,「算術平均 幾何平均」が成立する.もし MT ≥ GT が成立するとき,

f (p) 1 T + 1

XT t=1

Pt + p

!

YT t=1

Pt · p

!1/(T +1)

= 1

T + 1 (T · MT + p) − G

TT · p1/(T +1)

= T

T + 1 · MT +

1

T + 1 · p − G

T /(T +1)

T · p1/(T +1)

これが任意の正数について非負であるなら帰納法により「算術平均 幾 何平均」が言える.

f(p) = 1

T + 1

1

T + 1G

T /(T +1)

T · p−T /(T +1)

より p = GT で最小値を持ち,f (GT) = T

T +1 · (MT − GT) なので非負.

(69)

「幾何平均 調和平均」については,Pt が正数である限り,

HT−1 = 1 T

XT t=1

1 Pt

YT t=1

1 Pt

!T1

= 1

QT

t=1 Pt

T1 = G

−1 T

したがって

G−1T ≤ HT−1 ⇐⇒ GT ≥ HT

正数を扱う限り,「算術平均 幾何平均 調和平均」

単価を小さくしたい時には,毎回の購入額を一定にする方がよい.

参照

関連したドキュメント

ヒュームがこのような表現をとるのは当然の ことながら、「人間は理性によって感情を支配

トリガーを 1%とする、デジタル・オプションの価格設定を算出している。具体的には、クー ポン 1.00%の固定利付債の価格 94 円 83.5 銭に合わせて、パー発行になるように、オプション

最愛の隣人・中国と、相互理解を深める友愛のこころ

手動のレバーを押して津波がどのようにして起きるかを観察 することができます。シミュレーターの前には、 「地図で見る日本

  事業場内で最も低い賃金の時間給 750 円を初年度 40 円、2 年目も 40 円引き上げ、2 年間(注 2)で 830

賞与は、一般に夏期一時金、年末一時金と言うように毎月

以上の基準を仮に想定し得るが︑おそらくこの基準によっても︑小売市場事件は合憲と考えることができよう︒

となってしまうが故に︑