統計学 第2週 データの記述(2)
担当者: 高木 真吾
質問等は, stakagi@econ.hokudai.ac.jp までお願いします.
October 6, 2017
はじめに
はじめに
本日の概要 1次元のデータ 2次元のデータ 演習問題
解答編
本日の概要
■
データの特性
◆
データセットの代表と言えるのは? (平均など)
◆
散らばりの程度を示す尺度は? (分散・標準偏差)
◆
変数同士の関係とは? (共分散・相関係数)
■
キーワード
◆
平均値・分散値・標準化・共分散・相関係数・順位相関係数
1次元のデータ
はじめに
1次元のデータ
表記上の注意
データセットの特性 値:代表=中心値, 最も目にする値 データセットの特性 値:練習問題
データの特性値:散 らばり
分散の計算
補足:ヒストグラム から平均を求める 補足:チェビシェフ の不等式による平均 からの乖離の評価 平均・分散・標準偏 差の性質
応用:データの標準化 データの標準化:例 2次元のデータ 演習問題
解答編
表記上の注意
■
1変数(1次元)のデータ:例)変数 x という一変数からなる大き
さ n のデータ
{x
1, x
2, . . . , x
n}
■
2変数(2次元)のデータ:例)変数 x と変数 y という二変数から
なる大きさ n のデータ
{(x
1, y
1), (x
2, y
2), . . . , (x
n, y
n)}
■
k k v
1... v
kk
本日の内容
■
データの特性
◆
データセットの代表と言えるのは? (平均など)
◆
散らばりの程度を示す尺度は? (分散・標準偏差)
◆
変数同士の関係とは? (共分散・相関係数)
データセットの特性値:代表=中心値,最も目にする値
■
平均値:全体の中で「釣り合い」のとれる点の位置 x = ¯
1n
P
ni=1
x
i◆
代表的特性値,理論的にも良い性質,だが外れ値で大きく変動
(頑健 robust でない)
■
中央値:全体の中で真ん中になる点の位置
◆
データの大きさが奇数:真ん中の値,偶数: n/2 番と n/2 + 1
番の中間点を中央値とする
◆
少数の外れ値には反応しにくい(外れ値に対して頑健)
■
最頻値:データセットに含まれる点のうち最も多く観測される点の
位置データセットの特性値:代表=中心値,最も目にする値
■
発展的話題
◆
「平均値」は,偏差二乗和を最小にする概念
min
µX
ni=1
(x
i− µ)
2−→ ˆ µ = ¯ x
◆
「中央値」は,偏差絶対和を最小にする概念
min
µX
ni=1
|x
i− µ| −→ ˆ µ = median
データセットの特性値:練習問題
■
8人の年間所得がそれぞれ 210, 230, 250, 260, 290, 320, 340, 360
万円,平均所得は?
平均: x = ¯
210 + 230 + · · · + 340 + 360
8 = 282.5
中央値: med
x=
260 + 290
2 = 275
■
8人の年間所得がそれぞれ 210, 230, 250, 1580, 290, 320, 340, 360
万円,平均所得は?
平均: x = ¯
210 + 230 + · · · + 360 + 1580
8 = 447.5
データセットの特性値:練習問題つづき
■
7人の年間所得がそれぞれ 210, 230, 250, 320, 1290, 1340, 1580 万
円,平均所得は?
平均: x = ¯
210 + 230 + · · · + 1340 + 1580
7 ≈ 747.5
中央値: med
x= 320
■
上の結果から言えることは?
◆
ひとつの値を入れ替えるだけで平均は大きく変動,中央値はそ
れよりは頑健(例1,2).
◆
二つの異なるグループが混じっているようなデータでは平均も
中央値もデータ全体を代表するような中心ではない
データの特性値:散らばり
■
分散: 「中心からの距離(2乗で評価) 」の「平均値」
◆
すべてのデータを中心(平均)からの距離に変換:
z
i≡ (x
i− ¯x)
2◆
分散:中心から平均的にどの程度乖離しているかの尺度:
s
2x= 1
n
X
ni=1
z
i= 1
n
X
ni=1
(x
i− ¯x)
2(1)
■
標準偏差( s
x) :分散の平方根(もとのデータと単位が一致するの
でこちらを見た方が良い)
p
分散の計算
■
分散値の定義式から以下の関係が成立
s
2x= 1
n
X
ni=1
(x
i− ¯x)
2= 1
n
X
ni=1
x
2i| {z }
二乗の平均
− |{z} x ¯
2平均の二乗
(2)
つまり,データを『二乗した平均』と『平均の二乗』の差.
■
手計算する場合,後者の方が簡単.証明は以下の通り.
s
2x= 1
n
X
ni=1
(x
i− ¯x)
2= 1
n
X
ni=1
(x
2i− 2¯xx
i+ ¯ x
2)
= 1
n
X
ni=1
x
2i− 2 · ¯x · 1
n
X
ni=1
x
i+ ¯ x
2= 1
n
X
ni=1
x
2i− 2 · ¯x
2+ ¯ x
2= 1
n
X
ni=1
x
2i− ¯x
2補足:ヒストグラムから平均を求める
Table 1: 変数 x に関する n 人のヒストグラム
階級値(位置) 度数(重み) 相対度数(重み) 階級値 × 度数(力)
a1 n1 r1 a1n1
a2 n2 r2 a2n2
... ... ... ...
ak nk rk aknk
... ... ... ...
aK nK rK aKnK
計
PK
k=1 nk = n
PK
k=1 rk = 1
PK
k=1 aknk
補足:ヒストグラムから平均を求める
■ ヒストグラムの左右を釣り合いのとれる位置を x¯ とする
◆ 一般性を失うことなく x¯ の位置は,am と am+1 の間にあるとする.
■ 相対度数で考えるヒストグラムなら
◆ x¯ よりも左に係る力は
L = (¯x−a1)×r1+(¯x−a2)×r2+· · ·+(¯x−am)×rm =
Xm k=1
(¯x−ak)×rk
◆ x¯ よりも右に係る力は
R = (am+1−¯x)×rm+1+(am+2−¯x)×rm+2+· · ·+(aK−¯x)×rK =
XK k=m+1
(ak−¯x)×rk
補足:ヒストグラムから平均を求める
■ 両者が釣り合っているなら L = R つまり L − R = 0 なので Xm
k=1
(¯x − ak) × rk +
XK k=m+1
(¯x − ak) × rk =
XK k=1
(¯x − ak) × rk = 0
これを x¯ について整理すると
¯ x =
XK k=1
ak · rk,
ただし
PK
k=1 rk = 1 となることを利用した.
■ ところで,階級 k の相対度数が rk = nk
n であることを利用すれば,平均値
補足:チェビシェフの不等式による平均からの乖離の評価
■ ヒストグラムはデータの全体像を示してくれるが,いつも入手可能な情報 とは限らない.
■ データセットの平均値と分散値が分かれば,どの程度の観測点の割合が平 均に近いところにあるか,遠いところになるかについて一定程度までは評 価できる(チェビシェフの不等式)
■ 平均値,分散値は
¯
x = 1 n
Xn i=1
xi, s2 = 1 n
Xn i=1
(xi − ¯x)2 =
Xn i=1
(xi − ¯x)2 · 1 n
補足:チェビシェフの不等式による平均からの乖離の評価
■ このとき,分散値について,以下の性質がある s2 =
Xn i=1
(xi − ¯x)2 · 1 n =
X
{i:|xi−¯x|≥λ·s}
(xi − ¯x)2 · 1 n
| {z }
x ± λ · s¯ より外側にある観測点
+ X
{i:|xi−¯x|<λ·s}
| {
x ± λ · s¯ より内側にある観測点
≥ X
{i:|xi−¯x|≥λ·s}
(xi − ¯x)2 · 1 n =
X
{i:|xi−¯x|≥λ·s}
|xi − ¯x|2 · 1 n
≥ X
{i:|xi−¯x|≥λ·s}
λ2 · s2 · 1
n = λ
2 · s2 ·
P
{i:|ai−¯x|≥λ·s}
| {zn }
x ± λ · s¯ より外側にある観測点の相対頻度
補足:チェビシェフの不等式による平均からの乖離の評価
■ つまり λ2 · s2 · P{i:|x
i−¯x|≥λ·s}
1
n ≤ s2 なので,
(x ± λ · s¯ より外側にある観測点の相対頻度)≤ 1 λ2 が成り立つ.
◆ データの全体像が分からなくても,平均値・分散値の情報だけから, x ± λ · s¯ より外側にある観測点の相対頻度は,1/λ2 以下であることが 分かる
◆ λ = 2 のとき,平均値から標準偏差の2倍より外側にある観測点の割
合は 25 %以下(標準偏差の2倍より内側にある観測点の割合は 75
%以上)
◆ λ = 4 のとき,平均値から標準偏差の4倍より外側にある観測点の割
合は 6.25 %以下(標準偏差の4倍より内側にある観測点の割合は 93.75 %以上)
補足:チェビシェフの不等式による平均からの乖離の評価
■ ヒストグラム(度数分布)が分かっていればデータセットの全体像が明ら かなので上記のような不等式による結果は必要ない.
◆ 上記の不等式の結果は,データの性質によらない結果なので,非常に 粗い評価である(ヒストグラムの数値と見比べると粗さがわかる)
◆ ヒストグラム(度数分布)のように,データの性質・全体像がわかっ ていればもっと正確に評価できることは言うまでもない
平均・分散・標準偏差の性質
■
データ: {x
1, x
2, . . . , x
n}
◆
平均・分散・標準偏差: x ¯ ・ s
2x
・ s
x■
データを変換: y
i= a + b · x
i, (i = 1, 2, . . . , n)
■
新データ: {y
1, y
2, . . . , y
n}
■
このとき新データの平均・分散・標準偏差について以下の関係が成
り立つ
◆
平均 : y = a + b · ¯x ¯
◆
分散 : s
2y= b
2· s
2x◆
標準偏差: s
y= b · s
x平均・分散・標準偏差の性質:証明
■ 平均:y = a + b · ¯x¯
¯
y = 1 n
Xn i=1
yi = 1 n
Xn i=1
(a + b · xi)
= a + b · 1 n
Xn i=1
xi
!
= a + b · ¯x
■ 分散:s2y = b2 · s2x
s2y = 1 n
Xn i=1
(yi − ¯y)2 = 1 n
Xn i=1
{(a + b · xi) − (a + b · ¯x)}2
= 1
Xn
(b · x − b · ¯x)2 = b2 · 1
Xn
(x − ¯x)2 = b2 · s2
応用:データの標準化
■
標準化:平均と分散を別の値に変換する
◆
比較可能性
■
標準化の公式:データ {x
1, . . . , x
n} が平均 x ¯ ,標準偏差 s
xのとき,
y
i≡ m + s ·
x
i− ¯x
s
x, i = 1, 2, . . . , n (3)
と変換すると,新しいデータ {y
1, . . . , y
n} の平均・分散・標準偏差は
◆
平均: m ,
◆
分散: s
2(標準偏差 s )
となる.
データの標準化:例
■
例) 偏差値:平均 50 点,標準偏差 10 点 への標準化
◆
ただし,問題の難度が異なっている場合,異なる科目の点数の
合計となっている,など厳密な比較にはなっていないとの批判もある
◆
TOEFL などでは問題ごとに難度を調節した標準化を行っている
( item response theory という方法)のでより厳密な比較可能性
例題
■
平成 19 年度センター試験の英語得点の受験者全員における平均値
が 131.08 ,標準偏差の値が 40.35 .
■
ある英語のみの得点で合格が決まる大学での合格者平均点が 165
点 , 合格者最低点が 145 点.
■
この学校の合格にはいわゆる偏差値で 55 程度は必要,今年の結果
は妥当といえるか(偏差値を得点に換算) ?
◆
偏差値 55 となるこの試験での得点は,
131.08 + 40.35 · (55 − 50)/10 = 151.255 .
■
偏差値 55 では最低点をなんとかクリアしているが, 「安全
圏」ではなさそう.
例題
■
平成 19 年度センター試験の英語得点の受験者全員における平均値
が 131.08 ,標準偏差の値が 40.35 .
■
ある英語のみの得点で合格が決まる大学での合格者平均点が 165
点 , 合格者最低点が 145 点.
■
この学校の合格にはいわゆる偏差値で 55 程度は必要,今年の結果
は妥当といえるか(得点を偏差値に換算) ?
◆
165 点を偏差値換算:
50 + 10 · (165 − 131.08)/40.35 ≈ 58.41
◆
145 点を偏差値換算:
50 + 10 · (145 − 131.08)/40.35 ≈ 53.45
2次元のデータ
はじめに
1次元のデータ 2次元のデータ
共分散 相関係数
順位データについて の相関係数
演習問題 解答編
二変数の散らばり
■
変数 x と y の関係について考える
■
X-Y 平面上でどのように散布しているかを見る
■
そこから関係,散らばりに関する尺度を構成する
1. 散布図の作成(それぞれの平均 x, ¯ ¯ y も書き込む)
2. 平均を原点のように見たグラフ作成
■
データを (x
i− ¯x, y
i− ¯y) に変換したことと同等
二変数の散らばり
Table 2: 月別支出額データ
月 みかん(円) 風邪薬(円) アイス(百円)
1 月 251 2349 5.1
2 月 209 1648 6.7
3 月 195 866 9.8
4 月 148 178 13.6
5 月 155 88 19
6 月 121 97 22.5
7 月 96 163 25.6
8 月 85 166 27.5
9 月 121 266 23.5
10 月 192 1740 19.5
11 月 251 2488 14.4
12 月 288 4304 9.5
平均 176 1196.1 16.4
みかんと風邪薬とアイス
10203040
sales
orange cold med ice cream
みかんと風邪薬
100 150 200 250
01000200030004000
orange
cold medicine
(x
i
− x)(y
i− y) > 0
(x
i
− x)(y
i− y) < 0
(x
i
− x)(y
i− y) > 0
(x
i
− x)(y
i− y) < 0
アイスとみかん
150200250
orange
(x
i−x)(yi−y) < 0 (x
i−x)(yi−y) > 0 (x
i−x)(yi−y) < 0 (xi−x)(yi−y) > 0
アイスと風邪薬
5 10 15 20 25
01000200030004000
ice cream
cold medicine
(x
i−x)(yi−y) < 0
(x
i−x)(yi−y) > 0
(x
i−x)(yi−y) > 0
(x
i−x)(yi−y) < 0
二変数の散らばり:共分散
■
共分散: 二つの変数が中心(平均)から見て,
◆
同符号の方向へ散布する傾向があるのか,異符号の方向へ散布
する傾向があるのか.
◆
また中心からの乖離の程度はどの程度か?
s
xy= 1
n
X
ni=1
(x
i− ¯x)(y
i− ¯y) (4)
■
正の共分散:同符号の方向へ散布傾向,共分散の絶対値大=中心か
ら乖離
■
負の共分散:異符号の方向へ散布傾向,共分散の絶対値大=中心か
共分散の計算
■ 共分散値の定義式から以下の関係が成立 sxy = 1
n
Xn i=1
(xi − ¯x)(yi − ¯y) = 1 n
Xn i=1
xiyi
| {z } 積の平均
− x · ¯y¯
|{z} 平均の積
(5)
■ つまり,変数 x,y の『積の平均』から『平均の積』を引いたものとして 計算される
■ 手計算する場合,後者の方が簡単.
■ 練習 :上の関係式(5)を証明してください.
sxy = 1 n
Xn i=1
(xi− ¯x)(yi− ¯y) = 1 n
Xn i=1
xiyi− ¯x· 1 n
Xn i=1
yi
| {z }
¯ y
−¯y· 1 n
Xn i=1
xi
| {z }
¯ x
+¯x· ¯y
共分散の計算
■ 練習 :「みかん」と「アイス」は正の共分散,「風邪薬」と「アイス」は負 の共分散.
◆ 「みかん」への支出額を {xi}12
i=1,「アイス」・「風邪薬」をそれぞれ
{yi}12i=1・{zi}12i=1 とする.
◆ 表を用いて, 1
12
X12 i=1
xi = 21.12 12 ,
1 12
X12 i=1
yi = 19.67 12 ,
1 12
X12 i=1
zi = 14.35 12 1
12
X12 i=1
x2i = 41.92 12 ,
1 12
X12 i=1
yi2 = 38.61 12 ,
1 12
X12 i=1
zi2 = 39.30 12
共分散の計算
Table 3: みかん(百円)とアイス(百円)
みかん アイス
x1 x3 x21 x23 x1 · x3 1 月 2.51 0.51 6.30 0.26 1.28 2 月 2.09 0.67 4.37 0.45 1.40 3 月 1.95 0.98 3.80 0.96 1.91 4 月 1.48 1.36 2.19 1.85 2.01 5 月 1.55 1.90 2.40 3.61 2.95 6 月 1.21 2.25 1.46 5.06 2.72 7 月 0.96 2.56 0.92 6.55 2.46 8 月 0.85 2.75 0.72 7.56 2.34 9 月 1.21 2.35 1.46 5.52 2.84 10 月 1.92 1.95 3.69 3.80 3.74 11 月 2.51 1.44 6.30 2.07 3.61 12 月 2.88 0.95 8.29 0.90 2.74 合計 21.12 19.67 41.92 38.61 30.00
共分散の計算
以上より
■ みかん(百円)
◆ 平均 :x¯1 = 21.12/12 = 1.76
◆ 分散 :s21 = 41.92/12 − (21.12/12)2 = 0.40
◆ 標準偏差:s1 = ps21 = √0.40 = 0.63
■ アイス(百円)
◆ 平均 :x¯3 = 19.67/12 = 1.64
◆ 分散 :s23 = 38.61/12 − (19.67/12)2 = 0.53
◆ 標準偏差:s3 = ps23 = √0.53 = 0.73
共分散の計算
Table 4: 風邪薬(千円)とアイス(百円)
風邪薬 アイス
x2 x3 x22 x23 x2 · x3 1 月 2.35 0.51 5.52 0.26 1.20 2 月 1.65 0.67 2.72 0.45 1.10 3 月 0.87 0.98 0.75 0.96 0.85 4 月 0.18 1.36 0.03 1.85 0.24 5 月 0.09 1.90 0.01 3.61 0.17 6 月 0.10 2.25 0.01 5.06 0.22 7 月 0.16 2.56 0.03 6.55 0.42 8 月 0.17 2.75 0.03 7.56 0.46 9 月 0.27 2.35 0.07 5.52 0.63 10 月 1.74 1.95 3.03 3.80 3.39 11 月 2.49 1.44 6.19 2.07 3.58 12 月 4.30 0.95 18.52 0.90 4.09 合計 14.35 19.67 36.90 38.61 16.34
共分散の計算
以上より
■ 風邪薬(千円)
◆ 平均 :x¯2 = 14.35/12 = 1.20
◆ 分散 :s22 = 36.90/12 − (14.35/12)2 = 1.64
◆ 標準偏差:s2 = ps22 = √1.64 = 1.28
■ アイス(百円)
◆ 平均 :x¯3 = 19.67/12 = 1.64
◆ 分散 :s23 = 38.61/12 − (19.67/12)2 = 0.53
◆ 標準偏差:s3 = ps23 = √0.53 = 0.73
共分散の計算結果
■ みかんとアイスの共分散 sxy = 1
12
X12 i=1
xiyi − ¯x · ¯y = 30.00 12 −
21.12 12 ·
19.76
12 = −0.38
■ アイスと風邪薬の共分散 syz = 1
12
X12 i=1
yizi − ¯y · ¯z = 16.34 12 −
19.76 12 ·
14.35
12 = −0.60.
■ (みかん・アイス) ペアも,(アイス・風邪薬) ペアも同時に大きな値になり
にくい
■ (みかん・アイス) ペアの方が,(アイス・風邪薬) より平均付近に集まって いる
相関係数
■ 相関係数:共分散を −1 から 1 の区間に変換
rxy = sxy
sx · sy =
Pn
i=1(xi − ¯x)(yi − ¯y)
pPn
i=1(xi − ¯x)2
pPn
i=1(yi − ¯y)2
(6)
◆ 相関係数が正:平均から見て同符号の方向に散布,1 に近いほど強い 線形関係
■ 相関係数が1のとき,yi = α + β · xi, β > 0 for i = 1, 2, . . . , n が 成立
◆ 相関係数が負:平均から見て異符号の方向に散布,-1 に近いほど強い 線形関係
■ -1 y = α − β · x , β > 0 for i = 1, 2, . . . , n
相関係数の計算例
■ 相関係数:それぞれの変数の分散と共分散が必要
相関係数 =
X と Y の共分散 pX の分散 · Y の分散
■ 練習 :「みかん」と「アイス」の相関係数:−0.840
s2x = 1 12
X12 i=1
x2i−¯x2 = 41.92 12 −
21.12 12
2
, s2y = 1 12
X12 i=1
yi2−¯y2 = 38.61 12 −
19.67 12
rxy = qsxy
s2xs2y = −0.840
■ 練習 :「アイス」と「風邪薬」の相関係数:−0.641
■ (みかん・アイス) ペアの方が,(アイス・風邪薬) より強い負の線形関係
みかんと風邪薬
1000200030004000
cold medicine
(x
i
− x)(y
i− y) > 0
(x
i
− x)(y
i− y) < 0
(x
i
− x)(y
i− y) > 0
− −
アイスとみかん
5 10 15 20 25
100150200250
ice cream
orange
(x
i−x)(yi−y) < 0 (x
i−x)(yi−y) > 0 (x
i−x)(yi−y) < 0 (xi−x)(yi−y) > 0
アイスと風邪薬
1000200030004000
cold medicine
(x
i−x)(yi−y) < 0
− −
(x
i−x)(yi−y) > 0
(x
i−x)(yi−y) < 0
相関係数に関する補足
■
以下は相関係数に関する補足です
◆
変数 x と y の相関係数 r
xyは,両方の変数を平均0,分散1に
基準化した変数同士の共分散と考えることもできる.◆
相関係数 r
xyは, −1 ≤ r
xy≤ 1 である
1.
◆
相関係数が ±1 であるとき, y = α ± βx ( β > 0 )という関係
になる.
1
一 般 に −
pPn
i=1(xi − x¯)2
pPn
i=1(yi − y¯)2 ≤
Pn
i=1(xi − x¯)(yi − y¯) ≤
pPn
i=1(xi − x)¯ 2
pPn
i=1(yi − y)¯ 2 が 成 り 立 つ( コ ー シ ー・シュワ ル ツ の 不 等 式 )の で相関係数は常に −1 から 1 の間の値をとる.
補足
■
−1 ≤ r
xy= s
xy/(s
xs
y) ≤ 1 について,
v
i= (y
i− ¯y) − s
xys
2x· (x
i− ¯x), i = 1, 2, . . . , n
とおいて,
0 ≤ n 1
X
ni=1
v
i2= 1
n
X
ni=1
(y
i− ¯y) − s
xys
2x· (x
i− ¯x)
2= s
2y− 2 · s
xys
2x· s
xy+
s
2xys
4x· s
2x
= s
2y· (1 − r
xy2)
つまり 1 − r
2xy
≥ 0 ⇔ |r
xy| ≤ 1
補足
■
r
xy= ±1 であるとき,すべての点において v
i= 0
■
このとき,
y
i= ¯ y + s
xys
2x· (x
i− ¯x), i = 1, 2, . . . , n
全ての観測点が上の直線上に乗っていることが条件.
◆
直線の傾きは
sxys2x
なので,共分散の符号に依存
補足
■
直線上にない点があると相関係数が(絶対値)1より小さくなる
◆
n 個の (x, y) のペアは直線上にあるとする.
◆
x = ¯ x となる位置に y = ¯ y ± a となる二点を加える(直線上に
ない二点)
◆
この時,相関係数は
r
′xy= q s
xys
2xy+ 2a
2s
x/n
< 1
となり,乖離幅 a が小さければ1に近いが,乖離すればするほ
ど,1より小さくなる.
順位データについての相関係数
■ 2種類の順位を示すデータについての関係(2種類の評価の関連性)
◆ <男性の好きな花/女性の好きな花>ランキング
■ スピアマンの順位相関係数
◆ それぞれのランクデータ(1 位から n 位まで)に通常の相関係数の公 式を適用.
rS = 1 − 6 n3 − n
Xn i=1
(Ri − R′i)2 (7)
ただし,Ri は一方の評価者による対象 i のランクで,R′
i はもう一方
の評価者のランクである.
■ ケンドールの順位相関係数: 各データ点の組み合わせを考え,順位が逆転 がない方が相関が高いと考える
順位データについての相関係数(つづき)
■
ケンドールの順位相関係数(一方の変数のランクデータを {R
i}
ni=1
,
他方を {R
′i
}
ni=1とする)
◆
両方の評価者によるランク付けが正順となっている場合と逆順
となっている場合をカウント
◆
正順: 「 R
i> R
jかつ R
i′> R
j′」あるいは「 R
i< R
jかつ
R
′i< R
′j」
◆
逆順: 「 R
i> R
jかつ R
i′< R
j′」あるいは「 R
i< R
jかつ
R
′i> R
′j」
◆
すべてのケースについて,正順か逆順かを数える
順位データについての相関係数(つづき)
■
ケンドールの順位相関係数(一方の変数のランクデータを {R
i}
ni=1
,
他方を {R
′i
}
ni=1とする)
◆
すべてのケースについて,正順か逆順かを数える
◆
合計 n(n − 1)/2 ケースあるうち,正順の場合の数を G ,逆順を
H .このとき
r
K= G − H
n(n − 1)/2 (8)
◆
明らかに両者で評価が完全に一致する(しない)とき, r
K= 1
( r
K= −1 )
順位データについての相関係数(つづき)
内容 桜 菊 バラ 梅 ユリ
チュー カーネー椿 total
リップ ション
男( R) 1 2 3 4 5 6 7 8
女( R’) 3 1 2 5 4 7 6 8
正順 (G) 5
逆順 (H) 2
順位データについての相関係数(つづき)
内容 桜 菊 バラ 梅 ユリ
チュー カーネー椿 total
リップ ション
男( R) 1 2 3 4 5 6 7 8
女( R’) 3 1 2 5 4 7 6 8
正順 (G) 5 6 5 3 3 1 1 24
逆順 (H) 2 0 0 1 0 1 0 4
■
内容:桜(男は 1 位,女 3 位 →
◆
男は残り 7 個すべて下位,女はそのうち 5 個だけ下位にランク:
■
正順:5個
■
逆順:一致しない2個
順位データについての相関係数(つづき)
内容 桜 菊 バラ 梅 ユリ
チュー カーネー椿 total
リップ ション
男( R) 1 2 3 4 5 6 7 8
女( R’) 3 1 2 5 4 7 6 8
正順 (G) 5 6 5 3 3 1 1 24
逆順 (H) 2 0 0 1 0 1 0 4
■
内容:菊(男は 2 位,女 1 位 →
◆
男は残り 6 個すべて下位,女も 6 個すべて下位にランク:正順
6個・逆順0個
■
演習問題
はじめに
1次元のデータ 2次元のデータ 演習問題
演習問題 最後に 解答編
演習問題
問題 : 1,3,4は宿題
1. 別表1の民間給与実態調査の(度数分布)表を用いて,男性給与所得者の 平均,中央値,最頻値を求めてください.
2. 別表2のような金価格(円/ kg)の推移を考えるとき,毎日 3kg を5回 購入し続けることと,毎日 1.2 万円で購入できる金を5回購入し続けるこ とを考える.5回購入後の平均購入単価(支出総額/購入総量)を考える と,どちらの購入方法のほうが単価が低いか(等しいか).
3. Table 2 (28ページ)を用いて,「みかん」と「風邪薬」への支出額につい て,平均・分散・共分散・相関係数を求めてください.
4. 下の Table 5 を用いて,夫の妻の家事に関する考え方が一致しているかど
うかを調べてください(順位相関係数を求めてください).
演習問題
Table 5: 家事:夫の協力,妻の要望
項目 夫のランク 妻のランク
窓掃除 1 3
風呂掃除 2 1
食材買出 3 8
布団干し 4 6
洗濯物取込 5 9
ごみ出し 6 5
照明掃除 7 4
掃除機 8 7
玄関掃除 9 10
換気扇掃除 10 2
最後に
■ 回答は A4 用紙 に記入してください
■ 複数枚にわたるときはホッチキスなどでまとめてください
■ 氏名の記入と学籍番号の記入を忘れないでください
■ 提出は,次週 水曜日の 13 時までに メールボックスへお願いします
問題2
■ 方法1:毎回 H (単位 kg) の購入,方法2:毎回 M 円購入
■ 単価(価格):Pt 円/ kg
■ 購入額:方法1:H · Pt 円, 方法2:M 円
■ 購入量:方法1:H (kg),方法2:M/Pt (kg)
■ T 回購入するときの平均購入単価
◆ 方法1:毎回一定額を支払う 購入費用
購入総量
=
XT t=1
H · Pt T · H =
1 T
XT t=1
Pt
◆ 方法2:毎回一定量を購入
購入費用 購入総量
= PTT · M
t=1 M/Pt
= 1
T
XT t=1
1 Pt
!−1
■ 算術平均
MT ≡ 1 T
XT t=1
Pt
■ 調和平均
HT ≡ 1 T
XT t=1
1 Pt
!−1
■ 幾何平均
■ Pt が正数である限り,「算術平均 ≥ 幾何平均」が成立する.もし MT ≥ GT が成立するとき,
f (p) ≡ 1 T + 1
XT t=1
Pt + p
!
−
YT t=1
Pt · p
!1/(T +1)
= 1
T + 1 (T · MT + p) − G
TT · p1/(T +1)
= T
T + 1 · MT +
1
T + 1 · p − G
T /(T +1)
T · p1/(T +1)
これが任意の正数について非負であるなら帰納法により「算術平均 ≥ 幾 何平均」が言える.
f′(p) = 1
T + 1 −
1
T + 1G
T /(T +1)
T · p−T /(T +1)
より p = GT で最小値を持ち,f (GT) = T
T +1 · (MT − GT) なので非負.
■ 「幾何平均 ≥ 調和平均」については,Pt が正数である限り,
HT−1 = 1 T
XT t=1
1 Pt ≥
YT t=1
1 Pt
!T1
= 1
QT
t=1 Pt
T1 = G
−1 T
したがって
G−1T ≤ HT−1 ⇐⇒ GT ≥ HT
■ 正数を扱う限り,「算術平均 ≥ 幾何平均 ≥ 調和平均」
■ 単価を小さくしたい時には,毎回の購入額を一定にする方がよい.
解答編
はじめに
1次元のデータ 2次元のデータ 演習問題
解答編
相関係数 問題5
統計学 第二週 – 64 / 92
問題1
■ 平均: 514.38 万円(ボーナスなし 433.58),中央値 400∼ 500 万円
■ 平均: 272.26 万円(ボーナスなし 236.14),中央値 200∼ 300 万円
■ 平均: 415.04 万円(ボーナスなし 352.59),中央値 300∼ 400 万円
問題2
■ 方法1:毎回 H (単位 kg) の購入,方法2:毎回 M 円購入
■ 単価(価格):Pt 円/ kg
■ 購入額:方法1:H · Pt 円, 方法2:M 円
■ 購入量:方法1:H (kg),方法2:M/Pt (kg)
■ T 回購入するときの平均購入単価
◆ 方法1:毎回一定額を支払う 購入費用
購入総量
=
XT t=1
H · Pt T · H =
1 T
XT t=1
Pt
◆ 方法2:毎回一定量を購入
購入費用 購入総量
= PTT · M
t=1 M/Pt
= 1
T
XT t=1
1 Pt
!−1
■ 算術平均
MT ≡ 1 T
XT t=1
Pt
■ 調和平均
HT ≡ 1 T
XT t=1
1 Pt
!−1
■ 幾何平均
■ Pt が正数である限り,「算術平均 ≥ 幾何平均」が成立する.もし MT ≥ GT が成立するとき,
f (p) ≡ 1 T + 1
XT t=1
Pt + p
!
−
YT t=1
Pt · p
!1/(T +1)
= 1
T + 1 (T · MT + p) − G
TT · p1/(T +1)
= T
T + 1 · MT +
1
T + 1 · p − G
T /(T +1)
T · p1/(T +1)
これが任意の正数について非負であるなら帰納法により「算術平均 ≥ 幾 何平均」が言える.
f′(p) = 1
T + 1 −
1
T + 1G
T /(T +1)
T · p−T /(T +1)
より p = GT で最小値を持ち,f (GT) = T
T +1 · (MT − GT) なので非負.
■ 「幾何平均 ≥ 調和平均」については,Pt が正数である限り,
HT−1 = 1 T
XT t=1
1 Pt ≥
YT t=1
1 Pt
!T1
= 1
QT
t=1 Pt
T1 = G
−1 T
したがって
G−1T ≤ HT−1 ⇐⇒ GT ≥ HT
■ 正数を扱う限り,「算術平均 ≥ 幾何平均 ≥ 調和平均」
■ 単価を小さくしたい時には,毎回の購入額を一定にする方がよい.