資料置き場 hustat2017 20171006

(1)

統計学第２週データの記述（２）

担当者：高木真吾

質問等は， stakagi@econ.hokudai.ac.jp ^{までお願いします．}

October 6, 2017

(2)

はじめに

本日の概要１次元のデータ２次元のデータ演習問題

解答編

(3)

本日の概要

■

^{データの特性}

◆

データセットの代表と言えるのは？（平均など）

◆

散らばりの程度を示す尺度は？（分散・標準偏差）

◆

^{変数同士の関係とは？} ^{（共分散・相関係数）}

■

^{キーワード}

◆

平均値・分散値・標準化・共分散・相関係数・順位相関係数

(4)

１次元のデータ

はじめに

１次元のデータ

表記上の注意

データセットの特性値：代表＝中心値，最も目にする値データセットの特性値：練習問題

データの特性値：散らばり

分散の計算

補足：ヒストグラムから平均を求める補足：チェビシェフの不等式による平均からの乖離の評価平均・分散・標準偏差の性質

応用：データの標準化データの標準化：例２次元のデータ演習問題

解答編

(5)

表記上の注意

■

１変数（１次元）のデータ：例）変数 _x という一変数からなる大き

さ _n のデータ

{x

1

^{, x}

2

, . . . , x

_n

_}

■

２変数（２次元）のデータ：例）変数 _x と変数 _y という二変数から

なる大きさ _n のデータ

{(x

1

^{, y}

1

^{), (x}

2

^{, y}

2

), . . . , (x

_n

, y

_n

_)}

■

_k _k _v

₁

_{... v}

_k

(6)

本日の内容

■

^{データの特性}

◆

データセットの代表と言えるのは？（平均など）

◆

散らばりの程度を示す尺度は？（分散・標準偏差）

◆

^{変数同士の関係とは？} ^{（共分散・相関係数）}

(7)

データセットの特性値：代表＝中心値，最も目にする値

■

平均値：全体の中で「釣り合い」のとれる点の位置 _{x =} _¯

¹

n

P

_n

i=1

^x

ⁱ

◆

代表的特性値，理論的にも良い性質，だが外れ値で大きく変動

（頑健 _robust でない）

■

中央値：全体の中で真ん中になる点の位置

◆

データの大きさが奇数：真ん中の値，偶数： _n/2 番と _{n/2 + 1}

番の中間点を中央値とする

◆

少数の外れ値には反応しにくい（外れ値に対して頑健）

■

最頻値：データセットに含まれる点のうち最も多く観測される点の

位置

(8)

データセットの特性値：代表＝中心値，最も目にする値

■

^{発展的話題}

◆

「平均値」は，偏差二乗和を最小にする概念

min

µ

X

n

i=1

(x

_i

_{− µ)}

²

_{−→ ˆ} µ = ¯ x

◆

「中央値」は，偏差絶対和を最小にする概念

min

µ

X

n

i=1

|x

ⁱ

− µ| −→ ˆ ^{µ = median}

(9)

データセットの特性値：練習問題

■

８人の年間所得がそれぞれ 210, 230, 250, 260, 290, 320, 340, 360

万円，平均所得は？

平均： _{x =} _¯

210 + 230 + · · · + 340 + 360

8 ⁼ ^282.5

中央値： _med

_x

₌

₂₆₀ ₊ ₂₉₀

2 ⁼ ²⁷⁵

■

８人の年間所得がそれぞれ 210, 230, 250, 1580, 290, 320, 340, 360

万円，平均所得は？

平均： _{x =} _¯

210 + 230 + · · · + 360 + 1580

8 ^{= 447.5}

(10)

データセットの特性値：練習問題つづき

■

７人の年間所得がそれぞれ 210, 230, 250, 320, 1290, 1340, 1580 ^万

円，平均所得は？

平均： _{x =} _¯

210 + 230 + · · · + 1340 + 1580

7 ^{≈ 747.5}

中央値： _med

_x

₌ ₃₂₀

■

上の結果から言えることは？

◆

ひとつの値を入れ替えるだけで平均は大きく変動，中央値はそ

れよりは頑健（例１，２）

．

◆

二つの異なるグループが混じっているようなデータでは平均も

中央値もデータ全体を代表するような中心ではない

(11)

データの特性値：散らばり

■

^分散：「中心からの距離（２乗で評価）」の「平均値」

◆

すべてのデータを中心（平均）からの距離に変換：

z

_i

_{≡ (x}

_i

_{− ¯x)}

²

◆

分散：中心から平均的にどの程度乖離しているかの尺度：

s

²_x

= ¹

n

X

n

i=1

z

_i

= ¹

n

X

n

i=1

(x

_i

_{− ¯x)}

²

(1)

■

^{標準偏差（} _s

_x

^）：分散の平方根（もとのデータと単位が一致するの

でこちらを見た方が良い）

p

(12)

分散の計算

■

分散値の定義式から以下の関係が成立

s

²_x

= ¹

n

X

n

i=1

(x

i

_{− ¯x)}

²

= ¹

n

X

n

i=1

x

²_i

| {z }

二乗の平均

− _|{z} ^x ^¯

²

平均の二乗

(2)

つまり，データを『二乗した平均』と『平均の二乗』の差．

■

手計算する場合，後者の方が簡単．証明は以下の通り．

s

²_x

= ¹

n

X

n

i=1

(x

i

_{− ¯x)}

²

= ¹

n

X

n

i=1

(x

²_i

_{− 2¯xx}

i

+ ¯ x

²

)

= ¹

n

X

n

i=1

x

²_i

_{− 2 · ¯x ·} ¹

n

X

n

i=1

x

i

+ ¯ x

²

= ¹

n

X

n

i=1

x

²_i

_{− 2 · ¯x}

²

+ ¯ x

²

= ¹

n

X

n

i=1

x

²_i

_{− ¯x}

²

(13)

補足：ヒストグラムから平均を求める

Table 1: ^変数 x ^に関する n ^{人のヒストグラム}

階級値（位置）度数（重み）相対度数（重み）階級値 _× 度数（力）

a₁ n₁ r₁ a₁n₁

a₂ n₂ r₂ a₂n₂

... ^... ^... ^...

a_k n_k r_k a_kn_k

... ^... ^... ^...

a_K n_K r_K a_Kn_K

計

PK

k=1 ⁿ^k ^{= n}

PK

k=1 ^r^k ^{= 1}

PK

k=1 ^a^kⁿ^k

(14)

補足：ヒストグラムから平均を求める

■ ヒストグラムの左右を釣り合いのとれる位置を _x_¯ とする

◆ ^{一般性を失うことなく} _x_¯ ^{の位置は，}_a_m ^と _a_m+1 ^{の間にあるとする．}

■ 相対度数で考えるヒストグラムなら

◆ _x_¯ ^{よりも左に係る力は}

L = (¯_x−a₁_)×r₁+(¯_x−a₂_)×r₂+· · ·+(¯x−a^m)×r^m ⁼

Xm k=1

(¯_x−a_k_)×r_k

◆ _x_¯ ^{よりも右に係る力は}

R = (a_m+1_−¯x)×r_m+1+(a_m+2_−¯x)×r_m+2_{+· · ·+(a}_K_−¯x)×r_K =

XK k=m+1

(a_k_−¯x)×r_k

(15)

補足：ヒストグラムから平均を求める

■ 両者が釣り合っているなら _{L = R} つまり _{L − R = 0} なので Xm

k=1

(¯_{x − a}_k_{) × r}_k +

XK k=m+1

(¯_{x − a}_k_{) × r}_k =

XK k=1

(¯_{x − a}_k_{) × r}_k = 0

これを _x_¯ について整理すると

¯ x =

XK k=1

a_k _{· r}_k,

ただし

PK

k=1 ^r^k ^{= 1} となることを利用した．

■ ^{ところで，階級} _k ^{の相対度数が} _r_k ₌ ⁿ^k

n であることを利用すれば，平均値

(16)

補足：チェビシェフの不等式による平均からの乖離の評価

■ ヒストグラムはデータの全体像を示してくれるが，いつも入手可能な情報とは限らない．

■ データセットの平均値と分散値が分かれば，どの程度の観測点の割合が平均に近いところにあるか，遠いところになるかについて一定程度までは評価できる（チェビシェフの不等式）

■ ^{平均値，分散値は}

¯

x = ¹ n

Xn i=1

x_i, s² = ¹ n

Xn i=1

(x_i _{− ¯x)}² =

Xn i=1

(x_i _{− ¯x)}² _· ¹ n

(17)

補足：チェビシェフの不等式による平均からの乖離の評価

■ このとき，分散値について，以下の性質がある s² =

Xn i=1

(x_i _{− ¯x)}² _· ¹ n ⁼

X

{i:|xi−¯x|≥λ·s}

(x_i _{− ¯x)}² _· ¹ n

| {z }

x ± λ · s¯ ^{より外側にある観測点}

+ ^X

{i:|xi−¯x|<λ·s}

| {

x ± λ · s¯ ^{より内側にある観測点}

≥ ^X

{i:|xⁱ−¯x|≥λ·s}

(x_i _{− ¯x)}² _· ¹ n ⁼

X

|xⁱ − ¯x|² · ¹ n

≥ ^X

λ² _{· s}² _· ¹

n ^{= λ}

2 · s² ·

P

{i:|aⁱ−¯x|≥λ·s}

| {zn }

x ± λ · s¯ より外側にある観測点の相対頻度

(18)

補足：チェビシェフの不等式による平均からの乖離の評価

■ ^つまり _λ² _{· s}² _· ^P_{i:|x

i_−¯_x|≥λ·s}

1

n ^{≤ s}² ^なので，

（_{x ± λ · s}_¯ より外側にある観測点の相対頻度）_≤ 1 λ² が成り立つ．

◆ データの全体像が分からなくても，平均値・分散値の情報だけから， x ± λ · s¯ より外側にある観測点の相対頻度は，_1/λ² 以下であることが分かる

◆ _{λ = 2} のとき，平均値から標準偏差の２倍より外側にある観測点の割

合は ₂₅ ％以下（標準偏差の２倍より内側にある観測点の割合は ₇₅

％以上）

◆ _{λ = 4} のとき，平均値から標準偏差の４倍より外側にある観測点の割

合は _6.25 ％以下（標準偏差の４倍より内側にある観測点の割合は 93.75 ^％以上）

(19)

補足：チェビシェフの不等式による平均からの乖離の評価

■ ヒストグラム（度数分布）が分かっていればデータセットの全体像が明らかなので上記のような不等式による結果は必要ない．

◆ 上記の不等式の結果は，データの性質によらない結果なので，非常に粗い評価である（ヒストグラムの数値と見比べると粗さがわかる）

◆ ヒストグラム（度数分布）のように，データの性質・全体像がわかっていればもっと正確に評価できることは言うまでもない

(20)

平均・分散・標準偏差の性質

■

^データ： _{x

₁

_{, x}

₂

, . . . , x

_n

_}

◆

平均・分散・標準偏差： _x _¯ ・ _s

²

x

^・ ^s

^x

■

^{データを変換：} _y

_i

= a + b · x

ⁱ

, (i = 1, 2, . . . , n)

■

^{新データ：} _{y

₁

_{, y}

₂

, . . . , y

_n

_}

■

このとき新データの平均・分散・標準偏差について以下の関係が成

り立つ

◆

^{平均：} y = a + b · ¯x _¯

◆

^{分散：} _s

²_y

_{= b}

²

_{· s}

²_x

◆

^{標準偏差：} _s

_y

_{= b · s}

_x

(21)

平均・分散・標準偏差の性質：証明

■ ^平均：y = a + b · ¯x_¯

¯

y = ¹ n

Xn i=1

y_i = ¹ n

Xn i=1

(a + b · xⁱ⁾

= _{a + b ·} ¹ n

Xn i=1

x_i

!

= a + b · ¯x

■ ^分散：_s²_y _{= b}² _{· s}²_x

s²_y = ¹ n

Xn i=1

(y_i _{− ¯y)}² = ¹ n

Xn i=1

{(a + b · xi) − (a + b · ¯x)}²

= ¹

Xn

(b · x − b · ¯x)² ^{= b}² · ¹

Xn

(x _{− ¯x)}² = b² _{· s}²

(22)

応用：データの標準化

■

標準化：平均と分散を別の値に変換する

◆

^{比較可能性}

■

^{標準化の公式：データ} _{x

₁

, . . . , x

_n

_} ^が平均 x ¯ ^{，標準偏差} s

_x

^のとき，

y

i

_{≡ m + s ·}

x

_i

_{− ¯x}

s

_x

, i = 1, 2, . . . , n (3)

と変換すると，新しいデータ _{y

₁

, . . . , y

_n

_} の平均・分散・標準偏差は

◆

^平均： _m ^，

◆

^分散： _s

²

^{（標準偏差} _s ^）

となる．

(23)

データの標準化：例

■

^例） ^{偏差値：平均} ₅₀ ^{点，標準偏差} ₁₀ ^点 ^{への標準化}

◆

ただし，問題の難度が異なっている場合，異なる科目の点数の

合計となっている，など厳密な比較にはなっていないとの批判

もある

◆

_TOEFL などでは問題ごとに難度を調節した標準化を行っている

（ item response theory という方法）のでより厳密な比較可能性

(24)

例題

■

^平成 ₁₉ 年度センター試験の英語得点の受験者全員における平均値

が _131.08 ，標準偏差の値が _40.35 ．

■

ある英語のみの得点で合格が決まる大学での合格者平均点が ₁₆₅

点 _, 合格者最低点が ₁₄₅ 点．

■

この学校の合格にはいわゆる偏差値で ₅₅ 程度は必要，今年の結果

は妥当といえるか（偏差値を得点に換算）？

◆

^偏差値 ₅₅ となるこの試験での得点は，

131.08 + 40.35 · (55 − 50)/10 = 151.255 ^．

■

偏差値 ₅₅ では最低点をなんとかクリアしているが，「安全

圏」ではなさそう．

(25)

例題

■

^平成 ₁₉ 年度センター試験の英語得点の受験者全員における平均値

が _131.08 ，標準偏差の値が _40.35 ．

■

ある英語のみの得点で合格が決まる大学での合格者平均点が ₁₆₅

点 _, 合格者最低点が ₁₄₅ 点．

■

この学校の合格にはいわゆる偏差値で ₅₅ 程度は必要，今年の結果

は妥当といえるか（得点を偏差値に換算）？

◆

₁₆₅ ^{点を偏差値換算：}

50 + 10 · (165 − 131.08)/40.35 ≈ 58.41

◆

₁₄₅ ^{点を偏差値換算：}

50 + 10 · (145 − 131.08)/40.35 ≈ 53.45

(26)

２次元のデータ

はじめに

１次元のデータ２次元のデータ

共分散相関係数

順位データについての相関係数

演習問題解答編

(27)

二変数の散らばり

■

^変数 _x ^と _y ^{の関係について考える}

■

_X-Y 平面上でどのように散布しているかを見る

■

そこから関係，散らばりに関する尺度を構成する

1. 散布図の作成（それぞれの平均 _{x, ¯} _¯ _y も書き込む）

2. 平均を原点のように見たグラフ作成

■

^データを _(x

_i

_{− ¯x, y}

_i

_{− ¯y)} ^{に変換したことと同等}

(28)

二変数の散らばり

Table 2: ^{月別支出額データ}

月みかん（円）風邪薬（円）アイス（百円）

1 ^月 251 2349 5.1

2 ^月 209 1648 6.7

3 ^月 195 866 9.8

4 ^月 148 178 13.6

5 ^月 155 88 19

6 ^月 121 97 22.5

7 ^月 96 163 25.6

8 ^月 85 166 27.5

9 ^月 121 266 23.5

10 ^月 192 1740 19.5

11 ^月 251 2488 14.4

12 ^月 288 4304 9.5

平均 ₁₇₆ _1196.1 _16.4

(29)

みかんと風邪薬とアイス

10203040

sales

orange cold med ice cream

(30)

みかんと風邪薬

100 150 200 250

01000200030004000

orange

cold medicine

(x

i

− ^x)(y

i

− ^{y) > 0}

(x

i

− ^x)(y

i

− ^{y) < 0}

(x

i

− ^x)(y

i

− ^{y) > 0}

(x

i

− ^x)(y

i

− ^{y) < 0}

(31)

アイスとみかん

150200250

orange

(x

i−^x)(yi−^{y) < 0} (x

i−^x)(yi−^{y) > 0} (x

i−^x)(yi−^{y) < 0} ^(xi−^x)(yi−^{y) > 0}

(32)

アイスと風邪薬

5 10 15 20 25

01000200030004000

ice cream

cold medicine

(x

i−^x)(yi−^{y) < 0}

(x

i−^x)(yi−^{y) > 0}

(x

i−^x)(yi−^{y) > 0}

(x

i−^x)(yi−^{y) < 0}

(33)

二変数の散らばり：共分散

■

^共分散：二つの変数が中心（平均）から見て，

◆

同符号の方向へ散布する傾向があるのか，異符号の方向へ散布

する傾向があるのか．

◆

また中心からの乖離の程度はどの程度か？

s

_xy

= ¹

n

X

n

i=1

(x

_i

_{− ¯x)(y}

_i

_{− ¯y)} (4)

■

正の共分散：同符号の方向へ散布傾向，共分散の絶対値大＝中心か

ら乖離

■

負の共分散：異符号の方向へ散布傾向，共分散の絶対値大＝中心か

(34)

共分散の計算

■ 共分散値の定義式から以下の関係が成立 s_xy = ¹

n

Xn i=1

(x_i _{− ¯x)(y}_i _{− ¯y) =} ¹ n

Xn i=1

x_iy_i

| {z } 積の平均

− x · ¯y^¯

|{z} 平均の積

(5)

■ ^{つまり，変数} x^，y の『積の平均』から『平均の積』を引いたものとして計算される

■ 手計算する場合，後者の方が簡単．

■ ^練習 ^{：上の関係式（}₅）を証明してください．

s_xy = ¹ n

Xn i=1

(x_i_{− ¯x)(y}_i_{− ¯y) =} ¹ n

Xn i=1

x_iy_i_{− ¯x·} ¹ n

Xn i=1

y_i

| {z }

¯ y

−¯y· ¹ n

Xn i=1

x_i

| {z }

¯ x

+¯_{x· ¯y}

(35)

共分散の計算

■ ^練習 ^：「みかん」と「アイス」は正の共分散，「風邪薬」と「アイス」は負の共分散．

◆ 「みかん」への支出額を _{x_i_}¹²

i=1^，^{「アイス」}^・^{「風邪薬」をそれぞれ}

{yi}¹²_i=1^・{zi}¹²_i=1 ^とする．

◆ ^{表を用いて，} 1

12

X12 i=1

x_i = ^21.12 12 ^,

1 12

X12 i=1

y_i = ^19.67 12 ^,

1 12

X12 i=1

z_i = ^14.35 12 1

12

X12 i=1

x²_i = ^41.92 12 ^,

1 12

X12 i=1

y_i² = ^38.61 12 ^,

1 12

X12 i=1

z_i² = ^39.30 12

(36)

共分散の計算

Table 3: みかん（百円）とアイス（百円）

みかんアイス

x₁ x₃ x²₁ x²₃ x₁ _{· x}₃ 1 ^月 2.51 0.51 6.30 0.26 1.28 2 ^月 2.09 0.67 4.37 0.45 1.40 3 ^月 1.95 0.98 3.80 0.96 1.91 4 ^月 1.48 1.36 2.19 1.85 2.01 5 ^月 1.55 1.90 2.40 3.61 2.95 6 ^月 1.21 2.25 1.46 5.06 2.72 7 ^月 0.96 2.56 0.92 6.55 2.46 8 ^月 0.85 2.75 0.72 7.56 2.34 9 ^月 1.21 2.35 1.46 5.52 2.84 10 ^月 1.92 1.95 3.69 3.80 3.74 11 ^月 2.51 1.44 6.30 2.07 3.61 12 ^月 2.88 0.95 8.29 0.90 2.74 合計 _21.12 _19.67 _41.92 _38.61 _30.00

(37)

共分散の計算

以上より

■ ^{みかん（百円）}

◆ ^{平均：}_x_¯₁ = 21.12/12 = 1.76

◆ ^{分散：}_s²₁ = 41.92/12 − (21.12/12)² ^{= 0.40}

◆ ^{標準偏差：}_s₁ ₌ ^p_s²₁ ₌ ^√0.40 = 0.63

■ ^{アイス（百円）}

◆ ^{平均：}_x_¯₃ = 19.67/12 = 1.64

◆ ^{分散：}_s²₃ = 38.61/12 − (19.67/12)² ^{= 0.53}

◆ ^{標準偏差：}_s₃ ₌ ^p_s²₃ ₌ ^√0.53 = 0.73

(38)

共分散の計算

Table 4: 風邪薬（千円）とアイス（百円）

風邪薬アイス

x₂ x₃ x²₂ x²₃ x₂ _{· x}₃ 1 ^月 2.35 0.51 5.52 0.26 1.20 2 ^月 1.65 0.67 2.72 0.45 1.10 3 ^月 0.87 0.98 0.75 0.96 0.85 4 ^月 0.18 1.36 0.03 1.85 0.24 5 ^月 0.09 1.90 0.01 3.61 0.17 6 ^月 0.10 2.25 0.01 5.06 0.22 7 ^月 0.16 2.56 0.03 6.55 0.42 8 ^月 0.17 2.75 0.03 7.56 0.46 9 ^月 0.27 2.35 0.07 5.52 0.63 10 ^月 1.74 1.95 3.03 3.80 3.39 11 ^月 2.49 1.44 6.19 2.07 3.58 12 ^月 4.30 0.95 18.52 0.90 4.09 合計 _14.35 _19.67 _36.90 _38.61 _16.34

(39)

共分散の計算

以上より

■ ^{風邪薬（千円）}

◆ ^{平均：}_x_¯₂ = 14.35/12 = 1.20

◆ ^{分散：}_s²₂ = 36.90/12 − (14.35/12)² ^{= 1.64}

◆ ^{標準偏差：}_s₂ ₌ ^p_s²₂ ₌ ^√1.64 = 1.28

■ ^{アイス（百円）}

◆ ^{平均：}_x_¯₃ = 19.67/12 = 1.64

◆ ^{分散：}_s²₃ = 38.61/12 − (19.67/12)² ^{= 0.53}

◆ ^{標準偏差：}_s₃ ₌ ^p_s²₃ ₌ ^√0.53 = 0.73

(40)

共分散の計算結果

■ みかんとアイスの共分散 s_xy = ¹

12

X12 i=1

x_iy_i − ¯x · ¯y = ^30.00 12 ⁻

21.12 12 ^·

19.76

12 ^{= −0.38}

■ アイスと風邪薬の共分散 s_yz = ¹

12

X12 i=1

y_iz_i − ¯y · ¯z = ^16.34 12 ⁻

19.76 12 ^·

14.35

12 ^{= −0.60.}

■ ₍^{みかん・アイス}₎ ^ペアも，₍^{アイス・風邪薬}₎ ペアも同時に大きな値になり

にくい

■ ₍^{みかん・アイス}₎ ^{ペアの方が，}₍^{アイス・風邪薬}₎ より平均付近に集まっている

(41)

相関係数

■ ^{相関係数：共分散を} ₋₁ ^から ₁ ^{の区間に変換}

r_xy = ^s^xy

s_x _{· s}_y ⁼

Pn

i=1^(xⁱ ^{− ¯x)(y}ⁱ ^{− ¯y)}

pPn

i=1^(xⁱ ^{− ¯x)}²

pPn

i=1^(yⁱ ^{− ¯y)}²

(6)

◆ 相関係数が正：平均から見て同符号の方向に散布，₁ に近いほど強い線形関係

■ ^{相関係数が１のとき，}_y_i = α + β · xi, β > 0 for i = 1, 2, . . . , n ^が成立

◆ 相関係数が負：平均から見て異符号の方向に散布，_-1 に近いほど強い線形関係

■ _-1 _y = α − β · x , β > 0 for i = 1, 2, . . . , n

(42)

相関係数の計算例

■ 相関係数：それぞれの変数の分散と共分散が必要

相関係数 ₌

X ^と Y ^の共分散 pX ^の分散 _{· Y} ^の分散

■ ^練習 ^：「みかん」と「アイス」の相関係数：_−0.840

s²_x = ¹ 12

X12 i=1

x²_i_−¯x² = ^41.92 12 ⁻

21.12 12

2

, s²_y = ¹ 12

X12 i=1

y_i²_−¯y² = ^38.61 12 ⁻

19.67 12

r_xy = _q^s^xy

s²_xs²_y ^{= −0.840}

■ ^練習 ^：「アイス」と「風邪薬」の相関係数：_−0.641

■ ₍^{みかん・アイス}₎ ^{ペアの方が，}₍^{アイス・風邪薬}₎ ^{より強い負の線形関係}

(43)

みかんと風邪薬

1000200030004000

cold medicine

(x

i

− ^x)(y

i

− ^{y) > 0}

(x

i

− ^x)(y

i

− ^{y) < 0}

(x

i

− ^x)(y

i

− ^{y) > 0}

− −

(44)

アイスとみかん

5 10 15 20 25

100150200250

ice cream

orange

(x

i−^x)(yi−^{y) < 0} (x

i−^x)(yi−^{y) > 0} (x

i−^x)(yi−^{y) < 0} ^(xi−^x)(yi−^{y) > 0}

(45)

アイスと風邪薬

1000200030004000

cold medicine

(x

i−^x)(yi−^{y) < 0}

− −

(x

i−^x)(yi−^{y) > 0}

(x

i−^x)(yi−^{y) < 0}

(46)

相関係数に関する補足

■

以下は相関係数に関する補足です

◆

^変数 _x ^と _y ^{の相関係数} _r

_xy

は，両方の変数を平均０，分散１に

基準化した変数同士の共分散と考えることもできる．

◆

^相関係数 _r

_xy

^は， _{−1 ≤ r}

_xy

_{≤ 1} ^である

¹

^．

◆

^{相関係数が} _±1 ^{であるとき，} _{y = α ± βx} ^（ _{β > 0} ^{）という関係}

になる．

1

一般に ₋

pPn

i₌₁^(xⁱ ⁻ ^x^¯⁾²

pPn

i₌₁^(yⁱ ⁻ ^y^¯⁾² ^≤

Pn

i₌₁^(xⁱ ⁻ ^x^¯^)(yⁱ ⁻ ^y^¯^{) ≤}

pPn

i₌₁^(xⁱ ⁻ ^x)^¯ ²

pPn

i₌₁^(yⁱ ⁻ ^y)^¯ ² が成り立つ（コーシー・シュワルツの不等式）ので相関係数は常に ₋₁ から ₁ の間の値をとる．

(47)

補足

■

_{−1 ≤ r}

_xy

_{= s}

_xy

_/(s

_x

_s

_y

_{) ≤ 1} ^{について，}

v

_i

= (y

_i

_{− ¯y) −} ^s

^xy

s

²_x

^{· (x}

ⁱ

− ¯x), i = 1, 2, . . . , n

とおいて，

0 ≤ _n ¹

X

n

i=1

v

_i²

= ¹

n

X

n

i=1

(y

_i

_{− ¯y) −} ^s

^xy

s

²_x

^{· (x}

ⁱ

^{− ¯x)}

₂

= s

²_y

_{− 2 ·} ^s

^xy

s

²_x

^{· s}

^xy

⁺

s

²_xy

s

⁴_x

^{· s}

2x

^{= s}

²y

· (1 − r

xy²

⁾

つまり _{1 − r}

²

xy

≥ 0 ⇔ |r

^xy

| ≤ 1

(48)

補足

■

_r

_xy

_{= ±1} であるとき，すべての点において _v

_i

_{= 0}

■

^{このとき，}

y

i

= ¯ y + ^s

^xy

s

²_x

^{· (x}

ⁱ

− ¯x), i = 1, 2, . . . , n

全ての観測点が上の直線上に乗っていることが条件．

◆

^{直線の傾きは}

^s^xy

s²_x

なので，共分散の符号に依存

(49)

補足

■

直線上にない点があると相関係数が（絶対値）１より小さくなる

◆

_n ^個の _{(x, y)} のペアは直線上にあるとする．

◆

_{x = ¯} _x ^{となる位置に} _{y = ¯} _{y ± a} となる二点を加える（直線上に

ない二点）

◆

^{この時，相関係数は}

r

^′_xy

= _q ^s

^xy

s

²_xy

+ 2a

²

s

_x

/n

< 1

となり，乖離幅 _a が小さければ１に近いが，乖離すればするほ

ど，１より小さくなる．

(50)

順位データについての相関係数

■ ２種類の順位を示すデータについての関係（２種類の評価の関連性）

◆ ＜男性の好きな花／女性の好きな花＞ランキング

■ スピアマンの順位相関係数

◆ それぞれのランクデータ（₁ 位から _n 位まで）に通常の相関係数の公式を適用．

r_S _{= 1 −} ⁶ n³ _{− n}

Xn i=1

(R_i _{− R}^′_i)² (7)

ただし，_R_i は一方の評価者による対象 _i のランクで，_R^′

i ^{はもう一方}

の評価者のランクである．

■ ケンドールの順位相関係数_: 各データ点の組み合わせを考え，順位が逆転がない方が相関が高いと考える

(51)

順位データについての相関係数（つづき）

■

ケンドールの順位相関係数（一方の変数のランクデータを _{R

_i

_}

ⁿ

i=1

^，

他方を _{R

^′

i

}

ⁿ_i=1

^とする）

◆

両方の評価者によるランク付けが正順となっている場合と逆順

となっている場合をカウント

◆

^正順： ^「 _R

_i

_{> R}

_j

^かつ _R

_i^′

_{> R}

_j^′

^{」あるいは「} _R

_i

_{< R}

_j

^かつ

R

^′_i

< R

^′_j

^」

◆

^逆順： ^「 _R

_i

_{> R}

_j

^かつ _R

_i^′

_{< R}

_j^′

^{」あるいは「} _R

_i

_{< R}

_j

^かつ

R

^′_i

> R

^′_j

^」

◆

すべてのケースについて，正順か逆順かを数える

(52)

順位データについての相関係数（つづき）

■

ケンドールの順位相関係数（一方の変数のランクデータを _{R

_i

_}

ⁿ

i=1

^，

他方を _{R

^′

i

}

ⁿ_i=1

^とする）

◆

すべてのケースについて，正順か逆順かを数える

◆

^合計 _{n(n − 1)/2} ケースあるうち，正順の場合の数を _G ，逆順を

H ^{．このとき}

r

_K

= ^{G − H}

n(n − 1)/2 ⁽⁸⁾

◆

明らかに両者で評価が完全に一致する（しない）とき， _r

_K

_{= 1}

（ _r

_K

_{= −1} ）

(53)

順位データについての相関係数（つづき）

内容桜菊バラ梅ユリ

チューカーネー

椿 _total

リップション

男（ _R) ₁ ₂ ₃ ₄ ₅ ₆ ₇ ₈

女（ _R’) ₃ ₁ ₂ ₅ ₄ ₇ ₆ ₈

正順 _(G) ₅

逆順 _(H) ₂

(54)

順位データについての相関係数（つづき）

内容桜菊バラ梅ユリ

椿 _total

リップション

男（ _R) ₁ ₂ ₃ ₄ ₅ ₆ ₇ ₈

女（ _R’) ₃ ₁ ₂ ₅ ₄ ₇ ₆ ₈

正順 _(G) ₅ ₆ ₅ ₃ ₃ ₁ ₁ ₂₄

逆順 _(H) ₂ ₀ ₀ ₁ ₀ ₁ ₀ ₄

■

^{内容：桜（男は} ₁ ^位，女 ₃ ^位 _→

◆

^男は残り ₇ 個すべて下位，女はそのうち ₅ 個だけ下位にランク：

■

正順：５個

■

逆順：一致しない２個

(55)

順位データについての相関係数（つづき）

内容桜菊バラ梅ユリ

椿 _total

リップション

男（ _R) ₁ ₂ ₃ ₄ ₅ ₆ ₇ ₈

女（ _R’) ₃ ₁ ₂ ₅ ₄ ₇ ₆ ₈

正順 _(G) ₅ ₆ ₅ ₃ ₃ ₁ ₁ ₂₄

逆順 _(H) ₂ ₀ ₀ ₁ ₀ ₁ ₀ ₄

■

^{内容：菊（男は} ₂ ^位，女 ₁ ^位 _→

◆

^男は残り ₆ ^{個すべて下位，女も} ₆ 個すべて下位にランク：正順

６個・逆順０個

■

(56)

演習問題

はじめに

１次元のデータ２次元のデータ演習問題

演習問題最後に解答編

(57)

演習問題

問題 _: １，３，４は宿題

1. 別表１の民間給与実態調査の（度数分布）表を用いて，男性給与所得者の平均，中央値，最頻値を求めてください．

2. 別表２のような金価格（円／ _kg）の推移を考えるとき，毎日 _3kg を５回購入し続けることと，毎日 _1.2 万円で購入できる金を５回購入し続けることを考える．５回購入後の平均購入単価（支出総額／購入総量）を考えると，どちらの購入方法のほうが単価が低いか（等しいか）．

3. Table 2 ^（28^{ページ）を用いて，}「みかん」と「風邪薬」への支出額について，平均・分散・共分散・相関係数を求めてください．

4. ^下の Table 5 を用いて，夫の妻の家事に関する考え方が一致しているかど

うかを調べてください（順位相関係数を求めてください）．

(58)

演習問題

Table 5: 家事：夫の協力，妻の要望

項目夫のランク妻のランク

窓掃除 ₁ ₃

風呂掃除 ₂ ₁

食材買出 ₃ ₈

布団干し ₄ ₆

洗濯物取込 ₅ ₉

ごみ出し ₆ ₅

照明掃除 ₇ ₄

掃除機 ₈ ₇

玄関掃除 ₉ ₁₀

換気扇掃除 ₁₀ ₂

(59)

最後に

■ ^回答は ^A4 用紙に記入してください

■ 複数枚にわたるときはホッチキスなどでまとめてください

■ 氏名の記入と学籍番号の記入を忘れないでください

■ 提出は，次週水曜日の 13 時までにメールボックスへお願いします

(60)

問題２

■ ^{方法１：毎回} _{H (}^単位 _kg) ^{の購入，方法２：毎回} _M ^円購入

■ ^{単価（価格）}^：_P_t ^円／ _kg

■ ^{購入額：方法１：}_{H · P}_t ^円_, ^方法２：_M ^円

■ ^{購入量：方法１：}_{H (kg)}^{，方法２：}_M/P_t _(kg)

■ _T 回購入するときの平均購入単価

◆ 方法１：毎回一定額を支払う購入費用

購入総量

=

XT t=1

H · P^t T · H ⁼

1 T

XT t=1

P_t

◆ 方法２：毎回一定量を購入

購入費用購入総量

= _P_T^{T · M}

t=1 ^M/P^t

= ¹

T

XT t=1

1 P_t

!⁻¹

(61)

■ ^算術平均

M_T _≡ ¹ T

XT t=1

P_t

■ ^調和平均

H_T _≡ ¹ T

XT t=1

1 P_t

!⁻¹

■ ^幾何平均

(62)

■ _P_t ^{が正数である限り，}^{「算術平均} _≥ 幾何平均」が成立する．もし M_T _{≥ G}_T ^{が成立するとき，}

f (p) _≡ ¹ T + 1

XT t=1

P_t + p

!

−

YT t=1

P_t _{· p}

!^{1/(T +1)}

= ¹

T + 1 ^{(T · M}^T ^{+ p) − G}

TT · p^{1/(T +1)}

= ^T

T + 1 ^{· M}^T ⁺

1

T + 1 ^{· p − G}

T /(T +1)

T ^{· p}^{1/(T +1)}

これが任意の正数について非負であるなら帰納法により「算術平均 _≥ 幾何平均」が言える．

f^′(p) = ¹

T + 1 ⁻

1

T + 1^G

T /(T +1)

T ^{· p}^{−T /(T +1)}

より _{p = G}_T で最小値を持ち，_{f (G}_T_{) =} ^T

T +1 ^{· (M}^T ^{− G}^T⁾ ^{なので非負．}

(63)

■ ^{「幾何平均} _≥ 調和平均」については，_P_t が正数である限り，

H_T⁻¹ = ¹ T

XT t=1

1 P_t ^≥

YT t=1

1 P_t

!T¹

= ¹

QT

t=1 ^P^t

_T¹ ^{= G}

−1 T

したがって

G⁻¹_T _{≤ H}_T⁻¹ _{⇐⇒ G}_T _{≥ H}_T

■ ^{正数を扱う限り，}^{「算術平均} _≥ ^幾何平均 _≥ ^{調和平均」}

■ 単価を小さくしたい時には，毎回の購入額を一定にする方がよい．

(64)

解答編

はじめに

１次元のデータ２次元のデータ演習問題

解答編

相関係数問題５

統計学第二週 _{– 64 / 92}

(65)

問題１

■ ^平均_{: 514.38} ^{万円（ボーナスなし} _433.58^）^，中央値 ₄₀₀^∼ ₅₀₀ ^万円

■ ^平均_{: 272.26} ^{万円（ボーナスなし} _236.14^）^，中央値 ₂₀₀^∼ ₃₀₀ ^万円

■ ^平均_{: 415.04} ^{万円（ボーナスなし} _352.59^）^，中央値 ₃₀₀^∼ ₄₀₀ ^万円

(66)

問題２

■ ^{方法１：毎回} _{H (}^単位 _kg) ^{の購入，方法２：毎回} _M ^円購入

■ ^{単価（価格）}^：_P_t ^円／ _kg

■ ^{購入額：方法１：}_{H · P}_t ^円_, ^方法２：_M ^円

■ ^{購入量：方法１：}_{H (kg)}^{，方法２：}_M/P_t _(kg)

■ _T 回購入するときの平均購入単価

◆ 方法１：毎回一定額を支払う購入費用

購入総量

=

XT t=1

H · P^t T · H ⁼

1 T

XT t=1

P_t

◆ 方法２：毎回一定量を購入

購入費用購入総量

= _P_T^{T · M}

t=1 ^M/P^t

= ¹

T

XT t=1

1 P_t

!⁻¹

(67)

■ ^算術平均

M_T _≡ ¹ T

XT t=1

P_t

■ ^調和平均

H_T _≡ ¹ T

XT t=1

1 P_t

!⁻¹

■ ^幾何平均

(68)

■ _P_t ^{が正数である限り，}^{「算術平均} _≥ 幾何平均」が成立する．もし M_T _{≥ G}_T ^{が成立するとき，}

f (p) _≡ ¹ T + 1

XT t=1

P_t + p

!

−

YT t=1

P_t _{· p}

!^{1/(T +1)}

= ¹

T + 1 ^{(T · M}^T ^{+ p) − G}

TT · p^{1/(T +1)}

= ^T

T + 1 ^{· M}^T ⁺

1

T + 1 ^{· p − G}

T /(T +1)

T ^{· p}^{1/(T +1)}

これが任意の正数について非負であるなら帰納法により「算術平均 _≥ 幾何平均」が言える．

f^′(p) = ¹

T + 1 ⁻

1

T + 1^G

T /(T +1)

T ^{· p}^{−T /(T +1)}

より _{p = G}_T で最小値を持ち，_{f (G}_T_{) =} ^T

T +1 ^{· (M}^T ^{− G}^T⁾ ^{なので非負．}

(69)

■ ^{「幾何平均} _≥ 調和平均」については，_P_t が正数である限り，

H_T⁻¹ = ¹ T

XT t=1

1 P_t ^≥

YT t=1

1 P_t

!T¹

= ¹

QT

t=1 ^P^t

_T¹ ^{= G}

−1 T

したがって

G⁻¹_T _{≤ H}_T⁻¹ _{⇐⇒ G}_T _{≥ H}_T

■ ^{正数を扱う限り，}^{「算術平均} _≥ ^幾何平均 _≥ ^{調和平均」}

■ 単価を小さくしたい時には，毎回の購入額を一定にする方がよい．

資料置き場 hustat2017 20171006

統計学 第２週 データの記述（２）

担当者： 高木 真吾

質問等は， stakagi@econ.hokudai.ac.jp までお願いします．

はじめに

本日の概要

データの特性

データセットの代表と言えるのは？ （平均など）

散らばりの程度を示す尺度は？ （分散・標準偏差）

変数同士の関係とは？ （共分散・相関係数）

キーワード

平均値・分散値・標準化・共分散・相関係数・順位相関係数

１次元のデータ

表記上の注意

１変数（１次元）のデータ：例）変数 x という一変数からなる大き

さ n のデータ

{x

, x

, . . . , x

}

２変数（２次元）のデータ：例）変数 x と変数 y という二変数から

なる大きさ n のデータ

{(x

, y

), (x

, y

), . . . , (x

, y

)}

k k v

... v

k

本日の内容

データの特性

データセットの代表と言えるのは？ （平均など）

散らばりの程度を示す尺度は？ （分散・標準偏差）

変数同士の関係とは？ （共分散・相関係数）

データセットの特性値：代表＝中心値，最も目にする値

平均値：全体の中で「釣り合い」のとれる点の位置 x = ¯

P

x

代表的特性値，理論的にも良い性質，だが外れ値で大きく変動

（頑健 robust でない）

中央値：全体の中で真ん中になる点の位置

データの大きさが奇数：真ん中の値，偶数： n/2 番と n/2 + 1

番の中間点を中央値とする

少数の外れ値には反応しにくい（外れ値に対して頑健）

最頻値：データセットに含まれる点のうち最も多く観測される点の

データセットの特性値：代表＝中心値，最も目にする値

発展的話題

「平均値」は，偏差二乗和を最小にする概念

min

X

(x

− µ)

−→ ˆ µ = ¯ x

「中央値」は，偏差絶対和を最小にする概念

min

X

|x

− µ| −→ ˆ µ = median

データセットの特性値：練習問題

８人の年間所得がそれぞれ 210, 230, 250, 260, 290, 320, 340, 360

万円，平均所得は？

平均： x = ¯

210 + 230 + · · · + 340 + 360

8 = 282.5

中央値： med

=

260 + 290

2 = 275

８人の年間所得がそれぞれ 210, 230, 250, 1580, 290, 320, 340, 360

万円，平均所得は？

平均： x = ¯

210 + 230 + · · · + 360 + 1580

8 = 447.5

データセットの特性値：練習問題つづき

７人の年間所得がそれぞれ 210, 230, 250, 320, 1290, 1340, 1580 万

円，平均所得は？

平均： x = ¯

統計学第２週データの記述（２）

担当者：高木真吾

質問等は， stakagi@econ.hokudai.ac.jp ^{までお願いします．}

^{データの特性}

データセットの代表と言えるのは？（平均など）

散らばりの程度を示す尺度は？（分散・標準偏差）

^{変数同士の関係とは？} ^{（共分散・相関係数）}

^{キーワード}

１変数（１次元）のデータ：例）変数 _x という一変数からなる大き

さ _n のデータ

^{, x}

_}

２変数（２次元）のデータ：例）変数 _x と変数 _y という二変数から

なる大きさ _n のデータ

^{, y}

^{), (x}

^{, y}

_)}

_k _k _v

_{... v}

_k

^{データの特性}

データセットの代表と言えるのは？（平均など）

散らばりの程度を示す尺度は？（分散・標準偏差）

^{変数同士の関係とは？} ^{（共分散・相関係数）}

平均値：全体の中で「釣り合い」のとれる点の位置 _{x =} _¯

^x

（頑健 _robust でない）

データの大きさが奇数：真ん中の値，偶数： _n/2 番と _{n/2 + 1}

^{発展的話題}

_{− µ)}

_{−→ ˆ} µ = ¯ x

− µ| −→ ˆ ^{µ = median}

平均： _{x =} _¯

8 ⁼ ^282.5

中央値： _med

₌

₂₆₀ ₊ ₂₉₀

2 ⁼ ²⁷⁵

平均： _{x =} _¯

8 ^{= 447.5}

７人の年間所得がそれぞれ 210, 230, 250, 320, 1290, 1340, 1580 ^万

平均： _{x =} _¯

7 ^{≈ 747.5}

中央値： _med

₌ ₃₂₀

^分散：「中心からの距離（２乗で評価）」の「平均値」

_{≡ (x}

_{− ¯x)}

= ¹

= ¹

_{− ¯x)}

^{標準偏差（} _s

^）：分散の平方根（もとのデータと単位が一致するの

= ¹

_{− ¯x)}

= ¹

− _|{z} ^x ^¯

= ¹

_{− ¯x)}

= ¹

_{− 2¯xx}

= ¹

_{− 2 · ¯x ·} ¹