基礎統計学(第
2
回)
1
統計的指標
1.1
データの中心と偏り
• データの表記:x1, x2, · · ·, xn⇔xi(i= 1, · · ·, n) ※ 複数の場合は、yi, zi等を用いる。
• 特に断りが無い限り、データは実数値(xi, yi, · · · ∈R)とする。
「統計的指標」:あるデータ集団の持つ性質を表現した数値情報のことを指す。
(例) ある大学の野球チームに所属する選手の平均身長は177cmである
(例) ある数学のテストで、最高点100点、最低点9点であったことから、約90点のバラツキがある
• 「代表値」:あるデータ集団を代表する最も特徴的な統計的指標
• 「分散度」:データ集団内の散らばり具合(ばらつき)を表す統計的指標
1.2
代表値
(1)平均 · · · 算術平均(arithmetic mean)、幾何平均(geometric mean)、調和平均(harmonic mean)
などがある
算術平均 x=
1 n
n
i=1
xi
幾何平均 xG= n
n
i=1
xi
調和平均 xH =
n n
i=1 1
xi
= 1 1
n
n
i=1 1
xi
※ 任意の正のデータxi(xi>0) について、x≥xG≥xH を満たす。
(例)xi ={2, 4, 8}
算術平均 x=
1 n
n
i=1
xi =
幾何平均 xG= n
n
i=1
xi =
調和平均 xH =
n n
i=1 1
xi
=
算術平均xについて、次の法則が成り立つ。
1次変換保存の法則
データxiを1次式yi =axi+bに代入して得られた値yiについて、xiとyiの算術平均x, yの間には
次の関係が成り立つ。
y=ax+b (1)
この法則から、データの単位が変わっても、算術平均の値の持つ意味は本質的に変わらない。
(例)摂氏(C◦)から華氏(F)への単位変換 等
また、算術平均xについて次のことが言える。
n
i=1
(xi−x) = 0 (2)
(1’)加重平均 · · · データxiと重みwi(wi >0)の積和を重みの総和で割ったもの
加重平均 xw =
n
i=1wixi
n
i=1wi
(2)メディアン(中位数)· · · 一連のデータ(x1, x2,· · ·, xn)を大きさの順番に並べたとき(x′1, x′2,· · ·, x′n)、
ちょうど中央に位置する数値
メディアン(nが奇数)M ed=x′n+1 2
(nが偶数)Med =
x′n
2 +x ′n
2+1 2
(例)xi ={6, 5, 7, 11, 3},yi={12, 6, 5, 7, 11, −20}
xのメディアン M ed(x) =
yのメディアン M ed(y) =
(3)モード(最頻値)· · · 最も出現度数の高いデータ
[確認課題1] 「算術平均・メディアン・モード」
4つのデータx1, x2, x3, x4について、3種類の代表値(算術平均・メディアン・モード)を計算するとき、
モード >メディアン>算術平均
となるような4つのデータを定めよ。
[確認課題2] 「年収の高い企業を探す」
大学卒業後に就職したい会社を選定するにあたり、「年収」を最も重視すべき基準とし、新卒1年目の平
均年収(算術平均)を会社ごとに調べることにした。この調べ方に問題はないだろうか、あるとすればど
のような問題があるか。
1.3
分散度
(1)範囲と四分位偏差 · · · データの大きさの差に基づいた指標
範囲(レンジ) R=xmax−xmin
四分位偏差 DQ=Q3−Q1
※ 「四分位数(Q1, Q2, Q3, Q4)」:
データ(x1, x2, · · ·, xn)を大きさの順番に並べたとき(x1′, x′2, · · · , x′n)、データを4等分した位置にある
値のことで、第1四分位数(Q1)から順番に、第2四分位数(Q2)、第3四分位数(Q3)、第4四分位
数(Q4)という。
四分位数の求め方 :データの並びが昇順である場合
第1四分位数 Q1 =
1 2
x′⌊n+1
4 ⌋ +x′⌊n
4+1⌋
第2四分位数 Q2 =M ed(x′) =M ed(x)
第3四分位数 Q3 =
1 2
x′
⌊3(n4+1)⌋+x ′ ⌊3(n4+2)⌋
第4四分位数 Q4 =xmax
ただし、⌊ ⌋は床関数(floor関数)である。
(例)xi ={6, 5, 7, 11, 3, 2, 8}
第1四分位数 Q1 =
第2四分位数 Q2 =
第3四分位数 Q3 =
第4四分位数 Q4 =
(2)平均絶対偏差 データxiと算術平均xの差の絶対値(|xi−x )をデータの個数nで割ったもの
平均絶対偏差 M D=
1 n
n
i=1
|xi−x|
(3)分散・標準偏差 データxiと算術平均xの差の二乗(xi−x)
2
をnで割ったもの(分散:variance)、
その値の平方根の値(標準偏差:standard deviation)
分散 V (x) =
1 n
n
i=1
(xi−x)
2
標準偏差 s(x) =
V (x) =
1 n
n
i=1
(xi−x)2
(例)xi ={2, 4, 6, 8, 10, 12}
平均絶対偏差 M D=
1 n
n
i=1
|xi−x|=
分散 V (x) =
1 n
n
i=1
(xi−x)2 =
標準偏差 s(x) =
V (x) =
分散および標準偏差には、次の性質がある。
データxiを1次式yi =axi+bに代入して得られた値yiについて、xiとyiの分散V (x), V (y)の間に
次の関係が成り立つ。
V(y) =a2V (x) (3)
同様に、標準偏差s(x), s(y) の間に次の関係が成り立つ。
s(y) =|a|s(x) (4)
なお、分散V (x) は次の式で求めることもできる。
分散 V (x) =
1 n
n
i=1
x2i −(x)
2
[確認課題3] 「1次変換による算術平均・分散・標準偏差の持つ性質」
次の10個のテータについて、算術平均xを求めよ。さらに、1次式yi =−2xi+ 4に代入して得られた値
yiについて、算術平均yを求めた上で、分散と標準偏差について、(3)や(4)が成り立つことを確認せよ。
4, 10, 9, 7, 12, 6, 5, 8, 11, 8