第
2
講:1次元データの要約平成
16
年10
月20
日内容
1.
度数分布とヒストグラム2.
代表値3.
散らばりの尺度1.
度数分布とヒストグラム373
人の統計学の試験における得点の度数分布表階 級 階級値 度 数 相対 累積 累積 度数 度数 相対度数
0
点以上10
点未満5 12 0.032 12 0.032 10
〃20
〃15 10 0.027 22 0.059 20
〃30
〃25 19 0.051 41 0.110 30
〃40
〃35 42 0.113 83 0.223 40
〃50
〃45 72 0.193 155 0.416 50
〃60
〃55 82 0.220 237 0.635 60
〃70
〃65 54 0.145 291 0.780 70
〃80
〃75 38 0.102 329 0.882 80
〃90
〃85 25 0.067 354 0.949 90
〃100
点以下95 19 0.051 373 1.000
合 計
373 1.00
度数分布
•
階級値:階級を代表する値で、通常階級の中間 値とする。•
度数frequency
:各階級に属する観測値の個数•
相対度数relative frequency
:各階級に属する観 測値の割合•
累積度数cumulative frequency
:度数を下の階 級から順に積み上げたときの度数•
累積相対度数cumulative relative frequency
:度 数を下の階級から順に積み上げたときの相対度 数
度数分布の定義
定義
1 (
度数分布)
観測値のとりうる値をいくつかの階級
class
に分け、それぞれの階級で観測値がいくつあるか度数
frequency
を数えて、表にしたものを度 数分布(frequency distribution
)という。
ヒストグラム
•
ヒストグラムとは定義
2
度数分布をグラフにしたものをヒストグ ラhistogram
ムという。•
ヒストグラムの作り方階級に対して階級幅を横幅とし、柱の高さを度 数とするように定める。
ヒストグラム作成時の注意
•
階級数、階級幅を変化させることによって、ヒ ストグラムの様子が大きく変わる。•
スタージェスの公式:
観測値の数をn
とすると き、階級数を次のように決める公式k ≈ 1 + log n/ log 2
例えば、試験の得点の場合、
n = 373 −→ k = 9 . 543 · · ·
ヒストグラムの例
20 40 60 80 100
Score 0
20 40 60 80
Frequency
図
1:
統計学の得点データのヒストグラム:階級数が10
の場合ヒストグラムの例
(
つづき)
20 40 60 80 100
Score 0
25 50 75 100 125 150
Frequency
図
2:
統計学の得点データのヒストグラム:階級数が5
の場合2.
代表値標本平均
定義
3 (
標本平均) n
個の観測値の算術平均y ¯ = 1 n
n
i=1
y
i= 1
n ( y
1+ y
2+ · · · + y
n−1+ y
n)
を標本平均sample mean
という。
順序統計量
定義
4 (
順序統計量) order statistics:
標本
y
1, y
2, · · · , y
n−1, y
n を小さいものの順にy
(1)≤ y
(2)≤ · · · ≤ y
(n−1)≤ y
(n)並べ替えられたものを順序統計量という。
定義
5 (
メディアン(中央値、中位数)) median:
標本数
n
が偶数と奇数の場合に分ける⎧⎪
⎨
⎪⎩
y med = y
(m+1) 奇数の場合:n = 2 m + 1 y med =
y(m)+y2(m+1) 偶数の場合:n = 2 m
分位点
定義
6 (
百分位点) percentile:
ある0 ≤ p ≤ 1
に対 し、順序統計量y
(1)≤ y
(2)≤ · · · ≤ y
(n−1)≤ y
(n)の
100 p
番目の値を、100 p %
分位点という。定義
7 (
四分位点) quantile:
順序統計量y
(1)≤ y
(2)≤ · · · ≤ y
(n−1)≤ y
(n)を
4
等分したときの三つの分割点。25%
分位点− →
第1
四分位点50%
分位点− →
第2
四分位点(メディアン)75%
分位点− →
第3
四分位点
モード・その他
定義
8 (
モード) mode:
度数分布表において、その度数が最大である階級の 階級値。
定義
9 (
ミッド・レンジ) mid-range:
y mid = y
(1)+ y
(n)2
注意
:
最もよく使われるのが次の3つである。•
平均•
メディアン•
モード
3.
散らばりの尺度分散
定義
10 (
標本分散) variance:
最もよく使われるの が次の標本分散であるS
n2= 1 n
n i=1
( y
i− y ¯ )
2= 1 n
( y
1− y ¯ )
2+ ( y
2− y ¯ )
2+ · · · + ( y
n− y ¯ )
2次の計算式を覚えておくと便利であろう。
S
n2= 1 n
⎧⎨
⎩ n
i=1
y
i2− n y ¯
2⎫⎬
⎭
標準偏差
定義
11 (
標準偏差) standard deviation:
標本分散の 平方根。S
n=
S
n2=
1
n
n i=1
( y
i− y ¯ )
2標準偏差の利点: 観測値と同じ単位をもつこと。