基礎統計学(第
4
回)
2
度数分布
2.1
度数分布とは
度数分布· · · データを大きさによっていくつかのクラス(階級)に分け、各階級に入るデータの数(度数)を
明らかにしたもの。
(例) ある数学のテストに関する得点結果が次の通りであった。
62 65 33 45 43 35 63 63 58 24 57 46 36 52 52 48 37 57 50 66 67 52 47 55 43 62 56 82 42 45 23 64 47 51 51 48 63 62 56 68 46 54 41 51 81 43 59 43 49 50
これら50個のデータ(n= 50)を10点ずつの階級(”0∼10”, ”10∼20”, ”20∼30”,· · ·)でまとめると、
表2.1のようになる。また、5点ずつの階級(”0∼5”, ”5∼10”, ”10∼15”,· · ·)でまとめると、表2.2
のようになる。
表2.1: 度数分布表
階級 度数(人)
0∼10 0
10∼20 0
20∼30 2
30∼40 4
40∼50 15
50∼60 16
60∼70 11
70∼80 0
80∼90 2
90∼100 0
合計 50
表2.2: 度数分布表
階級 度数(人)
0∼5 0
5∼10 0
10∼15 0
15∼20 0
20∼25 2
25∼30 0
30∼35 1
35∼40 3
40∼45 6
45∼50 9
50∼55 9
55∼60 7
60∼65 7
65∼70 4
70∼75 0
75∼80 0
80∼85 2
85∼90 0
90∼95 0
95∼100 0
合計 50
表2.1および表2.2が度数分布表(frequency distribution table)である。これらの表は、データを要約したも
ので、得点に関する大体の範囲が示されているが、詳細な情報がかなり失われていることに注意してほしい。こ
のような情報の喪失をできるだけ小さくするには、表2.2のように、階級の間隔(級間隔)を狭くすれば良い
が、階級の数が多くなり過ぎて、全体的な分布状況の把握には不便になる。以上のことから、過度に情報が失
われないように、適切な階級を設定することが重要である。
2.2
度数分布表の作成方法
主要な留意点を次に示す。
(1) 階級の数(or級間隔)を適切に定めること
先述の通り、階級の数は少なすぎても多すぎてもいけない。適切な階級の数mを定める方法としては、
n個のデータ(x1, x2, x3, · · ·, xn)に対して、
・m
√
n
・m1 +
log10n
log102 (スタージェスの公式)
といった式を用いる方法がある。これらを用いて得られたmにより、適切な級間隔cは、
c xmax−xmin
m
で算出される。
(2) 級間隔を均一にすること
級間隔は原則として一定のものに統一しなければならない。級間隔が不均一だと、階級ごとの度数の比較
が困難になるからである。
(3) 階級の境界を明確に定めること
階級の境界は重複のないように注意しなければならない。例えば、”0∼10”, ”10∼20”, ”20∼30”,· · · の
ように表示すると、10をどちらの階級に入れるべきかが明確ではない。そこで、”0以上10未満”, ”10以
上20未満”,· · · のように明確に表示した方が良い。
2.3
度数分布のグラフ
度数分布を視覚的に分かりやすく示すためにグラフを用いることができる。度数分布のグラフは、横軸にデー
タの階級をとり、縦軸に度数を示す。図2.1は、表2.1をグラフ化したものであり、このような度数の大きさを
柱の高さで表したグラフをヒストグラム(histogram)という。
図2.1: ヒストグラム
2.4
相対度数と累積度数
度数分布は、各階級に属する度数の絶対値を示したものであるが、各階級の度数が全体に占める割合で度数
分布を表す場合がある。この度数を相対度数という。一方、値の小さい(大きい)階級から積み上げることで、
ある階級までの度数に着目した度数を表す場合があり、この度数を累積度数という。
表2.3: 相対度数を含む度数分布表
階級 度数(人) 相対度数
0∼10 0 0.00
10∼20 0 0.00
20∼30 2 0.04
30∼40 4 0.08
40∼50 15 0.30
50∼60 16 0.32
60∼70 11 0.22
70∼80 0 0.00
80∼90 2 0.04
90∼100 0 0.00
合計 50 1.00
表2.4: 累積度数を含む度数分布表
階級 度数(人) 累積度数
0∼10 0 0
10∼20 0 0
20∼30 2 2
30∼40 4 6
40∼50 15 21
50∼60 16 37
60∼70 11 48
70∼80 0 48
80∼90 2 50
90∼100 0 50
合計 50
2.5
度数分布からの平均値(算術平均)
・分散の算出
データが度数分布表にまとめられてしまった後では、同じ階級のデータを区別することはできない。このよう
な状況では、各階級の代表(階級値)を用いて個々のデータの代用とする。各階級を”xc1 ∼xc2”, ”xc2 ∼xc3”,
· · ·, ”xcm ∼xcm+1”とすると、各階級値x′c
jは、各階級の中央の値として、次の式を用いて求められる。
x′
cj =
xcj+xcj+1
2 (j= 1, 2, · · · , m)
また、それぞれの度数をf1, f2, · · ·, fmとすると、算術平均xは次のように計算される。
x= 1
n
m
j=1
fjx′cj =
m j=1fjx′cj
m j=1fj
ここで、n=
m
j=1
fj である。
表2.5: 階級値を含む度数分布表
階級 階級値 度数
xc1 ∼xc2 x′c1 f1
xc2 ∼xc3 x′c2 f2
· · · ·
xcm−1 ∼xcm x′cm−1 fm−1
xcm ∼xcm+1 x′cm fm
合計 n
一方、分散V (x)については、
V (x) = 1
n
m
j=1
fj
x′
cj−x
2
あるいは、
V (x) = 1
n
m
j=1
fj
x′
cj
2
−(x)
2
のいずれかで求められる。
(例) 表2.1の度数分布表を用いて、算術平均xと分散V (x)を求める。
表2.6: 度数分布表を用いた算術平均および分散の算出
階級 階級値x′
cj 度数(人)fj fjx
′
cj fj
x′
cj
2
0∼10 5 0 0 0
10∼20 15 0 0 0
20∼30 25 2 50 1250
30∼40 35 4 140 4900
40∼50 45 15 675 30375
50∼60 55 16 880 48400
60∼70 65 11 715 46475
70∼80 75 0 0 0
80∼90 85 2 170 14450
90∼100 95 0 0 0
合計 50 2630 145850
表2.6より、次の統計的指標が求められる。
(算術平均) x=
1
n
m
j=1
fjx′cj =
2630
50 = 52.60
(分 散) V (x) =
1
n
m
j=1
fj
x′
cj−x
2
= 145850
50 −(52.60) 2
= 150.24
(標準偏差) s(x) =
V (x)12.26
[確認課題4] 「度数分布表の作成∼統計的指標の算出」
あるスーパーの1日における駐車場利用台数を50日間調査したところ、次のような結果が得られた。こ
のデータについて、度数分布表を作成するとともに、算術平均と分散の値を求めよ。ただし、度数分布表
の作成にあたっては、最初の階級の最小値は0とし、スタージェスの公式を用いて、階級の数および級間
隔を定めよ。
27 50 28 29 21 21 29 37 15 11 27 9 32 46 13 30 36 29 15 24 35 36 40 30 44 25 22 14 37 36 38 20 35 43 20 25 26 47 25 25 36 39 25 12 14 33 44 33 32 14