3章 度数分布とヒストグラム
データの中の分析(記述統計)であ
れ、データの外への推論(推測統計)
であれ、まず、データの持つ基本的
特性を把握することが重要である。
分析の流れ
データの分布(散らばり)を、度数分布表にま
とめ、グラフ化する。
3章。
グラフに、平均値や分散など、分布の特徴を
示す客観的な数値を加える。
4・5・6章。
データが母集団からのランダムサンプルなら
ば、母集団についての推測を行う。
7章以降。
度数分布とヒストグラムの作成
データを昇(降)順に並べ替える。
階級を設定し、各階級に属するデータの個
数をカウントする。
各階級の相対度数、累積度数、及び、累積
相対度数を計算する。
度数分布表をもとに、ヒストグラムを作成す
る。
もとのデータと並べ替え
もとのデータを,
𝑥
1
, 𝑥
2
, 𝑥
3
, ⋯ , 𝑥
𝑛
とする。それを昇順に並べ直したものを、
𝑥
(1)
, 𝑥
(2)
, 𝑥
(3)
, ⋯ , 𝑥
𝑛
と書くものとしよう。
データが与えられたら,それを昇
順に並べ替えると都合がよい.
43,20,18,38,32,33,91
,9,12,26,41,53,25,65,
29,37,36,43,33,57
9,12,18,20,25,26,29,
32,33,33,36,37,38,41
,43,43,53,57,65,91
エクセルを用いた並べ替え
数直線上にプロットする
これだけでも、データの分布の様子が
見て取れる。
しかし、データ数が増えるに従い、分
階級
度数
相対度数
累積度数
累積相対度数
0以上10未満
1
10~20
2
20~30
4
30~40
6
40~50
3
50~60
2
60~70
1
70~80
0
80~90
0
90~100
1
100~
0
表3-1 得点の度数分布表 を完成させよう
階級
度数
相対度数
累積度数
累積相対度数
0以上10未満
1
10~20
2
20~30
4
30~40
6
40~50
3
50~60
2
60~70
1
70~80
0
80~90
0
90~100
1
100~
0
表3-1 得点の度数分布表 を完成させよう
05
.
0
20
1
÷
=
10
.
0
20
2
÷
=
階級
度数
相対度数
累積度数
累積相対度数
0以上10未満
1
0.05
10~20
2
0.10
20~30
4
0.20
30~40
6
0.30
40~50
3
0.15
50~60
2
0.10
60~70
1
0.05
70~80
0
0.00
80~90
0
0.00
90~100
1
0.05
100~
0
0.00
表3-1 得点の度数分布表
1
3
7
13
6
7
+
=
16
3
13
+
=
階級
度数
相対度数
累積度数
累積相対度数
0以上10未満
1
0.05
1
10~20
2
0.10
3
20~30
4
0.20
7
30~40
6
0.30
13
40~50
3
0.15
16
50~60
2
0.10
18
60~70
1
0.05
19
70~80
0
0.00
19
80~90
0
0.00
19
90~100
1
0.05
20
100~
0
0.00
20
表3-1 得点の度数分布表
05
.
0
20
1
÷
=
15
.
0
20
3
÷
=
35
.
0
20
7
÷
=
65
.
0
20
13
÷
=
80
.
0
90
.
0
95
.
0
95
.
0
95
.
0
00
.
1
00
.
1
階級
度数
相対度数
累積度数
累積相対度数
0以上10未満
𝑛
110~20
𝑛
220~30
𝑛
330~40
𝑛
440~50
𝑛
550~60
𝑛
660~70
𝑛
770~80
𝑛
880~90
𝑛
990~100
𝑛
10合計
表3-1 得点の度数分布表
階級
度数
相対度数
累積度数
累積相対度数
0以上10未満
𝑛
110~20
𝑛
220~30
𝑛
330~40
𝑛
440~50
𝑛
550~60
𝑛
660~70
𝑛
770~80
𝑛
880~90
𝑛
990~100
𝑛
10合計
表3-1 得点の度数分布表
∑
==
10 1 in
in
p
6= n
6n
p
1= n
1n
p
2= n
2n
p
7= n
7n
p
5= n
5n
p
9= n
9n
p
10= n
10n
p
8= n
8n
p
4= n
4n
p
3= n
3n
1 10 2 1+ p + + p = p r
1= p
1r
2= p
1+ p
2r
3= p
1+ p
2+ p
3r
4= r
3+ p
4r
5= r
4+ p
5r
6= r
5+ p
6r
7= r
6+ p
7r
8= r
7+ p
8r
9= r
8+ p
91
10 9 10=
r
+
p
=
r
1 1n
R
=
2 1 2n
n
R
=
+
3 2 1 3n
n
n
R
=
+
+
4 3 4R
n
R
=
+
5 4 5R
n
R
=
+
6 5 6R
n
R
=
+
7 6 7R
n
R
=
+
8 7 8R
n
R
=
+
9 8 9R
n
R
=
+
10 9 10R
n
R
=
+
表3-2を完成させよ
表3-2 サイコロを100回投げたときに出た目の度数分布表
サイコロの目 度数 相対度数 累積度数 累積相対度数1
20
2
18
3
10
4
14
5
21
6
17
合計
表3-2を完成させよ(解答)
表3-2 サイコロを100回投げたときに出た目の度数分布表
サイコロの目 度数 相対度数 累積度数 累積相対度数1
20
0.20
20
0.20
2
18
0.18
38
0.38
3
10
0.10
48
0.48
4
14
0.14
62
0.62
5
21
0.21
83
0.83
6
17
0.17
100
1.00
合計
100
1.00
-
-
グラフの作成
度数 点(a) 度数によるヒストグラム
10 20 30 40 50 60 70 80 90 100 相対度数 点(b) 相対度数によるヒストグラム
10 20 30 40 50 60 70 80 90 100人数を見たいなら
割合を見たいなら
累積相対度数のグラフ
累積相対度数図3-3 得点の累積相対度数
40点以下の割合を
知りたいなら、
55点以下の割合を
知りたいなら、
累積相対度数のグラフ
累積相対度数 点 図3-3 得点の累積相対度数40点以下の割合を
知りたいなら、
65%
55点以下の割合を
知りたいなら、
5 5約85%
Excel を使うとき
=D4/D$15
コ
ピ
ー
コ
ピ
ー
=D4
=F4+D5
=F4/F$15
コ
ピ
ー
ヒストグラムを作るとき
1.
階級を決める
2.
各階級の度数をカウントする
3.
相対度数、累積度数、累積相対度数を計算
する
4.
グラフ化する
階級を決めることは、意外に難しい(教科書に
一般論はあるが、
「グラフで何を示したいか
」
を考えるとよい)
級の幅を2倍にすると、
表3-3.得点の度数分布表(階級幅20) 階級 度数 相対度 数 累積度 数 累積相対度 数 0点以上 ~ 20点未満 3 0.15 3 0.15 20 ~ 40 10 0.50 13 0.65 40 ~ 60 5 0.25 18 0.90 60 ~ 80 1 0.05 19 0.95 80 ~ 100 1 0.05 20 1.00 100 ~ 0 0.00 20 1.00 合計 20 20 - - 度数 点 20 40 60 80 100女子学生の身長の例
並べ替えにより、最大値、
最小値、メディアン(中位
数)が分かる。
最大値
最小値
メディアン
150
172
158
2
) 26 ( ) 25 (+ x
=
x
級の区間 代表値 度数 累積度数 相対度数 累積相対度数
149.5-152.5
151
152.5-155.5
154
155.5-158.5
157
158.5-161.5
160
161.5-164.5
163
164.5-167.5
166
167.5-170.5
169
170.5-173.5
172
合計
身長の度数分布表 を完成させよう
5
13
9
5
10
3
4
1
50
級の区間 代表値 度数 累積度数 相対度数 累積相対度数
149.5-152.5
151
152.5-155.5
154
155.5-158.5
157
158.5-161.5
160
161.5-164.5
163
164.5-167.5
166
167.5-170.5
169
170.5-173.5
172
合計
身長の度数分布表 を完成させよう
5
13
9
5
10
3
4
1
5
18
27
32
50
42
45
49
50
級の区間 代表値 度数 累積度数 相対度数 累積相対度数
149.5-152.5
151
5
5
152.5-155.5
154
13
18
155.5-158.5
157
9
27
158.5-161.5
160
5
32
161.5-164.5
163
10
42
164.5-167.5
166
3
45
167.5-170.5
169
4
49
170.5-173.5
172
1
50
合計
50
身長の度数分布表 を完成させよう
1
.
0
50
5
÷
=
26
.
0
50
13
÷
=
54
.
0
50
27
÷
=
級の区間 代表値 度数 累積度数 相対度数 累積相対度数
149.5-152.5
151
5
5
0.10
0.10
152.5-155.5
154
13
18
0.26
0.36
155.5-158.5
157
9
27
0.18
0.54
158.5-161.5
160
5
32
0.10
0.64
161.5-164.5
163
10
42
0.20
0.84
164.5-167.5
166
3
45
0.06
0.90
167.5-170.5
169
4
49
0.08
0.98
170.5-173.5
172
1
50
0.02
1.00
合計
50
1.00
身長の度数分布表 を完成させよう
グラフの作成
人数を見たいなら
割合を見たいなら
0.00 0.05 0.10 0.15 0.20 0.25 0.30身長の相対度数
0 2 4 6 8 10 12 14身長の度数
グラフの作成
人数を見たいなら
割合を見たいなら
0.00 0.05 0.10 0.15 0.20 0.25 0.30身長の相対度数
0 2 4 6 8 10 12 14身長の度数
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 14 15 15 15 16 16 16 17 17
累積相対度数のグラフ
累積相対度数のグラフ
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 14 9. 5 15 2. 5 15 5. 5 15 8. 5 16 1. 5 16 4. 5 16 7. 5 17 0. 5 17 3. 5
累積相対度数のグラフ
累積相対度数のグラフ
164cm以下の割合
を知りたいなら、
約80%
157cm以下の割合
を知りたいなら、
約44%
例題 3.1 年間収入の場合
経済データは、度数分布の形で提供される
場合が多い。
収入データは、他の経済データと同様に、高
額データの取り扱いが難しい。
試験データや身長データでは、さほど極端な
値がないので、取り扱いが比較的楽である。
2006年度 年間収入
(農林漁家を除く全世帯)
年間収入階級 階級値 度数 (世帯数) 200万円未満 157 239 200万円以上~ 250万円未満 225 368 250 ~ 300 275 537 300 ~ 350 323 792 350 ~ 400 373 880 ・・・・・・・・・・・・ ・・ ・・ 700 ~ 750 720 463 750 ~ 800 772 387 800 ~ 900 842 651 900 ~ 1000 945 520 1000 ~ 1250 1,104 700 1250 ~ 1500 1,359 282 1500万円以上 1,985 334年収1500万円超の世
帯が数多く存在してい
ることが分かる最高額
は不明
239世帯の平均が
157万円
階級幅が一定ではない
~200 200~ 250
階級幅の差を考慮せずにグラフに
すれば・・
年間収入以
上
未満
階級
値
世
帯
数
階級幅
~200
157 239
200~250
225 368
表3
−4の作成 1/2
50
×
階級幅
度数
年間収入以
上
未満
階級
値
世
帯
数
階級幅
~200
157 239
200~250
225 368
表3
−4の作成 1/2
139
50
86
239
=
×
÷
最低収入が不明
157
2
200 =
+
x
86
114
200
−
=
114
=
x
x
これをヒストグラムの棒の高さとする:級
幅の違いを考慮に入れてやる。階級幅が
50
200
250
−
=
368
50
50
368
=
×
÷
50
×
階級幅
度数
表 3
−4 の作成 2/2
年間収入以上
未満
階級
値
世帯
数
階級幅
世帯数÷階級幅×
50=棒の高さ
1250~1500 1359 282
1500~
1985 334
表 3
−4 の作成 2/2
年間収入以上
未満
階級
値
世帯
数
階級幅
世帯数÷階級幅×
50=棒の高さ
1250~1500 1359 282
1500~
1985 334
最高収入が不明
1985
2
1500 =
+
x
970
1500
2470
−
=
2470
=
x
x
250
1250
1500
−
=
棒の面積と世帯
数とが比例する。
56
50
250
282
=
×
÷
17
50
970
334
=
×
÷
階級幅を変えてグラフ化すると
度数(世帯数) 年間収入(万円) 図3-5 年間収入のヒストグラム 200 400 600 800 1000 1250 1500 表3-4より作成柱の面積が世帯数と比
例する
クロス集計
(男女別に)分類するときもある。
表3-5 男女別の得点の度数分布表 階級 度数 相対度数 男 女 男 女 0点以上 ~ 10点未 満 1 0 0.09 0.00 10 ~ 20 2 0 0.18 0.00 20 ~ 30 2 2 0.18 0.22 30 ~ 40 3 3 0.27 0.33 40 ~ 50 2 1 0.18 0.11 50 ~ 60 0 2 0.00 0.22 60 ~ 70 0 1 0.00 0.11 70 ~ 80 0 0 0.00 0.00 80 ~ 90 0 0 0.00 0.00 90 ~ 100 1 0 0.09 0.00 100 ~ 0 0 0.00 0.00 男 女参考:階級数と階級幅の決め方
階級数は、データの数に応じて決める。
log
2
n + 1 に近い数で、データの性質を加味
して決める。
階級の幅は、最初と最後を除いて、同じ幅に
する。
階級の端点は出来るだけ簡単な数字にす
る。
対数関数
log
2
5
32
log
4
16
log
3
8
log
2
4
log
1
2
log
log
2
2
2
2
2
=
=
=
=
=
=
=
c
a
b
c
言い換えれば
b
a
データの数が32
個なら、級の数を
6くらい設定する
とよい。
プロ野球選手:身長の分布
2010年
プロ野球選手:体重の分布
2010年
対数関数
log
10
5
100000
log
4
10000
log
3
1000
log
2
100
log
1
10
log
log
10
10
10
10
10
=
=
=
=
=
=
=
c
a
b
c
言い換えれば
b
a
プロ野球選手:年棒の分布
2010年
プロ野球選手:対数年俸の分布
2010年
2 累積相対度数分布とローレンツ曲線
累積相対度数の応用例として、格差を表す
ローレンツ曲線とジニ係数について学ぶ。
「2000年において,世界人口の貧しい方から
50%の収入は、世界全体の富の1%に過ぎ
ない(国連調査)」といった表現を、より充実
させるものである。
遺産相続の例(分配1)
左表では,明ら
かに,相続額が
不平等である.
最も平等な配分
は?
最も不平等な配
分は?
相続者
相続額
長男
1000
次男
800
3男
600
4男
400
5男
1200
遺産相続の例(分配1)
並べ替えー貧しい方から金持ちへ
人数 金額
比率
累積比率
遺産相続の例(分配1)
並べ替えー貧しい方から金持ちへ
人数 金額
比率
累積比率
人数 金額 人数 金額
4男
1
400
3男
1
600
次男
1
800
長男
1
1000
5男
1
1200
Σ
ー
ー
遺産相続の例(分配1)
並べ替えー貧しい方から金持ちへ
人数 金額
比率
累積比率
人数 金額 人数 金額
4男
1
400
3男
1
600
次男
1
800
長男
1
1000
5男
1
1200
Σ
ー
ー
2
.
0
5
1
÷
=
15
.
0
4000
600
÷
=
遺産相続の例(分配1)
人数 金額
比率
累積比率
人数 金額 人数 金額
4男
1
400
0.2
0.10
3男
1
600
0.2
0.15
次男
1
800
0.2
0.20
長男
1
1000
0.2
0.25
5男
1
1200
0.2
0.30
Σ
2
.
0
0
.
1
25
.
0
45
.
0
遺産相続の例(分配1)
人数 金額
比率
累積比率
人数 金額 人数 金額
4男
1
400
0.2
0.10
0.2
0.10
3男
1
600
0.2
0.15
0.4
0.25
次男
1
800
0.2
0.20
0.6
0.45
長男
1
1000
0.2
0.25
0.8
0.70
5男
1
1200
0.2
0.30
1.0
1.00
Σ
ー
ー
遺産相続の例
金額の累積比率
遺産相続の例(分配1)
金額の累積比率図3-7 遺産配分の例のローレンツ曲線
ローレンツ曲線
累積比率
人数
金額
4男
0.2
0.10
3男
0.4
0.25
次男
0.6
0.45
長男
0.8
0.70
5男
1.0
1.00
Σ
ー
ー
遺産相続の例(分配2)
人数
金額
比率
累積比率
人数
金額
人数
金額
4男
1
600
3男
1
700
次男
1
800
長男
1
900
5男
1
1000
Σ
5
4000
遺産相続の例(分配2)
金額の累積比 率 人数の累積比率 図3-8 2つの分配方法のローレンツ曲線 分配1 分配2 人数 金 額 比率 累積比率 人数 金額 人数 金額 4男 1 600 0.2 0.15 0.2 0.15 3男 1 700 0.2 0.175 0.4 0.325 次 男 1 800 0.2 0.20 0.6 0.525 長 男 1 900 0.2 0.225 0.8 0.75 5男 1 100 0 0.2 0.25 1.0 1.00 Σ 5 400 0 1.0 1.00 ー ー人数
金額
比率
累積比率
人数
金額
人数
金額
4男
1 600 0.2 0.15 0.2 0.153男
1 700 0.2 0.175 0.4 0.325次男
1 800 0.2 0.20 0.6 0.525長男
1 900 0.2 0.225 0.8 0.755男
1 1000 0.2 0.25 1.0 1.00Σ
ー ー遺産相続の例(分配2) (数式)
人数
金額
比率
累積比率
人数
金額
人数
金額
4男
1 600 0.2 0.15 0.2 0.153男
1 700 0.2 0.175 0.4 0.325次男
1 800 0.2 0.20 0.6 0.525長男
1 900 0.2 0.225 0.8 0.755男
1 1000 0.2 0.25 1.0 1.00Σ
5 4000 1.0 1.00 ー ー 58遺産相続の例(分配2) (数式)
x
1
x
2
x
3
x
4
x
5
x
i i=1 5∑
p
1
p
2
p
3
p
4
p
5
p
i i=1 5∑
q
1
q
2
q
3
q
4
q
5
q
i i=1 5∑
P
1
P
2
P
3
P
4
P
5
Q
1
Q
2
Q
3
Q
4
Q
5
P
4
= p
1
+ p
2
+ p
3
+ p
4
= P
3
+ p
4
1
n
2
n
3
n
4
n
5
n
∑
= 5 1 in
i遺産相続の例(均等分布)
人数
金額
比率
累積比率
人数
金額
人数
金額
4男
1
800
3男
1
800
次男
1
800
長男
1
800
5男
1
800
Σ
5
4000
遺産相続の例(均等分布)
人数 金額 比率 累積比率 人数 金額 人数 金額 4男 1 800 0.2 0.2 0.2 0.2 3男 1 800 0.2 0.2 0.4 0.4 次男 1 800 0.2 0.2 0.6 0.6 長男 1 800 0.2 0.2 0.8 0.8 5男 1 800 0.2 0.2 1.0 1.0 Σ 5 4000 1.0 1.00 ー ー 金額の累積比率 人数の累積比率 図3-8 2つの分配方法のローレンツ曲線 分配1 均等分布線 分配2ジニ係数とは?
右の図の、黒い線で囲
まれた面積の2倍を、ジ
ニ係数と呼ぶ。
ジニ係数は、0 と1 の間
の数で、1 に近いとき不
平等度が高くなります.
ジニ係数とは?
右の線で囲まれ
た面積のことをジ
ニ係数と呼ぶ。
ジニ係数:実際の計算方法
累積比率
ジニ係数計算欄
人数
金額
4男
0.2
0.10
3男
0.4
0.25
次男
0.6
0.45
長男
0.8
0.70
5男
1.0
1.00
累積比率
ジニ係数計算欄
人数
金額
4男
0.2
0.10
3男
0.4
0.25
次男
0.6
0.45
長男
0.8
0.70
5男
1.0
1.00
ジニ係数:実際の計算方法
03
.
0
6
.
0
25
.
0
45
.
0
4
.
0
×
−
×
=
06
.
0
8
.
0
45
.
0
70
.
0
6
.
0
×
−
×
=
1
.
0
0
.
1
7
.
0
0
.
1
8
.
0
×
−
×
=
01
.
0
4
.
0
10
.
0
25
.
0
2
.
0
×
−
×
=
67
ジニ係数の求め方
順位 累積人数 比 累積金額 比 1 2 3 4 5P
1
P
2
P
3
P
4
P
5
Q
1
Q
2
Q
3
Q
4
Q
5
68
ジニ係数の求め方
順位 累積人数 比 累積金額 比 1 2 3 4 5P
1
P
2
P
3
P
4
P
5
Q
1
Q
2
Q
3
Q
4
Q
5
69
ジニ係数の求め方(式)
累積人数 比 累積金額 比 三角形か台形の面積P
1
Q
1
P
2
Q
2
P
3
Q
3
P
4
Q
4
P
5
Q
5
∑
(∗)
1
− (∗)× 2
ジニ係数は
70
ジニ係数の求め方(式)
累積人数 比 累積金額 比 三角形か台形の面積P
1
Q
1
P
2
Q
2
P
3
Q
3
P
4
Q
4
P
5
Q
5
P
1Q
12
(P
2− P
1)(Q
2+ Q
1)
2
(P
3− P
2)(Q
3+ Q
2)
2
(P
4− P
3)(Q
4+ Q
3)
2
(P
5− P
4)(Q
5+ Q
4)
2
∑
(∗)
1
− (∗)× 2
ジニ係数は
ジニ係数の公式を求める
)}
)(
(
)
)(
(
)
)(
(
)
)(
(
{
1
5
4
4
5
4
3
3
4
3
2
2
3
2
1
1
2
1
1
Q
Q
P
P
Q
Q
P
P
Q
Q
P
P
Q
Q
P
P
Q
P
+
−
+
+
−
+
+
−
+
+
−
+
−
ジニ係数の公式を求める
)}
)(
(
)
)(
(
)
)(
(
)
)(
(
{
1
5
4
4
5
4
3
3
4
3
2
2
3
2
1
1
2
1
1
Q
Q
P
P
Q
Q
P
P
Q
Q
P
P
Q
Q
P
P
Q
P
+
−
+
+
−
+
+
−
+
+
−
+
−
)}
{
1
5
4
4
4
5
5
4
5
4
3
3
3
4
4
3
4
3
2
2
2
3
3
2
3
2
1
1
1
2
2
1
2
1
1
Q
P
Q
P
Q
P
Q
P
Q
P
Q
P
Q
P
Q
P
Q
P
Q
P
Q
P
Q
P
Q
P
Q
P
Q
P
Q
P
Q
P
−
−
+
+
−
−
+
+
−
−
+
+
−
−
+
+
−
=
73
ジニ係数の求め方( 公式)
累積人 数比 累積金 額比 三角形か楕円の面積P
1
Q
1
P
2
Q
2
P
3
Q
3
P
4
Q
4
P
5
Q
5
∑
ジニ係数
ジニ係数
74