• 検索結果がありません。

3章 度数分布とヒストグラム

N/A
N/A
Protected

Academic year: 2021

シェア "3章 度数分布とヒストグラム"

Copied!
53
0
0

読み込み中.... (全文を見る)

全文

(1)

度数分布とヒストグラム

データとは、複雑な確率ゲームか

ら生まれたと考えてよい。

データ分析の第一歩として、デー

タの持つ基本的特性を把握するこ

とが重要である。

(2)

分析の流れ

データの分布(散らばり)を、度数分布表

にまとめ、グラフ化する。

グラフに、平均値や分散など、分布の特

徴を示す客観的な数値を加える。

データが母集団からのランダムサンプル

ならば、母集団についての推測を行う

(3)

度数分布とヒストグラムの作成

データを昇(降)順に並べ替える。

階級を設定し、各階級に属するデータの

個数をカウントする。

各階級の相対度数、累積度数、及び、累

積相対度数を計算する。

度数分布表をもとに、ヒストグラムを作

成する。

(4)

もとのデータと並べ替え

もとのデータを〃

n

x

x

x

x

x

1

,

2

,

3

,

4

,

,

とする〄それを昇順に並べ替えたものを〃

)

(

)

4

(

)

3

(

)

2

(

)

1

(

,

x

,

x

,

x

,

,

x

n

x

であらわす〄

データが与えられたら,それを昇

順に並べ替えると都合がよい.

43,20,18,38,32,33,91

,9,12,26,41,53,25,65,

29,37,36,43,33,57

9,12,18,20,25,26,29,

32,33,33,36,37,38,41

,43,43,53,57,65,91

(5)

エクセルを用いた並べ替え

(6)

女子学生の身長の例

並べ替えにより、最大値、

最小値、メディアン(中

位数)が分かる。

最大値

最小値

メディアン

150

172

158

2

) 26 ( ) 25 (

x

x

(7)

級の区間 代表値 度数 累積度数 相対度数 累積相対度数

149.5-152.5

151

152.5-155.5

154

155.5-158.5

157

158.5-161.5

160

161.5-164.5

163

164.5-167.5

166

167.5-170.5

169

170.5-173.5

172

合計

身長の度数分布表 を完成させよう

5

13

9

5

10

3

4

1

5

18

27

32

50

42

45

49

50

(8)

級の区間 代表値 度数 累積度数 相対度数 累積相対度数

149.5-152.5

151

5

5

152.5-155.5

154

13

18

155.5-158.5

157

9

27

158.5-161.5

160

5

32

161.5-164.5

163

10

42

164.5-167.5

166

3

45

167.5-170.5

169

4

49

170.5-173.5

172

1

50

合計

50

身長の度数分布表 を完成させよう

1

.

0

50

5

26

.

0

50

13

54

.

0

50

27

(9)

級の区間 代表値 度数 累積度数 相対度数 累積相対度数

149.5-152.5

151

5

5

0.10

0.10

152.5-155.5

154

13

18

0.26

0.36

155.5-158.5

157

9

27

0.18

0.54

158.5-161.5

160

5

32

0.10

0.64

161.5-164.5

163

10

42

0.20

0.84

164.5-167.5

166

3

45

0.06

0.90

167.5-170.5

169

4

49

0.08

0.98

170.5-173.5

172

1

50

0.02

1.00

合計

50

1.00

身長の度数分布表 を完成させよう

(10)

練習〆次の表を完成させよ

表3-2 サイコロを100回投げたときに出た目の度数分布表

サイコロの目 度数 相対度数 累積度数 累積相対度数

1

20

2

18

3

10

4

14

5

21

6

17

合計

注〆度数は各目が出る確率が等しいという条件で〃Excelの乱数の関数を用いて擬似的に発生さ せた

(11)

練習の解答

表3-2 サイコロを100回投げたときに出た目の度数分布表

サイコロの目 度数 相対度数 累積度数 累積相対度数

1

20

0.20

20

0.20

2

18

0.18

38

0.38

3

10

0.10

48

0.48

4

14

0.14

62

0.62

5

21

0.21

83

0.83

6

17

0.17

100

1.00

合計

100

1.00

-

-注〆度数は各目が出る確率が等しいという条件で〃Excelの乱数の関数を用いて擬似的に発生さ せた

(12)

グラフの作成

人数を見たいなら

割合を見たいなら

0.00 0.05 0.10 0.15 0.20 0.25 0.30

身長の相対度数

0 2 4 6 8 10 12 14

身長の度数

(13)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 4 9 .5 1 5 2 .5 1 5 5 .5 1 5 8 .5 1 6 1 .5 16 4. 5 1 6 7 .5 1 7 0 .5 1 7 3 .5

累積相対度数のグラフ

累積相対度数のグラフ

164cm以下の割合

を知りたいなら、

約80%

157cm以下の割合

を知りたいなら、

約44%

(14)

ヒストグラムを作るとき

1.

階級を決める

2.

各階級の度数をカウントする

3.

相対度数、累積度数、累積相対度数を計

算する

4.

グラフ化する

階級を決めることは、意外に難しい(教科

書に一般論はあるが、

「グラフで何を示

したいか」

を考えるとよい)

(15)

年間収入の場合

経済データは、度数分布の形で提供され

る場合が多い。

収入データは、他の経済データと同様

に、高額データの取り扱いが難しい。

身長データや試験の点数データでは、さ

ほど極端な値がないので、取り扱いが比

較的楽である。

(16)

2006年度 年間収入

(農林漁家を除く全世帯)

年間収入階級 階級値 度数 (世帯数) 200万円未満 157 239 200万円以上~ 250万円未満 225 368 250 ~ 300 275 537 300 ~ 350 323 792 350 ~ 400 373 880 々々々々々々々々々々々々 々々 々々 700 ~ 750 720 463 750 ~ 800 772 387 800 ~ 900 842 651 900 ~ 1000 945 520 1000 ~ 1250 1,104 700 1250 ~ 1500 1,359 282 1500万円以上 1,985 334 合計 10,000

年収1500万円超の世

帯が数多く存在してい

ることが分かる最高額

は不明

239世帯の平均が

157万円

階級幅が一定ではない

(17)

0 100 200 300 400 500 600 700 800 900 1,000 度数 (世帯数)

階級幅の差を考慮せずにグラフ

にすれば々々

階級幅が異なっ

ている

(18)

年間収入以

未満

階級

階級幅

~200

157 239

200~250

225 368

表3−4の作成 1/2

139

50

86

239

最低収入が不明

157

2

200

x

86

114

200

114

x



x

これをヒストグラムの棒の高さとする:級

幅の違いを考慮に入れてやる。階級幅が

広いほど,棒は低くなる。

50

200

250

368

50

50

368

50

階級幅

度数

(19)

表 3−4 の作成 2/2

年間収入以上

未満

階級

世帯

階級幅

世帯数÷階級幅×

50=棒の高さ

1250~1500

1359 282

1500~

1985 334

最高収入が不明

1985

2

1500

x

970

1500

2470

2470

x



x

250

1250

1500

棒の面積と世帯

数とが比例す

る。

56

50

250

282

17

50

970

334

(20)

階級幅を変えてグラフ化すると

0 200 400 600 800 1000 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 度数(世帯数) 年間収入(万円) 図3-5 年間収入のヒストグラム 200 400 600 800 1000 1250 1500 表3-4より作成

柱の面積が世帯数と比

例する

(21)

参考〆階級数と階級幅の決め方

階級数は、データの数に応じて決める。

log

2

n + 1 に近い数で、データの性質を加

味して決める。

階級の幅は、最初と最後を除いて、同じ

幅にする。

階級の端点は出来るだけ簡単な数字にす

る。

(22)

累積相対度数分布とローレンツ曲線

累積相対度数の応用例として、格差を表

すローレンツ曲線とジニ係数について学

ぶ。

「2000年において〃世界人口の貧しい方

から50%の収入は、世界全体の富の1%

に過ぎない(国連調査)」といった表現

を、より充実させるものである。

(23)

遺産相続の例(分配1)

左表では〃明ら

かに〃相続額が

不平等である〄

最も平等な配分

は?

最も不平等な配

分は?

相続者

相続額

長男

1000

次男

800

3男

600

4男

400

5男

1200

(24)

遺産相続の例(分配1)

並べ替えー貧しい方から金持ちへ

人数

金額

比率

累積比率

人数

金額

人数

金額

4男

1

400

3男

1

600

次男

1

800

長男

1

1000

5男

1

1200

Σ

5

4000

2

.

0

5

1

15

.

0

4000

600

(25)

遺産相続の例(分配1)

人数

金額

比率

累積比率

人数

金額

人数

金額

4男

1

400

0.2

0.10

3男

1

600

0.2

0.15

次男

1

800

0.2

0.20

長男

1

1000

0.2

0.25

5男

1

1200

0.2

0.30

Σ

5

4000

1.0

1.00

2

.

0

0

.

1

25

.

0

45

.

0

(26)

遺産相続の例(分配1)

人数

金額

比率

累積比率

人数

金額

人数

金額

4男

1

400

0.2

0.10

0.2

0.10

3男

1

600

0.2

0.15

0.4

0.25

次男

1

800

0.2

0.20

0.6

0.45

長男

1

1000

0.2

0.25

0.8

0.70

5男

1

1200

0.2

0.30

1.0

1.00

Σ

5

4000

1.0

1.00

(27)

遺産相続の例(分配1)

0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 金額の累積比率

図3-7 遺産配分の例のローレンツ曲線

ローレンツ曲線

累積比率

人数

金額

4男

0.2

0.10

3男

0.4

0.25

次男

0.6

0.45

長男

0.8

0.70

5男

1.0

1.00

Σ

(28)

遺産相続の例(分配2)

0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 金額の累積比 率 人数の累積比率 図3-8 2つの分配方法のローレンツ曲線 分配1 分配2 人数 金 比率 累積比率 人数 金額 人数 金額 4 男 1 600 0.2 0.15 0.2 0.15 3 男 1 700 0.2 0.175 0.4 0.325 次 男 1 800 0.2 0.20 0.6 0.525 長 男 1 900 0.2 0.225 0.8 0.75 5 男 1 1000 0.2 0.25 1.0 1.00 Σ 5 400 0 1.0 1.00 ー ー

(29)

人数

金額

比率

累積比率

人数

金額

人数

金額

4男

1 600 0.2 0.15 0.2 0.15

3男

1 700 0.2 0.175 0.4 0.325

次男

1 800 0.2 0.20 0.6 0.525

長男

1 900 0.2 0.225 0.8 0.75

5男

1 1000 0.2 0.25 1.0 1.00

Σ

5 4000 1.0 1.00 ー ー 29

遺産相続の例(分配2) (数式)



x

1



x

2



x

3



x

4



x

5



x

i i1 5



p

1



p

2



p

3



p

4



p

5



p

i i1 5



q

1



q

2



q

3



q

4



q

5



q

i i1 5



P

1



P

2



P

3



P

4



P

5



Q

1



Q

2



Q

3



Q

4



Q

5



P

4

p

1

p

2

p

3

p

4

P

3

p

4

1

n

2

n

3

n

4

n

5

n

 5 1 i

n

i

(30)

遺産相続の例(均等分布)

人数 金額 比率 累積比率 人数 金額 人数 金額 4男 1 800 0.2 0.2 0.2 0.2 3男 1 800 0.2 0.2 0.4 0.4 次男 1 800 0.2 0.2 0.6 0.6 長男 1 800 0.2 0.2 0.8 0.8 5男 1 800 0.2 0.2 1.0 1.0 Σ 5 4000 1.0 1.00 ー ー 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 金額の累積比率 人数の累積比率 図3-8 2つの分配方法のローレンツ曲線 分配1 均等分布線 分配2

(31)

31

ジニ係数とは?

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

右の図の、緑の線で囲

まれた面積の2倍を、ジ

ニ係数と呼ぶ。

ジニ係数は、0 と1 の間

の数で、1 に近いとき不

平等度が高くなります.

(32)

32

ジニ係数とは?

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.2 0.4 0.6 0.8 1

右の線で囲まれ

た面積のことをジ

ニ係数と呼ぶ。

(33)

累積比率

ジニ係数計算欄

人数

金額

4男

0.2

0.10

3男

0.4

0.25

次男

0.6

0.45

長男

0.8

0.70

5男

1.0

1.00

ジニ係数

ジニ係数〆実際の計算方法

03

.

0

6

.

0

25

.

0

45

.

0

4

.

0

06

.

0

8

.

0

45

.

0

70

.

0

6

.

0

1

.

0

0

.

1

7

.

0

0

.

1

8

.

0

01

.

0

4

.

0

10

.

0

25

.

0

2

.

0

2

.

0

(34)

34

ジニ係数の求め方

順位 累積人数 累積金額 1 2 3 4 5



P

1



P

2



P

3



P

4

1

5

P



Q

1



Q

2



Q

3



Q

4

1

5

Q



P

1  Q1 1 2

P

P

2 Q 2 3

P

P

3 Q 3 4

P

P

4 Q 4 5

P

P

5 Q

(35)

35

ジニ係数の求め方(式)

0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 累積人数 比 累積金額 比 三角形か台形の面積

P

1

Q

1

P

2

Q

2

P

3

Q

3

P

4

Q

4

P

5

Q

5



P

1

Q

1

2



(P

2

P

1

)(Q

2

Q

1

)

2



(P

3

P

2

)(Q

3

Q

2

)

2



(P

4

P

3

)(Q

4

Q

3

)

2



(P

5

P

4

)(Q

5

Q

4

)

2





(

)



1

(

)

2

ジニ係数は

(36)

ジニ係数の公式を求める

)}

)(

(

)

)(

(

)

)(

(

)

)(

(

{

1

5

4

4

5

4

3

3

4

3

2

2

3

2

1

1

2

1

1

Q

Q

P

P

Q

Q

P

P

Q

Q

P

P

Q

Q

P

P

Q

P

ジニ係数

)}

{

1

5

4

4

4

5

5

4

5

4

3

3

3

4

4

3

4

3

2

2

2

3

3

2

3

2

1

1

1

2

2

1

2

1

1

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P

(37)

37

ジニ係数の求め方( 公式)

累積人 数比 累積金 額比 三角形か楕円の面積

P

1

Q

1

P

2

Q

2

P

3

Q

3

P

4

Q

4

P

5

Q

5



P

1

Q

2

P

2

Q

1



)

(

)

(

)

(

)

(

4 5 5 4 3 4 4 3 2 3 3 2 1 2 2 1

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P

Q

P



P

2

Q

3

P

3

Q

2



P

3

Q

4

P

4

Q

3



P

4

Q

5

P

5

Q

4

ジニ係数

ジニ係数

(38)

累積比率

ジニ係数計

算欄

人数

金額

4男

0.2

0.10

3男

0.4

0.25

次男

0.6

0.45

長男

0.8

0.70

5男

1.0

1.00

ジニ係数

4

.

0

10

.

0

25

.

0

2

.

0

ジニ係数計算法の意味

(39)

累積比率

ジニ係数計

算欄

人数

金額

4男

0.2

0.10

3男

0.4

0.25

次男

0.6

0.45

長男

0.8

0.70

5男

1.0

1.00

ジニ係数

4

.

0

10

.

0

25

.

0

2

.

0

ジニ係数計算法の意味

6

.

0

25

.

0

45

.

0

4

.

0

8

.

0

45

.

0

70

.

0

6

.

0

0

.

1

7

.

0

0

.

1

8

.

0

2

.

0

(40)

ジニ係数計算法の意味

A B

x

1

C

x

B

C

A

B

A

)

(

)

(

B

C

A

C

A

B

ジニ係数

ジニ係数

(41)

表1 世帯と年間収入の累積比率等

(2006年、農林漁家世帯を除く全世帯)

年間収入階級 階級値 度数帯数)(世 総収入(階級値×度数) 比率 累積比率 世帯 収入 世帯 収入 200万円未満 157 239 37,523 0.0239 0.0059 0.0239 0.0059 200万円以上~ 250万円未満 225 368 82,800 0.0368 0.0129 0.0607 0.0188 250 ~ 300 275 537 147,675 0.0537 0.0231 0.1144 0.0419 300 ~ 350 323 792 255,816 0.0792 0.0400 0.1936 0.0819 350 ~ 400 373 880 328,240 0.0880 0.0513 0.2816 0.1332 400 ~ 450 423 811 343,053 0.0811 0.0536 0.3627 0.1868 450 ~ 500 473 707 334,411 0.0707 0.0523 0.4334 0.2391 500 ~ 550 522 700 365,400 0.0700 0.0571 0.5034 0.2962 550 ~ 600 572 531 303,732 0.0531 0.0475 0.5565 0.3437 600 ~ 650 621 606 376,326 0.0606 0.0588 0.6171 0.4025 650 ~ 700 673 492 331,116 0.0492 0.0518 0.6663 0.4543 700 ~ 750 720 463 333,360 0.0463 0.0521 0.7126 0.5064 750 ~ 800 772 387 298,764 0.0387 0.0467 0.7513 0.5531 800 ~ 900 842 651 548,142 0.0651 0.0857 0.8164 0.6388 900 ~ 1000 945 520 491,400 0.0520 0.0768 0.8684 0.7156 1000 ~ 1250 1,104 700 772,800 0.0700 0.1208 0.9384 0.8364 1250 ~ 1500 1,359 282 383,238 0.0282 0.0599 0.9666 0.8964 1500万円以上 1,985 334 662,990 0.0334 0.1036 1.0000 1.0000

×

=

×

=

(42)

ローレンツ曲線と均等分布線

0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 年間収入 の累積比率 世帯の累積比率 図3-9 年間収入のローレンツ曲線 ローレンツ曲線 均等分布線 表3-7より作成 年間収入階級 世帯累積比率収入 200万円未満 0.0239 0.0059 200万円以上~ 250万円未満 0.0607 0.0188 250 ~ 300 0.1144 0.0419 300 ~ 350 0.1936 0.0819 350 ~ 400 0.2816 0.1332 400 ~ 450 0.3627 0.1868 450 ~ 500 0.4334 0.2391 500 ~ 550 0.5034 0.2962 550 ~ 600 0.5565 0.3437 600 ~ 650 0.6171 0.4025 650 ~ 700 0.6663 0.4543 700 ~ 750 0.7126 0.5064 750 ~ 800 0.7513 0.5531 800 ~ 900 0.8164 0.6388 900 ~ 1000 0.8684 0.7156 1000 ~ 1250 0.9384 0.8364 1250 ~ 1500 0.9666 0.8964 1500万円以上 1.0000 1.0000 合計

(43)

ジニ係数の計算

年間収入階級 累積比率 ジニ係数計算欄 世帯 収入 200万円未満 0.0239 0.0059 200万円以上~ 250万円未満 0.0607 0.0188 0.0001 250 ~ 300 0.1144 0.0419 0.0004 300 ~ 350 0.1936 0.0819 0.0013 350 ~ 400 0.2816 0.1332 0.0027 400 ~ 450 0.3627 0.1868 0.0043 450 ~ 500 0.4334 0.2391 0.0058 500 ~ 550 0.5034 0.2962 0.0080 550 ~ 600 0.5565 0.3437 0.0082 600 ~ 650 0.6171 0.4025 0.0119 650 ~ 700 0.6663 0.4543 0.0121 700 ~ 750 0.7126 0.5064 0.0137 750 ~ 800 0.7513 0.5531 0.0137 800 ~ 900 0.8164 0.6388 0.0284 900 ~ 1000 0.8684 0.7156 0.0295 1000 ~ 1250 0.9384 0.8364 0.0548 1250 ~ 1500 0.9666 0.8964 0.0326 1500万円以上 1.0000 1.0000 0.0702

0.0239×0.0188

- 0.0059×0.0607

計算不要

ジニ係数

(44)

遺産相続の例(分配1)

並べ替えー貧しい方から金持ちへ

人数

金額

比率

累積比率

人数

金額

人数

金額

4男

1

400

3男

1

600

次男

1

800

長男

1

1000

5男

1

1200

Σ

5

4000

(45)

遺産相続の例

0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 金額の累積比率

図3-7 遺産配分の例のローレンツ曲線

(46)

遺産相続の例(分配2)

人数

金額

比率

累積比率

人数

金額

人数

金額

4男

1

600

3男

1

700

次男

1

800

長男

1

900

5男

1

1000

Σ

5

4000

(47)

遺産相続の例(均等分布)

人数

金額

比率

累積比率

人数

金額

人数

金額

4男

1

800

3男

1

800

次男

1

800

長男

1

800

5男

1

800

Σ

5

4000

(48)

ジニ係数〆実際の計算方法

累積比率

ジニ係数計算欄

人数

金額

4男

0.2

0.10

3男

0.4

0.25

次男

0.6

0.45

長男

0.8

0.70

5男

1.0

1.00

ジニ係数

(49)

49

ジニ係数の求め方

順位 累積人数 累積金額 1 2 3 4 5



P

1



P

2



P

3



P

4



P

5



Q

1



Q

2



Q

3



Q

4



Q

5

(50)

50

ジニ係数の求め方(式)

0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 累積人数 比 累積金額 比 三角形か台形の面積

P

1

Q

1

P

2

Q

2

P

3

Q

3

P

4

Q

4

P

5

Q

5





(

)



1

(

)

2

ジニ係数は

(51)

ジニ係数の公式を求める

)}

)(

(

)

)(

(

)

)(

(

)

)(

(

{

1

5

4

4

5

4

3

3

4

3

2

2

3

2

1

1

2

1

1

Q

Q

P

P

Q

Q

P

P

Q

Q

P

P

Q

Q

P

P

Q

P

ジニ係数

(52)

累積比率

ジニ係数計

算欄

人数

金額

4男

0.2

0.10

3男

0.4

0.25

次男

0.6

0.45

長男

0.8

0.70

5男

1.0

1.00

ジニ係数

ジニ係数計算法の意味

(53)

ジニ係数計算法の意味

A B

x

1

C

x

B

C

A

参照

関連したドキュメント

特に、その応用として、 Donaldson不変量とSeiberg-Witten不変量が等しいというWittenの予想を代数

[r]

 当図書室は、専門図書館として数学、応用数学、計算機科学、理論物理学の分野の文

としても極少数である︒そしてこのような区分は困難で相対的かつ不明確な区分となりがちである︒したがってその

「PTA聖書を学ぶ会」の通常例会の出席者数の平均は 2011 年度は 43 名だったのに対して、2012 年度は 61 名となり約 1.5

「PTA聖書を学ぶ会」の通常例会の出席者数の平均は 2011 年度は 43 名、2012 年度は 61 名、2013 年度は 79 名、そして 2014 年度は 84

「PTA聖書を学ぶ会」の通常例会の出席者数の平均は 2011 年度は 43 名、2012 年度は 61 名、そして 2013 年度は 79

 千葉 春希 家賃分布の要因についての分析  冨田 祥吾 家賃分布の要因についての分析  村田 瑞希 家賃相場と生活環境の関係性  安部 俊貴