• 検索結果がありません。

average

N/A
N/A
Protected

Academic year: 2021

シェア "average"

Copied!
53
0
0

読み込み中.... (全文を見る)

全文

(1)

1

データの代表値:平均

ヒストグラムは,視覚に訴えるもので

データの分布がよく分かるが,客観

性に欠ける.数値情報で補完する必

要がある.

(2)

成績データの場合

2

階級

度数

相対度数 累積度数

累積相対

度数

0未満

0

0

0

0

0以上

10未満

1

0.05

1

0.05

10以上

20未満

2

0.10

3

0.15

20以上

30未満

4

0.20

7

0.35

30以上

40未満

6

0.30

13

0.65

40以上

50未満

3

0.15

16

0.80

50以上

60未満

2

0.10

18

0.90

60以上

70未満

1

0.05

19

0.95

70以上

80未満

0

0.00

19

0.95

80以上

90未満

0

0.00

19

0.95

90以上

100未満

1

0.05

20

1.00

合計

20

1.00

-

-0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0 ~10 10 ~20 20 ~30 30 ~40 40 ~50 50 ~60 60 ~70 70 ~80 80 ~90 90 ~100

図3-2 得点の相対度数

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 20 40 60 80 100

図3-3 得点の累積相対度数

(3)

世帯収入データの場合

3

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700 1800 1900 2000 2100 2200 2300 2400 2500

世帯収入分布

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400

世帯収入累積分布

(4)

4

1 代表値

——平均

一般にデータは,バラツキを持っている.



x

1



x

2



x

3



x

4



x

5

データの分布の中心的な位置を示す値.

データを代表する値.

(5)

5

様々な代表値

平均(算術平均値,mean):平等に配分し

たときの取り分.

山分け

メディアン(中央値,median):一列に並べ

替えたとき,ちょうど真ん中に来る値.

勝率

五割の値

モード(最頻値, mode):ヒストグラムで最

も高い級の代表値.

仲間が多い値

幾何平均値:成長率に用いられる.

(6)

平均的な人間は幸せか?

同じ意見の仲間が多い。

自分の利害と政策とが一致しやすい。

社会のニーズを汲み取ることができ

る。

驕らず、僻まずの姿勢を保てる。

洋服や靴、住居など、選択肢が広くな

る。

6

(7)

7

平均値(算術平均値)

データを



12,15,18,11,23

とするとき,平均値は,



15.8

1

5

(12

15

18

11

23)



15.8

5

(12

15

18

11

23)

79

平均値にデータ数を掛けると、合計が求ま

る。

(8)

8

平均値(算術平均値)

データを

n

x

x

x

x

x

1

,

2

,

3

,

4

,

,

とするとき,平均値は,

n

i

i

n

x

n

x

x

x

x

x

n

x

1

4

3

2

1

1

)

(

1

n

i

i

n

x

x

x

x

x

x

x

n

1

4

3

2

1

)

(

(9)

9

例題 1.1

次のデータはある企業に所属する8人全員の年間

所得(単位万円)である.この平均値を求め,そ

の平均値がデータの代表値として適当であるか

議論せよ.

330, 280, 230, 240, 390, 290, 340, 1580

0

0

200

400

600

800

1000

1200

1400

1600

1800

460

8

1580

340

290

390

240

230

280

330

(10)

10

例題 1.1(続き)

8人全員の平均

7人の平均

460

8

1580

340

290

390

240

230

280

330

0

0

200

400

600

800

1000

1200

1400

1600

1800

300

7

340

290

390

240

230

280

330

(11)

11

平均値を用いる際の注意

他のデータ集団から飛び離れた極端な値(外れ

値)があるときは注意が必要.

外れ値は,異質なデータが混ざっているか,ある

いは転記・記入ミスが疑われる.

はっきり原因が分からない場合は,外れ値を含

むときの平均値と,含まないときの平均値を併記

するとよい.

異質なグループのデータが混ざっているときは,

データを分類するとよい.

(12)

12

異質なグループの例

男女の身長データ.

男女の賃金データ.

正社員とパートタイマーの賃金データ.

管理職と非管理職の賃金データ.

キャリア官僚とノンキャリア官僚の賃金

データ

(13)

13

男性と女性の身長

0

5

10

15

20

25

30

35

40

-144

150

-154

160

-164

170

-174

180

-185

男性

女性

全体

男性100名の平均身長

は,172.4cm

女性25名の平均身長

は,160.5cm

男女を分けずに求めた平

均身長は,170.05cm

男女分けずに求めた身長

にどのような意味がある

のだろうか?

もしも,全体の分布が2山

になっていたら,警戒せ

よ.

(14)

14

度数分布表からの平均値の計算

時計の数

人数

時計の数×人数

1

0

30

2

10

3

8

4

合計

50

0×30=0

1×10=10

2×8=16

3×2=6

32

時計の数の平均は、32÷50=0.64 個であ

る。

(15)

15

度数分布表からの平均値の計算

階級

人数

級の平均

級の合計

20

15

40

35

25

48

15

80

合計

41

100

4100

平均

100

20×15=300

40×35=1400

25×48=1200

15×80=1200

4100

(16)

16

度数分布表からの平均値の計算

階級

人数

級の平均

級の合計

合計



n

1

x

1

n

2

x

2

n

3

x

3

n

4

x

4

n



n

1



n

2



n

3



n

4



n



x

1



x

2



x

3



x



4

n

1

x

1



n

2

x

2



n

3

x

3



n

4

x

4



n

i

x

i

i

1

4

(17)

世帯の平均年収は、640万円

階級下限階級上限

階級値

(世帯数)

階級の小計

114

200

157

239

37,523

200

250

225

368

82,800

250

300

275

537

147,675

300

350

323

792

255,816

350

400

373

880

328,240

400

450

423

811

343,053

450

500

473

707

334,411

500

550

522

700

365,400

550

600

572

531

303,732

600

650

621

606

376,326

650

700

673

492

331,116

700

750

720

463

333,360

750

800

772

387

298,764

800

900

842

651

548,142

900

1000

945

520

491,400

1000

1250

1,104

700

772,800

1250

1500

1,359

282

383,238

1500

2470

1,985

334

662,990

合計

10,000

6,396,786

17

239世帯の合

計所得

368世帯の合

計所得

10000世帯の

平均所得=

6396786÷10

000

(18)

18

平均値の性質(1)

平均値に標本数を掛けると合計が求まる.

n

x

n

x

x

x

x

x

n

i

i

n

1

2

3

1

n

i

i

n

x

x

x

x

x

x

n

1

3

2

1

(19)

19

平均値の性質(2)

を平均からの偏差と呼ぶことにする.すると,偏差の和は0

である.

x

x

i

)

(

)

(

)

(

)

(

)

(

1

2

3

1

x

x

x

x

x

x

x

x

x

x

n

n

i

i

x

n

x

x

x

x

n

(

1

2

3

)

0

n

x

n

x

(20)

20

平均値の性質(3)

n

i

i

n

i

i

n

i

i

a

n

a

x

a

x

x

1

2

1

2

2

1

2

)

(

2

1

)

(

n

i

i

a

x

a

x

のとき最小になる.

n

x

x

n

x

a

n

n

i

i

n

i

i

n

i

i

2

1

1

2

2

1

(21)

21

平均値の性質(4)

の平均は



x

c

である.

c

x

c

x

c

x

c

x

1

,

2

,

3

,

,

n

n

c

x

c

x

c

x

c

x

)

(

)

(

)

(

n

)

(

1

2

3

n

c

n

x

x

x

x

n

1

2

3

(22)

22

平均値の性質(5)

の平均は

c

x

である.

n

x

c

x

c

x

c

x

c

1

,

2

,

3

,

,

n

x

c

x

c

x

c

x

c

1

2

3

n

n

x

x

x

x

c

(

1

2

3

n

)

(23)

23

平均値の性質(4,5)より

の平均は

a

x

b

である.

b

x

a

b

x

a

b

x

a

b

x

a

1

,

2

,

3

,

,

n

n

b

x

a

b

x

a

b

x

a

b

x

a

)

(

)

(

)

(

n

)

(

1

2

3

n

nb

x

x

x

x

a

n

(

1

2

3

)

(24)

24

平均の性質(6)

平均値は極端な値の影響を受けやすい.

この事実は,すぐ後で紹介する他の代表

値と比較することにより明らかになる.

最もなじみ深い算術平均値だが,何を示す

かについては,必ずしも明瞭ではない.

(25)

25

メディアン(中央値)

データ

n

x

x

x

x

x

1

,

2

,

3

,

4

,

,

を昇順に並べ替えて,

)

(

)

4

(

)

3

(

)

2

(

)

1

(

,

x

,

x

,

x

,

,

x

n

x

とするとき,ちょうど真ん中に位置する値を

メディアンと呼ぶ.

(26)

26

メディアンの求め方(n:奇数)

データ数が奇数(7)のとき,

)

7

(

)

6

(

)

5

(

)

4

(

)

3

(

)

2

(

)

1

(

,

x

,

x

,

x

,

x

,

x

,

x

x

データ数が奇数(n=2m+1)のとき,

)

1

2

(

)

2

(

)

1

(

)

(

)

1

(

)

1

(

,

,

x

m

,

x

m

,

x

m

,

x

m

,

,

x

m

x

)

4

(

x

)

1

(

m

x

(27)

27

メディアンの求め方(n:偶数)

データ数が偶数(6)のとき,

)

6

(

)

5

(

)

4

(

)

3

(

)

2

(

)

1

(

,

x

,

x

,

x

,

x

,

x

x

データ数が偶数(n=2m)のとき,

)

2

(

)

2

(

)

1

(

)

(

)

1

(

)

1

(

,

,

x

m

,

x

m

,

x

m

,

x

m

,

,

x

m

x

2

)

4

(

)

3

(

x

x

2

)

1

(

)

(

m

x

m

x

(28)

28

例題 1.1(続き)

次のデータのメディアンを求めよ.

330, 280, 230, 240, 390, 290, 340, 1580

0

0

200

400

600

800

1000

1200

1400

1600

1800

昇順に並べ替えると,

230, 240, 280, 290, 330, 340, 390, 1580

310

2

330

290

1580に無関係:20000でも

360 でも変化なし.

(29)

世帯所得のメディアンを求める

ー累積グラフを用いるー

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 200 400 600 800 10001200140016001800200022002400

世帯収入累積分布

メディアンは

下から(上か

ら)50%の世

帯の所得だか

ら、

ほぼ、540万

円位である。

(30)

四分位数の大体の値

(グラフを利用すると)

30

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400

世帯収入累積分布

%

25

第1四分位数

%

75

第3四分位数

(31)

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700 1800 1900 2000 2100 2200 2300 2400 2500

世帯収入分布

31

モード(最頻値:mode)

度数分布表で最も度数の多い級の代表値を言う.

級の幅が一定でないときには,修正が必要.

下の図では, 350〜400万円の級の度数が最大である

ので,その代表値373万円がモードとなる

(32)

32

4.平均値・メディアン・モードの関係1

平均

640万円

モード

373万

メディアン

548万円

分布が右に

歪んでいる

とき.

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700 1800 1900 2000 2100 2200 2300 2400 2500

世帯収入分布

(33)

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 -0.13 ~ -0.12 -0.12 ~ -0.11 -0.11 ~ -0.1 -0.1 ~ -0.09 -0.09 ~ -0.08 -0.08 ~ -0.07 -0.07 ~ -0.06 -0.06 ~ -0.05 -0.05 ~ -0.04 -0.04 ~ -0.03 -0.03 ~ -0.02 -0.02 ~ -0.01 -0.01 ~ 0 0 ~ 0.01 0.01 ~ 0.02 0.02 ~ 0.03 0.03 ~ 0.04 0.04 ~ 0.05 0.05 ~ 0.06 0.06 ~ 0.07 0.07 ~ 0.08 0.08 ~ 0.09 0.09 ~ 0.1 0.1 ~ 0.11 0.11 ~ 0.12 0.12 ~ 0.13 0.13 ~ 0.14 0.14 ~ 0.15 0.15 ~ 0.16

トヨタ株価収益率

33

4.平均値・メディアン・モードの関係2

平均

0.00108

メディアン

0.00203

モード

0.005

(34)

なぜ平均値が使われるか?

平均は、メディアンやモードと比べ、

具体的な意味を持たない。

(平均)×(データ数)=(合計)とい

う関係は利用価値があった。

分布が左右対称で釣鐘型の分布の場

合、平均が用いられる。

平均をとると、平均の分布がきれいな

形になるから(確率法則)

34

(35)

コインを投げて表なら1、裏

なら0とする

1回ごとに、0か1を記録して、グラ

フを作ると、

35

0 50 100 150 200 250 300 0 1

(36)

コインを投げて表なら1、裏

なら0とする

5回投げては平均をとり、データを集

めて、グラフを作ると、

36

0 50 100 150 200 250 0 0.2 0.4 0.6 0.8 1

(37)

コインを投げて表なら1、裏

なら0とする

10回投げては平均をとり、データを集

めて、グラフを作ると、

37

0 20 40 60 80 100 120 140 160 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

(38)

コインを投げて表なら1、裏

なら0とする

20回投げては平均をとり、データを集

めて、グラフを作ると、

38

0 20 40 60 80 100 120 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1

(39)

移動平均とは

表4-3 日経平均株価の移動平均

日経平均 3か月移動平 均 5か月移動平均 1997年1月

18330

1997年2月

18557

18296.7

1997年3月

18003

18570.3

18822.0

1997年4月

19151

19074.3

19277.0

1997年5月

20069

19941.7

19631.8

1997年6月

20605

20335.0

19677.0

1997年7月

20331

19721.7

19424.4

1997年8月

18229

18816.0

18702.4

1997年9月

17888

17525.3

17908.6

1997年10月

16459

16994.3

16894.2

1997年11月

16636

16118.0

16574.0

1997年12月

15259

16174.3

16362.8

2006年6月

15505

15476.3

15895.2

2006年7月

15457

15701.0

15739.6

2006年8月

16141

15908.7

15926.0

2006年9月

16128

16222.7

16079.8

2006年10月

16399

16267.0

16433.6

2006年11月

16274

16633.0

2006年12月

17226

表2-1より作成

39



10000 15000 20000 25000 97.1 97.7 98.1 98.7 日経平均(円) 年.月

図4-2 日経平均株価の移動平均のグラフ

原データ 3か月移動平 均

(40)

40

度数分布表からの平均値の計算

時計の数

人数

時計の数×人数

1

0

30

2

10

3

8

4

合計

時計の数の平均は、

個であ

る。

(41)

41

度数分布表からの平均値の計算

階級

人数

級の平均

級の合計

20

15

40

35

25

48

15

80

合計

平均

(42)

42

度数分布表からの平均値の計算

階級

人数

級の平均

級の合計

合計



n

1



n

2



n

3



n

4



x

1



x

2



x

3



x

4

(43)

世帯の平均年収は、

万円

階級下限階級上限

階級値

(世帯数)

階級の小計

114

200

157

239

37,523

200

250

225

368

82,800

250

300

275

537

147,675

300

350

323

792

255,816

350

400

373

880

328,240

400

450

423

811

343,053

450

500

473

707

334,411

500

550

522

700

365,400

550

600

572

531

303,732

600

650

621

606

376,326

650

700

673

492

331,116

700

750

720

463

333,360

750

800

772

387

298,764

800

900

842

651

548,142

900

1000

945

520

491,400

1000

1250

1,104

700

772,800

1250

1500

1,359

282

383,238

1500

2470

1,985

334

662,990

合計

10,000

6,396,786

43

(44)

世帯所得のメディアンや、四分位数

を求める

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400

世帯収入累積分布

(45)

復習:

メディアン・モード・平均値

1.下の表を完成させる

階級 階級の範囲

代表値

度数(人数)

相対度数

累積相対度数

0-200

120

15

200-400

320

30

400-600

560

25

600-800

700

16

800-1000

900

10

1000-1200

1100

4

合計

45

(46)

復習:

メディアン・モード・平均値

1.下の表を完成させる

階級 階級の範囲

代表値

度数(人数)

相対度数

累積相対度数

0-200

120

15

0.15

0.15

200-400

320

30

0.30

0.45

400-600

560

25

0.25

0.70

600-800

700

16

0.16

0.86

800-1000

900

10

0.10

0.96

1000-1200

1100

4

0.04

1.00

合計

100

1.00

46

(47)

0.000 0.050 0.100 0.150 0.200 0.250 0.300 0.350 0-200 200-400 400-600 600-800 800-1000 1000-1200 0.000 0.050 0.100 0.150 0.200 0.250 0.300 0.350 0-200 200-400 400-600 600-800 800-1000 1000-1200

復習

2.相対度数グラフを描く

47

モード

320万円

(48)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 200 400 600 800 1000 1200

復習

3.累積相対度数グラフを描く

48

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 200 400 600 800 1000 1200

%

50

メディアン

(49)

復習

4.平均値を求める

49

階級

階級の範囲

代表値

度数(人数)

級の合計

0-200

120

15

200-400

320

30

400-600

560

25

600-800

700

16

800-1000

900

10

1000-1200

1100

4

合計

100

1800

9600

14000

11200

9000

4400

50000

500

100

50000

(50)

復習

1.下の表を完成させる

階級 階級の範囲

代表値

度数(人数)

相対度数

(人数)

累積相対度数

(人数)

0-200

120

15

200-400

320

30

400-600

560

25

600-800

700

16

800-1000

900

10

1000-1200

1100

4

合計

50

(51)

復習

2.相対度数グラフを描く

51

0.000 0.050 0.100 0.150 0.200 0.250 0.300 0.350 0-200 200-400 400-600 600-800 800-1000 1000-1200

(52)

復習

3.累積相対度数グラフを描く

52

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 200 400 600 800 1000 1200

(53)

復習

4.平均値を求める

階級

階級の範囲

代表値

度数(人数)

級の合計

0-200

120

15

200-400

320

30

400-600

560

25

600-800

700

16

800-1000

900

10

1000-1200

1100

4

合計

53

参照

関連したドキュメント

 毒性の強いC1. tetaniは生物状試験でグルコース 分解陰性となるのがつねであるが,一面グルコース分

 海底に生息するナマコ(海鼠) (1) は、日本列島の

Bでは両者はだいたい似ているが、Aではだいぶ違っているのが分かるだろう。写真の度数分布と考え

テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から

の総体と言える。事例の客観的な情報とは、事例に関わる人の感性によって多様な色付けが行われ

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

また、 NO 2 の環境基準は、 「1時間値の1 日平均値が 0.04ppm から 0.06ppm までの ゾーン内又はそれ以下であること。」です

優越的地位の濫用は︑契約の不完備性に関する問題であり︑契約の不完備性が情報の不完全性によると考えれば︑