• 検索結果がありません。

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

N/A
N/A
Protected

Academic year: 2021

シェア "Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]"

Copied!
11
0
0

読み込み中.... (全文を見る)

全文

(1)

データ解析基礎

2. 度数分布と特性値

keyword

†

データの要約

„度数分布表,ヒストグラム

†

分布の中心を表す基本統計量

„平均,最頻値,中央値

†

分布のばらつきを表す統計量

„分散,標準偏差

1

散,標準偏

統計データの構造-1

†

データ解析の目的・・・

„

具体的な対象(母集団)についての調査結果(標

本をどう加工・処理し,有益な情報を引き出すか

である.

処理するための調査結果として

デ タ(観

„

加工・処理するための調査結果として,

データ(観

測データ)

というものがある.

„

母集団から無作為抽出された個体のことを

標本

„

母集団から無作為抽出された個体のことを

標本

いい,その個数を

標本の大きさ

または

標本サイズ

と呼ぶ.

と呼ぶ

„

“標本=観測データ”と読み替えても良い

2

統計データの構造-2

†

データ解析では調査項目のことを変量と呼ぶ.

†

質的変量

†

質的変量

„

名義尺度:名前,性別

„

順序尺度 好きなもの順位など

„

順序尺度:好きなもの順位など

†

量的変量(連続的変量)

„

間隔尺度:温度,成績など

„

比例尺度:距離,重量,金額など

統計データの構造-3:名義尺度

†

対象者特性を便宜的に数字で表現

„

性別:男性=1 女性=2

„

性別:男性 1,女性 2

„

好きな動物:犬=1,猫=2,ウサギ=3

†

統計的処理

†

統計的処理

„

度数のカウント

例)男性100人,女性85人

名義尺度の数字は,加減乗除算ができない

(2)

統計データの構造-4:順位尺度

†

順位やベスト3,ワースト3などで表現

„

行きたい国から順に3つ書いてください

„

行きたい国から順に3つ書いてください.

„

次のタレントを好きな順に3名書いてください.

†

統計的処理

†

統計的処理

„

例)順位別の度数

1位 ドイツ20名

2位 中国10名

3位 オランダ8名

5

統計データの構造-5:間隔尺度

†

評価などの質問(等間隔の順序尺度)で使われる

„

満足度の調査

„

満足度の調査

非常に満足

やや満足

どちらでもない やや不満

非常に不満

†

統計的処理

„

度数のカウント

„

得点化し,換算

„

平均などの統計量を計算

6

統計データの構造-6:比例尺度

†

数や量などを質問

„

年収 年齢

„

年収,年齢

„

年間売上高,来場者数

†

統計的処理

†

統計的処理

„

カテゴリー化して度数を計算

„

平均などの統計量の計算

7

度数分布表1:

質的データ例

ID

頭部損傷 ヘルメット着用

1

有り

着用

応答パターン

„

頭部損傷:(有り,無し)

1

有り

着用

2

無し

着用

3

無し

非着用

頭部損傷:(有り,無し)

„

ヘルメット着用:

(着用,非着用)

4

有り

着用

5

無し

着用

6

有り

非着用

6

有り

非着用

7

有り

非着用

8

無し

着用

・・・

・・・

・・・・

793

有り

非着用

8

(3)

度数分布表1:質的な観測データの要約

†

データで各々の値の個数

(度数)

を求める.

度数を表形式にしたも

度数分布表

ある

†

度数を表形式にしたものが

度数分布表

である

着用

非着用

頭部損傷

ヘルッメ着用の有無

着用

非着用

17

218

235

130

428

558

147

646

793

9

度数分布表2:量的な観測データの要約

†

データ集計 ⇔

度数分布表

の作成

区間(以上 未満)

度数分布表(区間数10

頻度

ID

AGE

SAL

1

53

145

度数分布表

の作成

区間(以上-未満)

頻度

- 100

2

100 - 200

5

2

43

621

3

33

262

4

45

208

200 - 300

18

300 - 400

13

400 - 500

4

5

46

362

・・・

・・・

・・・

56

48

388

500 - 600

6

600 - 700

3

700 - 800

4

57

52

250

58

62

396

59

48

572

700 - 800

4

800 - 900

3

900 -

1

10

度数分布表3:度数分布表の作成

†

度数分布表作成手順

1

データ項目を適当な階級に分ける

1.

デ タ項目を適当な階級に分ける

2.

各階級に入る度数を数える

更に必要ならば

更に必要ならば,

3.

相対度数,累積度数,累積相対度数を計算

„

相対度数は,データの大きさが異なる複数の

データの分布の比較に有効

デ タの分布の比較 有効

度数分布表4:用語の復習

†

階級:

„

標本値が取り得る値を適当な区間に分けたもの

階級値

†

階級値:

„

階級を代表する値.通常階級の上限と下限の中間値

†

度数

†

度数:

„

階級に入る標本値の個数

†

相対度数:

†

相対度数:

„

度数を全標本値の個数で割って,比率にしたもの

†

累積度数 累積相対度数:

†

累積度数,累積相対度数:

„

度数,相対度数を下の階級から順に足したもの

(4)

度数分布表5:ヒストグラムの作成

† ヒストグラム:

グラフの分布の形を見るために,度数分布表をグ

グラフの分布の形を見るために,度数分布表をグ

ラフにしたもの

†

度数分布表を作成して,ヒストグラムを描くことに

よってデータの分布を知ることが出来る

よってデ タの分布を知ることが出来る.

†

デ タ解析のはじめの

†

データ解析のはじめの一歩!!

13

度数分布表6:度数分布表の読み方

区間(以上-未満) 度数 相対度数 累積度数 累積相対度数 - 100 2 0.03 2 0.03 100 - 200 5 0.08 7 0.12 200 - 300 18 0.31 25 0.42

データ区間:

300以上400未満

階級値:

200 300 18 0.31 25 0.42 300 - 400 13 0.22 38 0.64 400 - 500 4 0.07 42 0.71 500 - 600 6 0.10 48 0.81 600 - 700 3 0.05 51 0.86

階級値:

350=(300+400)/2

度数:

データ区間に13人

600 700 3 0.05 51 0.86 700 - 800 4 0.07 55 0.93 800 - 900 3 0.05 58 0.98 900 - 1 0.02 59 1.00

デ タ区間に13人

相対度数:

9人は全体の22%

累積度数:

累積度数:

最初から数えてこの

データ区間までに38人

累積相対度数:

累積相対度数

最初から数えてこの

データ区間までの人数は

全体の64%

14

度数分布表7:

ヒストグラムの作成

区間(以上-未満)

頻度

度数分布表

ヒストグラム

区間(以上 未満)

頻度

- 100

2

100 - 200

5

200 - 300

18

14

16

18

20

300 - 400

13

400 - 500

4

500 - 600

6

600 700

3

8

10

12

14

600 - 700

3

700 - 800

4

800 - 900

3

900 -

1

0

2

4

6

0

-100

100

-200

200

-300

300

-400

400

-500

500

-600

600

-700

700

-800

800

-900

900 -

15

例題:得点データ

学籍番号 得点 性別 I05V001 67 女子 I05V002 56 男子 I05V003 44 男子 I05V004 51 男子 学籍番号 得点 性別 I05V026 64 女子 I05V027 49 男子 I05V028 56 男子 I05V029 77 男子 学籍番号 得点 性別 I05V061 54 女子 I05V062 31 男子 I05V063 51 女子 I05V064 59 女子 I05V004 51 男子 I05V005 42 男子 I05V006 41 男子 I05V007 62 女子 I05V008 48 女子 I05V009 50 男子 I05V029 77 男子 I05V030 61 女子 I05V031 54 男子 I05V032 57 男子 I05V033 62 女子 I05V034 65 女子 I05V064 59 女子 I05V065 58 女子 I05V066 57 男子 I05V067 51 女子 I05V068 71 女子 I05V069 60 男子 I05V009 50 男子 I05V010 40 女子 I05V011 49 女子 I05V012 61 男子 I05V013 79 女子 I05V014 60 女子 I05V034 65 女子 I05V035 55 男子 I05V036 55 男子 I05V037 42 女子 I05V038 51 男子 I05V039 47 男子 I05V069 60 男子 I05V070 62 女子 I05V071 58 男子 I05V072 42 男子 I05V073 58 女子 I05V074 52 男子 I05V015 46 男子 I05V016 66 女子 I05V017 68 女子 I05V018 68 女子 I05V019 72 女子 0 0 0 女子 I05V040 48 男子 I05V041 52 女子 I05V042 60 男子 I05V043 64 男子 I05V044 45 男子 I05V045 40 男子 I05V020 48 女子 I05V021 62 女子 I05V022 48 男子 I05V023 57 男子 I05V024 42 男子 I05V025 40 男子 I05V045 40 男子 I05V046 60 女子 I05V047 62 女子 I05V048 36 男子 I05V049 60 女子 I05V050 39 男子 16 I05V025 40 男子 I05V050 39 男子

(5)

例題:度数分布表

区間

度数 相対頻度

31~40

5

0.12

度数分布表(男子)

区間

度数 相対頻度

31~40

6

0.08

度数分布表(全体)

31

41~50

40

17

5

0.12

0.41

51~60

15

0.37

61~70

3

0 07

31

40

6

0.08

41~50

23

0.31

51~60

26

0.35

61~70

15

0 20

61~70

3

0.07

71~80

1

0.02

度数分布表(女子)

61~70

15

0.20

71~80

4

0.05

31~40

区間

度数 相対頻度

1

0.03

41~50

6

0.18

51~60

11

0.33

61~70

12

0.36

71~80

3

0 09

17

71

80

3

0.09

例題:ヒストグラム

ヒストグラム:男子 12 14 16 18

データのまとめ方によって,異なる解釈ができ

る場合がある.

ヒストグラム:全体 25 30 2 4 6 8 10 10 15 20 0 31~40 41~50 51~60 61~70 71~80 ヒストグラム:女子 14 0 5 10 31~40 41~50 51~60 61~70 71~80 6 8 10 12 14 31 40 41 50 51 60 61 70 71 80 0 2 4 6 31~40 41~50 51~60 61~70 71~80 18 31 40 41 50 51 60 6170 7180

分布の特性値

†

度数分布やヒストグラムを見ることで分布の形

状を知るができる.

状を知るができる.

†

数値で分布の概要を把握するための指標として,

„ 代表値

デ タの中心の位置

„ 代表値

:データの中心の位置

„ 散布度

:データの散らばり具合

がある.

†

2つの指標を総称して「

分布の特性値

」という

†

2つの指標を総称して「

分布の特性値

」という.

分布の特性値:代表値

†

データの分布がどのような値を中心に散らばっ

ているか明らかにする.

†平均

„

データのすべての値を足し合わせて,データ数で

デ タのす

ての値を足し合わせて,デ タ数で

割ったもの

†最頻値

„

分布の最も高い場所

†中央値(メジアン)

†中央値(メジアン)

„

データの中央にくる値のこと

(6)

分布の特性値:代表値

中央値

3 d ens it y 2 1

最頻値

平均値

x

最頻値

0.0 0.2 0.4 0.6 0.8 1.0 0 21

日本全国の平均世帯収入は?

日本全国の平均世帯収入は?

渡辺久哲「調査データにだまされない法」創元社より

†

総務庁の統計局の家計調査によると,平成8年度

の全国平均の

世帯年収は743万円

であった

の全国平均の

世帯年収は743万円

であった.

„

全国の一般世帯およそ8000標本について収入と支

出についての調査

出についての調査

†

この743万円という世帯年収を聞いての感想は

†

この743万円という世帯年収を聞いての感想は,

ふつうの家はそんなに稼いでいるのか!!

例えば ボ ナ を年間

月分支給すると仮定そ

†

例えば,ボーナスを年間3ヶ月分支給すると仮定そ

れば,

1ヶ月の収入は約50万円

となる.

22

日本全国の平均世帯収入は?

日本全国の平均世帯収入は?

80 90

平均年収が743万円となった理由

1000万円以上稼ぐ高所得者が

50 60 70

その平均を引き上げていたため

1000万円以上稼ぐ高所得者が

30 40 50 0 10 20 単位:万円 0 -200 200 -300 300 -400 400 -500 500 -600 600 -700 700 -800 800 -900 900 -1000 1000 - 23 単位:万円

分布の特性値:散布度

分布の特性値:散布度

散布度:分散(標準偏差)

†

次の2つのデータの平均を考える.

„

平均値は同じである

„

平均値は同じである

„ データのもつ意味が全く違う

デ タを

約する値と

十分

„

データを要約する値としては不十分?

† データの散らばりを表す量も表示する

24

(7)

分布の特性値:散布度

分布の特性値:散布度

例)散布度:分散(標準偏差)

†

3クラスで,統計学の試験をし,各クラスで30人ずつ選び

平均点を計算すると50点であった.このデータから,ヒスト

グラムを作成したところ以下のような結果であ た この

グラムを作成したところ以下のような結果であった.この

平均点だけで,データを解釈しても良いか.

クラスAのヒストグラム 7 8 クラスBのヒストグラム 7 8 クラスCのヒストグラム 3 5 4 4.5 2 3 4 5 6 2 3 4 5 6 1.5 2 2.5 3 3.5 0 1 2 11 ‐ 20 21 ‐ 30 31 ‐ 40 41 ‐ 50 51 ‐ 60 61 ‐ 70 71 ‐ 80 81 ‐ 90 0 1 2 11 ‐ 20 21 ‐ 30 31 ‐ 40 41 ‐ 50 51 ‐ 60 61 ‐ 70 71 ‐ 80 81 ‐ 90 0 0.5 1 11 ‐ 20 21 ‐ 30 31 ‐ 40 41 ‐ 50 51 ‐ 60 61 ‐ 70 71 ‐ 80 81 ‐ 90 25

データの散らばりを表す量

デ タの散らばりを表す量

散布度:分散(標準偏差)

† 分散

„

データの散らばりを表現する量

デ タの散らばりを表現する量

„

データの散らばり具合が大きいほど,分散の値

は大きくなる.

†

3つのクラスの分散の大きさは,

„

クラスA<クラスB<クラスC

クラスA<クラスB<クラスC

† 標準偏差

:分散を平方根したもの

26

データの散らばりを表す量

デ タの散らばりを表す量

散布度:分散(標準偏差)

0. 4

分布1

0. 3

分布1

分布1の平均 = 分布2の平均

分布1の分散 < 分布2の分散

de n s it y 0. 2

分布1の分散 < 分布2の分散

0. 1

分布2

x -4 -2 0 2 4 0. 0

平均,分散の計算式

1

2

( ,

,...,

n

)

n

個の観測データ

x

=

x x

x

が得られたする.

とき

観測デ タから標本平均と標本分散

このとき,この観測データから標本平均と標本分散

は以下の式で計算される.

1

n

i

x

=

x

標本平均

1

2

1

2

1

2

2

i

i

n

n

n

=

標本平均

2

2

2

2

1

1

1

1

(

i

)

i

i

i

s

x

x

x

x

n

=

n

=

=

=

標本分散

(8)

平均値の意味1

90 100 90 100 90 100

以下の10人の学生の得点を表した図

60 70 80

平均点

60 70 80

平均点

60 70 80

平均点

得点と平均点との距離

番号 得点 1 80 2 60 40 50 60 点 数

平均点

40 50 60 点 数

平均点

40 50 60 点 数

平均点

3 20 4 50 5 100 6 40 7 70 10 20 30 10 20 30 10 20 30 8 30 9 75 10 60 0 0 1 2 3 4 5 6 7 8 9 10 番号 0 0 1 2 3 4 5 6 7 8 9 10 番号 0 0 1 2 3 4 5 6 7 8 9 10 番号 29

平均値の意味2

1

10

2

10

( ,...,

)

(

)

(

1,...,10)

i

i

x

x

x

d

x

i

α

α

=

=

=

人の得点を

と書く.このとき,ある値

と得点の距離を

2

2

10

10

10

10

10

(

)

(

, ,

)

1

1

1

i

i

y

で定義すると,その距離の総和 は

10

10

10

10

10

2

2

1

1

1

1

1

1

1

1

(

)

10

10

10

10

10

i

i

i

i

i

i

i

i

i

i

y

d

x

α

α

x

x

x

=

=

=

=

=

=

=

=

+

∑ ∑

10

1

i

y

x

x

α

=

=

このとき, の最小値は,

この項が0のとき,

yは最小になる

x の標本分散

1

10

i

x

i

x

α

=

=

=

であるので,平均値は観測値との距離を最小にする値となる.

30

例題1:平均値の意味

†

次の度数分布表とヒストグラムはあるテスト結果をまとめた

ものである.わかることを述べなさい.

区間

度数

0 - 10

1

度数分布表

40 45

ヒストグラム

11 - 20

12

21 - 30

28

31 - 40

26

25 30 35

41 - 50

14

51 - 60

5

61 - 70

21

105 15 20

71 - 80

42

81 - 90

24

91 - 100

7

0 5 0 -10 11 -20 21 -30 31 -40 41 -50 51 -60 61 -70 71 -80 81 -90 91 -100 31

9

00

7

例題2:基本統計量

†

以下のデータは,10日間にわたる2つのストアの1日

の売り上げ高(単位:万円)である.どちらのお店がよ

り安定しているか答えなさい.

1

2

3

4

5

6

7

8

9

10

平野ストア

50

55

60

65

70

55

60

60

60

60

松原マート

30

90

50

70

35

85

30

60

80

75

32

(9)

例題2:折れ線グラフ

90

100

平野ストア 松原マート

60

70

80

30

40

50

60

10

20

30

平均

分散

標準偏差

平野ストア

59.5

30.28

5.50

松原マート

60.5

530.28

23.03

0

1

2

3

4

5

6

7

8

9

10 (日)

33

例題3:基本統計量

†

以下のデータは,同じ科目を講義中心と演習中心と

いう2つの異なる講義方法でおこない,クラスA(講義

中心)とクラス (実習中心)からそれぞれ

名を選び

中心)とクラスB(実習中心)からそれぞれ20名を選び,

試験をおこなった結果である.2つのクラスを比較しな

さい

さい.

No

1

2

3

4

5

6

7

8

9

10

講義中心A

66

55 48 30 52 61 56 75 50 35

講義中心A

66

55 48 30 52 61 56 75 50 35

実習中心B

40

23 72 55 33 77 32 15 51 29

No

11

12 13 14 15 16 17 18 19 20

No

11

12 13 14 15 16 17 18 19 20

講義中心A

50

52 50 47 57 47 56 51 40 30

実習中心B

39

50 38 42 85 68 45 98 64 36

34

例題3:基本統計量

平均

分散

標準偏差

講義中心A

50 4

121 09

11 0

基本統計量

講義中心A

50.4

121.09

11.0

実習中心B

49.6

470.67

21.7

区間

A

B

度数分布表

0 - 20

0

1

21 - 30

2

2

31 - 40

2

6

41 - 50

6

3

51 - 60

7

2

61 - 70

2

2

71 - 80

1

2

81 - 90

0

1

91 - 100

0

1

例題3:基本統計量

8 A 5 6 7 A B 3 4 5 1 2 3 0 0 - 20 21 - 30 31 - 40 41 - 50 51 - 60 61 - 70 71 - 80 81 - 90 91 - 100

(10)

度数分布とヒストグラム

区間

クラスA

クラスB

11‐20

1

1

左表は2つのクラス(A, B)

で100点満点の試験結果

11 20

1

1

21‐30

3

2

31‐40

6

4

で 00点満点の試験結果

を10点刻みの区間に分け,

その区間内に入る人数を

数 たも

ある

41‐50

7

4

51‐60

5

3

数えたものである.

61‐70

4

2

71‐80

2

1

81‐90

1

1

合計

29

18

37

度数分布とヒストグラム

2つのクラスを比べたとき

では,どちらのクラスの出

クラスAとBの得点分布 8 クラスAとBの得点分布 8

では,どちらのクラスの出

来具合が良いでしょう

か?

5 6 7 5 6 7 2 3 4 人 数 2 3 4 人 数 0 1 2 11 20 21 30 31 40 41 50 51 60 61 70 71 80 81 90 0 1 2 11 20 21 30 31 40 41 50 51 60 61 70 71 80 81 90 11‐20 21‐30 31‐40 41‐50 51‐60 61‐70 71‐80 81‐90 得点範囲 クラスA クラスB 11‐20 21‐30 31‐40 41‐50 51‐60 61‐70 71‐80 81‐90 得点範囲 クラスA クラスB 38

度数分布とヒストグラム

2つのクラスを比べたとき

では,どちらのクラスの出

区間

クラスA

クラスB

11‐20

0.03

0.06

では,どちらのクラスの出

来具合が良いでしょう

か?

11 20

0.03

0.06

21‐30

0.10

0.11

31‐40

0.21

0.22

41‐50

0.24

0.22

51‐60

0.17

0.17

61‐70

0.14

0.11

71‐80

0.07

0.06

81‐90

0.03

0.06

合計

1.00

1.00

39

度数分布とヒストグラム

2つのクラスを比べたと

きでは,どちらのクラス

クラスAとBと得点分布 6% 6% 6% クラスAとBと得点分布 6% 6% 6%

きでは,どちらのクラス

の出来具合が良いで

しょうか?

6% 11% 11% 6% 11% 11% 3% 3% 7% 14% 17% 21% 10% 21% 3% 3% 7% 14% 17% 21% 10% 21% 17% 25% 17% 21% 17% 25% 17% 21% 22% 22% 40 11‐20 21‐30 31‐40 41‐50 51‐60 61‐70 71‐80 81‐90 11‐20 21‐30 31‐40 41‐50 51‐60 61‐70 71‐80 81‐90

(11)

度数分布とヒストグラム

14000 16000

ある銀行のある月にかかってきた電話31,492件

の通話時間の度数分布を作成し,ヒストグラムを

描 た結果

10000 12000 14000

描いた結果

6000 8000 10000 2000 4000 0 100 200 300 400 500 600 700 800 900 1000 1100 1200 <12300 41

度数分布とヒストグラム

3000

ある銀行のある月にかかってきた電話31,492件

の通話時間の度数分布を作成し,ヒストグラムを

全通話のうち7 6%が10秒以内

2000 2500

の通話時間の度数分布を作成し,

トグラ を

描いた結果

全通話のうち7.6%が10秒以内

で終わっている

1500 500 1000 0 10 110 210 310 410 510 610 710 810 910 1010 1110 <1210 42

まとめ

データからの情報抽出:

†

データの要約

†

データの要約

„ 度数分布表,ヒストグラム

を表す特性値

†

分布の中心を表す特性値

„ 代表値:平均,最頻値,中央値

†

分布のばらつきを表す特性値

„ 散布度:分散 標準偏差

„ 散布度:分散,標準偏差

参照

関連したドキュメント

Drape Coefficient D and the Ratio K of Bending Rigidity in the Warp and Weft Directions of Samples Shown

The effect of mechanical parameters such as B bending rigidity, G shearing rigidity, 2HG shearing hysteresis, and W weight per unit area on the parameters of drape shape, projected

Bでは両者はだいたい似ているが、Aではだいぶ違っているのが分かるだろう。写真の度数分布と考え

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

ERROR  -00002 認証失敗または 圏外   クラウドへの接続設定及びア ンテ ナ 接続を確認して ください。. ERROR  -00044 回線未登録または

彩度(P.100) 色の鮮やかさを 0 から 14 程度までの数値で表したもの。色味の

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

 千葉 春希 家賃分布の要因についての分析  冨田 祥吾 家賃分布の要因についての分析  村田 瑞希 家賃相場と生活環境の関係性  安部 俊貴