度数分布表5:ヒストグラムの作成
ヒストグラム:
グラフの分布の形を見るために,度数分布表をグ
グラフの分布の形を見るために,度数分布表をグ
ラフにしたもの
度数分布表を作成して,ヒストグラムを描くことに
よってデータの分布を知ることが出来る
よってデ タの分布を知ることが出来る.
↓
デ タ解析のはじめの
歩
データ解析のはじめの一歩!!
13
度数分布表6:度数分布表の読み方
区間(以上-未満) 度数 相対度数 累積度数 累積相対度数
- 100 2 0.03 2 0.03
100 - 200 5 0.08 7 0.12
200 - 300 18 0.31 25 0.42
データ区間:
300以上400未満
階級値:
200 300 18 0.31 25 0.42
300 - 400 13 0.22 38 0.64
400 - 500 4 0.07 42 0.71
500 - 600 6 0.10 48 0.81
600 - 700 3 0.05 51 0.86
階級値:
350=(300+400)/2
度数:
データ区間に13人
600 700 3 0.05 51 0.86
700 - 800 4 0.07 55 0.93
800 - 900 3 0.05 58 0.98
900 - 1 0.02 59 1.00
デ タ区間に13人
相対度数:
9人は全体の22%
累積度数:
累積度数:
最初から数えてこの
データ区間までに38人
累積相対度数:
累積相対度数
最初から数えてこの
データ区間までの人数は
全体の64%
14
度数分布表7:
ヒストグラムの作成
区間(以上-未満)
頻度
度数分布表
ヒストグラム
区間(以上 未満)
頻度
- 100
2
100 - 200
5
200 - 300
18
14
16
18
20
300 - 400
13
400 - 500
4
500 - 600
6
600 700
3
8
10
12
14
600 - 700
3
700 - 800
4
800 - 900
3
900 -
1
0
2
4
6
0
-100
100
-200
200
-300
300
-400
400
-500
500
-600
600
-700
700
-800
800
-900
900 -
15
例題:得点データ
学籍番号 得点 性別
I05V001 67 女子
I05V002 56 男子
I05V003 44 男子
I05V004 51 男子
学籍番号 得点 性別
I05V026 64 女子
I05V027 49 男子
I05V028 56 男子
I05V029 77 男子
学籍番号 得点 性別
I05V061 54 女子
I05V062 31 男子
I05V063 51 女子
I05V064 59 女子
I05V004 51 男子
I05V005 42 男子
I05V006 41 男子
I05V007 62 女子
I05V008 48 女子
I05V009 50 男子
I05V029 77 男子
I05V030 61 女子
I05V031 54 男子
I05V032 57 男子
I05V033 62 女子
I05V034 65 女子
I05V064 59 女子
I05V065 58 女子
I05V066 57 男子
I05V067 51 女子
I05V068 71 女子
I05V069 60 男子
I05V009 50 男子
I05V010 40 女子
I05V011 49 女子
I05V012 61 男子
I05V013 79 女子
I05V014 60 女子
I05V034 65 女子
I05V035 55 男子
I05V036 55 男子
I05V037 42 女子
I05V038 51 男子
I05V039 47 男子
I05V069 60 男子
I05V070 62 女子
I05V071 58 男子
I05V072 42 男子
I05V073 58 女子
I05V074 52 男子
I05V015 46 男子
I05V016 66 女子
I05V017 68 女子
I05V018 68 女子
I05V019 72 女子
0 0 0 女子
I05V040 48 男子
I05V041 52 女子
I05V042 60 男子
I05V043 64 男子
I05V044 45 男子
I05V045 40 男子
I05V020 48 女子
I05V021 62 女子
I05V022 48 男子
I05V023 57 男子
I05V024 42 男子
I05V025 40 男子
I05V045 40 男子
I05V046 60 女子
I05V047 62 女子
I05V048 36 男子
I05V049 60 女子
I05V050 39 男子
16
I05V025 40 男子 I05V050 39 男子
例題:度数分布表
区間
度数 相対頻度
31~40
5
0.12
度数分布表(男子)
区間
度数 相対頻度
31~40
6
0.08
度数分布表(全体)
31
41~50
40
17
5
0.12
0.41
51~60
15
0.37
61~70
3
0 07
31
40
6
0.08
41~50
23
0.31
51~60
26
0.35
61~70
15
0 20
61~70
3
0.07
71~80
1
0.02
度数分布表(女子)
61~70
15
0.20
71~80
4
0.05
31~40
区間
度数 相対頻度
1
0.03
41~50
6
0.18
51~60
11
0.33
61~70
12
0.36
71~80
3
0 09
17
71
80
3
0.09
例題:ヒストグラム
ヒストグラム:男子
12
14
16
18
データのまとめ方によって,異なる解釈ができ
る場合がある.
ヒストグラム:全体
25
30
2
4
6
8
10
10
15
20
0
31~40 41~50 51~60 61~70 71~80
ヒストグラム:女子
14
0
5
10
31~40 41~50 51~60 61~70 71~80 6
8
10
12
14
31 40 41 50 51 60 61 70 71 80
0
2
4
6
31~40 41~50 51~60 61~70 71~80
18
31 40 41 50 51 60 6170 7180
分布の特性値
度数分布やヒストグラムを見ることで分布の形
状を知るができる.
状を知るができる.
数値で分布の概要を把握するための指標として,
代表値
デ タの中心の位置
代表値
:データの中心の位置
散布度
:データの散らばり具合
がある.
2つの指標を総称して「
分布の特性値
」という
2つの指標を総称して「
分布の特性値
」という.
分布の特性値:代表値
データの分布がどのような値を中心に散らばっ
ているか明らかにする.
平均
:
データのすべての値を足し合わせて,データ数で
デ タのす
ての値を足し合わせて,デ タ数で
割ったもの
最頻値
:
分布の最も高い場所
中央値(メジアン)
:
中央値(メジアン)
:
データの中央にくる値のこと
分布の特性値:代表値
中央値
3
d
ens
it
y 2
1
最頻値
平均値
x
最頻値
0.0 0.2 0.4 0.6 0.8 1.0
0
21
日本全国の平均世帯収入は?
日本全国の平均世帯収入は?
渡辺久哲「調査データにだまされない法」創元社より
総務庁の統計局の家計調査によると,平成8年度
の全国平均の
世帯年収は743万円
であった
の全国平均の
世帯年収は743万円
であった.
全国の一般世帯およそ8000標本について収入と支
出についての調査
出についての調査
この743万円という世帯年収を聞いての感想は
この743万円という世帯年収を聞いての感想は,
「
ふつうの家はそんなに稼いでいるのか!!
」
例えば ボ ナ を年間
月分支給すると仮定そ
例えば,ボーナスを年間3ヶ月分支給すると仮定そ
れば,
1ヶ月の収入は約50万円
となる.
22
日本全国の平均世帯収入は?
日本全国の平均世帯収入は?
80
90
平均年収が743万円となった理由
1000万円以上稼ぐ高所得者が
50
60
70
その平均を引き上げていたため
1000万円以上稼ぐ高所得者が
30
40
50
0
10
20
単位:万円
0
-200 200
-300
300
-400
400
-500
500
-600
600
-700
700
-800
800
-900
900
-1000
1000 -
23
単位:万円
分布の特性値:散布度
分布の特性値:散布度
散布度:分散(標準偏差)
次の2つのデータの平均を考える.
平均値は同じである
平均値は同じである
データのもつ意味が全く違う
デ タを
約する値と
十分
データを要約する値としては不十分?
データの散らばりを表す量も表示する
24
分布の特性値:散布度
分布の特性値:散布度
例)散布度:分散(標準偏差)
3クラスで,統計学の試験をし,各クラスで30人ずつ選び
平均点を計算すると50点であった.このデータから,ヒスト
グラムを作成したところ以下のような結果であ た この
グラムを作成したところ以下のような結果であった.この
平均点だけで,データを解釈しても良いか.
クラスAのヒストグラム
7
8
クラスBのヒストグラム
7
8
クラスCのヒストグラム
3 5
4
4.5
2
3
4
5
6
2
3
4
5
6
1.5
2
2.5
3
3.5
0
1
2
11 ‐
20
21 ‐
30
31 ‐
40
41 ‐
50
51 ‐
60
61 ‐
70
71 ‐
80
81 ‐
90
0
1
2
11 ‐
20
21 ‐
30
31 ‐
40
41 ‐
50
51 ‐
60
61 ‐
70
71 ‐
80
81 ‐
90
0
0.5
1
11 ‐
20
21 ‐
30
31 ‐
40
41 ‐
50
51 ‐
60
61 ‐
70
71 ‐
80
81 ‐
90
25
データの散らばりを表す量
デ タの散らばりを表す量
散布度:分散(標準偏差)
分散
:
データの散らばりを表現する量
デ タの散らばりを表現する量
データの散らばり具合が大きいほど,分散の値
は大きくなる.
3つのクラスの分散の大きさは,
クラスA<クラスB<クラスC
クラスA<クラスB<クラスC
標準偏差
:分散を平方根したもの
26
データの散らばりを表す量
デ タの散らばりを表す量
散布度:分散(標準偏差)
0.
4
分布1
0.
3
分布1
分布1の平均 = 分布2の平均
分布1の分散 < 分布2の分散
de
n
s
it
y
0.
2
分布1の分散 < 分布2の分散
0.
1
分布2
x
-4 -2 0 2 4
0.
0
平均,分散の計算式
1
2
( ,
,...,
n
)
n
個の観測データ
x
=
x x
x
が得られたする.
とき
観測デ タから標本平均と標本分散
このとき,この観測データから標本平均と標本分散
は以下の式で計算される.
1
n
i
x
=
∑
x
算
標本平均
1
2
1
2
1
2
2
i
i
n
n
n
∑
=
∑
∑
標本平均
2
2
2
2
1
1
1
1
(
i
)
i
i
i
s
x
x
x
x
n
=
n
=
=
∑
−
=
∑
−
標本分散
平均値の意味1
90
100
90
100
90
100
以下の10人の学生の得点を表した図
60
70
80
平均点
60
70
80
平均点
60
70
80
平均点
得点と平均点との距離
番号 得点
1 80
2 60
40
50
60
点
数
平均点
40
50
60
点
数
平均点
40
50
60
点
数
平均点
3 20
4 50
5 100
6 40
7 70
10
20
30
10
20
30
10
20
30
8 30
9 75
10 60
0
0 1 2 3 4 5 6 7 8 9 10
番号
0
0 1 2 3 4 5 6 7 8 9 10
番号
0
0 1 2 3 4 5 6 7 8 9 10
番号
29
平均値の意味2
1
10
2
10
( ,...,
)
(
)
(
1,...,10)
i
i
x
x
x
d
x
i
α
α
=
=
−
=
人の得点を
と書く.このとき,ある値
と得点の距離を
2
2
10
10
10
10
10
(
)
(
, ,
)
1
1
1
i
i
y
⎛
⎞
⎛
⎞
⎜
⎛
⎞
⎟
で定義すると,その距離の総和 は
10
10
10
10
10
2
2
1
1
1
1
1
1
1
1
(
)
10
10
10
10
10
i
i
i
i
i
i
i
i
i
i
y
d
x
α
α
x
x
x
=
=
=
=
=
⎛
⎞
⎛
⎞
⎜
⎛
⎞
⎟
=
=
−
=
⎜
⎜
−
⎟
⎟
+
⎜
−
⎜
⎜
⎟
⎟
⎟
⎝
⎠
⎝
⎝
⎠
⎠
∑ ∑
∑
∑
∑
10
1
i
y
x
x
α
=
∑
=
このとき, の最小値は,
この項が0のとき,
yは最小になる
x の標本分散
1
10
i
x
i
x
α
=
=
∑
=
であるので,平均値は観測値との距離を最小にする値となる.
30
例題1:平均値の意味
次の度数分布表とヒストグラムはあるテスト結果をまとめた
ものである.わかることを述べなさい.
区間
度数
0 - 10
1
度数分布表
40
45
ヒストグラム
11 - 20
12
21 - 30
28
31 - 40
26
25
30
35
41 - 50
14
51 - 60
5
61 - 70
21
10
5
15
20
71 - 80
42
81 - 90
24
91 - 100
7
0
5
0
-10
11
-20
21
-30
31
-40
41
-50
51
-60
61
-70
71
-80
81
-90
91
-100
31
9
00
7
例題2:基本統計量
以下のデータは,10日間にわたる2つのストアの1日
の売り上げ高(単位:万円)である.どちらのお店がよ
り安定しているか答えなさい.
日
1
2
3
4
5
6
7
8
9
10
平野ストア
50
55
60
65
70
55
60
60
60
60
松原マート
30
90
50
70
35
85
30
60
80
75
松
32
例題2:折れ線グラフ
90
100
平野ストア
松原マート
60
70
80
30
40
50
60
10
20
30
平均
分散
標準偏差
平野ストア
59.5
30.28
5.50
松原マート
60.5
530.28
23.03
0
1
2
3
4
5
6
7
8
9
10 (日)
33
例題3:基本統計量
以下のデータは,同じ科目を講義中心と演習中心と
いう2つの異なる講義方法でおこない,クラスA(講義
中心)とクラス (実習中心)からそれぞれ
名を選び
中心)とクラスB(実習中心)からそれぞれ20名を選び,
試験をおこなった結果である.2つのクラスを比較しな
さい
さい.
No
1
2
3
4
5
6
7
8
9
10
講義中心A
66
55 48 30 52 61 56 75 50 35
講義中心A
66
55 48 30 52 61 56 75 50 35
実習中心B
40
23 72 55 33 77 32 15 51 29
No
11
12 13 14 15 16 17 18 19 20
No
11
12 13 14 15 16 17 18 19 20
講義中心A
50
52 50 47 57 47 56 51 40 30
実習中心B
39
50 38 42 85 68 45 98 64 36
34
例題3:基本統計量
平均
分散
標準偏差
講義中心A
50 4
121 09
11 0
基本統計量
講義中心A
50.4
121.09
11.0
実習中心B
49.6
470.67
21.7
区間
A
B
度数分布表
0 - 20
0
1
21 - 30
2
2
31 - 40
2
6
41 - 50
6
3
51 - 60
7
2
61 - 70
2
2
71 - 80
1
2
81 - 90
0
1
91 - 100
0
1
例題3:基本統計量
8
A
5
6
7 A
B
3
4
5
1
2
3
0
0 - 20 21 - 30 31 - 40 41 - 50 51 - 60 61 - 70 71 - 80 81 - 90 91 - 100
度数分布とヒストグラム
区間
クラスA
クラスB
11‐20
1
1
左表は2つのクラス(A, B)
で100点満点の試験結果
11 20
1
1
21‐30
3
2
31‐40
6
4
で 00点満点の試験結果
を10点刻みの区間に分け,
その区間内に入る人数を
数 たも
ある
41‐50
7
4
51‐60
5
3
数えたものである.
61‐70
4
2
71‐80
2
1
81‐90
1
1
合計
29
18
37
度数分布とヒストグラム
2つのクラスを比べたとき
では,どちらのクラスの出
クラスAとBの得点分布
8
クラスAとBの得点分布
8
では,どちらのクラスの出
来具合が良いでしょう
か?
5
6
7
5
6
7
2
3
4
人
数
2
3
4
人
数
0
1
2
11 20 21 30 31 40 41 50 51 60 61 70 71 80 81 90
0
1
2
11 20 21 30 31 40 41 50 51 60 61 70 71 80 81 90
11‐20 21‐30 31‐40 41‐50 51‐60 61‐70 71‐80 81‐90
得点範囲
クラスA クラスB
11‐20 21‐30 31‐40 41‐50 51‐60 61‐70 71‐80 81‐90
得点範囲
クラスA クラスB
38
度数分布とヒストグラム
2つのクラスを比べたとき
では,どちらのクラスの出
区間
クラスA
クラスB
11‐20
0.03
0.06
では,どちらのクラスの出
来具合が良いでしょう
か?
11 20
0.03
0.06
21‐30
0.10
0.11
31‐40
0.21
0.22
41‐50
0.24
0.22
51‐60
0.17
0.17
61‐70
0.14
0.11
71‐80
0.07
0.06
81‐90
0.03
0.06
合計
1.00
1.00
39
度数分布とヒストグラム
2つのクラスを比べたと
きでは,どちらのクラス
クラスAとBと得点分布
6%
6%
6%
クラスAとBと得点分布
6%
6%
6%
きでは,どちらのクラス
の出来具合が良いで
しょうか?
6%
11%
11%
6%
11%
11%
3%
3%
7%
14%
17%
21%
10%
21%
3%
3%
7%
14%
17%
21%
10%
21%
17%
25%
17%
21%
17%
25%
17%
21%
22%
22%
40
11‐20 21‐30 31‐40 41‐50 51‐60
61‐70 71‐80 81‐90
11‐20 21‐30 31‐40 41‐50 51‐60
61‐70 71‐80 81‐90
度数分布とヒストグラム
14000
16000
ある銀行のある月にかかってきた電話31,492件
の通話時間の度数分布を作成し,ヒストグラムを
描 た結果
10000
12000
14000
描いた結果
6000
8000
10000
2000
4000
0
100 200 300 400 500 600 700 800 900 1000 1100 1200 <12300
41
度数分布とヒストグラム
3000
ある銀行のある月にかかってきた電話31,492件
の通話時間の度数分布を作成し,ヒストグラムを
全通話のうち7 6%が10秒以内
2000
2500
の通話時間の度数分布を作成し,
トグラ を
描いた結果
全通話のうち7.6%が10秒以内
で終わっている
1500
500
1000
0
10 110 210 310 410 510 610 710 810 910 1010 1110 <1210
42
まとめ
データからの情報抽出:
データの要約
データの要約
度数分布表,ヒストグラム
布
を表す特性値
分布の中心を表す特性値
代表値:平均,最頻値,中央値
分布のばらつきを表す特性値
散布度:分散 標準偏差
散布度:分散,標準偏差