統計学
データの種類
データのグラフ化
中心を表す特性値
統計の種類
• 記述統計
母集団(調査対象の集団)をすべて調査
でき、その調査結果に基づき、データをま
とめる統計
• 推測統計
母集団(調査対象の集団)をすべて調査
できないが、一部のデータから母集団の
状況を推測する統計
外れ値
• データの中には、他の観測値に比べ
て著しく離れた値が含まれている場合
があります(入力ミスではなく)。このよ
うな値のことを
外れ値
といいます。
• 外れ値は測定の誤り、測定対象の異
常、記録時のミスなどによって起こり、
データ解析の結果に影響を与える場
合もあります。
欠損値
• またデータの中には、観測対象により
一部のデータが取れない場合があり
ます。このような値のことを
欠損値
と
いいます。
• 欠損値は単純に除いて分析を行うこ
ともありますが、推測統計においては
単純に除くことは注意が必要です。
統計データ
がくの
長さ
がくの
幅
花弁の
長さ
花弁の
幅
がくの
長さ
がくの
幅
花弁の
長さ
花弁の
幅
がくの
長さ
がくの
幅
花弁の
長さ
花弁の
幅
5 .1 3 .5 1 .4 0.2 7 .0 3 .2 4.7 1 .4 6 .3 3.3 6 .0 2 .5
4 .9 3 .0 1 .4 0.2 6 .4 3 .2 4.5 1 .5 5 .8 2.7 5 .1 1 .9
4 .7 3 .2 1 .3 0.2 - 3 .1 4.9 1 .5 7 .1 3.0 5 .9 2 .1
4 .6 3 .1 1 .5 0.2 5 .5 2 .3 4.0 1 .3 6 .3 2.9 5 .6 1 .8
5 .0 3 .6 1 .4 0.2 6 .5 2 .8 4.6 1 .5 6 .5 3.0 5 .8 2 .2
5 .4 3 .9 1 .7 0.4 5 .7 2 .8 4.5 1 .3 7 .6 3.0 6 .6 2 .1
4 .6 3 .4 1 .4 0.3 6 .3 3 .3 4.7 1 .6 4 .9 2.5 4 .5 1 .7
5 .0 3 .4 1 .5 0.2 4 .9 2 .4 3.3 1 .0 7 .3 2.9 6 .3 1 .8
4 .4 2 .9 1 .4 0.2 6 .6 2 .9 4.6 1 .3 6 .7 2.5 5 .8 1 .8
4 .9 3 .1 1 .5 0.1 5 .2 2 .7 3.9 1 .4 7 .2 3.6 6 .1 2 .5
5 .4 3 .7 1 .5 0.2 5 .0 2 .0 3.5 - 6 .5 3.2 5 .1 2 .0
4 .8 3 .4 1 .6 0.2 5 .9 3 .0 4.2 1 .5 6 .4 2.7 5 .3 1 .9
4 .8 3 .0 - 0.1 6 .0 2 .2 4.0 1 .0 6 .8 3.0 5 .5 2 .1
4 .3 3 .0 1 .1 0.1 6 .1 2 .9 4.7 1 .4 5 .7 2.5 5 .0 2 .0
5 .8 4 .0 1 .2 0.2 5 .6 2 .9 1.2 1 .3 5 .8 2.8 5 .1 2 .4
5 .7 4 .4 1 .5 0.4 6 .7 3 .1 4.4 1 .4 6 .4 3.2 5 .3 2 .3
5 .4 3 .9 1 .3 0.4 5 .6 3 .0 4.5 1 .5 6 .5 3.0 5 .5 1 .8
イリス・ セトーサ( A群) イリス・ ヴェルシコロール(B 群) イリス・ ヴィルジニカ( C群)
標本(データ)の種類
質的データ
量的データ
名義尺度
順序尺度
間隔尺度
比 尺度
質的データ
量的データ
名義尺度・・・度数分布表、最頻値
順序尺度・・・度数分布表、最頻値、中央値
間隔尺度
比 尺度
・・・度数分布表、最頻値、
中央値、平均、
標準偏差、分散 など
データの種類によって、使える集計法は異なります。
2つの変数間の関係
質的データ
量的データ
・・・クロス集計(棒グラフ)
・・・相関係数、散布図(棒グラフ)
データのグラフ化
棒グラフ
(名義尺度)
新車販売台数
(平成25年7月)
M/標準
S/標準
H/標準
H/標準
H/標準
H/標準
H/標準
H/標準
H/標準
新車販売台数
(平成25年7月)
0
20,000
40,000
60,000
80,000
100,000
120,000
140,000
160,000
新車販売台
数
メーカー
昇順や降順に並び替えると、グラフは見やすくなる。
25.8%
25.4%
23.6%
20.1%
17.3%
28.4%
7.4%
14.9%
25.8%
11.2%
男性(262人)
女性(100人)
学食でよく食べる昼食
ラーメン系
カレーライス
うどん・そば
パスタ系
洋食系
ラーメン系は女性・男性で同人数くらいの人が食べている
うどん・そばは男性よりも女性の方が多くの人が食べている
男性の2倍の女性がパスタ系を食べている
70
34
64
27
47
38
20
20
70
15
男性(262人)
女性(100人)
学食でよく食べる昼食
ラーメン系
カレーライス
うどん・そば
パスタ系
洋食系
ラーメン系は女性・男性で同人数くらいの人が食べている
うどん・そばは男性よりも女性の方が多くの人が食べている
男性の2倍の女性がパスタ系を食べている
幹葉図
51.5, 51.5, 51.6, 51.7, 51.9
という5個のデータをまとめた。
この数字を棒状に塗りつぶした
ものが
ヒストグラム
である。
ヒストグラム(1)
ヒストグラム(2)
区間幅によって、データ傾向
の印象が異なることが分か
る。
ヒストグラム(3)
スタージェスの式
このデータではスタージェス
の式に依る区間幅は7.7mm
である。
ヒストグラム=棒グラフ?
縦軸・横軸に何を割り当てても良い
度数を割り当てる
階級を割り当てる
棒の高さで互いの量を比較する
データの分布を知る
箱ひげ図
後述するデータの縮約値を用いた図である。
数種類のデータをグラフ化
散布図、相関図
バブルチャート
レーダーチャート
星座グラフ
(4次元データ)
iris data
-1 0 1
01
(http://aoki2.si.gunma‐u.ac.jp/R/Constellation.html参照)
顔グラフ
(18次元データ)
(http://aoki2.si.gunma‐u.ac.jp/R/face.html参照)
まとめ
• データを視覚的に分かり易くするものとして
統
計グラフ
がある。
• データの種類によって、使用するグラフを選
ぶ必要がある。
• グラフの描き方により、データ傾向の印象が
異なる場合もあるため、注意しながら使用す
る必要がある。
中心を表す特性値
(記述統計)
母集団分布
母集団に含まれている調査対象の興味ある値を
観測してデータを得ますが、それらの分布状況を
母集団分布
といいます。
母集団全体を調査し、表やグラフにまとめると母集
団分布の特徴が視覚的に分かりやすくなります。
この母集団分布を知ることが統計を使う目的です。
60人の新生児体重
ある医院で1ヶ月間に生まれた新生児の体重を調査した(g)。
3470 2550 2920 2530 3280 2840 2520 3350 3610 3430
3020 3320 2790 3050 3620 3260 3320 3800 2640 3360
3320 4100 2720 4050 3850 3380 3040 2710 4150 3200
4120 2780 3220 2780 2490 2950 2580 2020 3010 2010
2800 3760 4480 2990 3700 2960 2320 3060 3200 3380
3100 2840 2990 3100 3530 3270 2600 3640 3300 4570
データ区間 頻度 累積 %
-2000 0 0.00%
2001-2250 2 3.33%
2251-2500 2 6.67%
2501-2750 8 20.00%
2751-3000 11 38.33%
3001-3250 10 55.00%
3251-3500 13 76.67%
3501-3750 5 85.00%
3751-4000 3 90.00%
4001-4250 4 96.67%
4251-4500 1 98.33%
4501-4750 1 100.00%
4751- 0 100.00%
0
2
4
6
8
10
12
14
母
数
• 母集団分布の特徴を表す特性値のことを一
般には
母数
と呼びます。
• この中には数種類の特性値があり、代表的
なものは中心的傾向を表すものと散らばり傾
向を表すものです。
• 授業では扱いませんが、“対称性”や“とがり
具合”を表す特性値も存在します。(教科書32
~34ページ)
60人の新生児体重
ある医院で1ヶ月間に生まれた新生児の体重を調査した(g)。
3470 2550 2920 2530 3280 2840 2520 3350 3610 3430
3020 3320 2790 3050 3620 3260 3320 3800 2640 3360
3320 4100 2720 4050 3850 3380 3040 2710 4150 3200
4120 2780 3220 2780 2490 2950 2580 2020 3010 2010
2800 3760 4480 2990 3700 2960 2320 3060 3200 3380
3100 2840 2990 3100 3530 3270 2600 3640 3300 4570
データ区間 頻度 累積 %
-2000 0 0.00%
2001-2250 2 3.33%
2251-2500 2 6.67%
2501-2750 8 20.00%
2751-3000 11 38.33%
3001-3250 10 55.00%
3251-3500 13 76.67%
3501-3750 5 85.00%
3751-4000 3 90.00%
4001-4250 4 96.67%
4251-4500 1 98.33%
4501-4750 1 100.00%
4751- 0 100.00%
0
2
4
6
8
10
12
14 平均は3179.2gになる。
中心的傾向を表す特性値
いま、母集団からデータ
が得られていると
する。
• 平均(算術平均)
世の中で最もよく使われている特性値である。
60人の新生児体重
ある医院で1ヶ月間に生まれた新生児の体重を調査した(g)。
3470 2550 2920 2530 3280 2840 2520 3350 3610 3430
3020 3320 2790 3050 3620 3260 3320 3800 2640 3360
3320 4100 2720 4050 3850 3380 3040 2710 4150 3200
4120 2780 3220 2780 2490 2950 2580 2020 3010 2010
2800 3760 4480 2990 3700 2960 2320 3060 3200 3380
3100 2840 2990 3100 3530 3270 2600 3640 3300 4570
60人の新生児体重
(単位変換)
ある医院で1ヶ月間に生まれた新生児の体重を調査した(g)。
3470 2550 2920 2530 3280 2840 2520 3350 3610 3430
3020 3320 2790 3050 3620 3260 3320 3800 2640 3360
3320 4100 2720 4050 3850 3380 3040 2710 4150 3200
4120 2780 3220 2780 2490 2950 2580 2020 3010 2010
2800 3760 4480 2990 3700 2960 2320 3060 3200 3380
3100 2840 2990 3100 3530 3270 2600 3640 3300 4570
470 -450 -80 -470 280 -160 -480 350 610 430
20 320 -210 50 620 260 320 800 -360 360
320 1100 -280 1050 850 380 40 -290 1150 200
1120 -220 220 -220 -510 -50 -420 -980 10 -990
-200 760 1480 -10 700 -40 -680 60 200 380
100 -160 -10 100 530 270 -400 640 300 1570
変換後の平均
を定数として全データを
と変換したとき、これらの平均は
もとの平均を 倍して を加えればよい。
0
50
100
150
200
250
300
0‐10 11‐20 21‐30 31‐40 41‐50 51‐60 61‐70 71‐80 81‐90 91‐100
頻度
データ区間
英語の得点分布
平均の短所
平均は60点ですが、分布状況は二峰です。このようなデータに対する平均は
データの中心を表しているとは言い難く、多峰性のあるデータに平均を使用
するのは注意が必要です。
表にまとめられた平均(p.25)
少年:1, 1,…, 1 (171人)、2,2,…,2 (81人)、3,3,…,3 (46人)
4,4,…,4 (37人)、5,5,…,5 (25人)という360個のデータの平均であるので
中心的傾向を表す特性値
• 中央値(メディアン)
データを大きさの順に並べ、中央に位置するデータの値。
データ数が偶数個の場合は、中央に位置する二つのデータ
の平均とする。
データが平均を中心として左右対称でないとき、有効であ
る。
60人の新生児体重
ある医院で1ヶ月間に生まれた新生児の体重を調査した(g)。
3470 2550 2920 2530 3280 2840 2520 3350 3610 3430
3020 3320 2790 3050 3620 3260 3320 3800 2640 3360
3320 4100 2720 4050 3850 3380 3040 2710 4150 3200
4120 2780 3220 2780 2490 2950 2580 2020 3010 2010
2800 3760 4480 2990 3700 2960 2320 3060 3200 3380
3100 2840 2990 3100 3530 3270 2600 3640 3300 4570
平均:
中央値:データを大きさの順に並べると
2010 < 2020 < ・・・ < 3100 < 3200 < ・・・ < 4480 < 4570
であるので、中央値は
30番目 31番目
1番目 60番目
平成26年年収データ
平均:413.3万円(月額約25万円)
平均
中央値:302.9万円(月額約18.4万円)
中央値
階級 代表値 パーセント 月額
100万円以下 50 8.78 ¥30,304
100万円台 150 15.17 ¥90,910
200万円台 250 16.88 ¥151,516
300万円台 350 17.33 ¥212,122
400万円台 450 13.95 ¥272,728
500万円台 550 9.47 ¥333,334
600万円台 650 5.90 ¥393,940
700万円台 750 3.99 ¥454,546
800万円台 850 2.63 ¥515,152
900万円台 950 1.73 ¥575,758
1000~1500万円台 1250 3.12 ¥757,576
1500~2000万円台 1750 0.64 ¥1,060,607
2000~2500万円台 2150 0.20 ¥1,303,031
2500万円超 3000 0.23 ¥1,818,182
0
2
4
6
8
10
12
14
16
18
20
120km/h
調和平均
平均の速さや並列に接続された全抵抗のなど
120km 120km
40km/h
3h 1h
平均の速さ:(120km+120km)÷(3h+1h)=60km/h
平均の速さ:
平均の速さ:(40km/h+120km/h)÷2=80km/h ×
相乗平均
売上高 売上高の伸び率
1月 ¥180,000
2月 ¥270,000 50.0% 150.0%
3月 ¥370,000 37.0% 137.0%
4月 ¥380,000 2.7% 102.7%
算術平均 29.9%
相乗平均 128.3%
売上高 売上高の伸び率
1月 ¥180,000
2月 ¥233,820 29.9%
3月 ¥303,732 29.9%
4月 ¥394,548 29.9%
29.9%ずつ売上高がのびた場合
売上高 売上高の伸び率
1月 ¥180,000
2月 ¥230,940 28.3%
3月 ¥296,296 28.3%
4月 ¥380,148 28.3%
28.3%ずつ売上高がのびた場合
このような前月比の割合の平均には、相乗平均が有効です。
• 最頻値(モード)
データの中でもっとも頻繁に出現しているデータの値。
• α%トリム平均
データを大きさの順に並べ、大きい方からと小さい方から
[α÷100×(データ数)÷2]個のデータを除いて
残ったデータの平均値。
最頻値・トリム平均
ある医院で1ヶ月間に生まれた新生児の体重を調査した(g)。
3470 2550 2920 2530 3280 2840 2520 3350 3610 3430
3020 3320 2790 3050 3620 3260 3320 3800 2640 3360
3320 4100 2720 4050 3850 3380 3040 2710 4150 3200
4120 2780 3220 2780 2490 2950 2580 2020 3010 2010
2800 3760 4480 2990 3700 2960 2320 3060 3200 3380
3100 2840 2990 3100 3530 3270 2600 3640 3300 4570
最頻値:3320gは3人いて一番多く出現しているので、これが最頻値。
10%トリムド平均: [10÷100×60÷2]個=3個、
つまりデータを大きさの順に並べ、大きい方と小さい方から3個ずつデータを
除いた54(=60-6)個のデータの平均値。
2010<2020<2320<2490<・・・<3100<3200<・・・<4120<4150<4480<4570
30番目31番目
1番目 3番目 58番目 60番目
60人の新生児体重
ある医院で1ヶ月間に生まれた新生児の体重を調査した(g)。
いま、あるデータが2個変わりました。それに伴い
平均
: 3179.2g →3154.5g
中央値
: 3150g → 3150g
最頻値
: 3320g → 3320g
10%トリム平均 : 3170.4g → 3170.4g
と変化しました。
3470 2550 2920 2530 3280 2840 2520 3350 3610 3430
3020 3320 2790 3050 3620 3260 3320 3800 2640 3360
3320 4100 2720 4050 3850 3380 3040 2710 4150 3200
4120 2780 3220 2780 2490 2950 2580 1500 3010 1050
2800 3760 4480 2990 3700 2960 2320 3060 3200 3380
3100 2840 2990 3100 3530 3270 2600 3640 3300 4570
中心的傾向を表す特性値
• 平均は極端に大きい値のデータや極端に小さい
値のデータに影響を受けやすいが、中央値・トリ
ム平均値はこれらの影響を受けにくい。
• 母集団分布が平均を中心として左右対称である
場合、これら平均・中央値・トリム平均値は同じく
らいの値を示す。
• 母集団分布が平均を中心として左右対称でない
場合、平均は中央値・トリム平均値に比べ少し
大きめまたは小さめの値になる。
演
習
Aさん所属している総務課の人たちの通勤時間
を調べたところ次のようであった。総務課の通
勤時間の平均・中央値・トリム平均(大きい2つ
のデータと小さい2つのデータを除いた6個平
均)を求めよ。
10, 65, 45, 95, 80, 120, 40, 30, 85, 80
(分)