担当:鹿野(大阪府立大学)
2014 年度前期
はじめに
前回の復習
統計学とは何か?
データの基礎・数学の復習。
今回学ぶこと
図表による記述統計。
統計量(数値)による記述統計。
テキスト該当箇所:2章。
1 図表による記述統計
1.1
記述統計の必要性
例:ある高校の、英語の期末試験の成績。サンプル数n = 15の一次元データ。 番号 成績 番号 成績
1 65 11 38
2 82 12 73
3 77 13 79
4 25 14 50
5 64 15 48
6 54
7 57
8 94
9 31
10 70
Remark:データ自体は単なる数字の羅列。特徴・パターンが見えてこない。
⊲ ∴記述統計でデータを見やすく整理・要約。データ分析の出発点。
⊲ でまとめる⇒度数分布表、ヒストグラム。
⊲ でまとめる⇒平均や分散・標準偏差。 1
1.2
度数分布
度数分布表:データ中の観測値を大きさで区切られた階級に分け、各階級に属する観測個 体の数(=度数)を表にまとめたものを、 と呼ぶ。
⊲ 各階級の度数を総数(サンプル数n)で割り、割合に直した数値を、 と 呼ぶ。
⊲ ある階級以下の度数を合計した数値を、 と呼ぶ。当該階級より下に何 人いるか、を表す。
例:英語の成績データの度数分布表(表1)。
階級 度数 相対度数 累積度数 累積相対度数
0 ≤ 得点 < 20 0 0.00 0 0.00
20 ≤ 得点 < 40 3 0.20 3 0.20
40 ≤ 得点 < 60 4 0.27 7 0.47
60 ≤ 得点 < 80 6 0.40 13 0.87
80 ≤ 得点 ≤ 100 2 0.13 15 1.00
計 15 1.00 15 1.00
⊲ 成績を5階級に区分し、各階級に該当する生徒の数を記録。
⊲ 累積相対度数:相対度数(割合)による相対度数。 1.3
ヒストグラム
ヒストグラム:度数分布表の度数または相対度数を図示したものを、 と 呼ぶ。
⊲ 横軸に 、縦軸に 。∴棒の高さ=各階級の度数(相対度数)。
⊲ 度数をグラフィカルに表現⇒データの (重心やバラつき具合)を把握。
⊲ 度数分布表よりも、第三者の印象に残りやすい。
例:成績データのヒストグラム(図1)。上の度数分布表から作成。
⊲ 分布が左右非対称。重心が60 ∼ 79点辺りにあり、右に偏っている様子が分かる。
Remark:度数分布表・ヒストグラム作成の注意点。
⊲ 度数分布表を図示したのがヒストグラム。∴報告書や論文には、通常はどちらかを 載せれば十分。
⊲ nが小さいときに階級幅を小刻みに設定するのは、良くない。(度数=0の階級が続出 し、スカスカになるため。)
⊲ Excelや統計ソフトを使うと、バランスよく階級幅を決めてくれる。
0- 19 20- 39 40- 59 60- 79 80- 100 階級(点)
度数(人) 02468
図1:成績データのヒストグラム
2 統計量:数値による記述統計
2.1
統計量
統計量:データを集約し、その特徴をとらえた数値を総称して、 と呼ぶ。
⊲ (データの代表値):平均値、メディアン、モード。
⊲ :分散、標準偏差。
⊲ データの最小値・最大値なども、立派な統計量。
Remark:図表と統計量、それぞれの利点・欠点
利点 欠点
図表 印象に残りやすい。 1. 作図のやり方次第で、印象が変わる。
2. 紙面のスペースを取る。
統計量 客観的な比較(大小)が可能。 数字なので退屈。
⊲ ∴目的・場面に応じて、記述統計の「見せ方」を工夫する。
⊲ 図表と統計量を併用することも多い。
データの数学的表現:サンプル数nのデータを
X1,X2, . . . ,Xn (1)
と表し、i番目の個体の観測値を代表して と表記。
⊲ 数学的には、任意の統計量はX1,X2, . . . ,Xnの関数として表現される。 2.2
位置の尺度:平均、モード、メディアン
例:新卒社会人5人の初任給(サンプル数n = 6)。⇒統計量でまとめると?
初任給(万円)
1 21
2 19
3 22
4 27
5 22
6 24
標本平均:データの合計をサンプル数nで割った値を、 と呼ぶ。(1)式の表記を 使うと、Xiの平均は、
X =¯ 1
n(X1+ X2+· · · + Xn) = 1 n
n
i=1
Xi. (2)
⊲ 例:初任給データの平均は X =¯ 1
6(21 + 19 + 22 + 27 + 22 + 24) = 22.5(万円). (3)
メディアン:データを小→大の順に並べ(ソーティング)、ちょうど中央に位置した値 を、 (中央値)と呼ぶ。
⊲ 注意:サンプル数nが偶数の場合は、中央で隣り合う二つの値の平均をメディアン とする。
⊲ 例:初任給データを大きい順に並べ替えると
{21, 19, 22, 27, 22, 24} −−−−−−−−−−−−→大きさでソート {19, 21, 22, 22, 24, 27}. (4) n = 6で偶数。∴メディアンは(22 + 22) ÷ 2 = 22(万円)。
モード:データ中で最も多く見られる観測値を、 (最頻値)と呼ぶ。
⊲ 例:初任給データで最も多く見られる値は22万円。(個体i = 2, 5の二名が該当。)∴ モードは22(万円).
⊲ 注意:n個の観測値が全て異なる値である場合、モードは計算できない。 2.3
平均値の弱点:異常値の存在
Remark:平均X¯ は一番ポピュラーだが、定義上、 に大きく引きずられる。
⊲ 異常値:データ中で極端に大きい・小さい観測値を異常値(外れ値)と呼ぶ。
⊲ メディアン・モードは順序・頻度で決まる⇒異常値の影響を受けない。
⊲ ∴データに異常値がある場合は、平均よりもメディアン・モードが位置の尺度とし て望ましい。
例:サッカー選手5名の年間ゴール数(i = 2の選手だけ極端に多い⇒異常値。) 選手 ゴール数
1 2
2 30
3 3
4 4
5 1
⊲ 平均X = 8¯ 、メディアン= 3。(モードは無し。)
⊲ このデータから「ウチの選手はだいたい年間8ゴールぐらい決めます」と言うのは、 明らかにオカシイ。∴ のほうが、データの全体像が正しく伝わる。 2.4
散らばりの尺度:分散と標準偏差
分散:各Xiの平均値X¯ からのズレ(Xi− ¯X)を2乗し、その平均をとった値 s2 = 1
n
(X1− ¯X)2+ (X2− ¯X)2+· · · + (Xn− ¯X)2
= 1 n
n i=1
(Xi− ¯X)2≥ 0. (5)
を、 と呼ぶ。s2が大きい⇔データのバラつきが 。
⊲ まず個体ひとつひとつについて、平均X¯(中心)からのズレ具合を
(X1− ¯X)2, (X2− ¯X)2, . . . , (Xn− ¯X)2 (6) で数値化。(2乗⇒「正のズレ(Xi− ¯X) > 0」と「負のズレ(Xi− ¯X) < 0」を正値で等 しくカウント。)
⊲ ∴(6)式の をとれば、「X¯ を軸に、データがどれだけバラついているか」が 測れる。
標準偏差:分散の正の平方根を、 と呼ぶ。
s = s2. (7)
⊲ 分散s2は計算途中に2乗が入る⇒単位(度量衡)が元のデータの2乗に(例:円
→円2)。
⊲ ∴平方根をとって標準偏差に換算し、単位を元に戻す(例:円2 →円)。実際のデー タ分析では、分散ではなく標準偏差をレポートすることが多い。
例:初任給データの平均値はX = 22.5¯ なので、分散は s2= 1
6
(21 − 22.5)2+ (19− 22.5)2+ (22− 22.5)2+ (27− 22.5)2+ (22− 22.5)2+ (24− 22.5)2
= 6.25(万円2). (8)
⊲ コレを標準偏差に直せばs =
√6.25 = 2.5(万円)。
Remark:日常生活で、分散・標準偏差は平均値ほど重視されないが、とても重要な情報
( や )を持つ。
⊲ 分散が無視される例:飲み会で居酒屋を選ぶ際、メニューの平均価格は気にするが、 価格のバラつきは(普通)気にしない。
⊲ 分散が無視できない例:従業員の年齢構成がほぼ同一の、二つの企業AとB。どち らに就職したい?
年収平均X¯ 年収標準偏差s 企業A 500万円 30万円 企業B 700万円 100万円
... 企業Aはローリスク・ローリターン、企業Bはハイリスク・ハイリターン(図2)。
⊲ より高度な・より緻密な意思決定には、散らばりの尺度が必須。
0 10 20 30 40
4006008001000
A
従業員i
年収Xi(万円)
0 10 20 30 40
4006008001000
B
従業員i
年収Xi(万円)
図2:企業AとBの従業員年収(Bは平均も分散も大きい)
まとめと復習問題
今回のまとめ
図表による記述統計:度数分布表、ヒストグラム。
統計量による記述統計:位置の尺度(平均、メディアン、モード)、散らばりの尺度(分 散、標準偏差)。
復習問題
出席確認用紙に解答し(用紙裏面を用いても良い)、退出時に提出せよ。 1. 次のデータを、統計量でまとめる(サンプル数n = 4)。
2, 4, 15, 3. (9)
(a) 平均X =¯ __、メディアン=__。
(b) このデータの代表値として、平均とメディアン、どちらがふさわしいか?また、そ れはどうしてか?
(c) 分散s2=__。(ヒント:下表の空欄を埋めて行くと計算しやすい。) i Xi Xi− ¯X (Xi− ¯X)2
1 2 −4 16
2 4
3 15
4 3