中央値
平均値
代表値だけでは分布を区別できない
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
-15 -10 -5 0 5 10 15
= 0, = 0, = 0
どちらの分布も
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14
-15 -10 -5 0 5 10 15
代表値だけでは分布を区別できない
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
-15 -10 -5 0 5 10 15
データのばらつきを表す指標が必要
→ 散布度
どちらの分布も= 0, = 0, = 0
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14
-15 -10 -5 0 5 10 15
分布のばらつきを特徴づける
平均値 と個々の値が、
平均的にどの程度離れているかを表す指標 分散
標準偏差
! = 1
−
! = 1
−
例えば の単位がkgのとき、分散の単位はkg2となる。
標準偏差の単位は の単位と同じ。
分散による分布の区別
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
-15 -10 -5 0 5 10 15
どちらの分布も
= 0, = 0, = 0
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14
-15 -10 -5 0 5 10 15
! = 1 ! = 9
分散の計算
! = 1
−
1 2 3 4 5
1 2
3 = 3
= 1
10 # 1 − 3 + 3 × 2 − 3 + 3 × 3 − 3 + 4 − 3 + 2 × 5 − 3 }
= 1.6
人数
ゴールデンウィークの 休暇日数
歪度
分布の左右非対称性を表す
% = 1 ∑ −
!
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 1 2 3 4 5 6 7 8
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
-4 -3 -2 -1 0 1 2 3 4
どちらの分布も
= 1.13, ! = 0.36
% = 1.66 % = 0
尖度
分布のとがり具合を表す
' = 1 ∑ −
!
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45
-6 -4 -2 0 2 4 6
0 0.05 0.1 0.15 0.2 0.25 0.3
-6 -4 -2 0 2 4 6
どちらの分布も
= 0, ! = 1.56, % = 0
' = 3.82 ' = 3
その他の散布度指標
分位点
データを昇順に並べ、下側のp%のところにある値を
「p%分位点」と呼ぶ。
第
1
四分位点:25%
分位点,下側四分位点 第2
四分位点:50%
分位点,中央値第3四分位点:75%分位点,上側四分位点
範囲:データの最大値ー最小値
四分位範囲: 上側四分位点ー下側四分位点
※ 中央部で
50%
のデータが入る範囲箱ひげ図による表現
1.5×四分位範囲 中央値
第3四分位 第1四分位
1.5×四分位範囲
ひげの外にあるデータは 点で表す。
※ ひげの中に全てのデータが収まる場合、
ひげは最大値、最小値までしか延ばさない。
四分位範囲
1日目の内容
【午前】 記述統計
1. データの表現
図表によるデータの可視化
2. データ分布の特徴づけ
代表値:平均,中央値,最頻値
散布度:分散,標準偏差,四分位偏差
3. データの比較
標準化・基準化
2変数の関係:散布図,共分散,相関係数,クロス表
標準化・基準化
異なる分布に従うデータを比較するための手続き 例題
Aさんのテストの点数
数学:75点英語:65点
Aさんは,数学と英語のどちらの方が得意でしょうか?
点数で比較すると、数学の方が得意?
判断の手がかり
学年の平均点と比較してみる
「
A
さんの数学の得点ー数学の平均点」と「Aさんの英語の得点ー英語の平均点」を比較する。
しかし,数学における平均点との差と
英語における平均点との差が同じ価値とは限らない。
Aさんよりも高い点数を取った人が少ないほど,
その得点は貴重だと考える
平均値だけでなく,点数の散らばりも考慮する必要がある。
数学における1点と,英語における1点は同じ価値?
数学・英語の点の分布
0 1 2 3 4 5 6 7 8
0 20 40 60 80 100
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
0 20 40 60 80 100
英語 数学
点数
割合(%) 割合(%)
平均:
= 65
標準偏差:
! = 8
平均:
= 50
標準偏差:
! = 5
点数
Aさんより高い点数の人は9.5% Aさんより高い点数の人は1%
Aさん(75点) Aさん(65点)
標準化・基準化
)
を標準得点(z得点)・標準化変量・基準化変量と呼ぶ。標準得点の平均は0, 標準偏差は1になる。
標準化により、変数値の相対的「位置」を把握できる。
難易度の異なる数学と英語のテストにおいて、
数学で
X
点を取ったことと、英語でY
点取ったことを「全体の中での位置」という観点で比較できる。
を標準化して
)
とする:標準化した数学・英語の点の分布
数学 英語
標準得点
割合(%) 割合(%)
0 0.5 1 1.5 2 2.5 3 3.5 4
-10 -5 0 5 10
− 65
標準化得点:
8 − 50
標準化得点:
5
0 0.5 1 1.5 2 2.5 3 3.5 4
-10 -5 0 5 10
標準得点
どちらも平均0、標準偏差1の分布になる。
Aさんの得点の場合
英語の方が得意と言える。
0 0.5 1 1.5 2 2.5 3 3.5 4
-10 -5 0 5 10