データのばらつきを表す値
樋口さぶろお
龍谷大学理工学部数理情報学科
確率統計☆演習 I L03(2015-10-02 Fri)
最終更新: Time-stamp: ”2015-10-02 Fri 08:59 JST hig”
今日の目標
データから範囲 , 四分位範囲 , 四分位偏差 , 分散 , 標準偏差を求められる
外れ値を考慮した ( 大学レベル ) 箱ひげ図が手で 描ける
1 次関数で平均値 , 分散 , 標準偏差を変換できる http://hig3.net
樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 1 / 25
データの代表値
L02-Q1
Quiz 解答 : 四分位値
Q 2 = 17, Q 1 = 14.5, Q 3 = 18.
L02-Q3
Quiz 解答 : 平均値中央値最頻値
1 22
2 10
3 19.3
データのばらつきを表す量 範囲・四分位範囲 (IQR)・四分位偏差
ここまで来たよ
1 データの代表値
2 データのばらつきを表す量
範囲・四分位範囲 (IQR) ・四分位偏差 分散
分散の意味と平均値・分散・標準偏差の変換 外れ値と ( 大学レベル ) 箱ひげ図
ヒストグラムと箱ひげ図の対応
樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 3 / 25
データのばらつきを表す量 範囲・四分位範囲 (IQR)・四分位偏差
平均値が同じである分布のヒストグラム
Frequency
16 18 20 22 24 26 28
01234 Frequency
16 18 20 22 24 26 28
01234
Frequency
16 18 20 22 24 26 28
01234 Frequency
16 18 20 22 24 26 28
01234
きょう出てくるのは「ばらつき」をはかる量
データのばらつきを表す量 範囲・四分位範囲 (IQR)・四分位偏差
樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 5 / 25
データのばらつきを表す量 範囲・四分位範囲 (IQR)・四分位偏差
データのばらつきを表す値
範囲タイプの量の定義 範囲 (range) =
Q 4 − Q 0 = y n − y 1
四分位範囲 interquartile range IQR=
Q 3 − Q 1
=
y 3
4 n − y 1
4 n
四分位偏差 quartile deviation = 1 2 IQR 例 1: 30 50 55 55 60 70 70 70 75 100 L03-Q1
Quiz( 範囲 )
次のデータの , 範囲 , 四分位範囲 , 四分位偏差 を求めよう .
14 14 15 16 18 18 18 25
データのばらつきを表す量 範囲・四分位範囲 (IQR)・四分位偏差
範囲・四分位範囲・四分位偏差の箱ひげ図・ヒストグラム的意味
身長の分布
身長(cm)
度数
145 150 155 160 165 170 175
051015202530
150 155 160 165 170
某アイドル集団の身長の分布身長(cm)
某アイドル集団
i y 0 5 10 15
→ 並べかえ i
y 0 5 10 15
樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 7 / 25
データのばらつきを表す量 分散
ここまで来たよ
1 データの代表値
2 データのばらつきを表す量
範囲・四分位範囲 (IQR) ・四分位偏差 分散
分散の意味と平均値・分散・標準偏差の変換 外れ値と ( 大学レベル ) 箱ひげ図
ヒストグラムと箱ひげ図の対応
データのばらつきを表す量 分散
分散 データ : x 1 , x 2 , . . . , x n .
データの平均値 (mean): x (= m) x i の偏差 (deviation)= x i − x 偏差タイプの量の定義
データの分散 (variance): ( 偏差 ) 2 の平均
s 2 = 1 n
∑ n i=1
(x i − x) 2
データの標準偏差 (standard deviation)=
s = √
s 2 ≥ 0
樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 9 / 25
データのばらつきを表す量 分散
( 例 ) 某国民的アイドル集団 (77 人 ) の身長
身長の分布
身長(cm)
度数
145 150 155 160 165 170 175
051015202530
平均値 x = 148+148.5+ 77 ··· +172.3 = 158(cm)
分散 s 2 = (148 − 158) 2 +(148.5 − 158) 77 2 + ··· +(172.3 − 158) 2 = 26.0 (cm 2 ) 標準偏差 s = √
26.0 = 5.1 (cm)
n − 1 = 77 − 1 で割りたくなった人もいるかも . ここは 77 で OK そのうちちゃんと区別を説明します .
データの単位 ̸ = 分散の単位
データのばらつきを表す量 分散
L03-Q2
Quiz(平均値・分散・標準偏差)
データ 87kg, 93kg, 89kg, 91kg, 90kg の平均値・分散・標準偏差を求め よう .
樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 11 / 25
データのばらつきを表す量 分散
L03-Q3
Quiz(度数分布表から分散)
次の度数分布表で表されるデータの平均値と分散を ( 近似的に ) 求めよう .
階級 度数
145cm 以上 155cm 未満 20
155cm 以上 165cm 未満 40
165cm 以上 175cm 未満 20
データのばらつきを表す量 分散の意味と平均値・分散・標準偏差の変換
ここまで来たよ
1 データの代表値
2 データのばらつきを表す量
範囲・四分位範囲 (IQR) ・四分位偏差 分散
分散の意味と平均値・分散・標準偏差の変換 外れ値と ( 大学レベル ) 箱ひげ図
ヒストグラムと箱ひげ図の対応
樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 13 / 25
データのばらつきを表す量 分散の意味と平均値・分散・標準偏差の変換
分散の意味 I
L03-Q4
Quiz( 分散の意味 )
あるクラスで行われたテストで , 英語の平均点は 60 点 , 標準偏差 10 点 . 数学の平均点は 60 点 , 標準偏差 20 点 .
英語の 70 点と数学の 70 点 , どちらのほうが価値ある ? 次のうちから正し いものを 1 つ選ぼう .
1 たぶん英語のほうが価値ある
2 たぶん数学のほうが価値ある
3 どちらも同じ
4 これだけの情報ではまったくわからない
5 平均点が 60 点だと再テストがあるだろう
データのばらつきを表す量 分散の意味と平均値・分散・標準偏差の変換
平均値・分散・標準偏差の変換
x から y への変換
データ x 1 , x 2 , . . . , x n , x の平均値 x, 分散 s 2 x , 標準偏差 s x がわかってる とする .
y i = ax i + b で新しいデータを作る .
データ y 1 , y 2 , . . . , y n , y の平均値 y, 分散 s 2 y , 標準偏差 s y はどうやって求 める ?
a, b 定数 .
例 : 身長の換算 y = 1.8(m) ← x = 80(cm) y = ax + b,
a = 0.01, b = 1
樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 15 / 25
データのばらつきを表す量 分散の意味と平均値・分散・標準偏差の変換
平均値 , 分散 , 標準偏差の換算 y = ax + b のとき
1 y = ax + b
2 s 2 y = |a| 2 × s 2 x
3 s y = | a | × s x
証明
y = 1 n
∑ n i=1
y i = 1 n
∑ n i=1
(ax i + b) = ax + b.
s 2 y = 1 n
∑ n i=1
(y i − y) 2 = 1 n
∑ n i=1
((ax i + b) − (ax + b)) 2 = | a | 2 s 2 x
s y = | a | s x
データのばらつきを表す量 分散の意味と平均値・分散・標準偏差の変換
L03-Q5
Quiz(平均値・分散・標準偏差の換算)
ある集団の身長 ( みんな大人で 100cm 以上 ) を , cm で書いたものの下 2 桁 x cm の , 平均値は 60cm, 分散は 25cm 2 だった .
m で書いた身長 y m の平均値と分散と標準偏差を求めよう .
樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 17 / 25
データのばらつきを表す量 外れ値と (大学レベル) 箱ひげ図
ここまで来たよ
1 データの代表値
2 データのばらつきを表す量
範囲・四分位範囲 (IQR) ・四分位偏差 分散
分散の意味と平均値・分散・標準偏差の変換 外れ値と ( 大学レベル ) 箱ひげ図
ヒストグラムと箱ひげ図の対応
データのばらつきを表す量 外れ値と (大学レベル) 箱ひげ図
外れ値 (outlier)
四分位数 Q 1 , Q 2 , Q 3 , 四分位範囲 IQR=Q 3 − Q 1 外れ値 (outlier)
Q 1 の下に , IQR の 1.5 倍以上大きく離れたデータ Q 3 の上に , IQR の 1.5 倍以上大きく離れたデータ L03-Q6
Quiz(箱ひげ図)
下のチョコの重さのデータについて , 3 つの四分位数 , 外れ値を求め , 箱ひ げ図を描こう .
2g 8g 10g 11g 12g 12g 12g 14g 15g
樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 19 / 25
データのばらつきを表す量 外れ値と (大学レベル) 箱ひげ図
外れ値を考慮した ( 大学レベル ) 箱ひげ図
高校レベル箱ひげ図 + 次の修飾 外れ値を ◦ で描く
ひげは外れ値までのばさない , 外れ値の前の値までで止まる
●
150 160 170 180
某アイドル集団+1の身長の分布
身長(cm)
某アイドル集団+1
横軸 : 身長 (cm), 縦軸 : 意味なし
データのばらつきを表す量 ヒストグラムと箱ひげ図の対応
ここまで来たよ
1 データの代表値
2 データのばらつきを表す量
範囲・四分位範囲 (IQR) ・四分位偏差 分散
分散の意味と平均値・分散・標準偏差の変換 外れ値と ( 大学レベル ) 箱ひげ図
ヒストグラムと箱ひげ図の対応
樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 21 / 25
データのばらつきを表す量 ヒストグラムと箱ひげ図の対応
Quiz( ヒストグラムと箱ひげ図 )
このヒストグラムに対応する箱ひげ図はどれ ?
frequency
0 2 4 6 8 10
051015
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
左に歪んだ分布
=
左に裾が長い分布
データのばらつきを表す量 ヒストグラムと箱ひげ図の対応
Quiz( ヒストグラムと箱ひげ図 )
このヒストグラムに対応する箱ひげ図はどれ ?
frequency
0 2 4 6 8 10
051015
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
右に歪んだ分布
=
右に裾が長い分布
樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 23 / 25
データのばらつきを表す量 ヒストグラムと箱ひげ図の対応
Quiz( ヒストグラムと箱ひげ図の対応 )
この箱ひげ図に対応するヒストグラムはどれ ?
0 2 4 6 8 10
Frequency
0 2 4 6 8 10
01234 Frequency
0 2 4 6 8 10
01234 Frequency
0 2 4 6 8 10
01234 Frequency
0 2 4 6 8 10
01234