• 検索結果がありません。

データのばらつきを表す値

N/A
N/A
Protected

Academic year: 2021

シェア "データのばらつきを表す値"

Copied!
25
0
0

読み込み中.... (全文を見る)

全文

(1)

データのばらつきを表す値

樋口さぶろお

龍谷大学理工学部数理情報学科

確率統計☆演習 I L03(2015-10-02 Fri)

最終更新: Time-stamp: ”2015-10-02 Fri 08:59 JST hig”

今日の目標

データから範囲 , 四分位範囲 , 四分位偏差 , 分散 , 標準偏差を求められる

外れ値を考慮した ( 大学レベル ) 箱ひげ図が手で 描ける

1 次関数で平均値 , 分散 , 標準偏差を変換できる http://hig3.net

樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 1 / 25

(2)

データの代表値

L02-Q1

Quiz 解答 : 四分位値

Q 2 = 17, Q 1 = 14.5, Q 3 = 18.

L02-Q3

Quiz 解答 : 平均値中央値最頻値

1 22

2 10

3 19.3

(3)

データのばらつきを表す量 範囲・四分位範囲 (IQR)・四分位偏差

ここまで来たよ

1 データの代表値

2 データのばらつきを表す量

範囲・四分位範囲 (IQR) ・四分位偏差 分散

分散の意味と平均値・分散・標準偏差の変換 外れ値と ( 大学レベル ) 箱ひげ図

ヒストグラムと箱ひげ図の対応

樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 3 / 25

(4)

データのばらつきを表す量 範囲・四分位範囲 (IQR)・四分位偏差

平均値が同じである分布のヒストグラム

Frequency

16 18 20 22 24 26 28

01234 Frequency

16 18 20 22 24 26 28

01234

Frequency

16 18 20 22 24 26 28

01234 Frequency

16 18 20 22 24 26 28

01234

きょう出てくるのは「ばらつき」をはかる量

(5)

データのばらつきを表す量 範囲・四分位範囲 (IQR)・四分位偏差

樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 5 / 25

(6)

データのばらつきを表す量 範囲・四分位範囲 (IQR)・四分位偏差

データのばらつきを表す値

範囲タイプの量の定義 範囲 (range) =

Q 4 Q 0 = y n y 1

四分位範囲 interquartile range IQR=

Q 3 Q 1

=

y 3

4 n y 1

4 n

四分位偏差 quartile deviation = 1 2 IQR 例 1: 30 50 55 55 60 70 70 70 75 100 L03-Q1

Quiz( 範囲 )

次のデータの , 範囲 , 四分位範囲 , 四分位偏差 を求めよう .

14 14 15 16 18 18 18 25

(7)

データのばらつきを表す量 範囲・四分位範囲 (IQR)・四分位偏差

範囲・四分位範囲・四分位偏差の箱ひげ図・ヒストグラム的意味

身長の分布

身長(cm)

度数

145 150 155 160 165 170 175

051015202530

150 155 160 165 170

某アイドル集団の身長の分布

身長(cm)

某アイドル集団

i y 0 5 10 15

並べかえ i

y 0 5 10 15

樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 7 / 25

(8)

データのばらつきを表す量 分散

ここまで来たよ

1 データの代表値

2 データのばらつきを表す量

範囲・四分位範囲 (IQR) ・四分位偏差 分散

分散の意味と平均値・分散・標準偏差の変換 外れ値と ( 大学レベル ) 箱ひげ図

ヒストグラムと箱ひげ図の対応

(9)

データのばらつきを表す量 分散

分散 データ : x 1 , x 2 , . . . , x n .

データの平均値 (mean): x (= m) x i の偏差 (deviation)= x i x 偏差タイプの量の定義

データの分散 (variance): ( 偏差 ) 2 の平均

s 2 = 1 n

n i=1

(x i x) 2

データの標準偏差 (standard deviation)=

s =

s 2 0

樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 9 / 25

(10)

データのばらつきを表す量 分散

( ) 某国民的アイドル集団 (77 ) の身長

身長の分布

身長(cm)

度数

145 150 155 160 165 170 175

051015202530

平均値 x = 148+148.5+ 77 ··· +172.3 = 158(cm)

分散 s 2 = (148 158) 2 +(148.5 158) 77 2 + ··· +(172.3 158) 2 = 26.0 (cm 2 ) 標準偏差 s =

26.0 = 5.1 (cm)

n 1 = 77 1 で割りたくなった人もいるかも . ここは 77 で OK そのうちちゃんと区別を説明します .

データの単位 ̸ = 分散の単位

(11)

データのばらつきを表す量 分散

L03-Q2

Quiz(平均値・分散・標準偏差)

データ 87kg, 93kg, 89kg, 91kg, 90kg の平均値・分散・標準偏差を求め よう .

樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 11 / 25

(12)

データのばらつきを表す量 分散

L03-Q3

Quiz(度数分布表から分散)

次の度数分布表で表されるデータの平均値と分散を ( 近似的に ) 求めよう .

階級 度数

145cm 以上 155cm 未満 20

155cm 以上 165cm 未満 40

165cm 以上 175cm 未満 20

(13)

データのばらつきを表す量 分散の意味と平均値・分散・標準偏差の変換

ここまで来たよ

1 データの代表値

2 データのばらつきを表す量

範囲・四分位範囲 (IQR) ・四分位偏差 分散

分散の意味と平均値・分散・標準偏差の変換 外れ値と ( 大学レベル ) 箱ひげ図

ヒストグラムと箱ひげ図の対応

樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 13 / 25

(14)

データのばらつきを表す量 分散の意味と平均値・分散・標準偏差の変換

分散の意味 I

L03-Q4

Quiz( 分散の意味 )

あるクラスで行われたテストで , 英語の平均点は 60 , 標準偏差 10 . 数学の平均点は 60 点 , 標準偏差 20 点 .

英語の 70 点と数学の 70 点 , どちらのほうが価値ある ? 次のうちから正し いものを 1 つ選ぼう .

1 たぶん英語のほうが価値ある

2 たぶん数学のほうが価値ある

3 どちらも同じ

4 これだけの情報ではまったくわからない

5 平均点が 60 点だと再テストがあるだろう

(15)

データのばらつきを表す量 分散の意味と平均値・分散・標準偏差の変換

平均値・分散・標準偏差の変換

x から y への変換

データ x 1 , x 2 , . . . , x n , x の平均値 x, 分散 s 2 x , 標準偏差 s x がわかってる とする .

y i = ax i + b で新しいデータを作る .

データ y 1 , y 2 , . . . , y n , y の平均値 y, 分散 s 2 y , 標準偏差 s y はどうやって求 める ?

a, b 定数 .

例 : 身長の換算 y = 1.8(m) x = 80(cm) y = ax + b,

a = 0.01, b = 1

樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 15 / 25

(16)

データのばらつきを表す量 分散の意味と平均値・分散・標準偏差の変換

平均値 , 分散 , 標準偏差の換算 y = ax + b のとき

1 y = ax + b

2 s 2 y = |a| 2 × s 2 x

3 s y = | a | × s x

証明

y = 1 n

n i=1

y i = 1 n

n i=1

(ax i + b) = ax + b.

s 2 y = 1 n

n i=1

(y i y) 2 = 1 n

n i=1

((ax i + b) (ax + b)) 2 = | a | 2 s 2 x

s y = | a | s x

(17)

データのばらつきを表す量 分散の意味と平均値・分散・標準偏差の変換

L03-Q5

Quiz(平均値・分散・標準偏差の換算)

ある集団の身長 ( みんな大人で 100cm 以上 ) を , cm で書いたものの下 2 桁 x cm , 平均値は 60cm, 分散は 25cm 2 だった .

m で書いた身長 y m の平均値と分散と標準偏差を求めよう .

樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 17 / 25

(18)

データのばらつきを表す量 外れ値と (大学レベル) 箱ひげ図

ここまで来たよ

1 データの代表値

2 データのばらつきを表す量

範囲・四分位範囲 (IQR) ・四分位偏差 分散

分散の意味と平均値・分散・標準偏差の変換 外れ値と ( 大学レベル ) 箱ひげ図

ヒストグラムと箱ひげ図の対応

(19)

データのばらつきを表す量 外れ値と (大学レベル) 箱ひげ図

外れ値 (outlier)

四分位数 Q 1 , Q 2 , Q 3 , 四分位範囲 IQR=Q 3 Q 1 外れ値 (outlier)

Q 1 の下に , IQR 1.5 倍以上大きく離れたデータ Q 3 の上に , IQR の 1.5 倍以上大きく離れたデータ L03-Q6

Quiz(箱ひげ図)

下のチョコの重さのデータについて , 3 つの四分位数 , 外れ値を求め , 箱ひ げ図を描こう .

2g 8g 10g 11g 12g 12g 12g 14g 15g

樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 19 / 25

(20)

データのばらつきを表す量 外れ値と (大学レベル) 箱ひげ図

外れ値を考慮した ( 大学レベル ) 箱ひげ図

高校レベル箱ひげ図 + 次の修飾 外れ値を で描く

ひげは外れ値までのばさない , 外れ値の前の値までで止まる

150 160 170 180

某アイドル集団+1の身長の分布

身長(cm)

某アイドル集団+1

横軸 : 身長 (cm), 縦軸 : 意味なし

(21)

データのばらつきを表す量 ヒストグラムと箱ひげ図の対応

ここまで来たよ

1 データの代表値

2 データのばらつきを表す量

範囲・四分位範囲 (IQR) ・四分位偏差 分散

分散の意味と平均値・分散・標準偏差の変換 外れ値と ( 大学レベル ) 箱ひげ図

ヒストグラムと箱ひげ図の対応

樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 21 / 25

(22)

データのばらつきを表す量 ヒストグラムと箱ひげ図の対応

Quiz( ヒストグラムと箱ひげ図 )

このヒストグラムに対応する箱ひげ図はどれ ?

frequency

0 2 4 6 8 10

051015

0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10

左に歪んだ分布

=

左に裾が長い分布

(23)

データのばらつきを表す量 ヒストグラムと箱ひげ図の対応

Quiz( ヒストグラムと箱ひげ図 )

このヒストグラムに対応する箱ひげ図はどれ ?

frequency

0 2 4 6 8 10

051015

0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10

右に歪んだ分布

=

右に裾が長い分布

樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 23 / 25

(24)

データのばらつきを表す量 ヒストグラムと箱ひげ図の対応

Quiz( ヒストグラムと箱ひげ図の対応 )

この箱ひげ図に対応するヒストグラムはどれ ?

0 2 4 6 8 10

Frequency

0 2 4 6 8 10

01234 Frequency

0 2 4 6 8 10

01234 Frequency

0 2 4 6 8 10

01234 Frequency

0 2 4 6 8 10

01234

箱ひげ図のほうが情報が少ない c.f. センター試験 (2015)

(25)

データのばらつきを表す量 ヒストグラムと箱ひげ図の対応

連絡

配布資料は 1-503 向かいの引出 , http://hig3.net で再配布 . Quiz の略解は授業終了後に http://hig3.net で配布 .

加減乗除と平方根 ( ルート ) の使える電卓持ってきてね . 関数電卓で なくてもいいです . 携帯電話の機能・アプリでもかまいません . 週のタイムラインで見たように , 非参照 Quiz 予習問題を RaMMoodle に金 17:00 ごろまでに公開 . これで来週の Quiz に備えてね .

統計検定 申込締切 2015-10-16 金 , 受験 2015-11-29 日 . 3 級 or 2 級 . オフィスアワー月 4 6(1-502)

manaba 出席カード提出

https://attend.

ryukoku.ac.jp

樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2015) 25 / 25

参照

関連したドキュメント

是非、ご参考下さい。

RANK 関数:参照範囲内における特定の数値の順位を調べます。 =RANK(H3,H3:H17,0) このセルの数値を この範囲内で 降順で(1

※この資料は, QGIS Desktop 3.4.1 (Madeira)  を元に作成してい

※ストアド・サブプログラムを作成する場合は CREATE PROCEDURE、CREATE TRIGGER などの システム権限が必要です。

ଡୗৄ৾ভ 場 所:大阪府吹田市 ( お申込み後、住所をご連絡いたします ) 参加費:無料 11 月 2 日 ( 日 )

非参照

中央値 最頻値 平均値.. Excel で代表値

今日の非参照 Quiz はプチテスト前に