• 検索結果がありません。

データの代表値と散布度

N/A
N/A
Protected

Academic year: 2021

シェア "データの代表値と散布度"

Copied!
30
0
0

読み込み中.... (全文を見る)

全文

(1)

データの代表値と散布度

樋口さぶろお

龍谷大学理工学部数理情報学科

確率統計☆演習 I L02(2018-10-03 Wed)

最終更新: Time-stamp: ”2018-10-03 Wed 07:37 JST hig”

今日の目標

代表値 : 中央値 , 四分位数 , 平均値 , 最頻値を求め られる 前園確率統計 § 4.1(p.66), § 4.2(p.67) 高校 数学 I

散布度 : レンジ , 四分位範囲 , 分散 , 標準偏差を求

(2)

データの分布

L02-Q1

Quiz 解答 : 度数分布表とヒストグラムを作ろう 度数分布表略 .

0 10 20 30

0 10 20 30

年齢(歳)

度数(人)

乃木坂46(2017−09?)

0 10 20 30

0 10 20 30

年齢(歳)

度数(人)

乃木坂46(2017−09?)

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 2 / 30

(3)

データの代表値と散布度 中央値と四分位数

ここまで来たよ

1 データの分布

2 データの代表値と散布度 中央値と四分位数 平均値

レンジ ( 範囲 ,range) ・四分位範囲 (IQR) 箱ひげ図

分散・標準偏差

(4)

データの代表値と散布度 中央値と四分位数

代表値 : データを 1 個の値で代表させたい ! 前園確率統計 §4.1(p.66)

縮約値 = 代表値集団の身長はだいたい 150cm? 170cm?

01 171cm 02 166cm 03 165cm . .

.

49 151cm

01 179cm 02 183cm 03 182cm . .

.

13 171cm

0 5 10 15 20

150 160 170 180 190 200

身長

度数

グループ

乃木坂46 東レアローズ

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 4 / 30

(5)

データの代表値と散布度 中央値と四分位数

今日やる様々な表現方法 分位数タイプ 平均タイプ

代表値 中央値 , 四分位数 平均値 最頻値 ( 離散デー タの , ヒストグラ ムの )

散布度 レンジ , 四分位範 囲 =IQR

分散 , 標準偏差

これらを度数分布表 , ヒストグラム (, 箱ひげ図 ) から読み取る

代表値・散布度 ≲ 箱ひげ図 < > ヒストグラム 度数分布表 < ストリップチャート <

( 生 ) データ

情報が少ない , アバウト 情報が多い , 詳しい

見やすい・直観的 見にくい・直観に訴えない

(6)

データの代表値と散布度 中央値と四分位数

中央値 (median) と四分位数 / / (quartile) データ y 0 , y 1 , . . . , y N 1 (N データの個数 )

小さい順に並び替えたもの

x 0 x 1 ≤ · · · ≤ x N 1

例 ( 身長のデータ ) y 0 = 166, y 1 = 153, . . . , y N 1 = 160

x 0 = 151 x 1 = 152 ≤ · · · ≤ 166 x N 1 = 167 分位数 , 四分位数のアバウトな定義 前園確率統計 § 4.2(p.67)

q- 分位数 = x q · (N 1) . (0 q 1).

最小値 Q 0 = x 0 = x 0 4 (N−1)

第 1 四分位数 Q 1 = x 1 4 (N 1)

第 2 四分位数 Q 2 = x 2

4 (N 1) = 中央値 第 3 四分位数 Q 3 = x 3

4 (N 1)

最大値 Q 4 = x 4

4 (N 1)

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 6 / 30

(7)

データの代表値と散布度 中央値と四分位数

高校数学における四分位数の定義 高校 数学 I

Q 0 , Q 4 さっきのまま .

Q 2 =

 

 

 

x N 1

2

=

真ん中の値

(N が奇 )

1 2 (x N

2 1 + x N

2

) =

真ん中 2 個の和 /2

(N が偶 ) Q 1 は , Q 2 の位置より前にあるデータ (Q 2 自身は除く ) の中央値 Q 3 は , Q 2 の位置より後にあるデータ (Q 2 自身は除く ) の中央値 Q 2 と同じ値のデータが複数あるときも 1 個だけ除く

例 : 9 9 10 11 12 12 13 13 13 15 17

ちょっと変えた例 : 10 11 12 12 13 13 13 15 17

(8)

データの代表値と散布度 中央値と四分位数

度数分布表からの q 分位数の求め方 階級値 = 階級の ( 上限値 + 下限値 )/2

j 階級 (cm) 階級値 z j 度数 f j

1 145 より大きく 150 以下 147.5 7 2 150 より大きく 155 以下 17 3 155 より大きく 160 以下 29 4 160 より大きく 165 以下 19 k =5 165 より大きく 170 以下 4

合計 N= — 77

自分の言葉でどうぞ

ヒストグラムからの q 分位数の求め方

0.00 0.25 0.50 0.75 1.00

140 150 160 170 180

身長(cm)

度数(人)

乃木坂46(2017−09?)

自分の言葉でどう ぞ

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 8 / 30

(9)

データの代表値と散布度 平均値

ここまで来たよ

1 データの分布

2 データの代表値と散布度 中央値と四分位数 平均値

レンジ ( 範囲 ,range) ・四分位範囲 (IQR) 箱ひげ図

分散・標準偏差

(10)

データの代表値と散布度 平均値

平均値 =mean

平均値の定義 前園確率統計 § 4.1(p.66)

N 個のデータ x 1 , x 2 , . . . , x N に対して ,

平均値 x = 1 N

N i=1

x i

x のかわりに m, m x などという記号もある . 例 : 30 50 55 55 60 70 70 70 75 100 だと

63.5

中央値より平均値のいい点

自分の言葉で *0.4

平均値より中央値のいい点

自分の言葉で *0.4

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 10 / 30

(11)

データの代表値と散布度 平均値

L02-Q2

Quiz(代表値) 次のデータを考える .

14cm, 14cm, 15cm, 16cm, 18cm, 18cm, 18cm, 25cm

1 四分位数 Q 1 , Q 2 , Q 3 を求めよう .

2 ( 離散データの ) 最頻値を求めよう

3 平均値を求めよう

(12)

データの代表値と散布度 平均値

度数分布表からの平均値の求め方 前園確率統計なし

x 1 N

k j=1

z j f j =

k

j=1 z j f j

k

j=1 f j

j 番目の階級の階級値 z j , 度数 f j . ヒストグラムからの平均値の求め方

0 10 20 30

140 150 160 170 180

身長(cm)

度数(人)

乃木坂46(2017−09?)

k 個の質点の重心の座標 x G =

k j=1 x j m j

j m j 力学

j 番目の質点の位置 x j = z j , 質量 m j = f j

あとは自分の言葉で *0.4

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 12 / 30

(13)

データの代表値と散布度 平均値

最頻値 =mode 前園確率統計なし

最頻値の定義

離散データの最頻値 : ‘ 離散的な ’ データのとき いちばん多く繰り返 し現れる値

ヒストグラムの最頻値 : ‘ 連続的または離散的な ’ データのとき 度数 分布表 / ヒストグラムで , 度数最大の階級の階級値

離散的な例 1(30 50 55 55 60 70 70 70 75 100) だと

70

ヒストグラムの最頻値

0.25 0.50 0.75 1.00

度数(人)

乃木坂46(2017−09?)

自分の言葉でどうぞ

(14)

データの代表値と散布度 平均値

L02-Q3

Quiz(平均値中央値最頻値) 次のヒストグラムから求めよう .

1 中央値

2 ( ヒストグラムの ) 最頻値

3 平均値

度数

9 11 13 15 17 19 21 23 25 27

0123

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 14 / 30

(15)

データの代表値と散布度 平均値

2017 年 6 月統計検定 3 級問 5

2017 年 6 月統計検定 3 級問 5

(16)

データの代表値と散布度 平均値

2017 年 6 月統計検定 3 級問 5

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 16 / 30

(17)

データの代表値と散布度 レンジ (範囲,range)・四分位範囲 (IQR)

ここまで来たよ

1 データの分布

2 データの代表値と散布度 中央値と四分位数 平均値

レンジ ( 範囲 ,range) ・四分位範囲 (IQR) 箱ひげ図

分散・標準偏差

(18)

データの代表値と散布度 レンジ (範囲,range)・四分位範囲 (IQR)

平均値が同じでも分布はいろいろ

Frequency

16 18 20 22 24 26 28

01234 Frequency

16 18 20 22 24 26 28

01234

Frequency

16 18 20 22 24 26 28

01234 Frequency

16 18 20 22 24 26 28

01234

第 1,3 四分位数は ?

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 18 / 30

(19)

データの代表値と散布度 レンジ (範囲,range)・四分位範囲 (IQR)

散布度 : 散らばりの尺度が必要

(20)

データの代表値と散布度 レンジ (範囲,range)・四分位範囲 (IQR)

レンジ・四分位範囲の定義 I

範囲タイプの量の定義 高校 数学 I 前園確率統計なし

範囲 ( レンジ ) =

Q 4 Q 0

四分位範囲 (interquartile range) IQR=

Q 3 Q 1

L02-Q4

Quiz(範囲)

次のデータの , 範囲 , 四分位範囲 , 四分位偏差 を求めよう . 14 14 15 16 18 18 18 25

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 20 / 30

(21)

データの代表値と散布度 箱ひげ図

ここまで来たよ

1 データの分布

2 データの代表値と散布度 中央値と四分位数 平均値

レンジ ( 範囲 ,range) ・四分位範囲 (IQR) 箱ひげ図

分散・標準偏差

(22)

データの代表値と散布度 箱ひげ図

箱ひげ図 (Box Plot, Box and Whisker diagram) 前園確率統計 §4.2

乃木坂46 東レアローズ

140 160 180 200 身長(cm)

グループ

身長比較

最 小 最 大 値 Q 0 , Q 4 , 四 分 位 点 Q 1 , Q 2 , Q 3

箱ひげ図を描く手順 高校 数学 I

Q 0 , Q 4 Q 1 ,Q 2 ,Q 3 と平均値 x を求める

Q 2 に縦線をいれる

Q 1 ,Q 3 を左右の端として箱を 描く

Q 0 ,Q 4 に短い縦線をいれ , 点線 のひげで箱とつなぐ

( 平均値に + 1 個描く ) ( 「外れ値を○で描く」 )

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 22 / 30

(23)

データの代表値と散布度 分散・標準偏差

ここまで来たよ

1 データの分布

2 データの代表値と散布度 中央値と四分位数 平均値

レンジ ( 範囲 ,range) ・四分位範囲 (IQR) 箱ひげ図

分散・標準偏差

(24)

データの代表値と散布度 分散・標準偏差

分散・標準偏差の定義 高校 数学 I 前園確率統計 §4.1(p.66)

データ : x 1 , x 2 , . . . , x N . 分散タイプの量の定義

データの分散 (variance)

S 2 = 1 N

N i=1

(x i x) 2

データの標準偏差 (standard deviation)=

S =

S 2 0

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 24 / 30

(25)

データの代表値と散布度 分散・標準偏差

( ) グループ (49 ) の身長 I

0 10 20 30

140 150 160 170 180

身長(cm)

度数(人)

乃木坂46(2017−09?)

N 1 = 49 1 で割りたくなった人もい るかも . ここは 49 OK

そのうちちゃんと区別を説明します . データの単位 ̸ = 分散の単位

平均値 x = 171+166+165+ ··· +151

49 = 158.7(cm) 分散 S 2 = (171−158.7) 2 +(166−158.7) 2 +···+(151−158.7) 2

49 = 17.7 (cm 2 ) 標準偏差 S =

17.7 = 4.21 (cm)

大注意 : 平均値 158.7 cm 159 160 に四捨五入すると ,

丸め誤差

に加えて

桁落ち

の危険 数値計算法

(26)

データの代表値と散布度 分散・標準偏差

ヒストグラムからの標準偏差の読み取り方

長方形なら幅の 0.3 倍くらい

度数分布表からの分散・標準偏差の求め方 高校 数学 I 前園確率統計なし

S 2 = N 1

j (x j x) 2 f j =

j (x ∑ j x) 2 f j j f j . 質点系の慣性モーメント I =

k

j=1 (x j x G ) 2 m j

j m j 力学

i 番目の質点の位置 x i , 質量 m j

分散の便利な ( こともある ) 計算方法 高校 数学 I 前園確率統計なし

S 2 = 1 N

N i=1

x 2 i (x) 2

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 26 / 30

(27)

データの代表値と散布度 分散・標準偏差

L02-Q5

Quiz(平均値・分散・標準偏差)

データ 87kg, 93kg, 89kg, 91kg, 90kg の平均値・分散・標準偏差を求め

よう .

(28)

データの代表値と散布度 分散・標準偏差

2017 年 6 月統計検定 3 級問 11 2017 年 6 月統計検定 3 級問 11

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 28 / 30

(29)

データの代表値と散布度 分散・標準偏差

2017 年 6 月統計検定 3 級問 11

(30)

データの代表値と散布度 分散・標準偏差

連絡

次回は 7-002 講義室

樋口オフィスアワー火昼 (1-539) 14:40-15:40(1-502), Math ラウン ジ月 - 木昼 (1-614)

Trial 予告

Learn Math Moodle の予習復習問題で来週の trial に備えてね . 来週は教科書 前園確率統計 § 4.3 読んできて

統計検定 . 2018-11-25. 10% ディスカウント団体受験受付中 , (–

2018-10-09 )

過去の 2 年生の受験体験記より

僕は、数学教員を目指しており、数学を専門にするなら統計学の知識はある程度つけておきたいと 思ったことと、いろいろと資格に挑戦しようと思い、3 級を受験しました。(略) また、僕は授業を受 ける前に検定を受けたのですが、2 年の後期に「確率統計及び演習 I」という授業があり、この授業 では 3 級や 2 級に出てくる公式や統計に関する知識を詳しく学ぶことができるので、この授業で検 定の対策にするのも良いと思います。(以下略)

樋口さぶろお (数理情報学科) L02 データの代表値と散布度 確率統計☆演習 I(2018) 30 / 30

参照

関連したドキュメント

・最頻値(モード)・・・資料の値の中で、もっとも多く現 れる値

度数分布表5:ヒストグラムの作成 † ヒストグラム:

データの分布

分散の応用 変動係数 標準得点 偏差値... 分散の応用 変動係数

樋口さぶろお (数理情報学科) L03 データのばらつきを表す値 確率統計☆演習 I(2016) 4 / 27.. ヒストグラムと箱ひげ図の用法 箱ひげ図は ,

統計量 値1 試行回数 平均値 中央値 最頻値 標準偏差 分散 歪度 尖度 変動 係数 最小範囲 最大範囲 範囲 標準誤差.. 中央値 最頻値 標準偏 差 分散

21 ・四分位範囲と四分位偏差 四分位範囲= 第3四分位数-第1四分位数 四分位偏差=(第3四分位数-第1四分位数)/2

データの広がり  分散