• 検索結果がありません。

データの代表値

N/A
N/A
Protected

Academic year: 2021

シェア "データの代表値"

Copied!
20
0
0

読み込み中.... (全文を見る)

全文

(1)

データの代表値

樋口さぶろお

龍谷大学理工学部数理情報学科

確率統計☆演習 I L02(2015-09-25 Fri)

最終更新: Time-stamp: ”2015-09-26 Sat 10:35 JST hig”

今日の目標

データから 手で平均値 , 離散データの最頻値 ,

ヒストグラムの最頻値が求められる

(2)

データの代表値

代表値 : データを 1 個の値で代表させたい !

代表値某国民的アイドル集団の身長はだいたい 150cm? 170cm?

データ全体 148 152 . . . 170

階級 度数

fj

145

より大きく

150

以下

7 150

より大きく

155

以下

17 155

より大きく

160

以下

29 160

より大きく

165

以下

19 165

より大きく

170

以下

4 170

より大きく

175

以下

1

合計

77

身長の分布

身長(cm)

度数

145 150 155 160 165 170 175

051015202530

(3)

データの代表値 中央値と四分位値

ここまで来たよ

1

データの代表値

中央値と四分位値

最頻値と平均値

( 高校レベル ) 箱ひげ図

(4)

データの代表値 中央値と四分位値

中央値 (median) と四分位数 (quantile) データ (1), (2), . . . , (n) を小さい順に並び替えたものを , y

1

y

2

≤ · · · ≤ y

n

とする .

データ全体 : 9 17 9 12 13 10 15 13 13 12 11 y: 9 9 10 11 12 12 13 13 13 15 17

i y 051015

順にならべる

i

y 051015

(5)

データの代表値 中央値と四分位値

四分位数のアバウトな定義 最小値 Q

0

= y

1

y

0

4n

第 1 四分位数 Q

1

= y

1 4n

第 2 四分位数 Q

2

= y

2

4n

= 中央値

第 3 四分位数 Q

3

= y

3 4n

最大値 Q

4

= y

4

4n

y 51015

(6)

データの代表値 中央値と四分位値

四分位数の正確な定義 Q

0

, Q

4

さっきのまま .

Q

2

=

 

  y

1

2(n+1)

=

真ん中の値

(n が奇 )

1 2

(y

1

2n

+ y

1

2n+1

) =

真ん中 2 個の和 /2

(n が偶 ) Q

1

は , Q

2

より前にあるデータの (Q

2

自身は除く ) の中央値 Q

2

Q

3

は , Q

2

より後にあるデータの (Q

2

自身は除く ) の中央値 Q

2

ちょっと変えた例 : y 10 11 12 12 13 13 13 15 17

(7)

データの代表値 中央値と四分位値

度数分布表からの中央値と四分位値の ( だいたいの ) 求め方 階級値 = 階級の ( 上限値 + 下限値 )/2

階級 階級値

mj

度数

fj

145

より大きく

150

以下

147.5 7 150

より大きく

155

以下

17 155

より大きく

160

以下

29 160

より大きく

165

以下

19 165

より大きく

170

以下

4

合計

n — 77

自分の言葉でどうぞ

(8)

データの代表値 中央値と四分位値

中央値・四分位値のヒストグラム的意味

身長の分布

身長(cm)

度数

145 150 155 160 165 170 175

051015202530

自分の言葉でどう ぞ

i y 051015

yの分布

y

度数

8.5 10.5 12.5 14.5 16.5

0 1 2 3 4 5

(9)

データの代表値 中央値と四分位値

L02-Q1

Quiz(四分位値)

次のデータの四分位数 Q

1

, Q

2

, Q

3

を求めよう .

17 18 16 18 25 18 14 14 15

(10)

データの代表値 最頻値と平均値

ここまで来たよ

1

データの代表値

中央値と四分位値

最頻値と平均値

( 高校レベル ) 箱ひげ図

(11)

データの代表値 最頻値と平均値

最頻値 =mode

最頻値の定義

離散データの最頻値 : ‘ 離散的な ’ データのとき いちばん多く繰り返 し現れる値

ヒストグラムの最頻値 : ‘ 連続的または離散的な ’ データのとき 度数 分布表 / ヒストグラムで , 度数最大の階級の階級値

離散的な例 1(30 50 55 55 60 70 70 70 75 100) だと

70

ヒストグラムの最頻値の求め方

階級 度数

fj

145

より大きく

150

以下

7 150

より大きく

155

以下

17 155

より大きく

160

以下

29 160

より大きく

165

以下

19 165

より大きく

170

以下

4

ヒストグラムの最頻値の意味

身長の分布

度数51015202530

自分の言葉でどうぞ

(12)

データの代表値 最頻値と平均値

平均値 =mean

平均値の定義

平均値 x = 1 n

n i=1

x

i

x のかわりに m, m

x

などという記号もある . 例 1: 30 50 55 55 60 70 70 70 75 100 だと

63.5

平均値より中央値のいい点

自分の言葉で *0.4

(13)

データの代表値 最頻値と平均値

度数分布表からの平均値の ( だいたいの ) 求め方

m 1 n

k j=1

m

j

f

j

階級 階級値

mj

度数

fj mj×fj

145

より大きく

150

以下

7 1032.5 ...

170

より大きく

175

以下

1 172.5

合計

77 12122.5

平均値 =12122.5/77

平均値のヒストグラム的意味

身長の分布

度数

1015202530

x

G

=

imixi

imi

で , m

i

= 1. 力学

重心 . あとは自分の言葉で *0.4

(14)

データの代表値 最頻値と平均値

L02-Q2

Quiz(代表値) 次のデータを考える .

14, 14, 15, 16, 18, 18, 18, 25

1

四分位数 Q

1

, Q

2

, Q

3

を求めよう .

2

( 離散データの ) 最頻値を求めよう

3

平均値を求めよう

(15)

データの代表値 最頻値と平均値

L02-Q3

(16)

データの代表値 最頻値と平均値

Quiz( 平均値中央値最頻値 ) 次のヒストグラムから求めよう .

1

中央値

2

( ヒストグラムの ) 最頻値

3

平均値

Dataset$V1

frequency

10 15 20 25

0.00.51.01.52.02.53.0

(17)

データの代表値

(高校レベル)

箱ひげ図

ここまで来たよ

1

データの代表値

中央値と四分位値

最頻値と平均値

( 高校レベル ) 箱ひげ図

(18)

データの代表値

(高校レベル)

箱ひげ図

箱ひげ図 (Box Plot)

150 155 160 165 170

某アイドル集団の身長の分布

身長(cm)

某アイドル集団

最 小 最 大 値 Q

0

, Q

4

, 四 分 位 点 Q

1

, Q

2

, Q

3

高校レベル箱ひげ図を描く手順 Q

0

, Q

4

Q

1

,Q

2

,Q

3

と平均値 m を求める

Q

2

に縦線をいれる

Q

1

,Q

3

を左右の端として箱を 描く

Q

0

,Q

4

に短い縦線をいれ , 点線 のひげで箱とつなぐ

平均値に + を 1 個描く

いまの場合 , 横軸 : 身長 (cm), 縦軸 : 意

味なし

(19)

データの代表値

(高校レベル)

箱ひげ図

L02-Q4

Quiz(箱ひげ図)

下の 1 変量データについて , 3 つの四分位点を求め , 箱ひげ図を描こう .

2 8 10 11 12 12 12 14 15

(20)

データの代表値

(高校レベル)

箱ひげ図

連絡

次回は 7-002 講義室

配布資料は 1-503 向かいの引出 , http://hig3.net で再配布してい ます .

加減乗除と平方根 ( ルート ) の使える電卓持ってきてね . 関数電卓で なくてもいいです . 携帯電話の機能・アプリでもかまいません . 最初のころはいろいろ変更あるかも . メールに注意 .

週のタイムラインで見たように , 非参照 Quiz 予習問題を RaMMoodle に金 17:00 ごろまでに公開 . これで来週の Quiz に備えてね .

統計検定 申込締切 2015-10-16 , 受験 2015-11-29 . 3 or 2 .

オフィスアワー月 4 金 6(1-502)

参照

関連したドキュメント

議論を深めるための参 考値を踏まえて、参考 値を実現するための各 電源の課題が克服さ れた場合のシナリオ

ぎり︑第三文の効力について疑問を唱えるものは見当たらないのは︑実質的には右のような理由によるものと思われ

用できます (Figure 2 および 60 参照 ) 。この回路は優れ た効率を示します (Figure 58 および 59 参照 ) 。そのよ うなアプリケーションの代表例として、 Vbulk

LUNA 上に図、表、数式などを含んだ問題と回答を LUNA の画面上に同一で表示する機能の必要性 などについての意見があった。そのため、 LUNA

音響域振動計測を行う。非対策船との比較検証ができないため、ここでは、浮床対策を施し た公室(Poop Deck P-1

それらのデータについて作成した散布図を図 15.16 に、マルチビームソナー測深を基準に した場合の精度に関する統計量を表 15.2 に示した。決定係数は 0.977