.
... データの位置を代表する値
樋口さぶろお
龍谷大学理工学部数理情報学科
使える統計
! L02(2013-10-02 Wed)
今日の目標. ..
1
中央値(median)
を,
データ全体,
度数分布表から求められる
.
..
2
最頻値(mode)
を,
データ全体,
度数分布表から求められる
.
3 ..
平均値(mean)
を,
データ全体,
度数分布表から求められる
http://hig3.net
復習:データの分布 ヒストグラムと箱ひげ図の対応
ここまで来たよ
.
1 ..
復習:
データの分布ヒストグラムと箱ひげ図の対応
2 ...
データの位置を代表する値 中央値中央値 最頻値 平均値
Excel
で代表値and more
復習:データの分布 ヒストグラムと箱ひげ図の対応
箱ひげ図の描き方をもう一度ちょっと違う言葉で
復習:データの分布 ヒストグラムと箱ひげ図の対応
L01-Q5
Quiz
解答:
ヒストグラムと箱ひげ図.
1 .. Q2= (60 + 70)/2 = 65.
Q1
は30 50 55 55 60
の中央値なので55.
Q3
は70 70 70 75 100
の中央値なので70.
Q3 − Q1 = 15. 15 × 1.5 = 22.5 (
これは描かない).
55 − 22.5
以下や, 75 + 22.5
以上の値は外れ値.
0 20 40 60 80 100
V1
復習:データの分布 ヒストグラムと箱ひげ図の対応
.
2 ..
表: (
以下か未満かで変わる),
ヒストグラム階級 度数 相対度数
30
以上40
未満1 0.1
40
以上50
未満3 0.3
50
以上60
未満1 0.1
60
以上70
未満4 0.4
70
以上80
未満0 0.0
80
以上90
未満0 0.0
90
以上100
未満0 0.0
100
以上110
未満1 0.1
合計
10 1.00
.
3 ..
Histogram of d
d
frequency
20 40 60 80 100 120
01234
復習:データの分布 ヒストグラムと箱ひげ図の対応
Q1
. Quiz(
ヒストグラムと箱ひげ図) ..
...
このヒストグラムに対応する箱ひげ図はどれ
?
frequency
0 2 4 6 8 10
051015
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
復習:データの分布 ヒストグラムと箱ひげ図の対応
Q2
右に歪んだ分布
. Quiz(
ヒストグラムと箱ひげ図) ..
...
このヒストグラムに対応する箱ひげ図はどれ
?
frequency
0 2 4 6 8 10
051015
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
復習:データの分布 ヒストグラムと箱ひげ図の対応
Q3
箱ひげ図のほうが情報が少ない
. Quiz(
ヒストグラムと箱ひげ図の対応) ..
...
この箱ひげ図に対応するヒストグラムはどれ
?
0 2 4 6 8 10
Frequency
0 2 4 6 8 10
01234 Frequency
0 2 4 6 8 10
01234 Frequency
0 2 4 6 8 10
01234 Frequency
0 2 4 6 8 10
01234
データの位置を代表する値 中央値
ここまで来たよ
1 ...
復習:
データの分布ヒストグラムと箱ひげ図の対応
.
2 ..
データの位置を代表する値 中央値中央値 最頻値 平均値
Excel
で代表値and more
データの位置を代表する値 中央値
データを 1 個の値で代表させたい !
代表値
某国民的アイドル集団の身長はだいたい
150cm? 170cm 180cm?
判断のもとになる情報は
データ全体
(Quiz
の例: 30 50 55 55 60 70 70 70 75 100)
度数分布表(
某国民的アイドル集団の身長の例)
ヒストグラム
のいずれかで与えられる
.
階級 度数
145
より大きく150
以下7 150
より大きく155
以下17 155
より大きく160
以下29 160
より大きく165
以下19 165
より大きく170
以下4 170
より大きく175
以下1
合計
77
Dataset$V1frequency
145 150 155 160 165 170 175
051015202530
データの位置を代表する値 中央値
ここまで来たよ
1 ...
復習:
データの分布ヒストグラムと箱ひげ図の対応
.
2 ..
データの位置を代表する値 中央値中央値 最頻値 平均値
Excel
で代表値and more
データの位置を代表する値 中央値
中央値 (median)=Q2
データ全体からの中央値の求め方
(
復習)
データ全体を小さい順に並べる
.
個数が奇数か偶数かに応じて 奇数個なら,
真ん中の値偶数個なら
,
真ん中の2
個の和/2
Quiz
の例(30 50 55 55 60 70 70 70 75 100)
だと65
データの位置を代表する値 中央値
度数分布表からの中央値の
(
だいたいの)
求め方端から度数を加えていって
,
データの総数の半分を超えた階級の階級値 階級値=
階級の ( 上限値 + 下限値 )/2
階級 階級値 度数
145
より大きく150
以下147.5 7 150
より大きく155
以下17 155
より大きく160
以下29 160
より大きく165
以下19 165
より大きく170
以下4 170
より大きく175
以下1
合計
— 77
中央値のヒストグラム的意味
frequency
145 150 155 160 165 170 175
051015202530
自分の言葉でどうぞ
樋口さぶろお
(数理情報学科) L02
データの位置を代表する値 使える統計!(2013)13 / 24
データの位置を代表する値 最頻値
ここまで来たよ
1 ...
復習:
データの分布ヒストグラムと箱ひげ図の対応
.
2 ..
データの位置を代表する値 中央値中央値 最頻値 平均値
Excel
で代表値and more
データの位置を代表する値 最頻値
最頻値 =mode
データ全体からの最頻値の求め方‘
離散的な’
データのとき いちばん多く繰り返し現れる値Quiz
の例(30 50 55 55 60 70 70 70 75 100)
だと70
‘
連続的な’
データのとき 度数分布表で考えろ 度数分布表からの‘
最頻値’
の(
だいたいの)
求め方 いちばん度数が大きい階級の階級値階級 度数
145
より大きく150
以下7 150
より大きく155
以下17 155
より大きく160
以下29 160
より大きく165
以下19 165
より大きく170
以下4 170
より大きく175
以下1
合計
77
データの位置を代表する値 最頻値
最頻値のヒストグラム的意味
Dataset$V1
frequency
145 150 155 160 165 170 175
051015202530
自分の言葉でどうぞ
データの位置を代表する値 平均値
ここまで来たよ
1 ...
復習:
データの分布ヒストグラムと箱ひげ図の対応
.
2 ..
データの位置を代表する値 中央値中央値 最頻値 平均値
Excel
で代表値and more
データの位置を代表する値 平均値
平均値 =mean
代表値のなかでいちばんメジャー?
データ全体からの平均値の求め方 データのすべての値を加えて個数で割る
Quiz
の例(30 50 55 55 60 70 70 70 75 100)
だと63.5
度数分布表からの平均値の
(
だいたいの)
求め方 階級値×
度数 をすべて加えて,
データの総数で割る.
階級 階級値 度数 階級値
×
度数145
より大きく150
以下7 1032.5 150
より大きく155
以下17 2592.5 155
より大きく160
以下29 4567.5 160
より大きく165
以下19 3087.5 165
より大きく170
以下4 670.0 170
より大きく175
以下1 172.5
合計
77 12507.5
平均値
=12122.5/77 = 155.4 · · · .
データの位置を代表する値 平均値
平均値のヒストグラム的意味
Dataset$V1
frequency
145 150 155 160 165 170 175
051015202530
重心 . あとは自分の言葉で
データの位置を代表する値 平均値
. Quiz(平均値中央値最頻値) ..
...
次のヒストグラムから求めよう
. .
..
1
中央値.
2 ..
最頻値. ..
3
平均値Dataset$V1
frequency
10 15 20 25
0.00.51.01.52.02.53.0
樋口さぶろお
(数理情報学科) L02
データの位置を代表する値 使える統計!(2013)20 / 24
データの位置を代表する値
Excel
で代表値and more
ここまで来たよ
1 ...
復習:
データの分布ヒストグラムと箱ひげ図の対応
.
2 ..
データの位置を代表する値 中央値中央値 最頻値 平均値
Excel
で代表値and more
データの位置を代表する値
Excel
で代表値and more
Excel で代表値 ( 中央値 , 最頻値 , 平均値 ), 度数分布表 , ヒストグラム
スタートボタン
>Excel 2007
オフィスボタン
> Excel
のオプション>
アドイン>
管理> Excel
のアドイン>
設定 で分析ツールにチェックを入れる.
データ
>
分析>
データ分析 の基本統計量,
ヒストグラム を使う.
データや階級の境目の値を入力したセル範囲を指定する.
関数
avarage(
平均値), median(
中央値), mode(
最頻値)
も使える. e
ラーニングシステムMoodle
https://moodle.media.ryukoku.ac.jp/
Excel
入門コースhttps:
//moodle.media.ryukoku.ac.jp/course/view.php?id=950
情報リテラシー講座http:
//www.seta.media.ryukoku.ac.jp/literacy/literacy.html
データの位置を代表する値
Excel
で代表値and more
. Quiz ..
...
e
ラーニングシステムhttps://moodle.media.ryukoku.ac.jp/
で,
ダ ウンロードできるデータからExcel
で平均値を求めてみよう.
度数分布表 とヒストグラムを作ってみよう. →
課題としてファイルを提出. Quiz ..
...
e
ラーニングシステムhttps://moodle.media.ryukoku.ac.jp/
にあるQuiz L02
をやろう.
.
課題(
任意) ..
...
e
ラーニングシステムのリメディアルコース統計学https://moodle.media.ryukoku.ac.jp/course/view.php?id=1140
テキスト
1-1, 4-3,
修了テスト第4
章をやろう.
データの位置を代表する値
Excel
で代表値and more
連絡
今週は授業内で紙を提出はありませんe
ラーニングシステムでファイルを提出+ Quiz
に回答 今回は必須の‘
宿題’
はありません.
来週は分散と標準偏差やります
.
余裕ある人はe
ラーニングシステ ムhttps://moodle.media.ryukoku.ac.jp/ >
リメディアル統計 学>
標準偏差で予習しておこう.
加減乗除と平方根