.
... データの位置を代表する値
樋口さぶろお
龍谷大学理工学部数理情報学科
使える統計
! L02(2012-10-03 Wed)
今日の目標. ..
1
中央値(median)
を,
データ全体,
度数分布表から求められる
.
..
2
最頻値(mode)
を,
データ全体,
度数分布表から求められる
.
3 ..
平均値(mean)
を,
データ全体,
度数分布表から求められる
http://hig3.net
樋口さぶろお
(数理情報学科) L02
データの位置を代表する値 使える統計!(2012)1 / 14
データの分布
Quiz
略解:
ヒストグラムと箱ひげ図0 20 40 60 80 100
V1 frequency
0 20 40 60 80 100
0.00.51.01.52.02.53.0
講評
区間の幅
(100 − 30)/7.6 ≈ 10.
切りのいい区間でいい. 30–39,40-49
って39.5
はどっちにはいるの?
以上以下未満などで端が一方だけに含まれるように注意
.
縦軸を明示しよう.
データの位置を代表する値
データを 1 個の値で代表させたい !
代表値
某国民的アイドル集団の身長はだいたい
150cm? 170cm 180cm?
判断のもとになる情報は
データ全体
(Quiz
の例: 30 50 55 55 60 70 70 70 75 100)
度数分布表(
某国民的アイドル集団の身長の例)
ヒストグラム
のいずれかで与えられる
.
階級 度数
145
より大きく150
以下7 150
より大きく155
以下17 155
より大きく160
以下29 160
より大きく165
以下19 165
より大きく170
以下4 170
より大きく175
以下1
合計
77
Dataset$V1frequency
145 150 155 160 165 170 175
051015202530
樋口さぶろお
(数理情報学科) L02
データの位置を代表する値 使える統計!(2012)3 / 14
データの位置を代表する値 中央値
中央値 =Q2=median
データ全体からの中央値の求め方
データ全体を小さい順に並べる
.
個数が奇数か偶数かに応じて 奇数個なら,
真ん中の値偶数個なら
,
真ん中の2
個の和/2
Quiz
の例(30 50 55 55 60 70 70 70 75 100)
だと65
データの位置を代表する値 中央値
度数分布表からの中央値の求め方
端から度数を加えていって
,
データの総数の半分を超えた階級の階級値 階級値=
階級の ( 上限値 + 下限値 )/2
階級 階級値 度数
145
より大きく150
以下147.5 7 150
より大きく155
以下17 155
より大きく160
以下29 160
より大きく165
以下19 165
より大きく170
以下4 170
より大きく175
以下1
合計
— 77
中央値のヒストグラム的意味
Dataset$V1
frequency
145 150 155 160 165 170 175
051015202530
自分の言葉でどうぞ
樋口さぶろお
(数理情報学科) L02
データの位置を代表する値 使える統計!(2012)5 / 14
データの位置を代表する値 最頻値
最頻値 =mode
データ全体からの最頻値の求め方‘
離散的な’
データのとき いちばん多く繰り返し現れる値Quiz
の例(30 50 55 55 60 70 70 70 75 100)
だと70
‘
連続的な’
データのとき 度数分布表で考えろ 度数分布表からの最頻値の求め方いちばん度数が大きい階級の階級値
階級 度数
145
より大きく150
以下7 150
より大きく155
以下17 155
より大きく160
以下29 160
より大きく165
以下19 165
より大きく170
以下4 170
より大きく175
以下1
合計
77
データの位置を代表する値 最頻値
最頻値のヒストグラム的意味
Dataset$V1
frequency
145 150 155 160 165 170 175
051015202530
自分の言葉でどうぞ
樋口さぶろお
(数理情報学科) L02
データの位置を代表する値 使える統計!(2012)7 / 14
データの位置を代表する値 平均値
平均値 =mean
代表値のなかでいちばんメジャー?
データ全体からの平均値の求め方 データのすべての値を加えて個数で割る
Quiz
の例(30 50 55 55 60 70 70 70 75 100)
だと63.5
度数分布表からの平均値の求め方
階級値
×
度数 をすべて加えて,
データの総数で割る.
階級 階級値 度数 階級値
×
度数145
より大きく150
以下7 1032.5 150
より大きく155
以下17 2592.5 155
より大きく160
以下29 4567.5 160
より大きく165
以下19 3087.5 165
より大きく170
以下4 670.0 170
より大きく175
以下1 172.5
合計
77 12507.5
平均値
=12122.5/77 = 155.4 · · · .
データの位置を代表する値 平均値
平均値のヒストグラム的意味
Dataset$V1
frequency
145 150 155 160 165 170 175
051015202530
重心 . あとは自分の言葉で
樋口さぶろお
(数理情報学科) L02
データの位置を代表する値 使える統計!(2012)9 / 14
データの位置を代表する値 平均値
. Quiz(平均値中央値最頻値) ..
次のヒストグラムから求めよう.
. ..
1
中央値.
2 ..
最頻値. ..
3
平均値frequency
10 15 20 25
0.00.51.01.52.02.53.0
データの位置を代表する値 いろんなへんな平均
いろんなへんな平均
例として データ全体: 2 5 9
を考えよう平均
=
算術平均=
うえでやったやつ(
相加平均a+b 2
の仲間) 2 + 5 + 9
3
幾何平均(
相乗平均√
ab
の仲間)
(2 × 5 × 9) 1/3
調和平均
1
1
2 + 1 5 + 1 9
その他に対数平均,
指数平均, . . .
けっきょく
,
どの量は互いに加えることができるか,
が問題樋口さぶろお
(数理情報学科) L02
データの位置を代表する値 使える統計!(2012)11 / 14
データの位置を代表する値 いろんなへんな平均
Excel で代表値 ( 中央値 , 最頻値 , 平均値 ), 度数分布表 , ヒストグラム Excel 2007
オフィスボタン
> Excel
のオプション>
アドイン>
管理> Excel
のアドイン>
設定 で分析ツールにチェックを入れる.
データ
>
分析>
データ分析 の基本統計量,
ヒストグラム を使う.
データや階級の境目の値を入力したセル範囲を指定する.
関数
avarage(
平均値), median(
中央値), mode(
最頻値)
も使える. e
ラーニングシステムhttps://r-els.media.ryukoku.ac.jp/
Excel
入門コースhttps:
//r-els.media.ryukoku.ac.jp/course/view.php?id=950
情報リテラシー講座http:
//www.seta.media.ryukoku.ac.jp/literacy/literacy.html
データの位置を代表する値 いろんなへんな平均
. Quiz ..
...
e
ラーニングシステムの演習問題で,
ダウンロードできるデータからExcel
で平均値を求めてみよう.
度数分布表とヒストグラムを作ってみよう. . Quiz
..
...e
ラーニングシステムにあるQuiz
をやろう. .
課題(
任意)
..
...
リメディアルコース統計学
https://r-els.media.ryukoku.ac.jp/file.php/945/HTML-UTF8/
テキスト
1-1, 4-3,
修了テスト第4
章をやろう.
樋口さぶろお
(数理情報学科) L02
データの位置を代表する値 使える統計!(2012)13 / 14
データの位置を代表する値 いろんなへんな平均
連絡
今週は授業内で紙を提出はありませんe
ラーニングシステムでファイルを提出+ Quiz
に回答 今回は必須の‘
宿題’
はありません.
来週は分散と標準偏差やります
.
余裕ある人はe
ラーニングシステ ムhttps://r-els.media.ryukoku.ac.jp/ >
リメディアル統計学>
標準偏差で予習しておこう.
加減乗除と平方根