.
... データの分布
樋口さぶろお
龍谷大学理工学部数理情報学科
使える統計 ! L01(2012-09-26 Wed)
今日の目標 .
..
1 1 変数量的データから箱ひげ図が描ける .
..
2 1 変数量的データから度数分布表が作れる .
3 .. 1 変数量的データからヒストグラムが描ける
はじめに
この授業ののり
本名生活の中の統計技術
知るというより , できることが目標の科目です .
成績計算面倒な科目かも…科目の成績 100 ピーナッツは
20 ピーナッツ /14 回授業での活動 . 演習 , 携帯で投稿 , 自宅で予習復 習 , など毎回内容は違うので , 先週と違う , ってのは言いっこなしで . ただし配点の大きいことをやるときは十分事前に言います .
30 ピーナッツ : プチテスト ( 予定日 2012-11-14)
50 ピーナッツ : ファイナルトライアル ( 予定日 2013-01-23) 現在の点数は e ラーニングサイトで見られるようになる予定 .
欠席届ピーナッツ的に考慮されたい場合は , 専用用紙に事情を説明する書 類を貼って , 授業前後各 5 分に提出 ( 事前事後とも可 . ファイナルトライ アルが締切 ). 欠席に事前連絡は不要 . 何回欠席しても期末試験受験資格 を失うことはありません .
樋口さぶろお
(数理情報学科) L01
データの分布 使える統計!(2012)2 / 16
はじめに
授業のページ http://hig3.net > ( 左コラム ) 樋口の 2012 年度の授業
> 生活の中の統計技術 . e ラーニングシステムにもページがあります .
オフィスアワー火 6, 木 6(1 号館 5 階 1-502). 月金昼も在室時は訪問歓迎 .
お弁当可 .
データの分布
1 変数の量的データ
某アイドル集団 (77 名 )+ 某バレーボール選手 (1 名 ) の身長のデータ . 148cm
148.5cm 149cm .. . 185cm
ps3id_raicho_1182 さん(最終更新日時 :2012/3/20 )投稿日:
2012/2/15 AKB48 身長 まとめ(研究生は 12.5 期まで)
http://note.chiebukuro.yahoo.co.jp/detail/n32745
このコースの最後までいくと問えること ( 正確な表現ではありません ) オーディションにおいて , 身長は考慮されているか ?
チーム編成において , 身長は考慮されているか ? .. .
自分の専攻分野に置きかえてみると ?
樋口さぶろお
(数理情報学科) L01
データの分布 使える統計!(2012)4 / 16
データの分布
ストリップチャート データを図解して直観的につかもう !
150 160 170 180
V1
横軸 : 身長 (cm)
ドット 1 個 = データ 1 個 . ぴったり重なったら上に積み重ねていく .
データの分布
箱ひげ図 (Box Plot)
150 160 170 180
V1
横軸 : 身長 (cm)
樋口さぶろお
(数理情報学科) L01
データの分布 使える統計!(2012)6 / 16
データの分布
箱ひげ図の描き方
データを小さい順に並べる . 中央値 (median)
Q2 データが奇数個なら真ん中の値 . データが偶数個なら
真ん中 2 個の和を 2 で割ったもの
. 四分位点 (quartile)
Q2 ( 第 2 四分位点 = 中央値 ) 下から 2/4 の値 . Q1 ( 第 1 四分位点 ) 下から 1/4 の値 .
Q3 ( 第 3 四分位点 ) 下から 3/4 の値 . 割り切れなかったら…面倒 .
Q1,Q3 の略式な求め方 ( ヒンジ ): 中央値とそれより小さい ( 大きい ) デー
タの中央値 .
データの分布
四分位範囲 (interquartile range) Q3 − Q1
外れ値 (outliner)
▶ Q1 から下に , 四分位範囲の 1.5 倍以上離れたデータ
▶ Q3 から上に , 四分位範囲の 1.5 倍以上離れたデータ 手順
Q1 から Q3 まで箱を描く Q2 に縦線をいれる
外れ値を除いた最大値 , 最小値までひげを描く 外れ値を ◦ で描く
樋口さぶろお
(数理情報学科) L01
データの分布 使える統計!(2012)8 / 16
データの分布
度数分布表の作り方
データの個数 = n
階級の個数 =1 + log 2 n = 1 + 3.3 × データの個数の桁数 くらい 最大値と最小値の差 を , この個数にわける
きりのよい階級幅に調節してよい
階級 度数 相対度数
145
より大きく150
以下7 0.09 150
より大きく155
以下17 0.22 155
より大きく160
以下29 0.37 160
より大きく165
以下19 0.24 165
より大きく170
以下4 0.05 170
より大きく175
以下1 0.01 175
より大きく180
以下0 0.00 180
より大きく185
以下1 0.01
合計
78 1.00
データの分布
外れ値は除いて作るほうがいい場合も…
階級の幅は一定で
自分の言葉でどうぞ
▶ 以下, 以上, 未満=より小さい, より大きい 相対度数 = 度数 / データの個数 (% で書くことも ) Excel では frequency 関数
樋口さぶろお
(数理情報学科) L01
データの分布 使える統計!(2012)10 / 16
データの分布
ヒストグラム
Dataset$V1
frequency
150 160 170 180
051015202530
‘ 度数分布表を棒グラフにしたもの ’ 階級の個数 : 見やすければそれが正義
▶ 階級の幅=超大きい ⇝ 長方形 1 個
▶ 階級の幅=極小さい ⇝
ストリップチャート
階級の取り方で印象はずいぶん変わっちゃう…
一般論としてはヒストグラムのほうが箱ひげ図より多くの情報を
データの分布
ヒストグラムと箱ひげ図の対応
. Quiz( ヒストグラムと箱ひげ図 ) ..
...
このヒストグラムに対応する箱ひげ図はどれ ?
frequency
0 2 4 6 8 10
051015
樋口さぶろお
(数理情報学科) L01
データの分布 使える統計!(2012)12 / 16
データの分布
ヒストグラムと箱ひげ図の対応 . Quiz( ヒストグラムと箱ひげ図 )
.. このヒストグラムに対応する箱ひげ図はどれ ?
frequency
0 2 4 6 8 10
051015
右に歪んだ分布
データの分布
ヒストグラムと箱ひげ図の対応 . Quiz( ヒストグラムと箱ひげ図の対応 )
..
...
この箱ひげ図に対応するヒストグラムはどれ ?
0 2 4 6 8 10
frequency
0 2 4 6 8 10
012345 frequency
0 2 4 6 8 10
012345 Frequency
0 2 4 6 8 10
01234 Frequency
0 2 4 6 8 10
01234
箱ひげ図のほうが情報が少ない
樋口さぶろお
(数理情報学科) L01
データの分布 使える統計!(2012)14 / 16
データの分布
ヒストグラムと箱ひげ図を描こう
. Quiz( ヒストグラムと箱ひげ図を描こう ) ..
...
次のデータから , 箱ひげ図とヒストグラムと描こう 14 14 15 16 18 18 18 25
. Quiz( ヒストグラムと箱ひげ図 ) ..
...
次のデータから , 箱ひげ図とヒストグラムと描こう
30 50 55 55 60 70 70 70 75 100
データの分布
連絡 今週は授業内で紙を 1 枚提出 今回は必須の ‘ 宿題 ’ はありません .
来週は平均 ( と分散 ?) やります . 余裕ある人は e ラーニングシステム https://r-els.media.ryukoku.ac.jp/ > リメディアル統計学 >
平均 で予習しておこう .
来週からは , 加減乗除と平方根 ( ルート ) の使える電卓持ってきてね . 関数電卓でなくてもいいです . 携帯電話の機能・アプリでもかまい ません .
学期初めなので急な教室変更があるかも . 掲示やメールに注意 .
樋口さぶろお