• 検索結果がありません。

データの分布

N/A
N/A
Protected

Academic year: 2021

シェア "データの分布"

Copied!
16
0
0

読み込み中.... (全文を見る)

全文

(1)

.

... データの分布

樋口さぶろお

龍谷大学理工学部数理情報学科

使える統計 ! L01(2012-09-26 Wed)

今日の目標 .

..

1 1 変数量的データから箱ひげ図が描ける .

..

2 1 変数量的データから度数分布表が作れる .

3 .. 1 変数量的データからヒストグラムが描ける

(2)

はじめに

この授業ののり

本名生活の中の統計技術

知るというより , できることが目標の科目です .

成績計算面倒な科目かも…科目の成績 100 ピーナッツは

20 ピーナッツ /14 回授業での活動 . 演習 , 携帯で投稿 , 自宅で予習復 習 , など毎回内容は違うので , 先週と違う , ってのは言いっこなしで . ただし配点の大きいことをやるときは十分事前に言います .

30 ピーナッツ : プチテスト ( 予定日 2012-11-14)

50 ピーナッツ : ファイナルトライアル ( 予定日 2013-01-23) 現在の点数は e ラーニングサイトで見られるようになる予定 .

欠席届ピーナッツ的に考慮されたい場合は , 専用用紙に事情を説明する書 類を貼って , 授業前後各 5 分に提出 ( 事前事後とも可 . ファイナルトライ アルが締切 ). 欠席に事前連絡は不要 . 何回欠席しても期末試験受験資格 を失うことはありません .

樋口さぶろお

(数理情報学科) L01

データの分布 使える統計!(2012)

2 / 16

(3)

はじめに

授業のページ http://hig3.net > ( 左コラム ) 樋口の 2012 年度の授業

> 生活の中の統計技術 . e ラーニングシステムにもページがあります .

オフィスアワー火 6, 木 6(1 号館 5 階 1-502). 月金昼も在室時は訪問歓迎 .

お弁当可 .

(4)

データの分布

1 変数の量的データ

某アイドル集団 (77 )+ 某バレーボール選手 (1 ) の身長のデータ . 148cm

148.5cm 149cm .. . 185cm

ps3id_raicho_1182 さん(最終更新日時 :2012/3/20 )投稿日:

2012/2/15 AKB48  身長 まとめ(研究生は 12.5 期まで)

http://note.chiebukuro.yahoo.co.jp/detail/n32745

このコースの最後までいくと問えること ( 正確な表現ではありません ) オーディションにおいて , 身長は考慮されているか ?

チーム編成において , 身長は考慮されているか ? .. .

自分の専攻分野に置きかえてみると ?

樋口さぶろお

(数理情報学科) L01

データの分布 使える統計!(2012)

4 / 16

(5)

データの分布

ストリップチャート データを図解して直観的につかもう !

150 160 170 180

V1

横軸 : 身長 (cm)

ドット 1 個 = データ 1 個 . ぴったり重なったら上に積み重ねていく .

(6)

データの分布

箱ひげ図 (Box Plot)

150 160 170 180

V1

横軸 : 身長 (cm)

樋口さぶろお

(数理情報学科) L01

データの分布 使える統計!(2012)

6 / 16

(7)

データの分布

箱ひげ図の描き方

データを小さい順に並べる . 中央値 (median)

Q2 データが奇数個なら真ん中の値 . データが偶数個なら

真ん中 2 個の和を 2 で割ったもの

. 四分位点 (quartile)

Q2 ( 第 2 四分位点 = 中央値 ) 下から 2/4 の値 . Q1 ( 第 1 四分位点 ) 下から 1/4 の値 .

Q3 ( 3 四分位点 ) 下から 3/4 の値 . 割り切れなかったら…面倒 .

Q1,Q3 の略式な求め方 ( ヒンジ ): 中央値とそれより小さい ( 大きい ) デー

タの中央値 .

(8)

データの分布

四分位範囲 (interquartile range) Q3 Q1

外れ値 (outliner)

▶ Q1 から下に , 四分位範囲の 1.5 倍以上離れたデータ

▶ Q3 から上に , 四分位範囲の 1.5 倍以上離れたデータ 手順

Q1 から Q3 まで箱を描く Q2 に縦線をいれる

外れ値を除いた最大値 , 最小値までひげを描く 外れ値を で描く

樋口さぶろお

(数理情報学科) L01

データの分布 使える統計!(2012)

8 / 16

(9)

データの分布

度数分布表の作り方

データの個数 = n

階級の個数 =1 + log 2 n = 1 + 3.3 × データの個数の桁数 くらい 最大値と最小値の差 を , この個数にわける

きりのよい階級幅に調節してよい

階級 度数 相対度数

145

より大きく

150

以下

7 0.09 150

より大きく

155

以下

17 0.22 155

より大きく

160

以下

29 0.37 160

より大きく

165

以下

19 0.24 165

より大きく

170

以下

4 0.05 170

より大きく

175

以下

1 0.01 175

より大きく

180

以下

0 0.00 180

より大きく

185

以下

1 0.01

合計

78 1.00

(10)

データの分布

外れ値は除いて作るほうがいい場合も…

階級の幅は一定で

自分の言葉でどうぞ

▶ 以下, 以上, 未満=より小さい, より大きい 相対度数 = 度数 / データの個数 (% で書くことも ) Excel では frequency 関数

樋口さぶろお

(数理情報学科) L01

データの分布 使える統計!(2012)

10 / 16

(11)

データの分布

ヒストグラム

Dataset$V1

frequency

150 160 170 180

051015202530

‘ 度数分布表を棒グラフにしたもの ’ 階級の個数 : 見やすければそれが正義

▶ 階級の幅=超大きい ⇝ 長方形 1 個

▶ 階級の幅=極小さい ⇝

ストリップチャート

階級の取り方で印象はずいぶん変わっちゃう…

一般論としてはヒストグラムのほうが箱ひげ図より多くの情報を

(12)

データの分布

ヒストグラムと箱ひげ図の対応

. Quiz( ヒストグラムと箱ひげ図 ) ..

...

このヒストグラムに対応する箱ひげ図はどれ ?

frequency

0 2 4 6 8 10

051015

樋口さぶろお

(数理情報学科) L01

データの分布 使える統計!(2012)

12 / 16

(13)

データの分布

ヒストグラムと箱ひげ図の対応 . Quiz( ヒストグラムと箱ひげ図 )

.. このヒストグラムに対応する箱ひげ図はどれ ?

frequency

0 2 4 6 8 10

051015

右に歪んだ分布

(14)

データの分布

ヒストグラムと箱ひげ図の対応 . Quiz( ヒストグラムと箱ひげ図の対応 )

..

...

この箱ひげ図に対応するヒストグラムはどれ ?

0 2 4 6 8 10

frequency

0 2 4 6 8 10

012345 frequency

0 2 4 6 8 10

012345 Frequency

0 2 4 6 8 10

01234 Frequency

0 2 4 6 8 10

01234

箱ひげ図のほうが情報が少ない

樋口さぶろお

(数理情報学科) L01

データの分布 使える統計!(2012)

14 / 16

(15)

データの分布

ヒストグラムと箱ひげ図を描こう

. Quiz( ヒストグラムと箱ひげ図を描こう ) ..

...

次のデータから , 箱ひげ図とヒストグラムと描こう 14 14 15 16 18 18 18 25

. Quiz( ヒストグラムと箱ひげ図 ) ..

...

次のデータから , 箱ひげ図とヒストグラムと描こう

30 50 55 55 60 70 70 70 75 100

(16)

データの分布

連絡 今週は授業内で紙を 1 枚提出 今回は必須の ‘ 宿題 ’ はありません .

来週は平均 ( と分散 ?) やります . 余裕ある人は e ラーニングシステム https://r-els.media.ryukoku.ac.jp/ > リメディアル統計学 >

平均 で予習しておこう .

来週からは , 加減乗除と平方根 ( ルート ) の使える電卓持ってきてね . 関数電卓でなくてもいいです . 携帯電話の機能・アプリでもかまい ません .

学期初めなので急な教室変更があるかも . 掲示やメールに注意 .

樋口さぶろお

(数理情報学科) L01

データの分布 使える統計!(2012)

16 / 16

参照

関連したドキュメント

データの種類 データは大きく分けて2種類 • 質的データ(category

樋口さぶろお (数理情報学科) L01 受験者データの点数分布, 点数と順位 生活の中の統計技術 (2018) 5 / 22.. はじめに

10 ピーナッツ : 授業時間外の予習復習 ( 授業後に e ラーニングサイト ReLS で表示される問題に解答. ファイナルトライ

久保拓弥 データ解析のための統計モデリング入門 , 2012, 岩波書店 成績計算.. 平常点 30 ピーナッツ プチテスト 30 ピーナッツ レポート

予習問題は , 次々回の授業直前 を締切 ( そこまでの最高点を記録 )

予習問題は , 次々回の授業直前 を締切 ( そこまでの最高点を記録 )

久保拓弥 データ解析のための統計モデリング入門 , 2012, 岩波書店 成績計算.. 平常点 30 ピーナッツ プチテスト 30 ピーナッツ レポート

30 ピーナッツ : 毎回授業での quiz, 授業時間外の予習復習 , 授業時間内 の活動など. 30 ピーナッツ : プチテスト (11