• 検索結果がありません。

データの種類とデータの分布

N/A
N/A
Protected

Academic year: 2021

シェア "データの種類とデータの分布"

Copied!
34
0
0

読み込み中.... (全文を見る)

全文

(1)

データの種類とデータの分布

統計基礎

の補足資料

2018年6月4日 金沢学院大学経営情報学部 藤本祥二

(2)

§2(教科書P.52)

データのばらつき

(3)

分布について

• データの分布

データ全体のばらつき具合(広がり具合)等の

全体的な様子

をとらえたもの

• 度数(頻度数)

ある項目,又はある値,又は範囲にデータが

どれくらい存在するのかを頻度で示したもの

• 度数分布

度数に関するデータ全体の様子

• 分布の特徴を,表やグラフや統計量を使って

明らかにすることが記述統計学の目的

(4)

§2.1(教科書P.53)

データの種類

(5)

データの種類

データは大きく分けて2種類

• 質的データ(category data,分類データ)

分類や種類の違い(カテゴリー)のデータ

例)国籍,血液型,好きな科目,趣味,…

• 量的データ(quantity data,数量データ)

数量で測れるデータ

例)身長,体重,気温,テストの点数,…

注意 数字で書かれてるからと言って量的データとは限らない 数値の大きさや順番,間隔などに意味があることが重要 (電話番号などは数字で書かれてるが分類のための質的データ)

(6)

更に細かな分類(統計検定2級相当)

• 質的データ

◦ 名義尺度(順番に意味がない分類)

好き・嫌い,男・女,好きな色,職業,血液型,…

◦ 順序尺度(順番に意味がある分類)

学歴,震度,5段階評価,優・良・可,松・竹・梅,…

• 量的データ

◦ 間隔尺度(数値の差に意味がある量)

摂氏温度,華氏温度,テストの点数,時刻,年齢,…

◦ 比例尺度(数値の差だけでなく比にも意味がある量)

長さ,重さ,速度,絶対温度,経過時間,…

(7)

§2.2(教科書P.55~77)

質的データの分析

(8)

質的データの分析

• 質的データの分布を調べる

• 項目ごとの度数(頻度,件数)を集計する

◦ 集計(教科書P.55の集計表,P62のクロス集計)

◦ 数え漏れ,数え過ぎ,をしないように注意

• 集計した度数から度数分布表や度数グラフを作

成する(度数の全体の様子が度数分布)

◦ 項目の順番に意味がないときは大きい順に並べる

◦ 大きく占める要因を知りたい時は累積度数を計算し

パレート図を作成する

(9)

データの集計(表2.2.1⇒表2.2.2)

日付 時間 学年組 名前 理由 12月1日 10:35 2年1組 酒井はるこ ねんざ 12月1日 11:20 1年4組 石田ななこ 頭痛 12月3日 12:55 1年1組 松井たかし 腹痛 ⋮ ⋮ ⋮ ⋮ ⋮ 理由に注目して集計 保健室を利用した理由 人数(度数) 切り傷 5 すり傷 9 ねんざ 3 発熱 3 頭痛 12 腹痛 5 その他 3 参考:画線法 - Wikipedia 日本,中国,韓国: ヨーロッパ,北米: スペイン語圏:

(10)

図2.2.2~2.2.3

0 2 4 6 8 10 12 14 切り傷 すり傷 ねんざ 発熱 頭痛 腹痛 その他 度数 保健室を利用した理由 0 2 4 6 8 10 12 14 頭痛 すり傷 切り傷 腹痛 ねんざ 発熱 その他 度数 保健室を利用した理由 0 2 4 6 8 10 12 14 月曜日 火曜日 水曜日 木曜日 金曜日 土曜日 度数 保健室を利用した理由(曜日別) 横軸の順番に特に意味がないときは 度数の大きい順に並べる (その他は度数の大きさに関係なく最後) 横軸の順番に意味があるときは その順に並べる

(11)

度数分布

• 度数(frequency)

その項目に存在するデータ数(頻度,件数)のこと

• 相対度数(relative frequency)

全体(総度数)に対するその項目の度数の割合

• 累積度数(cumulative frequency)

その項目までの度数の累積和

• 累積相対度数(cumulative relative frequency)

全体に対する累積度数の割合

• 度数分布(frequency distribution)

全項目の度数を眺めたもの(全項目の度数の様子)

この度数分布で全体の様子が把握できる

累積:累々と積み上げること 相対度数の累積と考えても良い

(12)

表2.2.5

球種 度数 累積度数 相対度数 累積相対度数 ストレート 1560 1560 0.470 0.470 スライダー 814 2374 0.245 0.715 カットボール 339 2713 0.102 0.817 チェンジアップ 281 2994 0.085 0.902 カーブ 172 3166 0.052 0.953 フォーク 155 3321 0.047 1.000 合計 3321 1.000 累積和 累積和 281 3321 2994 3321 累積度数 : その項目までの度数の累積和 相対度数 : 度数の全体に対する割合 累積相対度数 : その項目までの相対度数の累積和 累積度数の全体に対する割合

(13)

松坂投手の球種の分布のパレート図

(図2.2.4)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 500 1000 1500 2000 2500 3000 ストレート スライダー カットボール チェンジアップ カーブ フォーク 度数 累積度数 度数の目盛 相対度数の目盛 累積相対度数を見ると ストレートとスライダーで 全体の70%を占めることが分かる 質的データの 度数(棒グラフ)と累積度数(折れ線グラフ) を一緒に表示したものがパレート図 度数の目盛3321を相対度数の目盛1(100%)に合わせる 3321

(14)

表2.2.4改

理由 度数 相対度数 累積度数 累積相対度数 頭痛 12 0.300 12 0.300 すり傷 9 0.225 21 0.525 切り傷 5 0.125 26 0.650 腹痛 5 0.125 31 0.775 ねんざ 3 0.075 34 0.850 発熱 3 0.075 37 0.925 その他 3 0.075 40 1.00040 1.000 パレート図を描くために,度数の大きい順に並べ替えて累積度数等を計算した

(15)

表2.2.4のパレート図

0 0.25 0.5 0.75 1 0 10 20 30 40 頭痛 すり傷 切り傷 腹痛 ねんざ 発熱 その他 度数 累積度数 度数の目盛 相対度数の目盛 累積相対度数を見ると 腹痛までの要因で 全体の75%を占めることが分かる 質的データの 度数(棒グラフ)と累積度数(折れ線グラフ) を一緒に表示したのがパレート図 度数の目盛40を相対度数の目盛1(100%)に合わせる

(16)

累積相対度数と帯グラフ

0 0.25 0.5 0.75 1 0 10 20 30 40 度数の目盛 相対度数の目盛 頭痛 すり傷 切り傷 腹痛 ねんざ 発熱 その他 0 0.25 0.5 0.75 1 帯グラフ 帯グラフ(100%積み上げ棒グラフ)の 境目は累積相対度数に対応

(17)

§2.3(教科書P.78~129)

量的データの分析

今週§2.3.1(P.78)~§2.3.2(P.98)

§2.3.3以降は次週

(18)

量的データの分析

• 量的データは2種類ある

• 離散データ(discrete data,整数データ)

◦ 飛び飛びの値のデータ 例)抜けた乳歯の本数、縄跳びを飛んだ回数 ◦ データ毎に集計し度数分布を調べ、グラフを描く グラフを描く際の横軸はデータの値の順に並べる

• 連続データ(continuous data,実数データ)

◦ 小数点以下いくらでも小さく半端な値を持つデータ 例)身長データ,体重データ ◦ ○○以上○○未満の階級(class)に分けないと度数の 集計ができない ◦ 度数分布のグラフでは棒と棒の間に隙間を入れない (棒の面積に意味があるため) このグラフのことを「ヒストグラム」という

(19)

量的データの分布の特徴

• ヒストグラムの特徴を分析(教科書P.84~89)

• 多峰性に注意

◦ 山の頂点が複数(多峰性)

異質の集団が混在してる可能性がある

• 単峰性の分布

◦ 分布全体のばらつき(広がり)具合

◦ 左右対称性(左右の歪み具合)

◦ 峰の尖り具合

• 外れ値の存在

◦ ミスの場合もあれば,重要なデータの場合もある

教科書の図を参照するように

(20)

単峰性(unimadal) データが集中してる部分(峰,山)が1つ 多峰性(multimadal) 2つ以上の峰 異質の集団が混在してる可能性がある 画像元:身近な統計 第3回 データのばらつきを表やグラフで要約する(量的データの場合)

(21)

歪んだ分布(skewed distribution) 右に歪んだ分布(右に裾を引く分布) 外れ値(outliner) データの大部分が含まれる区間から, かけ離れたところに位置するデータ 単なるミスの場合もあれば, 重要なデータの場合もある 画像元:身近な統計 第3回 データのばらつきを表やグラフで要約する(量的データの場合)

(22)

表2.3.1の度数分布表(離散データ)

歩数[歩] 度数[人] 相対度数 累積度数 累積相対度数 0 4 0.143 4 0.143 1 6 0.214 10 0.357 2 10 0.357 20 0.714 3 5 0.179 25 0.893 4 2 0.071 27 0.964 5 1 0.036 28 1.000 計 28 1.000

(23)

図2.3.1

0 0.25 0.5 0.75 1 0 10 20 0 1 2 3 4 5 度数 累積度数 度数の目盛 相対度数の目盛 累積相対度数を見ると 2歩までで 全体の75%を占めることが分かる 数量データでは横軸は数量の大きさ順にする 離散データの場合は棒の間を開ける 度数の目盛28を相対度数の目盛1(100%)に合わせる 28 [歩]

(24)

表2.3.2の度数分布表(離散データ)

歩数[歩] 度数[人] 相対度数 累積度数 累積相対度数 0~5 1 0.025 1 0.025 6~10 7 0.175 8 0.200 11~15 16 0.400 24 0.600 16~20 9 0.225 33 0.825 21~25 5 0.125 38 0.950 26~30 1 0.025 39 0.975 31~35 1 0.025 40 1.000 計 28 1.000

(25)

図2.3.2

0 0.25 0.5 0.75 1 0 10 20 30 40 0~5 6~10 11~15 16~20 21~25 26~30 31~35 度数 累積度数 度数の目盛 相対度数の目盛 累積相対度数を見ると 20歩までで 全体の80%を占めることが分かる 数量データでは横軸は数量の大きさ順にする 離散データの場合は棒の間を開ける 度数の目盛40を相対度数の目盛1(100%)に合わせる [歩]

(26)

連続データの扱い

No. 名前 体重[kg] 1 吉永カナ 37.0 2 酒井愛 45.6 3 武田智 45.0 4 渡辺さえ 42.2 ⋮ ⋮ ⋮ 階級 度数 10kg未満 10kg以上20kg未満 20kg以上30kg未満 30kg以上40kg未満 40kg以上50kg未満 50kg以上60kg未満 表2.3.3 集計前のデータ • 各データが必ずどこか1つの階級に属するように隙間のない階級に分ける. • 20kgぴったりや,30kgぴったりのデータがどの階級に所属するのか意識して 「以上」や「未満」などの言葉を使う. 連続データ:小数点以下いくらでも小さく半端な値を持つデータ 階級(度数を集計するための区間)に分けて集計

(27)

表2.3.5の女性の体重の度数分布表

階級[単位kg] 度数 相対度数 累積度数 累積相対度数 10未満 0 0.00 0 0.00 10以上 20未満 1 0.05 1 0.05 20以上 30未満 5 0.25 6 0.30 30以上 40未満 8 0.40 14 0.70 40以上 50未満 5 0.25 19 0.95 50以上 60未満 1 0.05 20 1.00 合計 20 1.00 ヒストグラムや累積度数グラフを作る際の注意 • 連続データの場合,隣の棒との隙間を開けない • 連続データの場合,累積度数は階級の境目に点を打つ 連続データの度数分布の棒グラフをヒストグラム(histogram)という

(28)

0 0.2 0.4 0.6 0.8 1 0 4 8 12 16 20 0 10 20 30 40 50 60 70 度数 累積度数

女性の体重のヒストグラムと累積度数

度数の目盛 度数の目盛20を相対度数の目盛1(100%)に合わせる 相対度数の目盛 累積相対度数と下の目盛で 40kg未満の人で全体の70%を占めてる こと等が分かる ・単峰性 ・左右対称 ・35[kg]あたりが中心 [kg]

(29)

表2.3.5の男性の体重の度数分布表

階級[単位kg] 度数 相対度数 累積度数 累積相対度数 20未満 0 0.00 0 0.00 20以上 30未満 1 0.05 1 0.05 30以上 40未満 2 0.10 3 0.15 40以上 50未満 4 0.20 7 0.35 50以上 60未満 8 0.40 15 0.75 60以上 70未満 5 0.25 20 1.00 合計 20 1.00

(30)

0 0.2 0.4 0.6 0.8 1 0 4 8 12 16 20 10 20 30 40 50 60 70 80 度数 累積度数

男性の体重のヒストグラムと累積度数

度数の目盛 相対度数の目盛 累積相対度数と下の目盛で どの値までが全体の何%になるか 分かる ・単峰性 ・左の裾が長い ・65[kg]あたりの頻度が高い 度数の目盛20を相対度数の目盛1(100%)に合わせる [kg]

(31)

表2.3.7の50m走の度数分布表

階級[単位:秒] 度数 相対度数 累積度数 累積相対度数 7未満 0 0.000 0 0.000 7以上 8未満 2 0.001 2 0.001 8以上 9未満 306 0.198 308 0.199 9以上 10未満 772 0.498 1080 0.697 10以上 11未満 384 0.248 1464 0.945 11以上 12未満 72 0.046 1536 0.992 12以上 13未満 8 0.005 1544 0.997 13以上 14未満 3 0.002 1547 0.999 14以上 15未満 2 0.001 1549 1.000 合計 1549 1.000

(32)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 200 400 600 800 1000 1200 1400 6 7 8 9 10 11 12 13 14 15 16 度数 累積度数

図2.3.11

50m走のヒストグラムと累積度数

度数の目盛 相対度数の目盛 11秒より遅い人は 5%に過ぎない 上位20%の記録は 9秒を切っている 度数の目盛1549を相対度数の目盛1(100%)に合わせる [秒] 1549 0.95

(33)

階級幅が等しくない時

階級[円] 階級幅[円] 度数 0以上2000未満 2000 5 2000以上4000未満 2000 15 4000以上6000未満 2000 25 6000以上8000未満 2000 7 8000以上10000未満 2000 5 10000以上20000未満 10000 10 階級 階級幅 度数 10000以上12000未満 2000 2 12000以上14000未満 2000 2 14000以上16000未満 2000 2 16000以上18000未満 2000 2 18000以上20000未満 2000 2 階級幅を揃えて度数を等分する 表2.3.6 小遣いの度数分布表

(34)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 10 20 30 40 50 60 -2000 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000 22000 度数 累積度数

図2.3.10

度数の目盛 度数の目盛67を相対度数の目盛1(100%)に合わせる 相対度数の目盛 [円] 67

図 2.2.2 ~ 2.2.3 02468101214 切り傷 すり傷 ねんざ 発熱 頭痛 腹痛 その他度数保健室を利用した理由 02468101214 頭痛 すり傷 切り傷 腹痛 ねんざ 発熱 その他度数保健室を利用した理由 02468101214 月曜日 火曜日 水曜日 木曜日 金曜日 土曜日度数保健室を利用した理由(曜日別) 横軸の順番に特に意味がないときは度数の大きい順に並べる (その他は度数の大きさに関係なく最後)横軸の順番に意味があるときは その順に並べる
表 2.2.5 球種 度数 累積度数 相対度数 累積相対度数 ストレート 1560 1560 0.470 0.470 スライダー 814 2374 0.245 0.715 カットボール 339 2713 0.102 0.817 チェンジアップ 281 2994 0.085 0.902 カーブ 172 3166 0.052 0.953 フォーク 155 3321 0.047 1.000 合計 3321 1.000累積和累積和 281 3321 29943321累積度数 : その項目までの度数の累積和相対度数
表 2.2.4 改 理由 度数 相対度数 累積度数 累積相対度数 頭痛 12 0.300 12 0.300 すり傷 9 0.225 21 0.525 切り傷 5 0.125 26 0.650 腹痛 5 0.125 31 0.775 ねんざ 3 0.075 34 0.850 発熱 3 0.075 37 0.925 その他 3 0.075 40 1.000 計 40 1.000 パレート図を描くために,度数の大きい順に並べ替えて累積度数等を計算した
表 2.2.4 のパレート図 0 0.250.50.751010203040 頭痛 すり傷 切り傷 腹痛 ねんざ 発熱 その他 度数 累積度数度数の目盛 相対度数の目盛累積相対度数を見ると 腹痛までの要因で 全体の 75% を占めることが分かる質的データの度数(棒グラフ)と累積度数(折れ線グラフ)を一緒に表示したのがパレート図度数の目盛40を相対度数の目盛1(100%)に合わせる
+6

参照

関連したドキュメント

『国民経済計算年報』から「国内家計最終消費支出」と「家計国民可処分 所得」の 1970 年〜 1996 年の年次データ (

業種 事業場規模 機械設備・有害物質の種 類起因物 災害の種類事故の型 建設業のみ 工事の種類 災害の種類 被害者数 発生要因物 発生要因人

データなし データなし データなし データなし

[*]留意種(選定理由①~⑥は P.11 参照) [ ○ ]ランク外 [-]データ無し [・]非分布. 区部

種類 成分 性質 特徴・注意.

核種分析等によりデータの蓄積を行うが、 HP5-1

産業廃棄物の種類 建設汚泥 廃プラスチック類 排    出  

産業廃棄物の種類 排    出   量. 産業廃棄物の種類 排