• 検索結果がありません。

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

N/A
N/A
Protected

Academic year: 2021

シェア "データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2"

Copied!
50
0
0

読み込み中.... (全文を見る)

全文

(1)

春学期 統計学I

データの整理:

度数分布、標本分散、等

担当: 長倉 大輔

(ながくらだいすけ)

(2)

2 2

データの整理(度数分布表とヒストグラム)

1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります。  度数分布表 観測値をその値に応じていくつかのグループ(これを 階級という)に分類し、各階級に入る観測値の数(これを 度数という)を数えて表にしたもの。

(3)

データの整理(度数分布表とヒストグラム)

 度数分布表 階級は下限値と上限値によって決まります。 下限値と上限値を足して2で割ったものをその階級の 階級値もしくは代表値といいます。 それぞれの階級の度数を全ての観測値の数で割ったも のを相対度数といいます。 度数の累積和を累積度数といいます。

(4)

4 4

データの整理(度数分布表とヒストグラム)

 度数分布表の作り方 (1) 範囲(レンジ)を求める(下の例では99 – 5 = 94) (2) 範囲を全てカバーする階級数、階級幅、階級を決め る。 (3) 階級値を計算する。 (4) 度数を数える。 (5) 相対度数などの必要な計算をする。

(5)

データの整理(度数分布表とヒストグラム)

 スタージェスの公式 階級数を決める 1 つの目安としてスタージェスの公式と いうものがあります。 (スタージェスの公式) 階級数 = 1 + 3.3 × log10(観測値の数) 下記の例では 1+3.3×log1047 ≒ 6.5 よりだいたい 6 か 7 となります (実際には 6 としました)。  オープンエンド階級 下記の例の最上位の階級のように上限(場合によって

(6)

6 6

データの整理(度数分布表とヒストグラム)

例: 度数分布表 以下は厚生労働省「人口動態統計」にもとづく 2004 年 の都道府県別出生データを小さい順に並べたものです※ (単位:1000人) 5, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 10, 10, 10, 11, 11, 12, 12, 12, 12, 13, 14, 15, 16, 16, 16, 18, 18, 18, 18, 18, 19, 20, 20, 22, 26, 26, 34, 44, 45, 50, 53, 62, 70, 79, 80, 99 このデータの度数分布表を書いてみましょう。 ※「統計学」 森棟公夫、照井伸彦、中川満、西埜晴久、黒住英司著、2008、有斐閣 p.25より

(7)

データの整理(度数分布表とヒストグラム)

最後のオープンエンド階級の階級値はその階級に属す るデータの平均値になっています(上記の70は四捨五入 以上、 未満 階級値 度数 累積度数 相対度数 累積相対度数 0 - 10 5 11 11 0.23 0.23 10 - 20 15 21 32 0.45 0.68 20 - 30 25 5 37 0.11 0.79 30 - 40 35 1 38 0.02 0.81 40 - 50 45 2 40 0.04 0.85 50 - 70 7 47 0.15 1.00 47 1.00

(8)

8 8

データの整理 (度数分布表とヒストグラム)

 ヒストグラム ヒストグラムとは各棒の面積が度数、もしくは相対度数 と比例するように作成された棒グラフで、度数分布表の 階級値を棒の中点、階級幅を棒の幅とし、高さを度数 もしくは相対度数としたものです。オープンエンド階級の 場合は階級値を棒の中点とし、棒の幅は隣の階級の上 限からオープンエンド階級の階級値までの距離の2倍と した上で、棒の面積が度数もしくは相対度数と比例する ように高さを調整します。 ヒストグラムを描くことによって、データの分布を視覚的 に表す事ができます。

(9)

データの整理 (度数分布表とヒストグラム)

例1: ヒストグラム 先ほどの度数分布表のヒストグラムは以下のようになり ます。 5 10 15 20 25

(10)

10 10

データの整理 (度数分布表とヒストグラム)

例2: ヒストグラム 日本の年齢別総人口(2005) 0 2,000 4,000 6,000 8,000 10,000 12,000 0 5~ 9 15~19 25~29 35~39 45~49 55~59 65~69 75~79 85~89 95~99 年齢 人口( 単位1 00 0人) 年齢別総人口

(11)

データの広がり

 分散 平均、メディアンなどはデータの中心を示す統計量でした。 しかしながら、データの中心だけではデータの特徴を十 分にとらえきれない場合がほとんどです。通常、データに は他にもいろいろな特徴があります。その一つが中心か らの広がり具合です。 分散はデータの広がり具合を示す統計量です。

(12)

12 12

データの広がり

 記述統計量としての分散(全標本分散) n 個のデータ { x1, x2, … , xn }が与えられている時、 これが興味のある全てのデータである場合(全標本の場 合)記述統計量としての分散は と定義されます。これは全標本分散と呼ばれます。

n i i

x

x

n

1 2 2

)

(

1

(13)

データの広がり

 分散の推定値 n 個のデータ{ x1, x2, … , xn }は興味のある母集団の一部 から得られた標本であるとしましょう。これらより母集団全 体の分散を推定する場合には が用いられます。これは標本分散(もしくは標本不偏分 散)と呼ばれます。

n i i

x

x

n

s

1 2 2

)

(

1

1

(14)

14 14

データの広がり

 2 つの分散の違い σ2 と s2 の違いは n で割るか n – 1 で割るかです。 (ここでは詳しく述べませんが) n – 1で割ったほうが母集 団全体の分散の推定値として不偏性という統計学的な 観点から望ましい性質を持つ事を示す事ができます (これについては春学期の中盤ごろに詳しく説明する予 定です)。

(15)

データの広がり

 分散の別表現 σ2 と s2は および と表す事もできます。

n i i

n

x

x

n

1 2 2 2

1

n i i

n

x

x

n

s

1 2 2 2

1

1

(16)

16 16

データの広がり

 標準偏差 全標本標準偏差は全標本分散の平方根、標本標準偏差 は標本分散の平方根として定義され、それぞれ σ, s で表 わされます。 標準偏差を用いると、データのおおよその広がり具合を把 握する事ができます。

(17)

データの広がり

 分散、標準偏差の例 以下のデータの分散、標準偏差を比べてみましょう (標本数は共に 30です)。 (データ 1) {26, 32, 4, 28, 12, 31, 27, 15, 26, 18, 27, 13, 29, 13, 45, 39, 18, 23, 35, 19, 33, 26, 21, 37, 21, 36, 23, 23, 24, 26} (データ 2) {4, 12, 27, 43, 23, 14, 26, 35, 15, 17, 38, 19, 22, 25, 49, 7, 42, 31, 23, 46, 25, 28, 36, 24, 1, 15, 33, 8, 27, 35}

(18)

18 18

データの広がり

まず平均を比べてみると、実は2 つのデータとも平均は25 です。次にこの2 つのデータのヒストグラムを書いてみると (データ 1 のヒストグラム) (データ 2 のヒストグラム) のようになります。どちらのデータの方が広がっている (平均から離れたデータが多い)でしょうか? 0 2 4 6 8 10 12 14 16 5 15 25 35 45 0 2 4 6 8 10 12 14 16 5 15 25 35 45

(19)

データの広がり

データ 1の全標本分散と全標本標準偏差は データ 1 の分散 ≒ 77.45 データ 1 の標準偏差 ≒ 8.8 データ 2 の全標本分散と全標本標準偏差は データ 2 の分散 ≒ 149.2 データ 2 の標準偏差 ≒ 12.21 ⇒データの広がりが大きいほど分散、標準偏差は 大きくなる。

(20)

20 20

データの広がり

 分散と標準偏差の性質 分散と標準偏差には次の 3 つの重要な性質があります。 (これは先ほどの両方の分散、標準偏差に当てはまりま す。) ① 全ての標本に一定数を加えたり、または減らしたりして も、値は変わらない 。 ② 全ての標本を k 倍すると、分散は k2 倍になり標準偏 差は k 倍になる。 ③ 全ての標本のうちで、平均からの乖離(かいり)が標準 偏差の k 倍以内にある標本の割合は少なくとも 以上である。 2 1 1 k

(21)

データの広がり

 チェビシェフの不等式 性質③は以下のように言い換える事ができます。 標本{ x1, x2, … , xn}の平均値を 、標準偏差を s、 k を1より大きい任意の数とした時に、 もしくは

x

2 [ , ] 1 1 ( ) i x ks x ks x n k     区間 に含まれる の数 観測値の数 2 [xks x,  ks] xi 1  区間 に含まれない の数 観測値の数

(22)

22 22

データの広がり

 チェビシェフの不等式の例(バスの待ち時間) 毎朝のバスの待ち時間を30日間記録し、分析するとしま す。この時、平均待ち時間が 7.13分、標本標準偏差が 2.69 であったとしましょう。シェビチェフの不等式において k =1.1 とおくと、待ち時間が区間 [7.13 – 1.1×2.69, 7.13 + 1.1×2.69] ≒ [ 4.17, 10.09] に入らない割合は全体の 1/1.12≒0.83、つまり 17 %以 上の割合でバスの待ち時間は約 4分から 10 分の間とな っています。

(23)

データの広がり

 チェビシェフの不等式の注意点 チェビシェフの不等式は平均と標準偏差さえわかればど のような標本にもあてはまるという意味で非常に強力な 結果です。 しかしながら、その一般性が高いがゆえに、結論の解釈 には注意が必要です。 以下の例はチェビシェフの不等式があまり意味をもたな い例です。

(24)

24 24

データの広がり

 チェビシェフの不等式の例 2 (統計学の点数) ある統計学の試験の得点分布が以下のように与えられて いるとしましょう。 { 20, 25, 30, 35, 40, 45, 50, 55, 60, 65 } この時平均は 42.5、標準偏差は 15.14 です。 チェビシェフの不等式に基づいて、56%以上の人が含ま れる区間をもとめてみましょう。 結果は意味のあるものでしょうか?

(25)

データの広がり

 チェビシェフの不等式の例 2 (統計学の点数) シェビチェフの不等式において k = 1.5 とすると 1 – 1/1.52 ≒ 0.556 なので全体の 約56% 以上の学生の 点数は区間 [42.5 – 1.5×15.14, 42.5 + 1.5×15.14] ≒ [19.8, 65.2] に入る事になります。しかし実際には 100%の学生がこ の区間に入る点数を取っています。 チェビシェフの不等式は区間を大きくとる傾向があると

(26)

26 26

データの標準化と偏差値

 標準化(基準化) 標準化とは変換後のデータ が 平均 0標準偏差1 (分散1) となるように与えられたデータを変換する事 です。  偏差値 偏差値とは与えられたデータを平均50標準偏差10 (分散100)となるように変換した時、もとのデータの値に 対応する変換後の値の事です。

(27)

データの標準化と偏差値

 標準化の仕方 平均 、分散 のとき、 xi を と変換する(平均を引いて標準偏差で割るという事)こと を標準化(もしくは基準化)するといいます。 この時 zi の平均は 0、標準偏差(および分散)は 1 となる

x

x2 x i i

x

x

z

(28)

28 28

データの標準化と偏差値

 偏差値の計算の仕方 xiの偏差値を yi としましょう。 yi は次のように計算でき ます。 まず xi を標準化します。この値を zi としましょう。 この時、yi は zi を用いて と計算されます。 この時 yi の平均は 50、標準偏差は 10 となる事が確認 できます。 i i

z

y

50 

10

(29)

データの標準化と偏差値

 標準化と偏差値の意味 与えられたデータの中で、個々のデータが全体の中でど のような位置にあるのかは個々のデータをその標本の 平均や標準偏差と比べる事によって把握することができ ます。 しかしながら、平均や分散が異なる2 つのデータにおい て、ある特定のデータが全体の中で相対的にどのような 位置にあるのかを比較するのは難しいでしょう。

(30)

30 30

データの標準化と偏差値

例題 (標準化と偏差値) 今、2つのデータセットがあるとしましょう。データセット1 の平均と分散は 5 と 4、データセット 2 の平均と分散は3 と 9 であるとしましょう。これら 2 つのデータセットはとも に “9” を含んでいるとします。 (1) “9” の偏差値をそれぞれのデータセットに対して計算 しなさい。 (2) どちらの “9” がそれぞれのデータセットのほかの値 と比べて相対的に大きいと考えられますか? (3) 100 点満点のテストで偏差値が100以上になることは あり得ますか ?

(31)

演習問題

問題 1 ある試験の平均点が40点、標準偏差が5点の時に、 区間 [30点, 50点]の間には何%以上の人が入る でしょうか? 問題 2 この時 20点の人と、60点の人の偏差値を求めなさい。

(32)

32 32

宿題(提出する必要はありません)

40人のクラスが受験したあるテストにおいて、全ての生 徒の点数は整数値をとり、平均が60点、標本標準偏差 が5点であったとしよう。A君のこのテストの得点は76点 であった。これらの情報よりA君のこのクラスでの順位は 少なくとも何位以上になる事がいえるか? ヒント: チェビシェフの不等式

(33)

2 変量のデータの分析

平均や分散は1変量のデータに関する値です。 これらは 1 変量のデータの分布の形状をとらえる上で 有用です。 しかし、より複雑な分析では複数の変数に関するデータ に対して、その相互関係の分析を行う必要が出てきま す。 以下ではまず変数が2つある(2変量の)データについて データの特性のとらえ方を考えます。

(34)

34 34

2 変量のデータの分析

 散布図 n 個の観測値の組 { (x1, y1), (x2, y2), …, (xn, yn) } が与えられたとき、これらをプロットしたものを散布図と いいます。

(35)

2 変量のデータの分析

 (例)散布図 下の表はある年のJ リーグ18試合の試合結果です※ チーム 1 2 3 4 5 6 7 8 9 勝ち数 22 20 20 18 17 18 13 13 13 得点 67 84 80 60 68 62 51 47 49 失点 28 55 48 41 51 53 49 45 43 チーム 10 11 12 13 14 15 16 17 18 勝ち数 13 13 13 13 12 12 5 6 4 得点 50 57 43 56 46 42 32 44 38 失点 56 58 55 65 65 64 56 70 74

(36)

36 36

2 変量のデータの分析

 (例)散布図 {(x, y)} = {(得点, 勝ち数)} の散布図 0 5 10 15 20 25 25 35 45 55 65 75 85 得点と勝ち数の散布図 勝数 得点

(37)

2 変量のデータの分析

 (例)散布図 {(x, y)} = {(失点, 勝ち数)} の散布図 10 15 20 25 失点と勝ち数の散布図 勝数

(38)

38 38

2 変量のデータの分析

 (例)散布図 {(x, y)} = {(得点, 失点)} の散布図 25 35 45 55 65 75 85 25 35 45 55 65 75 85 失点と得点の散布図 得点 失点

(39)

2 変量のデータの分析

 共分散 対になった n 個のデータ {(x1, y1), (x2, y2), …, (xn, yn)} が与えられた時、全標本共分散は と定義されます。ここで と はそれぞれ xi と yi標本平均です(標本共分散の場合は n が n –1 になり

n i i i xy

x

x

y

y

n

1

(

)(

)

1

x

y

(40)

40 40

2 変量のデータの分析

 共分散の意味 共分散の符号は2 変数間の直線的な関係の符号を 表しています(正か負か)。  共分散の問題点 共分散は2 変数間の直線的な関係の符号を表すのみで あって、直線関係の強さを表すものでは (データの観測 単位が同じである時を除いて)ありません。

(41)

2 変量のデータの分析

例: 共分散の問題点 以下は男子10人の身長と体重のデータです。 (身長の測定単位は上のデータはcm、下のデータは m) この時、上のデータと下のデータの(全標本) 共分散は それぞれ 62.32、0.6232 となります。 では身長と体重の は身長をcmで測ったとき 身長(cm) 175 183 167 178 158 170 165 174 180 162 体重(kg) 75 90 76 65 60 80 61 67 87 58 身長(m) 1.75 1.83 1.67 1.78 1.58 1.70 1.65 1.74 1.80 1.62 体重(kg) 75 90 76 65 60 80 61 67 87 58

(42)

42 42

2 変量のデータの分析

それぞれの散布図 この散布図から明らかなように 2 つのデータの(線形)関 係の強さは同じです。共分散は観測値の測定単位に よって同じデータでもその値が変わるという問題があり ます。 0 20 40 60 80 100 150 160 170 180 190 体重 (kg) 身長(cm) 身長(cm)と体重(kg)の散布図 0 20 40 60 80 100 1.5 1.6 1.7 1.8 1.9 体重 (kg) 身長(m) 身長(m)と体重(kg)の散布図

(43)

2 変量のデータの分析

 相関係数 共分散のこのような欠点を補ったものが相関係数です。 相関係数は rxy と書かれます。 (相関係数の定義) rxyはデータを標準化したものの共分散と等しくなります (各自で確認して下さい)。

        n i i n i i n i i i xy y y x x y y x x r 1 2 1 2 1 ) ( ) ( ) )( (

(44)

44 44

2 変量のデータの分析

 相関係数の意味 2 つの変数 x と y の相関係数が… (1) 正の値をとる時、正の相関があるといいます。これ は片方が大きい時、もう片方も大きくなる傾向がある事 を意味しています。 (2)負の値をとる時、負の相関があるといいます。これ は片方が大きいとき、もう片方は小さくなる傾向がある 事を意味しています。 (3) 0 の時、無相関といいます。これは2つの変数間には どのような線形関係もない事を意味しています。

(45)

2 変量のデータの分析

 (例) 相関係数 先ほどの身長と体重の相関係数は、cm、mのどちらの 場合でも0.74となります。 ちなみに J リーグの例では 勝数と得点の相関は 0.87, 勝数と失点の相関は – 0.71 得点と失点の相関は – 0.44 となります。

(46)

46 46

2 変量のデータの分析

 相関係数の性質(1) 相関係数はあくまで 2 つの変数の間の線形関係の 強さを見る尺度です。 x と y の間の関係が強くても、そ れが線形関係で無いのであれば、相関係数には反映さ れません。 (変数間に強い非線形関係があるが相関が0 の例) 0 5 10 15 20 25 30 -6 -4 -2 0 2 4 6

(47)

2 変量のデータの分析

 相関係数の性質(2) 相関係数の値は – 1 以上 1 以下の値をとります。相 関係数が – 1 の時には、完全な負の相関 があるとい い、 1 の時には、完全な正の相関 があるといいます。 (完全の負の相関) (完全な正の相関) 0 5 10 -6 0 6 0 5 10 -6 0 6

(48)

48 48

2 変量のデータの分析

 相関係数の性質(3) 相関係数はあくまで相関関係を示すものであり、 因果関係を示すものではありません。 因果関係とはどちらかがどちらかの原因となっているよ うな関係の事です。 例えば身長と体重の場合は身長が高ければ体重が重 いという因果関係があると考えられます。

(49)

2 変量のデータの分析

 性質(2)の証明 相関係数の定義は であるが、ここで , と置くと、 シュワルツの不等式より、

  

n i i n i i n i i i xy

y

y

x

x

y

y

x

x

r

1 2 1 2 1

)

(

)

(

)

)(

(

x

x

a

i

i

b

i

y

i

y

1 | | 2 2 1 1 2 1 2 1   

    n n n i i i n i i n i i n i i i b a b a b a

(50)

演習問題

問題 3 {x1,…, xn}と{y1,…, yn}の相関係数の値が 0.2 であると する。zi = yi +2, (i =1,…,n) とした時、{x1,…, xn}と {z1,…, zn}の相関係数の値を求めよ。 問題 4 {x1,…, xn} と {y1,…, yn}の相関係数の値が 0.1 である とする。wi = –2yi ,( i =1,…,n) とした時{x1,…, xn}と {w1,…,wn}の相関係数の値を求めよ。 50 50

参照

関連したドキュメント

ヒュームがこのような表現をとるのは当然の ことながら、「人間は理性によって感情を支配

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

彩度(P.100) 色の鮮やかさを 0 から 14 程度までの数値で表したもの。色味の

としても極少数である︒そしてこのような区分は困難で相対的かつ不明確な区分となりがちである︒したがってその

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

夜真っ暗な中、電気をつけて夜遅くまで かけて片付けた。その時思ったのが、全 体的にボランティアの数がこの震災の規

 貿易統計は、我が国の輸出入貨物に関する貿易取引を正確に表すデータとして、品目別・地域(国)別に数量・金額等を集計して作成しています。こ

自分ではおかしいと思って も、「自分の体は汚れてい るのではないか」「ひどい ことを周りの人にしたので