• 検索結果がありません。

2017 統計.0.2

N/A
N/A
Protected

Academic year: 2021

シェア "2017 統計.0.2"

Copied!
48
0
0

読み込み中.... (全文を見る)

全文

(1)

¶ ³

生活の中の統計技術

(2017

年度後期)

µ ´

(2)

2017 統計.0.2

.

.

プリント中の

¤

£

¡

統計

¢ は参考文献,“日本統計学会 編, 「統計学基礎

改訂版

」(東京図書)” を示します。

¤

£

¡

片松

¢ は参考文献,“片谷,松藤, 「環境統計学入門」(オーム社)” を示します。

¤

£

¡

向冨1

¢ は参考文献,“向後,富永, 「統計学がわかる」(技術評論社)” を示します。

¤

£

¡

向冨2

¢ は参考文献,“向後,富永, 「統計学がわかる (回帰分析・因子分析編)」(技術評論社)” を示します

オフィスアワー: 月曜 6 講時 (1 号館 5 階 1-513),金曜 3 講時 (1 号館 5 階 1-542)

url: http://www.math.ryukoku.ac.jp/ iida/lecture/lecture.html

(3)

1

.

統計学とは?

¤

£

¡

¢

片松 第1章

実験や観測やアンケート調査などから得られた標本データの加工や分析をおこなう技法。

・ 標本データ (多くは数字の集まり) を見やすくする (記述統計学) 箱ひげ図,度数分布,平均,分散,標準偏差,相関係数,· · ·

・ 部分 (標本) から全体 ( 母集団 ) の性質を推測する (推測統計学) 信頼区間,仮説検定, · · ·

『有意水準 1 %で帰無仮説が棄却されました』や『信頼係数 95 %の信頼区間』の意味は?

¤

£

¡

片松 図2・1

¢

母集団の要素数は無限の場合もある。例えば,硬貨の表と裏が出る確率が 1/2 かどうかを検定する場合など;

硬貨を N 回投げて表が出るか裏が出るかを調べる。

表が出る確率 = lim

N→∞

表が出た回数

N = p (1.1)

裏が出る確率 = lim

N→∞

裏が出た回数

N = q (1.2)

0 p 1 , 0 q 1 , p + q = 1 (1.3)

同じ条件の下で,多数の試行を行った時,ある事象 A が起きる確率 P(A) P (A) = lim

試行回数

→∞

A が起きた回数

試行回数 (1.4)

<注> ここで 同じ条件 とは 巨視的には同じとみなせるが微視的にはいろいろ異なる条件 というような意味。

★ この講義で説明できない事

・ 質の良い標本データを集めるための技法

標本は母集団から無作為に抽出されるとする。

・ 数学的証明

(4)

2017 統計.2

2 データの整理

以下では,データが,身長や金額のように,(意味のある) 数字で表される場合を考える。

2.1 箱ひげ図 (Box Plot)

¨

§

¥

統計§1.4.2

¦

「数学I」(数研出版)

箱ひげ図の描き方

まず 四分位数 (quartile)Q

2

, Q

1

, Q

3

を求める:

Q

1

第 1 四分位数 下から数えて全体の 1/4 のデータ

Q

2

第 2 四分位数 下から数えて全体の 2/4 のデータ= 中央値 (median) Q

3

第 3 四分位数 下から数えて全体の 3/4 のデータ

1. データを小さい順に左から右に並べる。

<注>同じ値のデータが複数 (例えば 3 個) ある場合は,同じ数字をデータの数 (例えば 3 つ) 並べる。

2. Q

2

(中央値) を求める.

データが奇数個なら真ん中の値.

データが偶数個なら 真ん中 2 個の和を 2 で割ったもの.

3. Q

1

を求める. Q

2

より小さい (Q

2

より左にある) データの中央値 4. Q

3

を求める. Q

2

より大きい (Q

2

より右にある) データの中央値

<注>同じ値のデータが複数ある場合に違う中央値の定義を用いる場合がある。

四分位範囲 (interquartile range) 差 Q

3

Q

1

外れ値 (outlier)

Q

1

から下に, 四分位範囲の 1.5 倍より離れたデータ Q

3

から上に, 四分位範囲の 1.5 倍より離れたデータ

<注> 1.5 は別の値を採る場合もある。

(5)

・手順

Q

1

, Q

2

, Q

3

を求める

Q

2

に縦線をいれる

Q

1

から Q

3

まで箱を描く

外れ値を除いた最大値, 最小値までひげを描く

外れ値を で描く

必要なら平均値を + で描く

【例 3】 データ { 30 50 55 55 60 70 70 70 75 100 } の 3 つの四分位点を求め, 箱ひげ図を描きなさい。

【答】

・Q

2

= 60 + 70 2 = 65 .

・Q

1

は 30 50 55 55 60 の中央値なので 55.

・Q

3

は 70 70 70 75 100 の中央値なので 70.

・(Q

3

Q

1

) × 1.5 = 15 × 1.5 = 22.5 (これは描かない).

55 - 22.5 より小さい値や, 70 + 22.5 より大きいの値は外れ値. この例の場合は 30 と 100

0 50 100

【問 3】

データ { 2 8 10 11 12 12 12 14 15 } の 3 つの四分位点を求め, 箱ひげ図を描きなさい。

【答 3】

Q

1

= 9 , Q

2

= 12 , Q

3

= 13 . (3.1)

1.5 × (13 9) = 1.5 × 4 = 6 , (3.2)

13 + 6 = 19 , 9 6 = 3 (3.3)

なので,2 が外れ値となる。

0 5 10 15

(6)

2017 統計.4

2.2 度数分布表とヒストグラム

¨

§

¥

統計§1.2.1

¦ , ¨

§

¥

片松§3-1

¦ , ¨

§

¥

向冨1§1-2

¦

【問 4】 次のデータをもとに箱ひげ図を描きなさい。また,度数分布表を作りヒストグラムを描きなさい。

ある架空のハンバーガーショップで調べたポテト 49 本の長さ (単位は cm) ¤

£

¡

向冨1表1-1-1

¢ 番号 長さ

5 2.8

20 3.1

1 3.5

22 3.6 38 3.6 46 3.6 10 3.7 47 3.7 11 3.8 32 3.8

番号 長さ 14 3.9 26 3.9 33 3.9 12 4.0 19 4.0 37 4.1

2 4.2

7 4.2

24 4.2 34 4.2

番号 長さ 39 4.2 41 4.2 48 4.2

9 4.4

45 4.4

4 4.6

18 4.7 27 4.7 30 4.7 49 4.8

番号 長さ

3 4.9

8 4.9

17 5.0 40 5.0 35 5.1 36 5.1 13 5.2 42 5.2 16 5.3 28 5.3

番号 長さ 43 5.3 29 5.5

6 5.6

15 5.6 25 5.7 21 5.8 23 6.0 31 6.4 44 6.4 表 4-1

【答 4】

箱ひげ図

Q

1

= 3.9 , Q

2

= 4.4 , Q

3

= 5.2 . (4.1)

1.5 × (Q

3

Q

1

) = 1.5 × 1.3 = 1.95 (2.0) . (4.2) Q

3

+ 1.5 × (Q

3

Q

1

) = 5.2 + 1.95 = 7.15 (7.2) , Q

1

1.5 × (Q

3

Q

1

) = 3.9 1.95 = 1.95 (2.0) (4.3) なので,外れ値はない。(上で括弧内は有効数字を考慮した値。)

0 5 10

度数分布表

階級 度数 相対度数

0 以上 1 未満 0 0.00

1 以上 2 未満 0 0.00

2 以上 3 未満 1 0.02

3 以上 4 未満 12 0.24

4 以上 5 未満 19 0.39

5 以上 6 未満 14 0.29

6 以上 7 未満 3 0.06

7 以上 8 未満 0 0.00

合計 49 1.00

表 4-2

(7)

度数分布表の作り方

.

'

&

$

% n=データの個数

階級=一定間隔で区切った区間 階級値=その階級のまん中の値

階級の個数 k を決める。

最大値と最小値の差 を, この個数 k くらいにわける。きりのよい階級幅 (1 とか 5 とか 10 とか) に調節し てよい。

度数=その範囲に入ってるデータの個数。

相対度数=度数/データ全体の個数。 %(パーセント) で書くこともある。

階級の個数 k の決め方の指針

・スタージェス (Sturges) の公式

k = 1 + log

2

n = 1 + log

2

10 × log

10

n 1 + 3.3 × (データの個数の桁数) (5.1) 上の例の場合は n = 49 なので 1 + log

2

49 6.6。

・JIS による目安 柱の数が 5 20 本になるようにする。より詳しくは;

n > 100 k = 10 15 , 100 n 50 k = 8 12 ,

50 > n k = 7 10 . (5.2)

ヒストグラム 度数分布表を棒グラフにしたもの

0 5 10

5 10 20

15

ࡐ࠹࠻ߩ㐳ߐ(cm) ᧄᢙ

階級の幅が大きい k が小さい 横軸の情報 (cm 未満の情報) が失われる

階級の幅が小さい k が大きい 縦軸の情報 (多い,少ない) に意味がなくなる

(8)

2017 統計.6

ヒストグラムと箱ひげ図の対応

「数学I」(数研出版)

データ数は 30。データ { x

1

, · · · , x

30

} が 小さい順に並んでいるとすると,

Q

1

= x

8

, Q

2

= x

15

+ x

16

2 ,

Q

3

= x

23

となる。

図 [1]; Q

1

4,Q

2

5,Q

3

6 図 [2]; Q

1

2,Q

2

2.5,Q

3

4 図 [3]; Q

1

7,Q

2

8.5,Q

3

9

<注> 図 [2],[3] の箱ひげ図は外れ値を考慮していない。

【問 6】このヒストグラムに対応する箱ひげ図はどれ?

frequency

0 2 4 6 8 10

051015

0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10

(a) (b) (c) (d)

【答 6】 (c)

(9)

.

Frequency

0 2 4 6 8 10

01234 Frequency

0 2 4 6 8 10

01234 Frequency

0 2 4 6 8 10

01234 Frequency

0 2 4 6 8 10

01234

˜ ˜

0 2 4 6 8 10

【答 7】まず,一番左のヒストグラムについて,データを小さい順に x

1

x

2

x

3

≤ · · · ≤ x

10

とすると,ヒスト グラムから,

2 x

1

< 3 (7.1)

3 x

2

< 4 (7.2)

4 x

3

x

4

x

5

< 5 (7.3)

6 x

6

x

7

x

8

< 7 (7.4)

7 x

9

< 8 (7.5)

8 x

10

< 9 (7.6)

であることがわかる。

データの数が 10 個なので,中央値は 5 番目と 6 番目の値の平均,Q

2

= (x

5

+ x

6

)/2 となる。4 x

5

< 5 と 6 x

6

< 7 より

4 + 6

2 Q

2

< 5 + 7

2 , (7.7)

つまり 5 Q

2

< 6 がわかる。また,Q

1

{ x

1

, x

2

, x

3

, x

4

, x

5

} の中央値,つまり Q

1

= x

3

なので,4 Q

1

< 5 となる。同様に,Q

3

{ x

6

, x

7

, x

8

, x

9

, x

10

} の中央値,つまり Q

3

= x

8

なので,6 Q

3

< 7 となる。

次に,左から 2 番目のヒストグラムについては,データを小さい順に y

1

y

2

y

3

≤ · · · ≤ y

10

とするとヒスト グラムから,

2 y

1

< 3 (7.8)

3 y

2

< 4 (7.9)

4 y

3

< 5 (7.10)

5 y

4

y

5

y

6

y

7

< 6 (7.11)

6 y

8

< 7 (7.12)

7 y

9

< 8 (7.13)

8 y

10

< 9 (7.14)

(10)

2017 統計.8 であることがわかる。Q

2

= (y

5

+ y

6

)/2, 5 ≦ y

5

< 6, 5 ≦ y

6

< 6 より,

5 + 5

2 Q

2

< 6 + 6

2 , (7.15)

つまり 5 Q

2

< 6 となる。また,Q

1

= y

3

なので,4 Q

1

< 5,Q

3

= y

8

より 6 Q

1

< 7 となる。

結局,どちらのヒストグラムも四分位数について,同じ条件を与えるので,どちらも,与えられた箱ひげ図に 対応する可能性がある。

この例の場合は,箱ひげ図からヒストグラムを一つに絞れない。

ヒストグラムの方が箱ひげ図より多くの情報を持っていることが多い。

2.3 データを代表する値

¨

§

¥

統計§1.3.4

¦ , ¨

§

¥

片松§3-2

¦ , ¨

§

¥

向冨1§1-1

¦

中央値 (median) プリント p.2

【問 8】表 4-2 の度数分布表から中央値 (の大体の値を) を求めなさい。

【答 8】小さい方から 25 番目の値なので

4 Q

2

< 5 . (8.16)

階級値で中央値を近似すると Q

2

4.5。

なお,Q

1

は 12 番目と 13 番目の間なので

3 Q

1

< 4 . (8.17)

階級値で中央値を近似すると Q

1

3.5。Q

3

は 37 番目と 38 番目の間なので

5 Q

3

< 6 . (8.18)

階級値で中央値を近似すると Q

3

5.5。

最頻値 (mode) 最も頻繁に現れる値

データ全体からの最頻値の求め方

‘離散的な’ データのとき: いちばん多く繰り返し現れる値

例えば { 30 50 55 55 60 70 70 70 75 100 } だと 70

‘連続的な’ データのとき: 度数分布表で考える

度数分布表からの

最頻値

(

だいたいの

)

求め方

いちばん度数が大きい (いちばん棒グラフが高い) 階級の階級値

例えば表 4-2 の場合だと 4.5 となる。

(11)

.

平均値 (mean) 代表値のなかでいちばんよく使われる? §

統計§1.3.1

¦ 平均値の求め方

µ

³

´

データ全体からの平均値の求め方

データのすべての値を加えてデータの総数で割る

度数分布表からの平均値の

(

だいたいの

)

求め方

階級値 × 度数 をすべて加えて, データの総数で割る.

<注> 平均値は外れ値の影響を受けやすいので注意が必要。データを大きさの順に並べて,両側から同数ず つ取り除いて平均を求めることもある。( 刈り込み平均 ¨

§

¥

統計p.106

¦ )

【問 9-1】次のデータ (30 50 55 55 60 70 70 70 75 100) の平均値を求めなさい。

【答 9-1】 30 + 50 + 55 + 55 + 60 + 70 + 70 + 70 + 75 + 100

10 = 635

10 = 63.5

平均値の図形的 (力学的?) 意味

0 100

平均値の位置にシーソーの支点を持ってくるとつりあう。

【問 9-2】ある架空のハンバーガーショップで調べたポテト 49 本の長さの平均値を表 4-1 のデータから求めなさい。

また,表 4-2 の度数分布表から求めなさい。

【答 9-2】表 4-1 から平均値を求めると

224

49 = 4.5714 · · · ≈ 4.6 . (9.1)

一方,表 4-2 の度数分布表から求めると

階級 階級値 度数 階級値 × 度数

0 以上 1 未満 0.5 0 0.00

1 以上 2 未満 1.5 0 0.00

2 以上 3 未満 2.5 1 2.50

3 以上 4 未満 3.5 12 42.0

4 以上 5 未満 4.5 19 85.5

5 以上 6 未満 5.5 14 77.0

6 以上 7 未満 6.5 3 19.5

7 以上 8 未満 7.5 0 0.00

合計 49 226.5

226.5

49 = 4.622 · · · ≈ 4.6 . (9.2)

<注> 度数分布表の階級の幅を大きくすると,平均値の誤差は大きくなる。

例えば,階級の個数を 1 つ (0 以上 8 未満) とるすると,度数分布表による平均値は 4.0 × 49

49 = 4.0 (9.3)

となる。

(12)

2017 統計.10

【問 10-1】階級の個数を 2 つ (0 以上 4 未満と 4 以上 8 未満) とした場合,度数分布表による平均値は?

【答 10-1】度数分布表は以下のようになる;

階級 階級値 度数 階級値 × 度数

0 以上 4 未満 2.0 13 26

4 以上 8 未満 6.0 36 216

合計 49 242

表 10-1 この度数分布表による平均値は

242

49 = 4.938 · · · ≈ 4.9 . (10.1)

2.4 データのばらつきを表す値 分散

¨

§

¥

統計§1.3.1

¦ , ¨

§

¥

片松§3-2

¦ , ¨

§

¥

向冨1§1-3

¦

平均値が同じでも,いろいろなデータの分布がある。

Frequency 01234

Frequency 01234 Frequency 01234 Frequency 01234

16 18 20 22 24 26 28 16 18 20 22 24 26 28 16 18 20 22 24 26 28 16 18 20 22 24 26 28

(a) (b) (c) (d)

図 10-1

【問 10-2】上のそれぞれのヒストグラムから平均値を計算しなさい。

【答 10-2】(a) と (b) ヒストグラムに対する度数分布表は以下のようになる;

階級 階級値 度数 階級値 × 度数

16 以上 18 未満 17 0 0

18 以上 20 未満 19 0 0

20 以上 22 未満 21 4 84

22 以上 24 未満 23 4 92

24 以上 26 未満 25 0 0

26 以上 28 未満 27 0 0

合計 8 176

(a)

階級 階級値 度数 階級値 × 度数

16 以上 18 未満 17 0 0

18 以上 20 未満 19 1 19

20 以上 22 未満 21 3 63

22 以上 24 未満 23 3 69

24 以上 26 未満 25 1 25

26 以上 28 未満 27 0 0

合計 8 176

(b)

表 10-2

(13)

従って (a) のヒストグラムの平均値は

17 × 0 + 19 × 0 + 21 × 4 + 23 × 4 + 25 × 0 + 27 × 0

8 = 176

8 = 22 (11.1)

となる。また,(b) のヒストグラムの平均値は

17 × 0 + 19 × 1 + 21 × 3 + 23 × 3 + 25 × 1 + 27 × 0

8 = 176

8 = 22 (11.2)

となる。

同様に,(c) のヒストグラムの平均値は

17 × 0 + 19 × 2 + 21 × 2 + 23 × 2 + 25 × 2 + 27 × 0

8 = 176

8 = 22 , (11.3) (d) のヒストグラムの平均値は

17 × 1 + 19 × 1 + 21 × 2 + 23 × 2 + 25 × 1 + 27 × 1

8 = 176

8 = 22 (11.4) となる。

平均値は同じでも,図 10-1 の (a) から (e) の順に,平均値のまわりのデータのばらつきが大きくなっているよ うに見える。

分散と標準偏差 平均値のまわりのデータのばらつきの程度を表す量 '

&

$

% 分散 (variance) = (データ − 平均値)

2

の和

データの総数 . ¨

§

¥

統計(1.3.2)

¦ (11.5)

度数分布表から分散を求める場合は

分散 = (階級値 − 平均値)

2

× (度数) の和

データの総数 . (11.6)

標準偏差 (standard deviation) = √

分散 . ¨

§

¥

統計(1.3.3)

¦ (11.7)

<注> (データ − 平均値) を 偏差 と呼ぶ。従って, 『分散 = (偏差)

2

の平均』となる。

<注> 分散を

(データ − 平均値)

2

の和 データの総数 1

¨

§

¥

統計p.16の注釈, (3.3.4)

¦ , ¨

§

¥

片松(3.2)

¦ (11.8)

と定義する場合もあるので注意してください。

【問 11】 データ: { 9 10 10 12 14 } の分散と標準偏差を計算しなさい。

【答 11】

データ 偏差 (偏差)

2

14 3 9

12 1 1

10 -1 1

10 -1 1

9 -2 4

合計 55 0 16

合計/個数 11 0 3.2 平均 偏差の平均 分散 従って,

分散 = 3.2 , 標準偏差 =

3.2 = 1.78 · · · ≈ 1.8 . (11.9)

(14)

2017 統計.12

.

p.4 の表 4-1 の 49 本のポテトの長さの分散と標準偏差は,

平均値 = 2.8 + 3.1 + 3.5 + · · · + 6.4

49 = 4.57 · · · cm

分散 = (2.8 4.57)

2

+ (3.1 4.57)

2

+ · · · + (6.4 4.57)

2

49 = 0.6808 · · · ≈ 0.68 cm

2

標準偏差 =

0.681 0.83 cm

<注> 標準偏差で分散の平方根をとるのは,元のデータと同じ単位にするため。

【問 12】図 10-1 のそれぞれのヒストグラムについて分散と標準偏差を計算しなさい。

【答 12】(a) と (b) ヒストグラムに対する度数分布表は以下のようになる;

・(a)

階級 階級値 度数

偏差

階級値

平均値

(偏差)

2

(偏差)

2

× 度数

16 以上 18 未満 17 0 -5 25 0

18 以上 20 未満 19 0 -3 9 0

20 以上 22 未満 21 4 -1 1 4

22 以上 24 未満 23 4 1 1 4

24 以上 26 未満 25 0 3 9 0

26 以上 28 未満 27 0 5 25 0

合計 8 8

従って,

分散 = 8

8 = 1 , 標準偏差 =

1 = 1 . (12.1)

・(b)

階級 階級値 度数

偏差

階級値

平均値

(偏差)

2

(偏差)

2

× 度数

16 以上 18 未満 17 0 -5 25 0

18 以上 20 未満 19 1 -3 9 9

20 以上 22 未満 21 3 -1 1 3

22 以上 24 未満 23 3 1 1 3

24 以上 26 未満 25 1 3 9 9

26 以上 28 未満 27 0 5 25 0

合計 8 24

従って,

分散 = 24

8 = 3 , 標準偏差 =

3 = 1.7 · · · . (12.2)

・(c)

階級 階級値 度数

偏差

階級値

平均値

(偏差)

2

(偏差)

2

× 度数

16 以上 18 未満 17 0 -5 25 0

18 以上 20 未満 19 2 -3 9 18

20 以上 22 未満 21 2 -1 1 2

22 以上 24 未満 23 2 1 1 2

24 以上 26 未満 25 2 3 9 18

26 以上 28 未満 27 0 5 25 0

合計 8 40

従って,

分散 = 40

8 = 5 , 標準偏差 =

5 = 2.23 · · · . (12.3)

(15)

・(d)

階級 階級値 度数

偏差

階級値

平均値

(偏差)

2

(偏差)

2

× 度数

16 以上 18 未満 17 1 -5 25 25

18 以上 20 未満 19 1 -3 9 9

20 以上 22 未満 21 2 -1 1 2

22 以上 24 未満 23 2 1 1 2

24 以上 26 未満 25 1 3 9 9

26 以上 28 未満 27 1 5 25 25

合計 8 72

従って,

分散 = 72

8 = 9 , 標準偏差 =

9 = 3 . (13.1)

確かに,(a) から (d) の順に,分散が大きくなっていく。

(参考) データのばらつきを表すその他の量 (このような量をまとめて 散布度 という。) ¨

§

¥

片松p.20

¦

範囲 (range) = 最大値 − 最小値

四分位範囲 (IQR=inter quartile range) = Q

3

Q

1

平均偏差 偏差の絶対値 (負なら正に直したもの) の平均

分散や標準偏差が大きいほど,データのばらつきが大きい。ただし,大きい (小さい) と言う場合, 「何と比べて」

という比較対象があるはず。表 10-1 のヒストグラムの場合,全ての平均値が同じだったので,分散 (標準偏差) の 大小が,データのばらつきの大小と見なせた。

では,平均値が大きく異なる2つの標本のデータのばらつきを比較する場合は?

【例 13】ある集団の身長の平均が 170cm で標準偏差が 10cm, 靴のサイズの平均が 25cm で標準偏差が 5cm である

場合,身長のほうがよりばらついている??

このような場合には次の変動係数がデータのばらつきの指標となる;

変動係数 (coefficient of variation),相対標準偏差 ¨

§

¥

統計§1.3.3

¦

¨

§

¥

片松p.21

¦

#

"

Ã

! 変動係数 = 標準偏差

平均値 . ¨

§

¥

統計(1.3.5)

¦ (13.2)

この場合,データの 0 が意味のある数字でなければならない。

変動係数は単位がない量。つまり, 単位を変更しても同じ値になる 。

<注> 変動係数はデータが全て正の値である (従って平均値が 0 ではない) ことを想定している。

<注> 0kg は重さがないことを意味する。30kg は 10kg より 3 倍重いことを意味する。重さの比は意味を持つ。

0 ℃は温度がないことを意味する?? 30 ℃は 10 ℃より 3 倍熱い?? 30 ℃は 10 ℃より 20 ℃だけ温度が高い。

℃で測った温度の比は意味がない。温度の差は意味を持つ。 ¨

§

¥

統計§1.1変数の分類

¦ ¨

§

¥

片松§2.1

¦

(16)

2017 統計.14

.

µ[mu]ミュー,σ[sigma]シグマ

(平均値) ± (標準偏差) の範囲にデータの多くが入っていることが期待されるが,次の不等式が一般に成り立つ;

チェビシェフ (Chebyshev) の不等式

®

­

© ª (平均値 ± a に入るデータの数)

全データ数 1 分散

a

2

. ¨

§

¥

統計(2.11.5)

¦ (14.1)

例えば,a = 2 × 標準偏差 とすると,この不等式より

(平均値) ± 2 × (標準偏差) に入るデータの数)

全データ数 3

4 = 75 % (14.2)

が得られる。また,a = 3 × 標準偏差 とすると,

(平均値) ± 3 × (標準偏差) に入るデータの数)

全データ数 8

9 89 % (14.3)

となる。

(参考) (14.1) の導出

N

をデータの総数,{

x

1

, , x

2 · · ·

, x

N}をデータとする。また,

m

を平均値,

s

を標準偏差とする。

(m

a , m + a)

に属 するデータの集合を

A

,その個数を

N

A とする。

N s

2

=

XN i=1

(x

i

m)

2

=

X

iA

(x

i

m)

2

+

X

i /A

(x

i

m)

2X

i /A

(x

i

m)

2X

i /A

a

2

= a

2

(N

N

A

) . (14.4)

この不等式を変形すると以下となる;

s

2

a

2

1

N

A

N . (14.5)

(14.1) は全ての分布に対して成り立つ式。普通によく現れる分布では,データは平均値の近くにもっと集中する。

例えば,後に出てくる 正規分布 ( ¨

§

¥

統計p.94

¦

¨

§

¥

片松p.14

¦

¨

§

¥

向冨1 p.30

¦ ) では (平均値) ± 2 × (標準偏差) に入るデータの数)

全データ数 95.5 % . (14.6) (平均値) ± 3 × (標準偏差) に入るデータの数)

全データ数 99.7 % (14.7) となる。

正規分布,µ = 平均値,σ = 標準偏差

このグラフは,標本数を無限大にし,階級の幅を無限に小さくしたヒストグラムのようなもの。

図 14-1

(17)

2.5 平均値・分散・標準偏差の変換

X でデータ

{ x

1

, x

2

, · · · , x

N

} (15.1) を表すことにする。さらに,a X はデータ

{ a x

1

, a x

2

, · · · , a x

N

} (15.2) を表し,X + b はデータ

{ x

1

+ b , x

2

+ b , · · · , x

N

+ b } (15.3) を表すこととする。すると,a X + b は,データ

{ a x

1

+ b , a x

2

+ b , · · · , a x

N

+ b } (15.4)

を表すことになる。

a X,X + ba X + b の平均値・分散・標準偏差は, X の平均値・分散・標準偏差から計算できる。

a X + b の平均値・分散・標準偏差 '

&

$

%

データ 平均値 分散 標準偏差

X X の平均値 X の分散 X の標準偏差 X + b X の平均値 +b X の分散 X の標準偏差 a X X の平均値 × a X の分散 × a

2

X の標準偏差 ×| a | a X + b X の平均値 × a + b X の分散 × a

2

X の標準偏差 ×| a |

式を使って書くと次のようになる:

X の平均値を m

X

,分散を s

2X

,標準偏差を s

X

とすると,a X + b の平均値 m

aX+b

,分散 s

2aX+b

,標準偏差 s

aX+b

m

aX+b

= a m

X

+ b , s

2aX+b

= a

2

s

2X

, s

aX+b

= | a | s

X

(15.5) となる。

【問 15】次のデータの平均値,分散,標準偏差を求めなさい;

{ 1009 , 1010 , 1012 , 1012 , 1012 } . (15.6)

【答 15】X の表すデータを

{ 9 , 10 , 12 , 12 , 12 } (15.7)

とすると,問に与えられたデータは X + 1000 となる。X の平均値は m

X

= 9 + 10 + 12 + 12 + 12

5 = 55

5 = 11 . (15.8)

分散は

s

2X

= (9 11)

2

+ (10 11)

2

+ (12 11)

2

+ (12 11)

2

+ (12 11)

2

5

= 2

2

+ 1

2

+ 1

2

+ 1

2

+ 1

2

5 = 8

5 = 1.6 . (15.9)

標準偏差は

s

X

=

1.6 = 1.26 · · · ≈ 1.3 . (15.10)

(18)

2017 統計.16

.

次に,元のデータの平均値は

m

X+1000

= (9 + 1000) + (10 + 1000) + (12 + 1000) + (12 + 1000) + (12 + 1000) 5

= 9 + 10 + 12 + 12 + 12

5 + 1000 × 5

5 = 11 + 1000 = 1011 , (16.1)

分散は

s

2X+1000

= [(9 + 1000) (11 + 1000)]

2

+ [(10 + 1000) (11 + 1000)]

2

+ 3 × [(12 + 1000) (11 + 1000)]

2

5

= (9 11)

2

+ (10 11)

2

+ 3 × (12 11)

2

5 = 8

5 = 1.6 = s

2X

, (16.2)

標準偏差は

s

X+1000

=

1.6 = s

X

(16.3)

となり,確かに式 (15.5) の関係が成り立っていることがわかる。

【問 16】次のデータの平均値,分散,標準偏差を求めなさい;

{ 0.9 , 1.0 , 1.2 , 1.2 , 1.2 } . (16.4)

【答 16】X の表すデータを (15.7) とすると,問に与えられたデータは 0.1 X となる。(例えば,mm を単位として 測ったデータを cm を単位として表したような場合。)

(16.4) のデータの平均値は

m

0.1X

= (0.1 × 9) + (0.1 × 10) + (0.1 × 12) + (0.1 × 12) + (0.1 × 12) 5

= 0.1 × 9 + 10 + 12 + 12 + 12

5 = 0.1 × 11 = 1.1 = 0.1 × m

X

, (16.5) 分散は

s

20.1X

= [(0.1 × 9) (0.1 × 11)]

2

+ [(0.1 × 10) (0.1 × 11)]

2

+ 3 × [(0.1 × 12) (0.1 × 11)]

2

5

= (0.1)

2

× (9 11)

2

+ (10 11)

2

+ 3 × (12 11)

2

5 = (0.1)

2

× 8

5

= (0.1)

2

× 1.6 = (0.1)

2

× s

2X

, (16.6)

標準偏差は

s

0.1X

=

(0.1)

2

× s

2X

= 0.1 × s

X

(16.7)

となり,確かに式 (15.5) の関係が成り立っていることがわかる。

【例 16】あるクラスで行われたテストで, 英語の平均点は 60 点, 標準偏差 10 点. 数学の平均点は 60 点, 標準偏差

20 点. 英語の 80 点と数学の 80 点, どちらのほうが価値がある?

(1) たぶん英語のほうが価値がある (2) たぶん数学のほうが価値がある (3) どちらも同じ

(4) これだけの情報ではまったくわからない

【答】 (1)

(19)

.

¨

§

¥

統計§1.3.2

¦ ¨

§

¥

片松p.14, (2.12)

¦ ¨

§

¥

向冨1 p.30

¦

個々のデータが標本集団の中でどれくらいはずれた位置にあるかを示す値。

標準 (化) 得点 (standard score) と偏差値 (adjusted deviation score) '

&

$

% (データ 1 個の) 標準得点 = データの値 平均値

標準偏差 , (17.1)

(データ 1 個の) 偏差値 = 標準得点 × 10 + 50

= データの値 平均値

標準偏差 × 10 + 50 . (17.2)

式を使って書くと以下のようになる;データ X の平均を m,標準偏差を s とすると,標準得点 ZZ = X m

s . ¨

§

¥

統計(1.3.4)

¦ (17.3)

もし,データが正規分布に従う場合は,

1 Z < 1 の範囲にデータの約 68 %が入る。 (17.4)

2 Z < 2 の範囲にデータの約 95 %が入る。 (17.5)

3 Z < 3 の範囲にデータの約 99.7 %が入る。 (17.6)

これを偏差値を用いて言いかえると,

偏差値が 40 以上 60 未満 の範囲にデータの約 68 %が入る。 (17.7) 偏差値が 30 以上 70 未満 の範囲にデータの約 95 %が入る。 (17.8) 偏差値が 20 以上 80 未満 の範囲にデータの約 99.7 %が入る。 (17.9)

<注> (17.3) より X = m + sZ なので,標準得点は,そのデータが平均値から上下どちらかに標準偏差の何

倍離れているかを表す値。

<注> 標準得点は,データを表す単位を変えても値が変化しない。

<注> 標準得点は z-得点 (z-score) などとも呼ばれる。

【問 17】次のデータ,

{ 87 , 89 , 90 , 91 , 93 } , (17.10)

について,データ 87 の標準得点と偏差値を求めなさい。

【答 17】平均値 m

m = 90 + 3 1 + 0 + 1 + 3

5 = 90 + 0

5 = 90 . (17.11)

分散 s

2

と標準偏差 s

s

2

= ( 3)

2

+ ( 1)

2

+ (0)

2

+ (1)

2

+ (3)

2

5 = 20

5 = 4 , (17.12)

s =

4 = 2 . (17.13)

従って,87 の

標準得点 = 87 90 2 = 3

2 = 1.5 . (17.14)

偏差値 = 1.5 × 10 + 50 = 35 . (17.15)

(20)

2017 統計.18

.

標準得点の性質

標準得点の平均値は 0 。

標準得点の分散は 1 , 標準偏差は

1 = 1 。

標準得点は 無次元の数 (「単位を変えても値が変化しない」ことをこのように言う習慣があります。)

なぜなら,Z = X m s = 1

s X m

s なので,平均値と標準偏差の変換 (15.5) で,a = 1

s ,b = m

s の場合と考 えて,

m

Z

= am + b = 1 s m m

s = 0 , (18.1)

s

2Z

= a

2

s

2

= s

2

s

2

= 1 , s

Z

=

1 = 1 . (18.2)

偏差値の性質

異なるテスト, クラスでも比べられる。

偏差値の平均は 50 。

偏差値の標準偏差は 10 。

偏差値はまあ ‘無次元の数’(1000 点満点と 100 点満点を比較可能) 。

【問 18-1】次のうち次元のない数はどれ (とどれ)?

(1) 国内総生産 (GDP) (例) 2012 年の名目 GDP は 464 兆 8679 億円。

(2) 年降水量 (例) 大津市の 2014 年の年降水量は 1465 mm 。 (3) (道路の) 制限速度 (例) 時速 40 km 。

(4) 食糧自給率 (例) 平成 26 年度の生産額ベース総合食料自給率= 食料の国内生産額 9.8 兆円

食料の国内消費額 15.3 兆円 = 64 % 。

【答 18-1】 (4) 。

【問 18-2】偏差値について, 次のうち { どんな分布に対しても,正規分布に対して } 正しいのはどれ (とどれ)?

(1) 偏差値の最低値は 0 である (2) 偏差値の最高値は 75 である

(3) 平均点 (をとった人) の偏差値は 50 である

(4) 100 点のテストで満点を取った場合の偏差値は, 他の人の成績しだいである

(5) 偏差値 50 の人の順位は上から 1/2 程度である (6) 偏差値 60 の人の順位は上から 15 % 程度である.

【答 18-2】どんな分布に対しても正しいのは (3), (4) ,

正規分布に対して正しいのはさらに, (5), (6) 。

(21)

3 2 変量データの整理

¨

§

¥

統計§1.6

¦

2 変量データではデータが 1 つの数字 X ではなく,2 つの数字の組 (X, Y ) になっている。下の例では (最高気 温,客数)。

【例 19】ある架空のアイスクリーム店で調べた 1 日の最高気温と客数の関係 ¨

§

¥

向冨2 p.27

¦ データの個数 N = 10

日付 X = 最高気温 (℃) Y = 客数 (人)

1 29 326

2 29 364

3 30 283

4 32 369

5 33 417

8 32 436

9 31 438

10 26 296

11 28 263

12 31 389

表 19-1 XY の関係を特徴づける値は?

<注> X を 説明変数 (独立変数,予測変数,共変量),Y を 目的変数 (応答変数,被説明変数,従属変数,

基準変数) などと呼ぶことがある。 ¨

§

¥

統計p.33

¦

¨

§

¥

片松p.103

¦

¨

§

¥

向冨2 p.103

¦

この例では,客数の予測が目的。客数の変化を説明する要因としてその日の最高気温を考えている。

3.1 クロス集計表と周辺分布

度数分布表の 2 変量データ版を クロス (集計) 表 と呼ぶ。 ¨

§

¥

統計p.28

¦

YX

25以上27未満 27以上29未満 29以上31未満 31以上33未満 33以上35未満

200以上250未満

0

250以上300未満

1 1 1 3

300以上350未満

1 1

350以上400未満

1 2 3

400以上450未満

2 1 3

450以上500未満

0

計 1 1 3 4 1 10

表 19-2

最後の行は X の度数分布表,右端の列は Y の度数分布表となっている。これらを 周辺分布 と呼ぶ。

(22)

2017 統計.20

.

Xの分散= (Xのデータ−Xの平均値)2の和

データの総数 =(x1−mX)2+ (x2−mX)2+· · ·+ (xN−mX)2 N

3.2 散布図 (scatter plot)

¨

§

¥

統計§1.6.1

¦

¨

§

¥

片松p.26

¦

¨

§

¥

向冨2§1-2,p.14

¦

横軸を X,縦軸を Y として,それぞれのデータについて座標 (X, Y ) に点を描いた図。

200 250 300 350 400 450 500

㪉㪌 㪉㪎 㪉㪐 㪊㪈 㪊㪊 㪊㪌

ᦨ㜞᳇᷷(͠)

表 19-1 のデータの散布図, ¨

§

¥

向冨2 p.22

¦ 図 20-1

グラフが右上がりなので,最高気温が高いほど客数が多くなる傾向が読み取れる。これを数値で表したい。

3.3 共分散 (covariance) と相関係数 (correlation coefficient)

¨

§

¥

統計§1.6.2

¦ ¨

§

¥

片松p.27

¦ ¨

§

¥

向冨2§2-2,p.28

¦ 共分散 (covariance)

'

&

$

% X, Y の 共分散 C = (X のデータ X の平均値) × (Y のデータ Y の平均値) の和

データの総数 . (20.1) 式を使って書くと以下のようになる;データ (X, Y ) を

(x

1

, y

1

) , (x

2

, y

2

) , · · · , (x

N

, y

N

) (20.2) とするとき,

C = (x

1

m

X

)(y

1

m

Y

) + (x

2

m

X

)(y

2

m

Y

) + · · · + (x

N

m

X

)(y

N

m

Y

)

N , (20.3)

上で,m

X

X の平均値,m

Y

Y の平均値を表す。 ¨

§

¥

統計(1.2.1)’

¦

¨

§

¥

片松p.27

¦

C > 0,X と Y に 正の相関 がある。 X が増加すると Y が 増加する 傾向がある。 (20.4)

C < 0,X と Y に 負の相関 がある。 X が増加すると Y が 減少する 傾向がある。 (20.5)

(x

i

m

X

)(y

i

m

Y

) の正負と C の正負, ¨

§

¥

向冨2 p.36

¦

図 20-2

(23)

.

次元のある量なので 単位を変えると値が変わる 比較に不便

広い範囲にばらついていた方が値が 大きくなる 次の相関係数は, 相関の強さを直接的に表す。

相関係数 (correlation coefficient) '

&

$

% X, Y の 相関係数 r = X, Y の共分散 C

X の標準偏差 s

X

× Y の標準偏差 s

Y

. ¨

§

¥

統計(1.6.2)

¦

¨

§

¥

片松(3.12)

¦

¨

§

¥

向冨2 p.31

¦ (21.1)

相関係数は XY の単位を変えても値が変わらない,つまり次元のない量。

相関係数は-1 から+1 の値をとる;− 1 r 1

r = 1 散布図の点が右上がりの直線上に全てのる (21.2) r = 1 散布図の点が右下がりの直線上に全てのる (21.3) (参考) ベクトルの内積を知っている人への補足注意

1≤r≤1は,次の不等式と同じ内容;

|~a·~b| ≤ |~a||~b| (21.4)

ただし

~a= (x1−mX, x2−mX,· · ·, xN−mX), ~b= (y1−mY, y2−mY,· · ·, yN−mY). (21.5)

相関の強さの目安 ¨

§

¥

向冨2表2-3-1, p.33

¦

0.2 r 0.2 ほとんど相関がない (21.6)

0.4 r < 0.2 , 0.2 < r 0.4 弱い相関がある (21.7)

0.7 r < 0.4 , 0.4 < r 0.7 中程度の相関がある (21.8)

1.0 r < 0.7 , 0.7 < r 1.0 強い相関がある (21.9)

「数学I」(数研出版), p.177

図 21-1 散布図と相関係数の例

0 2 4 6 8 10

0246810

X

Y

0 2 4 6 8 10

0246810

X

Y

0 2 4 6 8 10

0246810

X

Y

0 2 4 6 8 10

0246810

X

Y

0 2 4 6 8 10

0246810

X

Y

0.99

r = r = 0.55 r = 0 r = − 0.55 r = − 0.99

図 21-2 散布図と相関係数の例

(24)

2017 統計.22

【問 22】次の 2 変量データ (X, Y ) の共分散 C と相関係数 r を求めよう。ただし,X の標準偏差が s

X

= 3,Y の 標準偏差が s

Y

= 10 であることを利用してもよい。

X 3 6 8 8 11 12

Y 30 40 30 40 40 60

【答 22】X の平均値 m

X

m

X

= 3 + 6 + 8 + 8 + 11 + 12

6 = 48

6 = 8 . (22.1)

Y の平均値 m

Y

m

Y

= 30 + 40 + 30 + 40 + 40 + 60

6 = 240

6 = 40 . (22.2)

従って,共分散は

C = 1

6 (

(3 8)(30 40) + (6 8)(40 40) + (8 8)(30 40) + (8 8)(40 40) +(11 8)(40 40) + (12 8)(60 40)

)

= 50 + 80 6 = 130

6 = 65

3 22 . (22.3)

相関係数は

r = 65

3 × 3 × 10

= 13

18 0.72 . (22.4)

なお,X と Y の分散は

s

2X

= (3 8)

2

+ (6 8)

2

+ 2 × (8 8)

2

+ (11 8)

2

+ (12 8)

2

6 = 25 + 4 + 9 + 16

6 = 54

6 = 9 , (22.5) s

2Y

= 2 × (30 40)

2

+ 3 × (40 40)

2

+ (60 40)

2

6 = 200 + 400

6 = 600

6 = 100 (22.6)

となるので,確かに s

X

=

9 = 3 , s

Y

=

100 = 10 である。

XaX + b に変わった時の共分散と相関係数の変化

XY の共分散と相関係数を Cr,aX + bY の共分散と相関係数を C

0

r

0

とすると C

0

= a C , r

0

=

{

r ; a > 0

r ; a < 0 . (22.7)

(参考) (22.7) の導出

(15.5)よりmaX+b=amX+b,saX+b=|a|sXなので,

C0 = (a x1+b−maX+b)(y1−mY) +· · ·+ (a xN+b−maX+b)(yN−mY) N

= (a x1+b−amX−b)(y1−mY) +· · ·+ (a xN+b−amX−b)(yN−mY) N

= (a x1−amX)(y1−mY) +· · ·+ (a xN−amX)(yN−mY)

N =aC . (22.8)

r0= C0 saX+bsY

= a

|a| C sX sY

= a

|a| r=

r ; a >0

−r ; a <0 . (22.9)

(25)

3.4 回帰直線 (regression line)

¨

§

¥

統計§1.6.4

¦ ¨

§

¥

片松§3.3.2,p.29

¦ ¨

§

¥

向冨2第4章,p.63

¦

2 変量データ (X, Y ) の相関係数 r± 1 に近い 散布図上のデータ点 (X, Y ) がほぼ直線上にのっている。

その直線 ( 回帰直線 ) の式 Y = aX + b を知りたい。つまり 回帰係数 a, b を決めたい。

200 250 300 350 400 450 500

㪉㪌 㪉㪎 㪉㪐 㪊㪈 㪊㪊 㪊㪌

ᦨ㜞᳇᷷(͠)

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

㪄㪉㪅㪌 㪄㪉 㪄㪈㪅㪌 㪄㪈 㪄㪇㪅㪌 㪇㪅㪌 㪈㪅㪌 㪉㪅㪌

ߩ

ᦨ㜞᳇᷷ߩᮡḰᓧὐ

散布図 20-1 の回帰直線,■のマークは点 (m

X

, m

Y

) を示す。

図 23-1

回帰直線がわかると,X の値から Y の値が予測できる。図 23-1 の場合だと,天気予報の最高気温を基に,必 要なアイスクリームの材料の量が予測できる。

(参考)

回帰直線を求めて,1つの目的変数

(Y )

を1つの説明変数

(X )

から予測しようとすることを, 回帰分析 ,より正確 には 単回帰分析

(1

変数回帰分析

)

と呼ぶ。もっと一般に1つの目的変数を複数の説明変数から予測することを 重回帰分析

と呼ぶ。

¨

§

¥

統計p.36

¦ ¨

§

¥

片松§6.1,p.102

¦ ¨

§

¥

向冨2第6章,p.97

¦

回帰直線は散布図のデータの点の ‘真ん中’ を通るように引く。例えば,図 23-2 に示すようなデータ数が 5 の場 合,直線からのずれの 2 乗 d

2

の合計 f = d

21

+ d

22

+ d

23

+ d

24

+ d

25

がなるべく小さくなるように a, b を決める。こ の手続きを 最小 2 乗法 と呼ぶ。 ¨

§

¥

統計p.34

¦

図 23-2 データ数が 5 の場合の最小 2 乗法

直線を表す式

傾き a, 点 (c, d) を通る直線の式; Y = a(X c) + d

傾き a, 切片 b (点 (0, b) を通る) の直線の式;Y = aX + b , b = d ac

参照

関連したドキュメント

“Cancer statistics,” published to date, contain valuable information, demonstrating changes in Japanese cancer statuses and reaffirming the importance of cancer control

[r]

㩿㫋୯㪀 㩿㪍㪅㪍㪋㪋 㪁㪁 㪀 㩿㪍㪅㪌㪏㪊 㪁㪁 㪀 㩿㪍㪅㪍㪎㪊 㪁㪁 㪀 㩿㪍㪅㪌㪏㪊 㪁㪁 㪀 㩿㪍㪅㪍㪍㪉 㪁㪁 㪀 㩿㪍㪅㪉㪐㪏 㪁㪁 㪀 㩿㪌㪅㪋㪌㪍 㪁㪁 㪀

社会調査論 調査企画演習 調査統計演習 フィールドワーク演習 統計解析演習A~C 社会統計学Ⅰ 社会統計学Ⅱ 社会統計学Ⅲ.

   遠くに住んでいる、家に入られることに抵抗感があるなどの 療養中の子どもへの直接支援の難しさを、 IT という手段を使えば

26‑1 ・ 2‑162 (香法 2 0 0

講師 牧原 依里(『 LISTEN リッスン』共同監督)3. 小石

原子炉隔離時冷却系系統流量計 高圧炉心注水系系統流量計 残留熱除去系系統流量計 原子炉圧力計.