Microsoft PowerPoint - Econometrics pptx

(1)

計量経済学講義

第 4 回記述統計の基礎 Part 1

2013

年 10 ⽉ 18 ⽇（⾦）2 限

担当教員:

唐渡広志

研究室:

経済学研究棟4階432号室

email:

[email protected]

website:

http://www3.u-toyama.ac.jp/kkarato/

(2)

講義の目的



⼀般的なデータの集約⽅法や記述⽅法につ

いて学びます。

keywords:

度数分布表，ヒストグラム，標本平

均，偏差，偏差2乗和，標本分散，標本標準

偏差

教科書: pp. 36–38, 44–50（第2章）

(3)

度数分布表とヒストグラム

_{(1) pp.36-38}

度数分布表の作成⼿順 (Excel)

1. 【全度数】（データサイズ）を調べる［count 関数］

2. 【階級数】概算値［1+log

₂

（全度数）］

3. 【最⼩値】［min 関数］

4. 【最⼤値】［max 関数］

5. 【範囲】［最⼤値－最⼩値］

6. 【階級の幅】（の⽬安） = 「範囲」/「階級数」を計算

7. 【階級の設定】（○○以上××未満）

階級数や階級の幅は⼀つの⽬安と考える。階級の幅は区切りのよい間隔を持たせた⽅がわかりやすい。

(4)

度数分布表とヒストグラム

₍₂₎

度数を求める⽅法階級の上限に対応した値を「区間配列」データとして記述する。「5 万円未満」なので，階級の上限を 4.9 とする。 frequency 関数を利⽤して，最初の階級の度数だけを計算する。データ配列区間配列 = frequency (データ配列，区間配列)

(5)

度数分布表とヒストグラム

₍₃₎

いま計算した「最初の階級の度数」と「これから計算予定の度数」のセルを選択状態にする。

Ctrl

と Shift を押さえたまま Enter

数式バーの⼀番左側をクリック 完成（操作を間違えたら Esc キー） （この技のことを「配列コピー」とよぶ）ヒストグラム作成  「挿⼊」タブ  縦棒  2-D縦棒

(6)

母集団と標本

_pp.44-46

全体の構造⼀部の情報（標本）全体の構造の予測「推定・検定」一部分を利用「標本抽出」（母集団）

⼀部の情報だけを利⽤して全体の構造を予測

⺟集団の平均・分散例（推定）：  標本から計算できる「平均」を⽤いて，⺟集団の平均を予測する。  標本から計算できる「分散」を⽤いて，⺟集団の分散を予測する。

(7)

母集団（

_{population）}



⺟集団：「観察の対象」となっている事柄のあらゆ

る「観測値」の集まり



観察の対象（例）

a.

2013

年10⽉1⽇現在の⽇本⼈の20歳の男性の体重

b.

A

市で働いている就業者（25-29歳） 2012年の年収

c.

市⻑選挙での投票結果

d.

サイコロを投げた時に出る⽬

e.

富⼭湾深海のホタルイカの卵の数

f.

B

社が作る液晶テレビの性能状態（初期不良があるか

どうか）

g.

22 世紀の C 国で⼀⼈の⼥性が⽣涯に産む⼦供の数

(8)

標本

_{(sample) と標本の大きさ (sample size)}

 標本：⺟集団の⼀部分だけを何らかの⽅法（実験，調査，観察など）で観測した「観測値」の集まり。  標本抽出：⺟集団から「観測値」の⼀部を取り出すこと。  抽出された⼀つ⼀つの観測値のことを「観測データ」または単に「データ」ともよぶ。母集団就業者（ 25-29歳）の年収標本 260,209,99,256,280, 121,286,564,457,405 標本抽出 _{観測値 or 観測データ or データ}  ⺟集団から取り出した標本内の観測データの数のことを「標本の⼤きさ（標本サイズ, sample size）」とよぶ．標本数とはよばない！  記号 n で標本の⼤きさを表す。 sample size: n = 10

(9)

例．標本抽出（

_{sampling）による調査}



「家計調査」（総務省）



家計の収⼊と⽀出に関する調査→家計簿的な統計



⽇本全体の世帯⼈員が⼆⼈以上の世帯数は3,400万（単⾝世帯

を含めると4,600万）



家計調査で標本抽出された⼆⼈以上の世帯数（標本サイズ）

は8,000

• 全体の 0.024% だけを利⽤している．



「労働⼒調査」（総務省）



就業状態についての調査



標本抽出される世帯数（標本サイズ）は約4万世帯（10万⼈）



2010

年の失業者数は334万⼈，就業者数は6257万⼈

(10)

標本の「数」と標本の「大きさ」（

_1）

⺟集団就業者（ 25-29歳）の年収標本 (a) 260, 209, 99, 256, 280, 121, 286, 564, 457, 405 標本抽出標本の大きさ（標本サイズ）_{: n = 10} 標本 (b) 253, 666, 814, 156, 625, 418, 216, 172, 208, 217 標本 (c) 235, 213, 375, 302, 486, 306, 392, 376, 526, 841 標本の数 = 3 一つの標本 = 観測値10個の塊注意：標本抽出のたびに異なる観測値が得られる。 10個の観測値からなる標 本が3セットある状態

(11)

標本の「数」と標本の「大きさ」（

_2）

母集団サイコロを投げたときに出る目

標本1

22

25

43

64

26

15 標本2

31

65

21

64

11

61 標本3

14

43

11

45

41

64 標本4

56

14

46

21

46

25

標本抽出標本の大きさ（標本サイズ） n = 12

(12)

観測データ表

 観測データ⼀つ⼀つに「観測番号」をつける。  任意の観測番号を i という記号で表す．  標本サイズが n = 10 のとき i = 1, 2, … ,10  第 i 番⽬の観測データを X_i という記号で表す．  観測番号順に観測データを並べた表を「観測データ表」とよぶ．

209

260

2 1



X

記号と値の対応

例：

観測データ表「就業者の年収」標本(a)を例に観測データのまとめ方を考える。

(13)

観測データ

  

X

_i



X

₁

,

X

₂

,

_

,

X

_n



データの塊を { } で括って表わす・・・は省略の記号 【定義】サンプルサイズ n の観測データの塊 例．

  

X

_i



7 ,

1 ,

2 ,



3 ,

0 

(14)

標本平均

_{(Sample Mean) (1)}

n

X

_

1



2







n

  



4

16

4

6

5

3

2

4

6 ,

5 ,

3 ,

2 ,

4

4 3 2 1



_



_



X

n

_i

のとき

例．

エックス・バーと読む

:

X

 

の平均

観測データ

【定義】標本平均：

_X

_i

(15)

X -2 0 2 4 6 8 10 12 14 2 3 5 6 Y -2 0 2 4 6 8 10 12 14 0 3 6 7 -2 0 2 4 6 8 10 12 14 00 3 13

標本平均

_{(Sample Mean) (2)}

標本平均標本平均は左右のバランスがちょうど取れる場所にある

(16)

平均周りの「偏差」

₍₁₎



各データと平均との距離を合計するとちょうど0になる．



「各データ」と「平均」との距離を平均まわりの「偏差」とよぶ．

deviation 4  Z

0

3

13

9  1  4  4 

9

4

13

1

4

3

4

0

4

0

4 3 2 1

































Z

偏差合計するとちょうど 0 になっている

(17)

平均周りの「偏差」

₍₂₎

  





 







が成り立つ．

，必ず

を標本平均とするとき

について

個の観測データ：

0 ,

,

2 1 2 1















X

n

n n i





X

₁



a

 



X

₂



a





_





X

_n



a





₀

のとき，必ず

a



X

見方を変えると・・・

に等しい」．

の値は標本平均

「

ならば，

の合計が

という値を引いたとき

各データから

X

a

0

偏差の合計は必ずゼロになる

(18)

練習問題（

_{1）手計算}

  



の偏差の合計がになることを確認しなさい．

(19)

自由度

?

1

3

2

4 3 2 1

















X

はどのような値か？

のとき，以下の

X



1



2



3



4 ₄



4

・4つの偏差のうち3つまでわかっていれば，残り一つは自動的に求められる．  残り1つは自由に任意の値をとることができない（情報として必要ない）．  4つのうち3つは任意の値をとることができる．（ n = 4 のとき自由度は3である）

?

2

3

4

4 3 2 1

















X

?

5

88

12

4 3 2 1

















X

(20)

練習問題（

_{2）手計算}

 

の値を求めなさい。

わかっている。

について以下のことが

の観測データ

b

X

n

5

_i

].

1 [



3

4

1

5 4 3 2 1





















X

b

X

 

の値を求めなさい。

わかっている。

について以下のことが

の観測データ

c

Y

n

3

_i

].

2 [



4

12

3 2 1















Y

c

Y

(21)

データの「ばらつき」を示す特性値

（

_{pp.48 - 52）}



偏差2乗和（Sum of Squares）



分散（Variance）: 偏差2乗和を⾃由度で割った値



標準偏差（Standard Deviation）:分散の平⽅根



変動係数（Coefficient of Variation）:標準偏差を平均で割った値



 



2





2 2 2 1

X

S

_xx











_



_n



1

2





n

S

s

_x xx 2 x x

s

s 

s

CV

_

x



添え字の

_x

を省略して

_s

2

と書く場合もある





添え字の

x

を省略して

s

と書く場合もある



(22)

偏差

_{2乗和 S}

_xx



偏差を合計すると必ず0になってしまう．



そこで，偏差を2乗してから合計したものを散らばり具合の指標

として使う

（2乗すると符号は？）



これを偏差2乗和とよぶ（記号は S

_xx

）



X

₁



X

 



X

₂



X





_





X

_n



X





0 

 



2





2 2 2 1

:

2 乗和

S

_xx



X



X



X



X



_



X

_n



X

偏差

  



を標本平均とするとき

について

個の観測データ：

【定義】

X

n

_i



₁

,

₂

,

_

,

_n 記号：大文字の S に下付きの添え字 xx

るだけでは意味がない

成⽴するので，合計す

どんなデータでも必ず



(23)

例．偏差

_{2乗和の計算}



 



   

2

1

2

4

1

4

10 :

2

2 2 2 2 2 4 2 3 2 2 2 1

































X

S

_xx

乗和

偏差

(24)

【重要】偏差

_{2乗和の注意点}



合計してから 2 乗してはいけない

 偏差の合計は 0 であることに注意  偏差を合計してから 2 乗しても 0 になる．



「和の2乗」と「2乗の和」は意味が異なる点に注意



 









2 (

1 )

1

2 

0

2

2 2 2 4 3 2 1



























X

乗

偏差の和の



 



 

2 (

1 )

1

2

4

1

4

10

2

2 2 2 2 2 4 2 3 2 2 2 1

































X

S

_xx

乗和

偏差

(25)

(26)

標本分散

_s

_x

2 

偏差2乗和を⾃由度 n − 1 で割った値を標本分散とよぶ．



n − 1

を⾃由度とよぶ．



なぜ標本サイズ n ではなく，⾃由度 n − 1 で割るのか．

• n 個の偏差のうち，必要な情報は n − 1 個で⼗分だから。 • 分散 = 「必要な情報1個当たり」の散らばり具合を測っている。 • 実は n − 1 で割った⽅が，⺟集団分散の良い推定になっている。（nで割ると， ⺟集団分散を過少に推定してしまうことが知られている）



 







1

2 2 2 2 1 2

















n

X

n

S

s

xx n x



分散：

  



_について _{を標本平均とするとき} 個の観測データ：【定義】n X_i  X₁,X₂,_,X_n X 分散 = 偏差2乗和を「自由度」で割った値小文字の s を使う

(27)

母集団と標本の対応関係：

標本分散は母集団の分散を予測するために用いられるもの

⺟集団

［観察の対象］

富⼭市の40歳既婚⼥性の⼦供の数有限⺟集団 1700⼈ 0 1 2 3 4 5 20 0 4 00 60 0 子供の数度数母集団の平均：1.9人母集団の分散：1.09 標本抽出 n =25 1 2 1 2 2 2 3 2 1 5 3 3 1 0 1 3 1 2 2 2 3 3 3 0 3 0 1 2 3 4 5 02 4 6 8 標本のヒストグラム子供の数度数標本平均：2.04人標本分散：1.29 1 2   n S s xx x

(28)

例．標本分散の計算



 



3

10

1

4

1

4

1

2 4 2 3 2 2 2 1 2

























n

X

s

_x 分散偏差2乗和を計算してから標本分散を計算する

(29)

標本標準偏差

なぜ，平⽅根なのか？

分散は計算の過程で2乗しているので，データの単位も2乗されてしまう．単位を元に戻すために平⽅根をとる 2

s

s 

標準偏差：

826 .

1

3

10 :

3

10

2



x x

s

標準偏差

分散：

  



を標本分散とするとき

を標本平均，

について

個の観測データ：

【定義】

2 2 1

,

x n i

s

X

n



_

小文字の s を使う 例1. 例2. T⼭⼤学K済学部 1 年⽣男⼦207名の⾝⻑

Microsoft PowerPoint - Econometrics pptx

計量経済学 講義

第 4 回 記述統計の基礎 Part 1

2013

年 10 ⽉ 18 ⽇（⾦）2 限

担当教員:

唐渡 広志

研究室:

経済学研究棟4階432号室

email:

[email protected]

website:

http://www3.u-toyama.ac.jp/kkarato/

講義の目的



⼀般的なデータの集約⽅法や記述⽅法につ

いて学びます。

keywords:

度数分布表，ヒストグラム，標本平

均，偏差，偏差2乗和，標本分散，標本標準

偏差

教科書: pp. 36–38, 44–50（第2章）

度数分布表とヒストグラム

(1) pp.36-38

度数分布表の作成⼿順 (Excel)

1.

【全度数】（データサイズ）を調べる［count 関数］

2.

【階級数】概算値 ［1+log

（全度数）］

3.

【最⼩値】［min 関数］

4.

【最⼤値】［max 関数］

5.

【範囲】［最⼤値－最⼩値］

6.

【階級の幅】（の⽬安） = 「範囲」/「階級数」を計算

7.

【階級の設定】（○○以上××未満）

度数分布表とヒストグラム

(2)

度数分布表とヒストグラム

(3)

Ctrl

と Shift を押さえたまま Enter

母集団と標本

pp.44-46

⼀部の情報だけを利⽤して全体の構造を予測

母集団（

population）



⺟集団：「観察の対象」となっている事柄のあらゆ

る「観測値」の集まり



観察の対象（例）

a.

2013

年10⽉1⽇現在の⽇本⼈の20歳の男性の体重

b.

A

市で働いている就業者（25-29歳） 2012年の年収

c.

市⻑選挙での投票結果

d.

サイコロを投げた時に出る⽬

e.

富⼭湾深海のホタルイカの卵の数

f.

B

社が作る液晶テレビの性能状態（初期不良があるか

どうか）

g.

22

世紀の C 国で⼀⼈の⼥性が⽣涯に産む⼦供の数

標本

(sample) と標本の大きさ (sample size)

例．標本抽出（

sampling）による調査



計量経済学講義

第 4 回記述統計の基礎 Part 1

唐渡広志

_{(1) pp.36-38}

【階級数】概算値［1+log

₍₂₎

₍₃₎

_pp.44-46

_{population）}

_{(sample) と標本の大きさ (sample size)}

_{sampling）による調査}

_1）

_2）

_