• 検索結果がありません。

Microsoft PowerPoint - Econometrics pptx

N/A
N/A
Protected

Academic year: 2021

シェア "Microsoft PowerPoint - Econometrics pptx"

Copied!
31
0
0

読み込み中.... (全文を見る)

全文

(1)

計量経済学 講義

第 4 回 記述統計の基礎 Part 1

2013

年 10 ⽉ 18 ⽇(⾦)2 限

担当教員:

唐渡 広志

研究室:

経済学研究棟4階432号室

email:

[email protected]

website:

http://www3.u-toyama.ac.jp/kkarato/

(2)

講義の目的

⼀般的なデータの集約⽅法や記述⽅法につ

いて学びます。

keywords:

度数分布表,ヒストグラム,標本平

均,偏差,偏差2乗和,標本分散,標本標準

偏差

教科書: pp. 36–38, 44–50(第2章)

(3)

度数分布表とヒストグラム

(1) pp.36-38

度数分布表の作成⼿順 (Excel)

1.

【全度数】(データサイズ)を調べる[count 関数]

2.

【階級数】概算値 [1+log

2

(全度数)]

3.

【最⼩値】[min 関数]

4.

【最⼤値】[max 関数]

5.

【範囲】[最⼤値-最⼩値]

6.

【階級の幅】(の⽬安) = 「範囲」/「階級数」を計算

7.

【階級の設定】(○○以上××未満)

階級数や階級の幅は⼀つの⽬安と考える。 階級の幅は区切りのよい間隔を持たせた⽅がわかりやすい。

(4)

度数分布表とヒストグラム

(2)

度数を求める⽅法 階級の上限に対応した値を「区間配列」 データとして記述する。 「5 万円未満」なので,階級の上限を 4.9 とする。 frequency 関数を利⽤して,最初の 階級の度数だけを計算する。 データ配列 区間配列 = frequency (データ配列,区間配列)

(5)

度数分布表とヒストグラム

(3)

いま計算した「最初の階級の度数」と「これから計算 予定の度数」のセルを選択状態にする。

Ctrl

と Shift を押さえたまま Enter

数式バーの⼀番左側をクリック 完成(操作を間違えたら Esc キー) (この技のことを「配列コピー」とよぶ) ヒストグラム作成  「挿⼊」タブ  縦棒  2-D縦棒

(6)

母集団と標本

pp.44-46

全体の構造 ⼀部の情報(標本) 全体の構造の予測 「推定・検定」 一部分を利用 「標本抽出」 (母集団)

⼀部の情報だけを利⽤して全体の構造を予測

⺟集団の平均・分散 例(推定) :  標本から計算できる「平均」を⽤いて,⺟集団の平均を予測する。  標本から計算できる「分散」を⽤いて,⺟集団の分散を予測する。

(7)

母集団(

population)

⺟集団:「観察の対象」となっている事柄のあらゆ

る「観測値」の集まり

観察の対象(例)

a.

2013

年10⽉1⽇現在の⽇本⼈の20歳の男性の体重

b.

A

市で働いている就業者(25-29歳) 2012年の年収

c.

市⻑選挙での投票結果

d.

サイコロを投げた時に出る⽬

e.

富⼭湾深海のホタルイカの卵の数

f.

B

社が作る液晶テレビの性能状態(初期不良があるか

どうか)

g.

22

世紀の C 国で⼀⼈の⼥性が⽣涯に産む⼦供の数

(8)

標本

(sample) と標本の大きさ (sample size)

 標本:⺟集団の⼀部分だけを何らかの⽅法(実験,調査,観察など)で観測し た「観測値」の集まり。  標本抽出:⺟集団から「観測値」の⼀部を取り出すこと。  抽出された⼀つ⼀つの観測値のことを「観測データ」または単に「データ」ともよぶ。 母集団 就業者( 25-29歳 )の年収 標本 260,209,99,256,280, 121,286,564,457,405 標本抽出 観測値 or 観測データ or データ  ⺟集団から取り出した標本内の観測データ の数のことを「標本の⼤きさ(標本サイズ, sample size)」とよぶ.標本数とはよばな い!  記号 n で標本の⼤きさを表す。 sample size: n = 10

(9)

例.標本抽出(

sampling)による調査

「家計調査」(総務省)

家計の収⼊と⽀出に関する調査→家計簿的な統計

⽇本全体の世帯⼈員が⼆⼈以上の世帯数は3,400万(単⾝世帯

を含めると4,600万)

家計調査で標本抽出された⼆⼈以上の世帯数(標本サイズ)

は8,000

• 全体の 0.024% だけを利⽤している.

「労働⼒調査」(総務省)

就業状態についての調査

標本抽出される世帯数(標本サイズ)は約4万世帯(10万⼈)

2010

年の失業者数は334万⼈,就業者数は6257万⼈

(10)

標本の「数」と標本の「大きさ」(

1)

⺟集団 就業者( 25-29歳 )の年収 標本 (a) 260, 209, 99, 256, 280, 121, 286, 564, 457, 405 標本抽出 標本の大きさ(標本サイズ): n = 10 標本 (b) 253, 666, 814, 156, 625, 418, 216, 172, 208, 217 標本 (c) 235, 213, 375, 302, 486, 306, 392, 376, 526, 841 標本の数 = 3 一つの標本 = 観測値10個の塊 注意:標本抽出のたびに異なる観測値が得られる。 10個の観測値からなる標 本が3セットある状態

(11)

標本の「数」と標本の「大きさ」(

2)

母集団 サイコロを投げたときに出る目

標本1

22

25

43

64

26

15

標本2

31

65

21

64

11

61

標本3

14

43

11

45

41

64

標本4

56

14

46

21

46

25

標本抽出 標本の大きさ (標本サイズ) n = 12

(12)

観測データ表

 観測データ⼀つ⼀つに「観測番号」をつける。  任意の観測番号を i という記号で表す.標本サイズが n = 10 のとき i = 1, 2, … ,10第 i 番⽬の観測データを Xi という記号で表す.  観測番号順に観測データを並べた表を「観測データ表」 とよぶ.

209

260

2 1

X

X

記号と値の対応

例:

観測データ表 「就業者の年収」標本(a)を例に観測データのまとめ方を考える。

(13)

観測データ

  

X

i

X

1

,

X

2

,

,

X

n

データの塊を { } で括って表わす ・・・ は省略の記号 【定義】サンプルサイズ n の観測データの塊 例.

  

X

i

7

,

1

,

2

,

3

,

0

(14)

標本平均

(Sample Mean) (1)

n

X

X

X

X

1

2

n

  

4

4

16

4

6

5

3

2

4

6

,

5

,

3

,

2

,

4

4 3 2 1

X

X

X

X

X

X

n

i

のとき

例.

エックス・バーと読む

:

X

 

の平均

観測データ

【定義】標本平均:

X

i

(15)

X -2 0 2 4 6 8 10 12 14 2 3 5 6 Y -2 0 2 4 6 8 10 12 14 0 3 6 7 -2 0 2 4 6 8 10 12 14 00 3 13

標本平均

(Sample Mean) (2)

標本平均 標本平均は左右のバランスがちょうど取れる場所にある

(16)

平均周りの「偏差」

(1)

各データと平均との距離を合計するとちょうど0になる.

「各データ」と「平均」との距離を平均まわりの「偏差」とよぶ.

deviation 4  Z

0

3

13

9  1  4  4 

9

4

13

1

4

3

4

4

0

4

4

0

4 3 2 1

Z

Z

Z

Z

Z

Z

Z

Z

偏差 合計するとちょうど 0 になっている

(17)

平均周りの「偏差」

(2)

  

 

が成り立つ.

,必ず

を標本平均とするとき

について

個の観測データ:

0

,

,

,

2 1 2 1

X

X

X

X

X

X

X

X

X

X

X

n

n n i

X

1

a

 

X

2

a

X

n

a

0

のとき,必ず

a

X

見方を変えると・・・

に等しい」.

の値は標本平均

ならば,

の合計が

という値を引いたとき

各データから

X

a

a

0

偏差の合計は必ずゼロになる

(18)

練習問題(

1)手計算

  

の偏差の合計が になることを確認しなさい.

(19)

自由度

?

1

3

2

4 3 2 1

X

X

X

X

X

X

X

X

はどのような値か?

のとき,以下の

X

X

X

X

X

X

X

1

2

3

4 4

4

・4つの偏差のうち3つまでわかっていれば,残り一つは自動的に求められる.  残り1つは自由に任意の値をとることができない(情報として必要ない).  4つのうち3つは任意の値をとることができる. ( n = 4 のとき自由度は3である)

?

2

3

4

4 3 2 1

X

X

X

X

X

X

X

X

?

5

88

12

4 3 2 1

X

X

X

X

X

X

X

X

(20)

練習問題(

2)手計算

 

の値を求めなさい。

わかっている。

について以下のことが

の観測データ

b

X

n

5

i

].

1

[

3

3

4

1

5 4 3 2 1

X

X

X

X

b

X

X

X

X

X

X

 

の値を求めなさい。

わかっている。

について以下のことが

の観測データ

c

Y

n

3

i

].

2

[

4

12

3 2 1

Y

Y

Y

Y

c

Y

Y

(21)

データの「ばらつき」を示す特性値

pp.48 - 52)

偏差2乗和(Sum of Squares)

分散(Variance): 偏差2乗和を⾃由度で割った値

標準偏差(Standard Deviation):分散の平⽅根

変動係数(Coefficient of Variation):標準偏差を平均で割った値

 

2

2 2 2 1

X

X

X

X

X

X

S

xx

n

1

2

n

S

s

x xx 2 x x

s

s 

s

CV

x

添え字の

x

を省略して

s

2

と書く場合もある

添え字の

x

を省略して

s

と書く場合もある

(22)

偏差

2乗和 S

xx

偏差を合計すると必ず0になってしまう.

そこで,偏差を2乗してから合計したものを散らばり具合の指標

として使う

(2乗すると符号は?)

これを偏差2乗和とよぶ(記号は S

xx

X

1

X

 

X

2

X

X

n

X

0

 

2

2 2 2 1

:

2

乗和

S

xx

X

X

X

X

X

n

X

偏差

  

を標本平均とするとき

について

個の観測データ:

【定義】

X

X

X

X

X

n

i

1

,

2

,

,

n 記号:大文字の S に下付きの添え字 xx

るだけでは意味がない

成⽴するので,合計す

どんなデータでも必ず

(23)

例.偏差

2乗和の計算

 

 

 

   

2

1

1

2

4

1

1

4

10

:

2

2 2 2 2 2 4 2 3 2 2 2 1

X

X

X

X

X

X

X

X

S

xx

乗和

偏差

(24)

【重要】偏差

2乗和の注意点

合計してから 2 乗してはいけない

 偏差の合計は 0 であることに注意  偏差を合計してから 2 乗しても 0 になる.

「和の2乗」と「2乗の和」は意味が異なる点に注意

 

 

 

2

(

1

)

1

2

0

0

2

2 2 2 4 3 2 1

X

X

X

X

X

X

X

X

偏差の和の

 

 

 

 

2

(

1

)

1

2

4

1

1

4

10

2

2 2 2 2 2 4 2 3 2 2 2 1

X

X

X

X

X

X

X

X

S

xx

乗和

偏差

(25)
(26)

標本分散

s

x

2

偏差2乗和を⾃由度 n − 1 で割った値を標本分散とよぶ.

n − 1

を⾃由度とよぶ.

なぜ標本サイズ n ではなく,⾃由度 n − 1 で割るのか.

• n 個の偏差のうち,必要な情報は n − 1 個で⼗分だから。 • 分散 = 「必要な情報1個当たり」の散らばり具合を測っている。 • 実は n − 1 で割った⽅が,⺟集団分散の良い推定になっている。(nで割ると, ⺟集団分散を過少に推定してしまうことが知られている)

 

1

1

2 2 2 2 1 2

n

X

X

X

X

X

X

n

S

s

xx n x

分散:

  

について を標本平均とするとき 個の観測データ: 【定義】n XiX1,X2,,Xn X 分散 = 偏差2乗和を「自由度」で割った値 小文字の s を使う

(27)

母集団と標本の対応関係:

標本分散は母集団の分散を予測するために用いられるもの

⺟集団

[観察の対象]

富⼭市の40歳既婚⼥性の⼦供の数 有限⺟集団 1700⼈ 0 1 2 3 4 5 20 0 4 00 60 0 子供の数 度数 母集団の平均:1.9人 母集団の分散:1.09 標本抽出 n =25 1 2 1 2 2 2 3 2 1 5 3 3 1 0 1 3 1 2 2 2 3 3 3 0 3 0 1 2 3 4 5 02 4 6 8 標本のヒストグラム 子供の数 度数 標本平均:2.04人 標本分散:1.29 1 2   n S s xx x

(28)

例.標本分散の計算

 

 

 

3

10

1

4

4

1

1

4

1

2 4 2 3 2 2 2 1 2

n

X

X

X

X

X

X

X

X

s

x 分散 偏差2乗和を計算してから標本 分散を計算する

(29)

標本標準偏差

なぜ,平⽅根なのか?

分散は計算の過程で2乗しているので,データの単位も2乗されてしまう.単位 を元に戻すために平⽅根をとる 2

s

s 

標準偏差:

826

.

1

3

10

:

3

10

2

x x

s

s

標準偏差

分散:

  

を標本分散とするとき

を標本平均,

について

個の観測データ:

【定義】

2 2 1

,

,

,

x n i

s

X

X

X

X

X

n

小文字の s を使う 例1. 例2. T⼭⼤学K済学部 1 年⽣男⼦207名の⾝⻑

 

 

cm

s

s

cm

X

x x

68

.

5

29

.

32

:

29

.

32

57

.

171

:

2

標準偏差

分散:

平均

←単位はつかない

(30)

Excel 関数

平均

average

関数 (mean)

偏差2乗和 devsq 関数

(sum of squared deviation)

標本分散

var

関数 (variance)

標本標準偏差 stdev 関数 (standard deviation)

例題 8 (p.88)  演習問題 問2

{X

i

} = {16, 26, 8, 30, 45}

(31)

まとめ

  

について

個の観測データ

X

i

X

X

X

n

参照

関連したドキュメント

が前スライドの (i)-(iii) を満たすとする.このとき,以下の3つの公理を 満たす整数を に対する degree ( 次数 ) といい, と書く..

普通体重 18.5 以上 25.0 未満 10~13 ㎏ 肥満(1度) 25.0 以上 30.0 未満 7~10 ㎏ 肥満(2度以上) 30.0 以上 個別対応. (上限

もし都心 5 区で廃止した 150 坪級のガソリンスタンド敷地を借りて 水素スタンドを作ると 月間 約 1000 万円の大赤字が続く?.

*2 施術の開始日から 60 日の間に 1

光を完全に吸収する理論上の黒が 明度0,光を完全に反射する理論上の 白を 10

基幹系統 地内基幹送電線(最上位電圧から 2 階級)の送電線,最上位電圧から 2 階級 の母線,最上位電圧から 2 階級を連系する変圧器(変圧器

そこで、現行の緑地基準では、敷地面積を「①3 千㎡未満(乙地域のみ) 」 「②3 千㎡以上‐1 万㎡未満」 「③1 万㎡以上」の 2

SDGs の達成を目指す ESD の取り組みを支援するプロジェクトで、今期は、申請 164 校のうち 65 校に対して助成を行った。(上限 10 万円枠: 60 校/30 万円枠 ※ :