• 検索結果がありません。

記述統計 経済統計 鹿野研究室

N/A
N/A
Protected

Academic year: 2018

シェア "記述統計 経済統計 鹿野研究室"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

担当:鹿野(大阪府立大学)

2014 年度前期

はじめに

前回の復習

 統計学とは何か?

 データの基礎・数学の復習。

今回学ぶこと

 図表による記述統計。

 統計量(数値)による記述統計。

 テキスト該当箇所:2章。

1 図表による記述統計

1.1

記述統計の必要性

 例:ある高校の、英語の期末試験の成績。サンプル数n = 15の一次元データ。 番号 成績 番号 成績

1 65 11 38

2 82 12 73

3 77 13 79

4 25 14 50

5 64 15 48

6 54

7 57

8 94

9 31

10 70

 Remark:データ自体は単なる数字の羅列。特徴・パターンが見えてこない。

⊲ ∴記述統計でデータを見やすく整理・要約。データ分析の出発点。

でまとめる度数分布表、ヒストグラム。

でまとめる平均や分散・標準偏差。 1

(2)

1.2

度数分布

 度数分布表:データ中の観測値を大きさで区切られた階級に分け、各階級に属する観測個 体の数(=度数)を表にまとめたものを、 と呼ぶ。

⊲ 各階級の度数を総数(サンプル数n)で割り、割合に直した数値を、 と 呼ぶ。

⊲ ある階級以下の度数を合計した数値を、 と呼ぶ。当該階級より下に何 人いるか、を表す。

 例:英語の成績データの度数分布表(表1)。

階級 度数 相対度数 累積度数 累積相対度数

0 ≤ 得点 < 20 0 0.00 0 0.00

20 ≤ 得点 < 40 3 0.20 3 0.20

40 ≤ 得点 < 60 4 0.27 7 0.47

60 ≤ 得点 < 80 6 0.40 13 0.87

80 ≤ 得点 ≤ 100 2 0.13 15 1.00

15 1.00 15 1.00

成績を5階級に区分し、各階級に該当する生徒の数を記録。

⊲ 累積相対度数:相対度数(割合)による相対度数。 1.3

ヒストグラム

 ヒストグラム:度数分布表の度数または相対度数を図示したものを、 と 呼ぶ。

横軸に 、縦軸に 棒の高さ=各階級の度数(相対度数)。

⊲ 度数をグラフィカルに表現データの (重心やバラつき具合)を把握。

⊲ 度数分布表よりも、第三者の印象に残りやすい。

 例:成績データのヒストグラム(図1)。上の度数分布表から作成。

⊲ 分布が左右非対称。重心が60 ∼ 79点辺りにあり、右に偏っている様子が分かる。

 Remark:度数分布表・ヒストグラム作成の注意点。

⊲ 度数分布表を図示したのがヒストグラム。∴報告書や論文には、通常はどちらかを 載せれば十分。

nが小さいときに階級幅を小刻みに設定するのは、良くない。(度数=0の階級が続出 し、スカスカになるため。)

⊲ Excelや統計ソフトを使うと、バランスよく階級幅を決めてくれる。

(3)

0- 19 20- 39 40- 59 60- 79 80- 100 階級(点)

度数(人) 02468

1:成績データのヒストグラム

2 統計量:数値による記述統計

2.1

統計量

 統計量:データを集約し、その特徴をとらえた数値を総称して、 と呼ぶ。

⊲ (データの代表値):平均値、メディアン、モード。

:分散、標準偏差。

⊲ データの最小値・最大値なども、立派な統計量。

 Remark:図表と統計量、それぞれの利点・欠点

利点 欠点

図表 印象に残りやすい。 1. 作図のやり方次第で、印象が変わる。

  2. 紙面のスペースを取る。

統計量 客観的な比較(大小)が可能。 数字なので退屈。

⊲ ∴目的・場面に応じて、記述統計の「見せ方」を工夫する。

⊲ 図表と統計量を併用することも多い。

 データの数学的表現:サンプル数nのデータを

X1,X2, . . . ,Xn (1)

と表し、i番目の個体の観測値を代表して と表記。

⊲ 数学的には、任意の統計量はX1,X2, . . . ,Xnの関数として表現される。 2.2

位置の尺度:平均、モード、メディアン

 例:新卒社会人5人の初任給(サンプル数n = 6)。統計量でまとめると?

(4)

初任給(万円)

1 21

2 19

3 22

4 27

5 22

6 24

 標本平均:データの合計をサンプル数nで割った値を、 と呼ぶ。(1)式の表記を 使うと、Xiの平均は、

X =¯ 1

n(X1+ X2+· · · + Xn) = 1 n

n



i=1

Xi. (2)

⊲ 例:初任給データの平均は X =¯ 1

6(21 + 19 + 22 + 27 + 22 + 24) = 22.5(万円). (3)

 メディアン:データを小大の順に並べ(ソーティング)、ちょうど中央に位置した値 を、 (中央値)と呼ぶ。

注意:サンプル数nが偶数の場合は、中央で隣り合う二つの値の平均をメディアン とする。

⊲ 例:初任給データを大きい順に並べ替えると

{21, 19, 22, 27, 22, 24} −−−−−−−−−−−−→大きさでソート {19, 21, 22, 22, 24, 27}. (4) n = 6で偶数。メディアンは(22 + 22) ÷ 2 = 22(万円)

 モード:データ中で最も多く見られる観測値を、 (最頻値)と呼ぶ。

⊲ 例:初任給データで最も多く見られる値は22万円。(個体i = 2, 5の二名が該当。)∴ モードは22(万円).

注意:n個の観測値が全て異なる値である場合、モードは計算できない。 2.3

平均値の弱点:異常値の存在

 Remark:平均X¯ は一番ポピュラーだが、定義上、 に大きく引きずられる。

⊲ 異常値:データ中で極端に大きい・小さい観測値を異常値(外れ値)と呼ぶ。

⊲ メディアン・モードは順序・頻度で決まる異常値の影響を受けない。

⊲ ∴データに異常値がある場合は、平均よりもメディアン・モードが位置の尺度とし て望ましい。

 例:サッカー選手5名の年間ゴール数(i = 2の選手だけ極端に多い異常値。) 選手 ゴール数

1 2

2 30

3 3

4 4

5 1

(5)

平均X = 8¯ 、メディアン= 3(モードは無し。

⊲ このデータから「ウチの選手はだいたい年間8ゴールぐらい決めます」と言うのは、 明らかにオカシイ。∴ のほうが、データの全体像が正しく伝わる。 2.4

散らばりの尺度:分散と標準偏差

 分散:各Xiの平均値X¯ からのズレ(Xi− ¯X)2乗し、その平均をとった値 s2 = 1

n

(X1− ¯X)2+ (X2− ¯X)2+· · · + (Xn− ¯X)2



= 1 n

n i=1

(Xi− ¯X)2≥ 0. (5)

を、 と呼ぶ。s2が大きいデータのバラつきが 。

⊲ まず個体ひとつひとつについて、平均X¯(中心)からのズレ具合を

(X1− ¯X)2, (X2− ¯X)2, . . . , (Xn− ¯X)2 (6) で数値化。(2「正のズレ(Xi− ¯X) > 0」と「負のズレ(Xi− ¯X) < 0」を正値で等 しくカウント。)

⊲ ∴(6)式の をとれば、X¯ を軸に、データがどれだけバラついているか」が 測れる。

 標準偏差:分散の正の平方根を、 と呼ぶ。

s = s2. (7)

分散s2は計算途中に2乗が入る単位(度量衡)が元のデータの2乗に(例:円

2

⊲ ∴平方根をとって標準偏差に換算し、単位を元に戻す(例:円2 円)。実際のデー タ分析では、分散ではなく標準偏差をレポートすることが多い。

 例:初任給データの平均値はX = 22.5¯ なので、分散は s2= 1

6

(21 − 22.5)2+ (19− 22.5)2+ (22− 22.5)2+ (27− 22.5)2+ (22− 22.5)2+ (24− 22.5)2

= 6.25(万円2. (8)

⊲ コレを標準偏差に直せばs =

√6.25 = 2.5(万円)

 Remark:日常生活で、分散・標準偏差は平均値ほど重視されないが、とても重要な情報

( や )を持つ。

⊲ 分散が無視される例:飲み会で居酒屋を選ぶ際、メニューの平均価格は気にするが、 価格のバラつきは(普通)気にしない。

⊲ 分散が無視できない例:従業員の年齢構成がほぼ同一の、二つの企業AB。どち らに就職したい?

年収平均X¯ 年収標準偏差s 企業A 500万円 30万円 企業B 700万円 100万円

... 企業Aはローリスク・ローリターン、企業Bはハイリスク・ハイリターン(図2)。

⊲ より高度な・より緻密な意思決定には、散らばりの尺度が必須。

(6)

0 10 20 30 40

4006008001000

A

従業員i

年収Xi(万円)

0 10 20 30 40

4006008001000

B

従業員i

年収Xi(万円)

2:企業ABの従業員年収(Bは平均も分散も大きい)

まとめと復習問題

今回のまとめ

 図表による記述統計:度数分布表、ヒストグラム。

 統計量による記述統計:位置の尺度(平均、メディアン、モード)、散らばりの尺度(分 散、標準偏差)。

復習問題

出席確認用紙に解答し(用紙裏面を用いても良い)、退出時に提出せよ。 1. 次のデータを、統計量でまとめる(サンプル数n = 4)。

2, 4, 15, 3. (9)

(a) 平均X =¯ __、メディアン=__。

(b) このデータの代表値として、平均とメディアン、どちらがふさわしいか?また、そ れはどうしてか?

(c) 分散s2=__。(ヒント:下表の空欄を埋めて行くと計算しやすい。) i Xi Xi− ¯X (Xi− ¯X)2

1 2 −4 16

2 4

3 15

4 3

参照

関連したドキュメント

[r]

2006 年 6 月号から台湾以外のデータ源をIMF のInternational Financial Statistics に統一しました。ADB のKey Indicators of Developing Asian and Pacific

告した統計をもとに編集されている 1 。国際連合統 計委員会(United Nations Statistical Commission、以 下 UNSC

現行制度で,メキシコの統計行政の中枢にある国 立統計地理情報院(Instituto Nacional de Estadística y Geografía: INEGI)は,統計総局(La Dirección

Classification: SITC),もう1つは世界税関機構(World Customs Organization: WCO)が定める「商品の名称 および分類についての統一システム」(Harmonized

国(言外には,とりわけ日本を指していることはいうまでもないが)が,米国

カメルーン国立統計研究所 (Institut National de la Statistique du Cameroun) は, 2001 年に独立採算制

アセアン域内の 2017 年の輸出より,対日本のほうが多かったのはフィリピン 16.2 %の 1 ヶ国だけ で,輸入では 1