記述統計経済統計鹿野研究室

(1)

担当：鹿野（大阪府立大学）

2014 年度前期

はじめに

前回の復習

統計学とは何か？

データの基礎・数学の復習。

今回学ぶこと

図表による記述統計。

統計量（数値）による記述統計。

テキスト該当箇所：₂章。

1 ^{図表による記述統計}

1.1

^{記述統計の必要性}

例：ある高校の、英語の期末試験の成績。サンプル数_{n = 15}の一次元データ。番号成績番号成績

1 65 11 38

2 82 12 73

3 77 13 79

4 25 14 50

5 64 15 48

6 54

7 57

8 94

9 31

10 70

_Remark：データ自体は単なる数字の羅列。特徴・パターンが見えてこない。

⊲ ∴記述統計でデータを見やすく整理・要約。データ分析の出発点。

⊲ ^{でまとめる}_⇒度数分布表、ヒストグラム。

⊲ ^{でまとめる}_⇒平均や分散・標準偏差。 1

(2)

1.2

^度数分布

度数分布表：データ中の観測値を大きさで区切られた階級に分け、各階級に属する観測個体の数（＝度数）を表にまとめたものを、と呼ぶ。

⊲ 各階級の度数を総数（サンプル数_n）で割り、割合に直した数値を、と呼ぶ。

⊲ ある階級以下の度数を合計した数値を、と呼ぶ。当該階級より下に何人いるか、を表す。

例：英語の成績データの度数分布表（表₁）。

階級度数相対度数累積度数累積相対度数

0 ≤ 得点 < 20 ⁰ ^0.00 ⁰ ^0.00

20 ≤ 得点 < 40 ³ ^0.20 ³ ^0.20

40 ≤ 得点 < 60 ⁴ ^0.27 ⁷ ^0.47

60 ≤ 得点 < 80 ⁶ ^0.40 ¹³ ^0.87

80 ≤ 得点 ≤ 100 ² ^0.13 ¹⁵ ^1.00

計 ₁₅ _1.00 ₁₅ _1.00

⊲ ^成績を5階級に区分し、各階級に該当する生徒の数を記録。

⊲ 累積相対度数：相対度数（割合）による相対度数。 1.3

^{ヒストグラム}

ヒストグラム：度数分布表の度数または相対度数を図示したものを、と呼ぶ。

⊲ ^横軸に ^、縦軸に ^。^∴棒の高さ＝各階級の度数（相対度数）。

⊲ 度数をグラフィカルに表現_⇒データの（重心やバラつき具合）を把握。

⊲ 度数分布表よりも、第三者の印象に残りやすい。

例：成績データのヒストグラム（図₁）。上の度数分布表から作成。

⊲ 分布が左右非対称。重心が_{60 ∼ 79}点辺りにあり、右に偏っている様子が分かる。

_Remark：度数分布表・ヒストグラム作成の注意点。

⊲ 度数分布表を図示したのがヒストグラム。∴報告書や論文には、通常はどちらかを載せれば十分。

⊲ _nが小さいときに階級幅を小刻みに設定するのは、良くない。（度数₌₀の階級が続出し、スカスカになるため。）

⊲ Excelや統計ソフトを使うと、バランスよく階級幅を決めてくれる。

(3)

0- 19 20- 39 40- 59 60- 79 80- 100 階級（点）

度数（人） 02468

図_1:成績データのヒストグラム

2 統計量：数値による記述統計

2.1

^統計量

統計量：データを集約し、その特徴をとらえた数値を総称して、と呼ぶ。

⊲ （データの代表値）：平均値、メディアン、モード。

⊲ ^{：分散、標準偏差。}

⊲ データの最小値・最大値なども、立派な統計量。

_Remark：図表と統計量、それぞれの利点・欠点

利点欠点

図表印象に残りやすい。 1. 作図のやり方次第で、印象が変わる。

2. 紙面のスペースを取る。

統計量客観的な比較（大小）が可能。数字なので退屈。

⊲ ∴目的・場面に応じて、記述統計の「見せ方」を工夫する。

⊲ 図表と統計量を併用することも多い。

データの数学的表現：サンプル数_nのデータを

X₁,X₂, . . . ,X_n (1)

と表し、_i番目の個体の観測値を代表してと表記。

⊲ 数学的には、任意の統計量は_X₁_,_X₂_{, . . . ,}_X_nの関数として表現される。 2.2

位置の尺度：平均、モード、メディアン

例：新卒社会人₅人の初任給（サンプル数_{n = 6}）。_⇒統計量でまとめると？

(4)

初任給（万円）

1 21

2 19

3 22

4 27

5 22

6 24

標本平均：データの合計をサンプル数_nで割った値を、と呼ぶ。₍₁₎式の表記を使うと、_X_iの平均は、

X =¯ ¹

n^(X¹^{+ X}²⁺^{· · · + X}ⁿ^{) =} 1 n

n

i=1

X_i. (2)

⊲ 例：初任給データの平均は X =¯ ¹

6(21 + 19 + 22 + 27 + 22 + 24) = 22.5^（万円）^. ⁽³⁾

メディアン：データを小_→大の順に並べ（ソーティング）、ちょうど中央に位置した値を、（中央値）と呼ぶ。

⊲ ^{注意：サンプル数}nが偶数の場合は、中央で隣り合う二つの値の平均をメディアンとする。

⊲ 例：初任給データを大きい順に並べ替えると

{21, 19, 22, 27, 22, 24} −−−−−−−−−−−−→^{大きさでソート} {19, 21, 22, 22, 24, 27}. ⁽⁴⁾ n = 6^で偶数。^∴^{メディアンは}(22 + 22) ÷ 2 = 22^（万円）^。

モード：データ中で最も多く見られる観測値を、（最頻値）と呼ぶ。

⊲ 例：初任給データで最も多く見られる値は₂₂万円。（個体_{i = 2, 5}の二名が該当。）∴ モードは₂₂（万円）_.

⊲ ^注意：n個の観測値が全て異なる値である場合、モードは計算できない。 2.3

平均値の弱点：異常値の存在

_Remark：平均_X¯ は一番ポピュラーだが、定義上、に大きく引きずられる。

⊲ 異常値：データ中で極端に大きい・小さい観測値を異常値（外れ値）と呼ぶ。

⊲ メディアン・モードは順序・頻度で決まる_⇒異常値の影響を受けない。

⊲ ∴データに異常値がある場合は、平均よりもメディアン・モードが位置の尺度として望ましい。

例：サッカー選手₅名の年間ゴール数（_{i = 2}の選手だけ極端に多い_⇒異常値。）選手ゴール数

1 2

2 30

3 3

4 4

5 1

(5)

⊲ ^平均_{X = 8}^¯ ^{、メディアン}_{= 3}^。^{（モードは無し。}^）

⊲ このデータから「ウチの選手はだいたい年間₈ゴールぐらい決めます」と言うのは、明らかにオカシイ。∴ のほうが、データの全体像が正しく伝わる。 2.4

散らばりの尺度：分散と標準偏差

分散：各_X_iの平均値_X¯ からのズレ_(X_i_{− ¯X)}を₂乗し、その平均をとった値 s² = ¹

n

(X1_{− ¯X)}²+ (X2_{− ¯X)}²+_{· · · + (X}n_{− ¯X)}²

= ¹ n

n i=1

(Xi_{− ¯X)}²_{≥ 0.} (5)

を、と呼ぶ。_s²が大きい_⇔データのバラつきが。

⊲ まず個体ひとつひとつについて、平均_X¯（中心）からのズレ具合を

(X₁_{− ¯X)}², (X₂_{− ¯X)}², . . . , (X_n_{− ¯X)}² (6) で数値化。（₂乗_⇒「正のズレ_(X_i− ¯X) > 0^{」と「負のズレ}^(Xⁱ− ¯X) < 0^{」を正値で等} しくカウント。）

⊲ ∴(6)^式の ^{をとれば、}^「X^¯ を軸に、データがどれだけバラついているか」が測れる。

標準偏差：分散の正の平方根を、と呼ぶ。

s = ^s²^. ⁽⁷⁾

⊲ ^分散_s²^{は計算途中に}₂^乗が入る_⇒単位（度量衡）が元のデータの₂乗に（例：円

→^円²^）^。

⊲ ∴平方根をとって標準偏差に換算し、単位を元に戻す（例：円² _→円）。実際のデータ分析では、分散ではなく標準偏差をレポートすることが多い。

例：初任給データの平均値は_{X = 22.5}¯ なので、分散は s²= ¹

6

(21 − 22.5)²^{+ (19}− 22.5)²^{+ (22}− 22.5)²^{+ (27}− 22.5)²^{+ (22}− 22.5)²^{+ (24}− 22.5)²

= 6.25^（万円²^）^. ⁽⁸⁾

⊲ コレを標準偏差に直せば_{s =}

√6.25 = 2.5^（万円）^。

_Remark：日常生活で、分散・標準偏差は平均値ほど重視されないが、とても重要な情報

（や）を持つ。

⊲ 分散が無視される例：飲み会で居酒屋を選ぶ際、メニューの平均価格は気にするが、価格のバラつきは（普通）気にしない。

⊲ 分散が無視できない例：従業員の年齢構成がほぼ同一の、二つの企業_Aと_B。どちらに就職したい？

年収平均_X¯ 年収標準偏差_s 企業_A ₅₀₀万円 ₃₀万円企業_B ₇₀₀万円 ₁₀₀万円

... ^企業Aはローリスク・ローリターン、企業_Bはハイリスク・ハイリターン（図₂）。

⊲ より高度な・より緻密な意思決定には、散らばりの尺度が必須。

(6)

0 10 20 30 40

4006008001000

A

従業員i

年収Xi（万円）

0 10 20 30 40

4006008001000

B

従業員i

年収Xi（万円）

図_2:企業_Aと_Bの従業員年収（_Bは平均も分散も大きい）

まとめと復習問題

今回のまとめ

図表による記述統計：度数分布表、ヒストグラム。

統計量による記述統計：位置の尺度（平均、メディアン、モード）、散らばりの尺度（分散、標準偏差）。

復習問題

出席確認用紙に解答し（用紙裏面を用いても良い）、退出時に提出せよ。 1. 次のデータを、統計量でまとめる（サンプル数_{n = 4}）。

2, 4, 15, 3. (9)

(a) ^平均_{X =}^¯ ^{＿＿、メディアン}₌^＿＿。

(b) このデータの代表値として、平均とメディアン、どちらがふさわしいか？また、それはどうしてか？

(c) ^分散s²₌^＿＿。（ヒント：下表の空欄を埋めて行くと計算しやすい。） i Xi Xi_{− ¯X} (Xi_{− ¯X)}²

1 2 ₋₄ 16

2 4

3 15

4 3

記述統計 経済統計 鹿野研究室