応用統計 第 3 回
記述統計 (2): データの記述
応用情報工学科
准教授 松野 裕
matsuno.yutaka@nihon-u.ac.jp
2016 年 5 月 6 日
前回の演習の解説
今回は階級数を与えた上で度数分布表を作ってもらったが、授業で示した手順を行うと以下になる。 1. 最大値=169,最小値=151
2. R=169-151=18
3. スタージェスの定理を使うと、階級数N = 1 + log220 = 4.32。階級の幅は18/4.32= 4.16となる。こ の結果から階級の幅を4.16として書いてもよいが、みなさんに書いてもらったヒストグラムとほぼ同 様であるし、数字のきりがよいほうがわかりやすい。
1 はじめに
前回は記述統計(1)として、データの記述について説明を行った。今回は、みなさんに馴染み深い平均、分 散、標準偏差を説明する。授業の資料は、応用情報工学科3年のmoodleのページにある。
2 平均
データの特徴を調べるものとして、平均(mean)がある。度数分布やヒストグラムが人間の視覚能力によ る把握によっているのに対し、これは数量的概念である。平均は代表値(averages)の一つである。代表値の 長所は、計算したり操作したり伝達(コミュニケート)するための客観性があることである*1。
*1統計学入門、東京大学教養学部統計学教室編、東京大学出版会
1
2.1 平均値
平均値は通常、データ{x1, . . . , xn}の総和をデータ数で割ることによって得られる。 x = x1+ · · · + xn
n =
1 n
∑n i=1
xi
2.2 最頻値と中央値
平均値の他に、最頻値(mode)、中央値(median)がある。
• 最 頻 値 (mode) Mo: 与 え ら れ た デ ー タ の 中 で 最 も 多 く 出 現 す る デ ー タ 値 。例: デ ー タ {2, 6, 6, 8, 9, 9, 9, 10}の最頻値は9。
• 中央値(メディアン)Md: それよりも大きいデータの数と小さいデータの数が同数であるような値。 例: データ{11, 13, 18, 19, 20}の中央値は18。{2, 6, 6, 8, 9, 9, 9, 10}の中央値は8.5(データ数が偶数 である場合、真ん中の二つのデータを2で割った値を用いる)。
3 分散
データの特徴の中では、データの散らばりが重要である。例として、二つのクラスのテストの結果を図?? に示す。二つのクラスで、平均点はそれぞれ60点、70点であるが、その違いに加え、得点の散らばり方が異
図1 散らばり方の違う二つのクラスの得点分布
なる。このような散らばり方を定量化するための指標の一つが分散(variance)である。 分散はs2と表され(S2を用いる教科書もある)、次式で定義される。
s2=
∑n
i=1(xi− x)2
n
それぞれのデータと平均の差の2乗の和(2乗しないと、プラスとマイナスで打ち消し合う)を、データ数で 割る。
2
問以下の式を示せ。
s2=
∑n
i=1(xi2− nx2) n
以下のクラスのテスト得点の分散を比較してみよう。
• クラスA 60, 60, 60, 60, 55, 70, 50, 65
• クラスB 100, 100, 100, 40, 40, 40, 50, 30
3.1 標準偏差
分散は、このままでは測定単位が変わるので(例えばg2となる)、単位を揃えるときには分散の平方根を とったsが用いられる。これを標準偏差とよぶ。
s =√s2
3.2 標準得点
例えば、生物と日本史のテストを受けて、ともに73点であったとする。それぞれの平均点も同じ53点で あったとする。このとき、生物、日本史のテストの点数の価値は同じだろうか。受験生であったみなさんは、 偏差値がこのような場合生物、日本史で異なった経験があると思う。
上の例のように、異なるテストを実施した場合、共通して評価するために、標準得点(Standard Score)(Z
得点(Z-scores)とも言う)を用い、以下の様なデータ変換を行う。
zi=xi− x s
この変換の意図は、平均を0,標準偏差を1にすることである。このことにより、以下が言える。
• 満点が何点の変数であろうとも、その基準値の平均は必ず0、標準偏差は必ず1である。例えば、100 点満点のテストと200点満点のテストの比較ができる。
• どのような単位の変数であろうとも、その基準値の平均は必ず0,標準偏差は必ず1である。例えば、 打率とホームランなど、単位の違うものも比較できる。
問 {zi}の平均が0、標準偏差が1になることを確かめよ。
• クラスA 60, 60, 60, 60, 55, 70, 50, 65
• クラスB 100, 100, 100, 40, 40, 40, 50, 30
を 標 準 化 し て み よ う 。ク ラ ス A の 標 準 偏 差 は
√31.25 = 5.59017、平 均 は60、ク ラ スBの 標 準 偏 差 は
√868.75 = 29.47457、平均は62.5なので
• クラスA
0, 0, 0, 0, (55 − 60)/5.59, (70 − 60)/5.59, (50 − 60)/5.59, (65 − 60)/5.59 = 0, 0, 0, 0, −0.89, 1.79, −1.79, 0.89
3
• クラスB
(100 − 62.5)/29.48, (100 − 62.5)/29.48, (100 − 62.5)/29.48,
(40 − 62.5)/29.48, (40 − 62.5)/29.48, (40 − 62.5)/29.48, (50 − 62.5)/29.48, (30 − 62.5)/29.48 = 1.27, 1.27, 1.27, −0.76, −0.76, −0.76, −0.42, −1.10
偏差値は平均を50点、偏差を10点とした標準得点の一種である。変換式は以下で与えられる。 偏差値=x − x
s × 10 + 50
参考文献
今回の内容は、「マンガでわかる統計学、高橋信著、オーム社」および「統計学入門、東京大学教養学部統計 学教室編、東京大学出版会」を主に参考にした。
4