• 検索結果がありません。

Classes Yutaka Matsuno's Homepage 20160506

N/A
N/A
Protected

Academic year: 2018

シェア "Classes Yutaka Matsuno's Homepage 20160506"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

応用統計 第 3

記述統計 (2): データの記述

応用情報工学科

准教授 松野 裕

matsuno.yutaka@nihon-u.ac.jp

2016 5 6

前回の演習の解説

今回は階級数を与えた上で度数分布表を作ってもらったが、授業で示した手順を行うと以下になる。 1. 最大値=169,最小値=151

2. R=169-151=18

3. スタージェスの定理を使うと、階級数N = 1 + log220 = 4.32。階級の幅は18/4.32= 4.16となる。こ の結果から階級の幅を4.16として書いてもよいが、みなさんに書いてもらったヒストグラムとほぼ同 様であるし、数字のきりがよいほうがわかりやすい。

1 はじめに

前回は記述統計(1)として、データの記述について説明を行った。今回は、みなさんに馴染み深い平均、分 散、標準偏差を説明する。授業の資料は、応用情報工学科3年のmoodleのページにある。

2 平均

データの特徴を調べるものとして、平均(mean)がある。度数分布やヒストグラムが人間の視覚能力によ る把握によっているのに対し、これは数量的概念である。平均は代表値(averages)の一つである。代表値の 長所は、計算したり操作したり伝達(コミュニケート)するための客観性があることである*1

*1統計学入門、東京大学教養学部統計学教室編、東京大学出版会

1

(2)

2.1 平均値

平均値は通常、データ{x1, . . . , xn}の総和をデータ数で割ることによって得られる。 x = x1+ · · · + xn

n =

1 n

n i=1

xi

2.2 最頻値と中央値

平均値の他に、最頻値(mode)、中央値(median)がある。

最 頻 値 (mode) Mo: 与 え ら れ た デ ー タ の 中 で 最 も 多 く 出 現 す る デ ー タ 値 。例: デ ー タ {2, 6, 6, 8, 9, 9, 9, 10}の最頻値は9

中央値(メディアン)Md: それよりも大きいデータの数と小さいデータの数が同数であるような値。 例: データ{11, 13, 18, 19, 20}の中央値は18{2, 6, 6, 8, 9, 9, 9, 10}の中央値は8.5(データ数が偶数 である場合、真ん中の二つのデータを2で割った値を用いる)。

3 分散

データの特徴の中では、データの散らばりが重要である。例として、二つのクラスのテストの結果を図?? に示す。二つのクラスで、平均点はそれぞれ60点、70点であるが、その違いに加え、得点の散らばり方が異

1 散らばり方の違う二つのクラスの得点分布

なる。このような散らばり方を定量化するための指標の一つが分散(variance)である。 分散はs2と表され(S2を用いる教科書もある)、次式で定義される。

s2=

n

i=1(xi− x)2

n

それぞれのデータと平均の差の2乗の和(2乗しないと、プラスとマイナスで打ち消し合う)を、データ数で 割る。

2

(3)

問以下の式を示せ。

s2=

n

i=1(xi2− nx2) n

以下のクラスのテスト得点の分散を比較してみよう。

クラスA 60, 60, 60, 60, 55, 70, 50, 65

クラスB 100, 100, 100, 40, 40, 40, 50, 30

3.1 標準偏差

分散は、このままでは測定単位が変わるので(例えばg2となる)、単位を揃えるときには分散の平方根を とったsが用いられる。これを標準偏差とよぶ。

s =s2

3.2 標準得点

例えば、生物と日本史のテストを受けて、ともに73点であったとする。それぞれの平均点も同じ53点で あったとする。このとき、生物、日本史のテストの点数の価値は同じだろうか。受験生であったみなさんは、 偏差値がこのような場合生物、日本史で異なった経験があると思う。

上の例のように、異なるテストを実施した場合、共通して評価するために、標準得点(Standard Score)(Z

得点(Z-scores)とも言う)を用い、以下の様なデータ変換を行う。

zi=xi− x s

この変換の意図は、平均を0,標準偏差を1にすることである。このことにより、以下が言える。

• 満点が何点の変数であろうとも、その基準値の平均は必ず0、標準偏差は必ず1である。例えば、100 点満点のテストと200点満点のテストの比較ができる。

• どのような単位の変数であろうとも、その基準値の平均は必ず0,標準偏差は必ず1である。例えば、 打率とホームランなど、単位の違うものも比較できる。

問 {zi}の平均が0、標準偏差が1になることを確かめよ。

クラスA 60, 60, 60, 60, 55, 70, 50, 65

クラスB 100, 100, 100, 40, 40, 40, 50, 30

を 標 準 化 し て み よ う 。ク ラ ス A の 標 準 偏 差 は

√31.25 = 5.59017、平 均 は60、ク ラ スBの 標 準 偏 差 は

√868.75 = 29.47457、平均は62.5なので

クラスA

0, 0, 0, 0, (55 − 60)/5.59, (70 − 60)/5.59, (50 − 60)/5.59, (65 − 60)/5.59 = 0, 0, 0, 0, −0.89, 1.79, −1.79, 0.89

3

(4)

クラスB

(100 − 62.5)/29.48, (100 − 62.5)/29.48, (100 − 62.5)/29.48,

(40 − 62.5)/29.48, (40 − 62.5)/29.48, (40 − 62.5)/29.48, (50 − 62.5)/29.48, (30 − 62.5)/29.48 = 1.27, 1.27, 1.27, −0.76, −0.76, −0.76, −0.42, −1.10

偏差値は平均を50点、偏差を10点とした標準得点の一種である。変換式は以下で与えられる。 偏差値=x − x

s × 10 + 50

参考文献

今回の内容は、「マンガでわかる統計学、高橋信著、オーム社」および「統計学入門、東京大学教養学部統計 学教室編、東京大学出版会」を主に参考にした。

4

参照

関連したドキュメント

The statistical procedure proposed in this paper has the following advantages over the existing techniques: (i) the estimates are obtained for covariate dependence for different

Key words and phrases: Linear system, transfer function, frequency re- sponse, operational calculus, behavior, AR-model, state model, controllabil- ity,

The main aim of the present work is to develop a unified approach for investigating problems related to the uniform G σ Gevrey regularity of solutions to PDE on the whole space R n

In the case of single crystal plasticity, the relative rotation rate of lattice directors with respect to material lines is derived in a unique way from the kinematics of plastic

Starting out with the balances of particle number density, spin and energy - momentum, Ein- stein‘s field equations and the relativistic dissipation inequality we consider

&BSCT. Let C, S and K be the classes of convex, starlike and close-to-convex functions respectively. Its basic properties, its relationship with other subclasses of S,

Therefore Corollary 2.3 tells us that only the dihedral quandle is useful in Alexander quandles of prime order for the study of quandle cocycle invariants of 1-knots and 2-knots..

[r]