• 検索結果がありません。

Microsoft Word - 1.データの整理.doc

N/A
N/A
Protected

Academic year: 2021

シェア "Microsoft Word - 1.データの整理.doc"

Copied!
20
0
0

読み込み中.... (全文を見る)

全文

(1)

1.データの分類... 1

1.1 連続値・離散値データ ... 1

1.2 データの尺度水準 ... 1

2.データの図示要約... 2

2.1 ヒストグラム(histogram) ... 2

2.2 箱ヒゲ図(box and whisker plot) ... 4

2.3 散布図(scatter plot) ... 5 3.データの数値要約... 6 3.1 分布の位置(location)を表す指標 ... 6 1)標本平均値(sample mean) ... 6 2)中央値(sample median) ... 7 3)最頻値さ い ひ ん ち(sample mode)... 8 4)まとめ... 8 3.2 バラツキ(Variable)の指標 ... 9 1)標本範囲(sample range) ... 9 2)パーセンタイル(percentile)、四分位範囲、四分位偏差 ... 9 3)標本分散(sample Variance) ... 10 4)標本歪度わ い ど(sample skewness) ... 13 5)標本尖度せ ん ど(sample kurtosis) ... 14 6)まとめ... 14 3.3 対のデータ間の関係指標 ... 14 4.計算例... 15

(2)

1.データの分類

データはサンプル・標本・試料とも呼ばれます。数値もしくは記号の集まりで、データの処理

にあたり、その性格を把握しておく必要があります。

1.1 連続値・離散値データ

分類の方法の一つとして、連続値データ(continues date)と離散値データ(discrete data)

の区別があります。例えば本数は1本、2 本、3 本のように離散的な値しかとれないとき、離散 値データと呼ばれます。離散値データは必ずしも整数である必要はなく、また有限の範囲に収ま るとは限りません。 一方、ある範囲内の実数値をとるようなデータを連続値データと呼びます。応力値などの実験 値を小数点以下で丸めた場合 100、115 などとなり、一見離散値データに見えますが、連続値デ ータです。 1.2 データの尺度水準 データは一般的に次の4種類の尺度水準(scale)に分類できます。 1)類別尺度(nominal scale):いくつかのカテゴリに分類された定性的なデータ。値の差も値の 順序も意味を持たないデータです。木材を「赤、白、茶」などの色で分類した場合、類別尺度デ ータになります。言葉で表しても、「1、2、3、4、5」、「A、B、C、D、E」と書いても良いこと になります。 2)順序尺度(ordinal scale):カテゴリ間に大小・強弱の関係をもつ定性的データ。値の差には 意味がなく、値の順序には意味があるデータです。木材を「強い、やや強い、普通、やや弱い、 弱い」のように分類した場合がこれにあたります。 3)間隔尺度(interval scale):比をとることに意味がなく、差のみが意味を持つ定量的データ。 例えば、気温がこれにあたります。0℃と 20℃との差と 20℃と 40℃の差は同じ熱量を持ちます ので、差に意味があり、40℃が 20℃の2倍であることにあまり意味はありません。

(3)

強度はこれにあたり、本書で扱うデータはほとんどがこの比尺度データです。 データ分類をまとめると、図-1 ようになります。 図- 1 データの分類

2.データの図示要約

データの数値要約には色々な方法があり、その計算数値の正しい解釈はかなりの熟練が必要で すので、データを図示しデータ全体を俯瞰することから始めます。 2.1 ヒストグラム(histogram) 生データから分布の様子を調べる場合には度数分布表を作り、その度数分布表から、長方形の 面積が度数を表すように棒グラフを描画します。この棒グラフをヒストグラムと呼び、一般的に は横軸は階級で、長方形の間には隙間を入れないことになっています。 度数分布表は、データを 1)並べ変え、2)階級幅を設定し、3)度数を数える必要があり、な かなか大変な作業ですし、その度数分布表から、棒グラフを作成することはなかなかやっかいで すが、“R”では、生データから簡単にhist()関数で描くことができます。

hist()関数は Sturges (1926)の方法に従った関数ですが、この他に Wand (1995) が提唱した方

法、Scott (1992) が提唱した方法があります。どの方法が良いかはデータの構造によって異なり 決定打は無いようです。 平均10、標準偏差が 2 の正規分布に従う乱数を 200 個発生させ、そのヒストグラムを Surges (1926)の方法、Wand (1995) が提唱した方法、Scott (1992) が提唱した方法に従い描くと図-2 のようになります。 間隔尺度データ 比率尺度データ 類別尺度データ 順序尺度データ 定量的データ (連続型) 定性的データ (離散型)

(4)

x<-rnorm(200,10,2) #平均 10、標準偏差 2 の正規分布乱数 200 個を発生 #Sturges (1926) が提唱した方法

hist(x,main ="Histogram of X (Sturges(1926))",freq=FALSE) #Scott (1992) が提唱した方法

library(MASS)

truehist(x,main ="Histogram of X (Scott (1992))",ylab="Density") #Wand (1995) が提唱した方法

library(KernSmooth)

hist(x,main ="Histogram of X (Wand (1995))",ylab="Density",breaks=seq(min(x)-0.1, max(x)+0.1+dpih(x), by=dpih(x))) 図- 2 ヒストグラムの例 ヒストグラムに加えて、度数分布表から種々の方式を使って平滑化したものを推定密度関数と して扱うこともできます。密度の推定値を計算する関数として density(データ)がありますので、 これを結んだ線は密度関数になります。なお、母数(パラメータ)は算出できません。 ヒストグラム(Sturges (1926))に推定確率密度関数を上書きした例を図-3に示します。 #ヒストグラムとカーネル推定密度の重ね合わせ x<-rnorm(200,100,20) #平均 100、標準偏差 20 の正規分布乱数 200 個を発生 xmax<-max(hist(x)$breaks)#x 最大値 xmin<-min(hist(x)$breaks)#x 最小値 ymax<-max(density(x)$y,hist(x)$density)#y 密度最大値 hist(x,main ="",freq=FALSE,xlim=c(xmin,xmax),ylim=c(0,ymax))#密度でヒストグラムを描く dp<-density(x)#密度 par(new=TRUE)#重ね合わせの指定

plot(dp,main="hist:(Sturges.1926) & 推定密度",xlim=c(xmin,xmax),ylim=c(0,ymax))#推定密度プロット

a) Sturges の方法 b) Scott の方法 c) Wand の方法

Histogram of X (Sturges(1926) ) x D en si ty 4 6 8 10 12 14 0. 00 0 .0 5 0. 10 0. 15 0. 20

Histo gram of X (Wand (1995))

x D en s it y 4 6 8 10 12 14 16 0 1 0 2 0 30 40 4 6 8 10 12 14 0. 00 0 .0 5 0. 10 0. 15 0. 20

Histog ram o f X (S cott ( 1992) )

x

D

en

si

(5)

x De ns i ty 40 60 80 100 120 140 0 .0 00 0 .0 0 5 0. 0 10 0. 01 5 0. 02 0 40 60 80 100 120 140 0 .0 00 0 .0 0 5 0. 0 10 0. 01 5 0. 02 0

hist :(Sturges.1 926) & 推定 密 度

N = 200 Bandwidth = 6.272 De ns i ty 図- 3 ヒストグラムと推定密度関数

2.2 箱ヒゲ図(box and whisker plot)

箱ヒゲ図はデータを順序統計量として扱った場合の図表現です。特に、複数のデータを手早く 比較する場合に威力を発揮します。 箱ヒゲ図は下から 1/4(25%点、第1四分位、Q1)と上から 1/4(75%点、第 3 四分位,Q3) の箱(長方形)を書き、その箱の中に中央値(50%点、第 2 四分位、Q2)を書き入れます。 そして、四分位範囲(第3 四分位と第 1 四分位の差)を 1.5 倍した範囲で一番大きな値と一番 値小さな値の線分(ヒゲ)を第1 四分位の下と第 3 四分位の上に書き込みます。さらに、ヒゲよ り外れた値を○などで表現します。(Tukey の方法) なぜ、四分位範囲の1.5 倍以上・以下の値を外れ値とするかは、Tukey が決めたからという他 はないようで、真の意味での異常値であるかは、慎重な判断が必要となります。 図- 4 箱ヒゲ図の意味 四分位範囲×1.5 の範囲で 一番大きなデータ 四分位範囲×1.5 の範囲で 一番小さなデータ 四分位範囲×1.5 四分位範囲×1.5 外れ値 外れ値 25%点 75%点 50%点(中央値)

(6)

“R”では生データからboxplot()関数で描くことができます。 x<-rnorm(200,10,2) #平均 10、標準偏差 2 の正規分布乱数 200 個を発生 y<-rnorm(200,10,2) #平均 10、標準偏差 2 の正規分布乱数 200 個を発生 z<-rnorm(200,10,2) #平均 10、標準偏差 2 の正規分布乱数 200 個を発生 boxplot(x,y,z) #箱ヒゲ図を描く 1 2 3 2 4 6 8 1 0 1 2 1 4 1 6 図- 5 箱ヒゲ図例 2.3 散布図(scatter plot)

n

組の対のデータ

x y

i

,

i

1

 

i

n

をプロットした図です。“R”では 2 つの変数については plot()関数で、3 つ以上の変数の場合は pairs()関数で散布図行列を描くことができます。 x<-rnorm(200,10,2) #平均 10、標準偏差 2 の正規分布乱数 200 個を発生 y<-rnorm(200,10,2) #平均 10、標準偏差 2 の正規分布乱数 200 個を発生 plot(x,y) #散布図を描く 4 6 8 10 12 14 16 6 8 10 1 2 14 1 6 x y 図- 6 散布図の例

(7)

x<-rnorm(200,10,2) #平均 10、標準偏差 2 の正規分布乱数 200 個を発生 y<-rnorm(200,10,2) #平均 10、標準偏差 2 の正規分布乱数 200 個を発生 z<-rnorm(200,10,2) #平均 10、標準偏差 2 の正規分布乱数 200 個を発生 xyz<-matrix(c(x,y,z),200,3)#新しい行列を作る。 pairs(xyz)#散布図行列を描く var 1 6 10 14 4 8 1 2 1 6 6 1 0 1 4 var 2 4 8 12 16 4 8 12 16 4 8 1 2 1 6 var 3 図- 7 散布図行列例

3.データの数値要約

データの分布の特徴をなるべく簡単な数値に要約するには、1)分布の位置(location)、2)分 布の広がり(scale)をどのようにして表現するかが重要なポイントとなります。また、2 変数以 上の対のデータでは3)データ間の関連を示す指標も必要になります。 なお、試験(実験)で得られるデータは、ある母集団からランダムに選択された標本として扱 います。 3.1 分布の位置(location)を表す指標 1)標本平均値(sample mean) 分布の位置を表す指標として、最も頻繁に用いられるのが(算術)平均値です。一郡の和を求 める記号

(シグマ)を使えば、 1

1

n i i

x

x

n

 

で表現されます。一般的には、平均値を

x

(エッ クスバー)とすることが多いですが、プログラムなどで

x

と表現することが難しいので、本書で

X

mean

,

x

mean

,

mean

と記述する場合もあります。母集団の平均値ではないことを強調して標本平

均値としています。

x<-c(1,2,3,4,5)#データ mean<-mean(x)#標本平均値 mean

(8)

2)中央値(sample median) データを大小順に並べた場合(順序統計量 order statistics)の真ん中の値。標本数

n

が奇数 (

2

 

k

1

)ならば、中央値は

x

k1、偶数(

2 k

)ならば、中央値は

x

k

x

k1

2

となると説明 していることが多いのですが、これは順序統計量に同順位の値(tie)がない場合の説明です。同 順位の値(tie)がある場合には若干注意が必要です。 順序統計量

1, 2,3, 4, 5

の場合には中央値は 3、

1, 2,3, 4,5, 6

では

3 4 2

3.5

と分かりま すが、

3,3, 4, 4, 5, 5

のように同順位の値がある場合にはどうでしょうか? この場合には、直感 的に4を中央値とすることは納得のいく所です。

3, 3, 4, 4, 4,5

はどうでしょう? 気楽に 4 は真ん中に入っているから中央値は4と済まして しまいましょう。こういう立場をとっているのが種々の統計ソフトです。通常はこれでかまわな いと思います。 x<-c(1,2,3,4,5)#データ median<-median(x)#中央値 median [1] 3 こだわる方のためにGrimm(1933)の考え方を御紹介します。Grimm は『それぞれの値を表示 単位の区間の中点と考え、同順位の値はそれぞれ区間内に均等に散らばると考える』としていま す。 例えば、

3, 3, 4, 4, 4,5

では3 は 2 つ、4 は 3 つありますので、均等に散らばると考えると 3 の 2 つで 1/2=0.5 から 2.5,3.5、3 つの 4 では 1/3≒0.3 から 33.67,4,4.33 と考えますから、

3, 3, 4, 4, 4,5

2.5,3.5,3.67, 4, 4.33, 5

となって、中央値は

3.67

4.0 2

3.835

となります。 ここで、ある同順位の区間の下限値、階級幅、個数をそれぞれ

L h t

, ,

nとして、一つ下の区間ま での個数を

N

Lとしますと、

N

L+1 番目、

N

L+2 番目、・・・、

N

L

t

n番目の値は順に

1 2

L n

N

t

h

L

3 2

t

n

h

、・・・、

L

  

2

t

n

1

 

2

t

n

h

となります。すなわち、

N

L

i

番目の値は

L

  

2

i

1

 

2

t

n

h

です。

(9)

上述したように標本数

n

が奇数ならば中央値は

n

1 2

番目ですので、中央値が含まれる階級 の順位を

n

cとして

N

L

n

c

n

1 2

が成り立ちます。 c

n

について解いて

n

c

N

L

 

n

1 2

となり、

L

  

2

i

1

 

2

t

n

h

に代入して、中央値は

2

L

1 2

1

2

n

L

2

n

L

 

N

 

n

t

  

h

L

N

n

t

h

となります。 標本数

n

が偶数の場合には同様にして中央値は

L

N

L

n

2

t

n

h

となります。 3)最頻値さ い ひ ん ち(sample mode) 文字通り、最も度数が多い値のことです。英語の読みをそのままにモードとも呼ばれることも あります。最頻値が 2 つあることがありますが、この分布は二峰性(bimodal)と呼ばれます。 また、出現頻度が同じ(一様分布等)場合には存在しません。 4)まとめ

位置を表す指標としてこの他に重み付平均(weighted mean)、幾何平均(geometric mean)、

調和平均(harmony mean)などがありますが、分布によって平均、中央値、最頻値の関係は変 わってきます。単峰性で分布が歪んでいない場合には、平均、中央値、最頻値は一致しますし、 二峰性でも分布が歪んでない場合には平均値と中央値は一致することになります。単峰性で左に 寄った分布では平均<中央値<最頻値、右に寄った分布では最頻値<中央値<平均と逆の順番に なります。 このため、中央値のほうが平均より堅牢であると言われます。(

1, 2, 3, 4, 5, 6, 7,8, 9

)の平均と 中央値は共に5 となりますが、(

1, 2, 3, 4, 5, 6, 7,8,100

)の場合には中央値は5 と変化がなく、平 均は136/9≒15.1 と 100 の極端に離れた値の影響を受けることになります。すなわち、中央値の ほうが極端に離れた値の影響を受けづらくなっています。 このように小学校以来使いなれてきた平均は a)同じ母集団から抽出回数を増やせば一定の値 になる。b)多くの統計量や検定で使われている。などのプラス面と c)極端な値の影響を受けや すい。d)打ち切りデータ(後述)に使うと中心としての指標としてそぐわないことがある。な

(10)

どのマイナス面もあることも忘れてはならないことでしょう。 3.2 バラツキ(Variable)の指標 データの特徴をつかむためには、位置の指標の他にバラツキ(Variable)の指標も必要となり ます。例えば、平均値が同じでも標準偏差が異なる正規分布では図-8 のように全く異なる分布 となるからです。 0 10 20 30 40 0 0.02 0.04 0.06 0.08 図- 8 平均が同じで標準偏差が異なる正規分布 1)標本範囲(sample range) 最大値から最小値を引いた値の最も単純なバラツキの指標です。平均と同じく極端に外れた値 の影響を受けやすい値です。 2)パーセンタイル(percentile)、四分位範囲、四分位偏差 データを小さい順に並べた順位統計量(

x

1

x

2

x

n)では

x

1が最小値、

x

nが最大値とな りますが、ある値(

x

i)以下のデータ数が

i

%であるような順位は

i

パーセントタイル順位 (percentile rank)と呼ばれます。そして、

x

i値を

i

パーセントタイルと呼びます。このため、 50 パーセントタイルは中央値(平均値ではありません)となります。 パーセンタイルの中で、50 パーセントタイルの他に 25 パーセントタイル、75%パーセントタ イルがよく使われています。 4 つの等しい個数の郡に分けたとき

1 4 (25%), 2 4 (50%), 3 4 (75%)

にあたる値全体を四分位 数(quantile)と呼び、順に第 1 四分位数、第 2 四分位数、第 3 四分位数と呼ばれています。

(11)

数、75%パーセントタイル=第 3 四分位数となります。

四分位範囲(Inter-Quartile Range , IQR)は第 3 四分位数と第 1 四分位数の間隔ですので、

中央値付近の50%が含まれる範囲を示すことになります。

そして、四分位範囲を2 で除した値は四分位偏差(Semi Inter-Quartile , SIQR)と呼ばれま

す。SIQR を使うと中央値-SIQR、中央値+SIQR の間に 50%の範囲が含まれることになります。 パーセンタイル(percentile)、四分位数(quantile)は本来、順序統計量を意識したものです が、『累積確率で下から確率

p

の位置にある値を

p

クォンタイルと呼び、クォンタイルの確率の 指定をパーセントで行うときはパーセント点(percentile)と呼ぶ』と確率分布までに拡張する 場合もあります。これに従えば、木材強度の基本値として使われる(累積)確率5%値(下側 5% 値)は5%ile(5%値)と表現することができることになります。 x<-rnorm(200,100,20)#平均 100、標準偏差 20 の正規分布乱数を 200 個発生 quantile(x) # x のクォンタイル点 0% 25% 50% 75% 100% 4.289137 8.617510 10.216377 11.588647 16.218412 3)標本分散(sample Variance) バラツキを表すためにある値からの距離を総和すれば良いと直感的に分かります。 ある値を平均値(

x

)にとり各データの差の総和

1 n i i

x

x

を考えるのは自然です。 ところが、 1

1

n i I

x

x

n

 

ですので、

1 1 1

0

n n n i i i i i I

n

x

x

x

x

n

  

 

となり、バラツキの指標に は使えません。 そこで、

1 n i i

x

x

の代わりに絶対値(マンハッタン距離)の総和 1 n i i

x

x

や二乗の総和

2 1 n i i

x

x

を使うアイデアが生まれましたが、絶対値は演算的に扱いが厄介ということで、

2 1 n i i

x

x

を使うこととし、データ数(

n

)の影響を受けないように

n

で除した値の標本分散 (sample variance)をバラツキの指標として用いられています。

(12)

2 1

1

n i i

v

x

X

n

 

n

の代わりに

n

1

(標本自由度)で除した不偏1分散(unbiased variance)と呼ばれる値があ ります。これは標本データからの母集団分散(

2)の不偏推定値(unbiased estimate)となり ます。

2 1

1

1

n es i i

v

x

X

n

“R”での分散を求める関数

var( )

x

は不偏分散(

v

es)を求める関数ですので、標本分散(

v

) を求めるためには変換が必要になります。

v x

( )

n

1

var( )

x

n

data<-rnorm(200,10,20)#平均 10、標準偏差 2 の正規分布乱数を 200 個発生 ves<-var(data)#不偏分散 n<-length(data)#標本の大きさ v<-ves*(n-1)/n#標本分散 > ves [1] 402.1484 > v [1] 400.1377v 4)標準偏差(standard deviation) 分散の平方を標準偏差(standard deviation)と呼びます。分散はデータ値を二乗しています からデータと次元が異なりますが、標準偏差はその平方となっていますので、次元がデータと等 しくなります。 上述したように、分散には平方和を

n

で除した標本分散(

v

)と

n

1

で除した不偏分散(

v

es) がありますので、各々に対応して、標本標準偏差(

sd

)、不偏標準偏差(

sd

es)が定義できます。

2

2 1 1

1

1

,

1

n n i es es i i i

sd

v

x

x

sd

v

x

x

n

n

なお、不偏標準偏差は母標準偏差(

)の不偏量ではありません。不偏標準偏差の不偏は不偏 分散(

sd

es)からの値であるとの意味合いとなります。 1 ある推定量の期待値が推定すべき母数に等しいとき、その推定量を不偏推定量と呼び、その推定値を不偏推定値(unbiased

(13)

“R”での標準偏差を求める

sd x

( )

は不偏標準偏差(

sd

es)を求める関数ですので、標本標準偏 差(

sd

)を求めるためには変換するか、標本分散(

v

)の平方根とする必要があります。

1

( )

n

sd

sd x

v

n

data<-rnorm(200,100,20)#平均 100、標準偏差 20 の正規分布乱数を 200 個発生 #不偏分散から求める関数(val())を使う場合 sdes<-var(data)^0.5#不偏標準偏差 n<-length(data)#標本の大きさ sd<-sdes*((n-1)/n)^0.5#標本標準偏差 > sdes [1] 18.50399 > sd [1] 18.45767 #不偏標準偏差を求める関数(sd())を使う場合 sdes<-sd(data) #不偏標準偏差 n<-length(data)#標本の大きさ sd<-sdes*((n-1)/n)^0.5#標本標準偏差 > sdes [1] 18.50399 > sd [1] 18.45767

5)標本変動係数(sample coefficient of variation)

単位が異なるデータのバラツキを比較したい場合に標本標準偏差(

sd

)を平均値で除した標 本変動係数(

cv

)を使うことがあります。平均値で除すことにより無次元化されますので、性質 が異なる分布のバラツキの比較にも使用することができます。

2 1

1

n i i

x

x

n

sd

cv

x

x

なお、変動係数を母集団統計量とみなして、不偏標準偏差(

sd

es)を使って定義しているもの もあります。本書では

cv

esとして用います。

2 1

1

1

n i es i es es

x

x

V

n

sd

cv

x

x

x

data<-rnorm(200,100,20)#平均 100、標準偏差 20 の正規分布乱数を 200 個発生

(14)

mean<-mean(data)#平均値 sdes<-var(data)^0.5#不偏標準偏差 n<-length(data)#標本の大きさ sd<-sdes*((n-1)/n)^0.5#標本標準偏差 cv<-sd/mean#標本変動係数 cves<-sdes/mean#不偏変動係数 > cv [1] 0.1871814 > cves [1] 0.1876511 #不偏標準偏差を求める関数(sd())を使う場合 mean<-mean(data)#平均値 sdes<-sd(data) #不偏標準偏差 n<-length(data)#標本の大きさ sd<-sdes*((n-1)/n)^0.5#標本標準偏差 cv<-sd/mean#標本変動係数 cves<-sdes/mean#不偏変動係数 > cv [1] 0.1871814 > cves [1] 0.1876511 4)標本歪度わ い ど(sample skewness) 分布の左右対称性(歪み)を表す数値です。歪み度(ゆがみど、ひずみど)と呼ぶ場合もあり ます。 3 3 3 1 1 1

(

1)

n n n i i i i es i i

x

x

x

x

x

x

n

n v

sd

v

sk

n

n

n

  

0

sk

:左右対称、

sk

0

:右に裾が長い(左に偏った)分布、

sk

0

:左に裾が長い(右に 偏った)分布となります。

EXCEL や Mathcad では歪度を求める関数は SKEW()ですが、その定義式は次式となって

います。これは母集団の歪度の推定値を与えるものですから

sk

esとして

sk

と区別しておきます。

 

3 1

1

2

n i es i es

x

x

n

sk

n

n

sd

  

sk<-function(data)#標本歪度 {n<-length(data) mean<-mean(data) sum(((x-mean)/sqrt((n-1)*var(data)/n))^3)/n } skes<-function(data)#歪度の推定値 {n<-length(data) mean<-mean(data)

(15)

5)標本尖度せ ん ど(sample kurtosis) 分布の尖りを計算し、正規分布よりどれだけ逸脱しているかを表す指標です。

4

4 1 1 2 2

3

3

1

n n i i i i es

x

x

x

x

ku

n v

n

n

v

n

 

 

尖り具合が

ku

0

:正規分布と同じ、

ku

0

:正規分布より尖っている。

uk

0

:正規分より 扁平という判断となります。 母集団尖度の推定値(

ku

es)は次式となります。(EXCEL,Mathcad の KURT()関数)

 

 

 

2 1

1

3

1

1

2

3

2

3

n i es i es

n n

x

x

n

ku

n

n

n

sd

n

n

 

 

    

  

ku<-function(data)#標本尖度 {n<-length(data) sum((x-mean(data))^4)/(((n-1)/n*var(data))^2)/n-3 } kues<-function(data)#尖度の推定値 {n<-length(data) n*(n+1)*sum(((x-mean(data))/sd(data))^4)/(n-1)/(n-2)/(n-3)-3*(n-1)^2/(n-2)/(n-3) } 6)まとめ 平均は中央値に比べて外れ値の影響を受けやすいと述べましたが、バラツキも指標の範囲、分 散、標準偏差は四分位範囲に比べて外れ値の影響を受けやすくなります。 データのバラツキの要約として分散(標準偏差)だけではなく、中央値、四分位範囲も求めて おくことをお奨めします。 3.3 対のデータ間の関係指標 曲げヤング係数と曲げ強度のように

n

組の対のデータ

x y

i

,

i

1

 

i

n

が得られている場合に その対のデータ間の関係を示す指標です。

(16)

X

Y

の標本共分散を

X

の標本分散と

Y

の標本分散の平方で除した値のことであり、一般的に 相関係数と言った場合にはピアソンの積率相関係数のことを指します。

 

 

1 1 2 2 2 2 1 1 1 1

1

1

1

n n i i i i xy i i n n n n xx yy i i i i i i i i

x

x

y

y

x

x

y

y

S

n

r

S

S

x

x

y

y

x

x

y

y

n

n

     

1

r

1

  

であり、

r

が1 に近ければ近いほど関係(相関)があることになり、

r

0

ならば正 の相関、

r

0

ならば負の相関と呼ばれます。 相関関係は変量間の関係ですので、その関係が線形、非線形であっても問題ありませんが、ピ アソンの積率相関係数(

r

)は、2 つの変量が正規分布に従い、かつ線形関係にある場合に相関 関係の強さを最もうまく表現できることを忘れてはならないでしょう。 また、非線形の相関関係を捉える方法としては1)線形になるように対数変換をほどこす。2) 順位の情報だけを使って相関係数を使う。などの方法があります。 1)の方法では変換することにより元の分布形の情報が保持されていることが保証されません ので2)の方法がベターです。 この他の相関係数としては、順序統計量扱いのスピアマンの順位相関係数(Spearman’s

Correlation Coefficient)、ケンドールの順位相関係数(Kendall’s Correlation Coefficient)があ

ります。 cor(x,y)#ピアソンの相関係数 cor(x,y,method="kendall")#ケンドールの相関係数 cor(x,y,method="spearman")#スピアマンの相関係数

4.計算例

ステップ0 データのインポート 何はさておき、データを用意する必要があります。データ数が少ない場合は直接“R”に入力し てもかまわないのですが、入力ミスをした場合など修正しづらいので、使い慣れたエディッタや

(17)

EXCEL、Openoffice などで、入力し、「テキスト(タブ区切り)」または「CSV(カンマ区切り)」 データ用意します。 ・データの1行目には変数名を記入します。 ・データを読み込み読み込みます。 テキスト(タブ区切り)ファイルとして作業ディレクトリにTEST.dat、CSV(カンマ区切り) ファイルとしてTEST.csv があるものとします。

> xy<- read.table("test.dat", header=TRUE)#テキスト(タブ区切り)ファイル読込 > xy<- read.csv("test.csv", header=TRUE)#CSV(カンマ区切り)ファイル読込

データが読み込まれたかどうか確認するためにデータの数を求めてみましょう。(必須ではあり ません) > xy<-read.table("データ.csv",header=TRUE,sep=",")#データ読込 > x<-xy$x#x データセット > y<-xy$y#y データセット > length(x)#データの大きさの確認 [1] 120 > length(y)#データの大きさの確認 [1] 120 さの確認 [1] 30 MOE MOR 12.3 42 12.1 46.8 11.3 42.5 11.8 50.7 11 43.8 11.3 45.6 10.8 46.1 12.7 43.1 11.4 41.1 テキスト(タブ区切り) MOE,MOR 12.3,42 12.1,46.8 11.3,42.5 11.8,50.7 11,43.8 11.3,45.6 10.8,46.1 12.7,43.1 11.4,41.1 CSV(カンマ区切り)

(18)

ステップ1 図表現 1)ヒストグラム > hist(MOE)#MOE のヒストグラム > hist(MOR)#MOR のヒストグラム Histogram of x x De ns it y 8 10 12 14 0. 00 0 .0 5 0 .1 0 0. 15 0 .2 0 Histogram of y y D en si ty 30 35 40 45 50 55 60 0. 00 0. 02 0. 04 0. 06 ※箱ヒゲ図 >boxplot(x)#x の箱ヒゲ図 > boxplot(x)#y の箱ヒゲ図 8 1 0 1 2 1 4 3 5 4 0 4 5 5 0 5 5 6 0 ※散布図 > plot(x,y)#散布図 あるいは > plot(xy)#散布図

(19)

8 10 12 14 3 5 4 0 4 5 50 5 5 6 0 x y ステップ2 数値要約 ※最小値、第1 四分位数、中央値、標本平均、第 3 四分位数、最大値を求める。summary()関 数を使います。 > summary(x)#x の最小値、第 1 四分位数、中央値、標本平均、第 3 四分位数、最大値

Min. 1st Qu. Median Mean 3rd Qu. Max.

7.199 9.367 10.670 10.740 11.920 14.900

> summary(y)#y の最小値、第 1 四分位数、中央値、標本平均、第 3 四分位数、最大値

Min. 1st Qu. Median Mean 3rd Qu. Max.

32.62 40.47 43.94 44.70 47.62 59.43 ※クォンタイル点を求める。 > quantile(x) #x のクォンタイル点 0% 25% 50% 75% 100% 7.19901 9.36669 10.67150 11.91867 14.89804 > quantile(y) #y のクォンタイル点 0% 25% 50% 75% 100% 32.62444 40.46847 43.93609 47.62141 59.42699 ※分散(

v v

,

es)、標準偏差(

sd sd

,

es)、変動係数(

cv cv

,

es)、歪度(

sk sk

,

es)、尖度(

ku ku

,

es) を求める。 求める関数を定義します。

(20)

vsdvdkkucal<-function(data)#分散、標準偏差、変動係数,歪度、尖度の算出関数 { me<-mean(data)#平均値 n<-length(data)#データの大きさ ves<-var(data)#不偏分散 v<-(n-1)/n*ves#標本分散 sdes<-sd(data)#不偏標準偏差 sd<-sdes/((n-1)/n)^0.5#標本標準偏差 cves<-sdes/me #不偏標準偏差を用いた変動係数 cv<-sd/me#標本変動係数 sk<-sum(((data-me)/sd)^3)/n#標本歪度 skes<-n/(n-1)/(n-2)*sum(((data-me)/sdes)^3)#歪度の推定値 ku<-sum(data-me)^4/(((n-1)/n*ves)^2)/n-3#標本尖度 kues<-n*(n+1)*sum(((data-μ)/sd(data))^4)/(n-1)/(n-2)/(n-3)-3*(n-1)^2/(n-2)/(n-3)#尖度の推定値 atai<-c("mean"=me,"ves"=ves,"v"=v,"sdes"=sdes,"sd"=sd,"cv"=cv,"cves"=cves,"sk"=sk,"skes"=skes,"ku"=ku,"ku es"=kues) } この関数を使った場合の結果です。 > atai<-vsdvdkkucal(x) > atai

ves v sdes sd sk skes

2.9314533 2.9070245 1.7121487 1.7193276 0.1353149 0.1370338

ku kues

-0.6470917 -0.6231691 > atai<-vsdvdkkucal(y) > atai

ves v sdes sd sk skes

34.0494832 33.7657375 5.8351935 5.8596598 0.5470427 0.5539918

ku kues

参照

関連したドキュメント

従って、こ こでは「嬉 しい」と「 楽しい」の 間にも差が あると考え られる。こ のような差 は語を区別 するために 決しておざ

事業セグメントごとの資本コスト(WACC)を算定するためには、BS を作成後、まず株

した標準値を表示しておりますが、食材・調理状況より誤差が生じる場合が

、肩 かた 深 ふかさ を掛け合わせて、ある定数で 割り、積石数を算出する近似計算法が 使われるようになりました。この定数は船

しかしながら、世の中には相当情報がはんらんしておりまして、中には怪しいような情 報もあります。先ほど芳住先生からお話があったのは

○安井会長 ありがとうございました。.

・対象書類について、1通提出のう え受理番号を付与する必要がある 場合の整理は、受理台帳に提出方

「沿岸域の総合的管理」の進め方については、様々な考え方がありますが、海洋政策研究