数理統計学
標本分散と(標本)不偏分散
両方とも「分散」というのが実情
(標本)
不偏分散
=
二乗偏差計
データ数-1
分析ではこちらをとることが多い
標本分散
=
二乗偏差計
データ数
(
10ページ)
(
103ページ)
【復習】
実験結果(1万回)
平均50Kg、標準偏差
10Kg
、10人
> mean(jikken)
[1]
89.41373
> mean(jikken1)
[1]
99.63248
標準偏差=10前後
標準偏差=
9.5前後
全体に 小さすぎる 偏りがと れた そもそも正規 分布でもないここまで
【復習】
図(前頁)の作成手順①
> rnorm(10,mean=50,sd=10) ➡ 正規分布から10個のサンプル [1] 56.51273 75.94976 59.07253 55.21892 48.90524 50.07275 46.32889 [8] 48.62459 70.34706 55.00642 > varp(rnorm(10,mean=50,sd=10)) [1] 100.2284 > varp(rnorm(10,mean=50,sd=10)) [1] 47.27871 > varp(rnorm(10,mean=50,sd=10)) [1] 38.88721> jikken <- replicate(10000,varp(rnorm(10,mean=50,sd=10))) > jikken1 <- replicate(10000,var(rnorm(10,mean=50,sd=10))) > par(mfrow=c(2,1))⏎ →2段の図の準備 > hist(jikken,main="標本分散",breaks="FD") > hist(jikken1,main="不偏分散",breaks="FD") 10個のデータの標本分散の出方をみる
Rで
確認
注: コマンド”varp”は次ページの説明を確認することvarp
<- function(x){mean((x-mean(x))^2)}
以下を実行してコマンドにしておくと便利
分散
は「平均二乗偏差」のことなので、
以下のように求めるのが本来は
定義
にかなう。
mean((x-mean(x))^2
> x <- 1:5 > mean((x-mean(x))^2) [1] 2(例)
Rで
確認
図(前頁)の作成手順②
別の実験(1万回)
平均170、分散
10
2
、データ数
5
人
全体に値が 小さい バイアスが 消えた そもそも正規分布 が当てはまらない > mean(jikken1); var(jikken1) [1]77.83389
[1] 2840.553 > mean(jikken2); var(jikken2) [1]100.0942
[1] 4876.461真の分散(全体の分散)=10
2
←
バイアス
不偏分散
標本分散
標本分散𝑆
2
の
「バイアス」
以下の結論を数学的に証明できる
2
1
2
n
n
S
E
あとの例で言うと、𝑛 = 5、𝜎
2
= 100だから
100
80
5
4
2
S
E
実験結果にあっているか?バイアスがある
=不偏性がない
不偏分散のねらい
𝑆
2
×
𝑁
𝑁−1
でバイアス修正
𝐸
𝑁
𝑁−1
× 𝑆
2
=
𝑁
𝑁−1
𝑁−1
𝑁
𝜎
2
= 𝜎
2
故に、『
(標本)不偏分散
』という。
計算式としては
1
2 2 1 2ˆ
1
1
n
X
X
n
n
n
X
X
n i i n i i シグマ二乗ハット標本分散のバイアス
数学的計算
10
2 1 2 10 1 2 10 1 2 2 10 1 2 10 1 250
10
50
50
10
50
50
X
X
X
X
X
X
X
X
X
X
X
i i i i i i i i i i
2 2 210
9
10
10
10
10
10
偏差二乗和
E
真の偏差二乗和 データの偏差二乗和 𝜇 = 50 𝜎2 = 100 𝑛 = 10 両辺を10で割れデータ数が少ないとき、違いが大きい
極端なケース:データ1個の場合
言葉の定義どおりなら
母集団の分散を知りたいなら
0
1
2 1 1 2 1 1 2
X
X
X
X
S
i i
計算不能
0
0
1
1
2 1 1 2 iX
iX
S
1個のデータには バラつきがないの で分散はゼロ 1個のデータでは 全体のバラつきは 分からないので計 算できない【クイズ】
さいころを5回振って、目の数の標本分
散を求める。この値は2.92位になるか?
1から6まで同じ割合で出るとき、分散は2.92
𝜎
2= 2.92
理論的には
2
.
92
2
.
34
5
4
2
S
E
Rで
確認
> varp <- function(x){mean((x-mean(x))^2)} > varp(1:6)⏎ →確率通りの目が出ると分散は2.92になる [1] 2.916667 > sample(1:6,5,replace=TRUE)⏎ →5回振ってみる [1] 6 4 6 5 5 > varp(sample(1:6,5,replace=TRUE))⏎ →分散を出してみる [1] 2.8 > jikken <- replicate(10000,varp(sample(1:6,5,replace=TRUE))) > hist(jikken) > mean(jikken)⏎ →1万回の実験結果の平均は2.32になる [1]2.320816
定義通りの標本分散を計算す る関数を定義しておくと便利 計算結果とほぼ合っている【まとめ】サンプル→母集団という観点
サンプルの平均値は「標本平均」
サンプルの分散は「(標本)不偏分散」
N
X
X
N
i
i
1
1
ˆ
1
2
2
N
X
X
N
i
i
不偏性あり
バイアスなし
不偏性あり
バイアスなし
下の二つを使え
次のテーマ - 「分散」という結果の出方
カイ
二乗分布入門
> x1 <- rchisq(5000,df=1) > x2 <- rchisq(5000,df=2) > x3 <- rchisq(5000,df=3) > x4 <- rchisq(5000,df=4) 右の図はすべて カイ二乗分布 データを集めてヒスト グラムを描いてみた 上の”df”は「自由度」 これから説明する 教科書:121ページカイ二乗分布
カイ二乗値が従う分布である
カイ二乗値:𝜒
2
標準正規分布𝑁 0,1 からとった𝑛個の値の二乗和
𝑍
2自由度
1のカイ二乗値
𝑍
12+ 𝑍
22自由度2のカイ二乗値
𝑍
12+ 𝑍
22+ 𝑍
32自由度3のカイ二乗値
𝑍
12+ 𝑍
22+ 𝑍
32+ 𝑍
42自由度4のカイ二乗値
以下同様カイ二乗分布は正規分布から
出てくる分布
Rで
確認
1000個
1000個
1000個
1000個
> z1 <- rnorm(1000) > z2 <- rnorm(1000) > z3 <- rnorm(1000) > z4 <- rnorm(1000)標準正規分布から1000個
のデータをとった
𝑍
2
の分布をみる
第2章の最後のテーマ
Rで
確認
chi1 <- z1^2 hist(chi1) > mean(chi1); var(chi1) [1] 0.958016 [1] 1.759147 上に平均値と分散を求めている。平均値は 理論と合っているか回答できるはずである。 𝑍1で確かめたが、 𝑍2以下を使っても 大体同じである。𝑍
1
2
+ 𝑍
2
2
の分布をみる
Rで
確認
上に平均値と分散を求めている。平均値は 理論と合っているか回答できるはずである。 𝑍1と𝑍2で確かめた が、他を使っても 大体同じである。 > mean(chi2); var(chi2) [1] 1.996239 [1] 3.752047 > chi2 <- z1^2 + z2^2 > hist(chi2)𝑍
1
2
+ 𝑍
2
2
+𝑍
3
2
+𝑍
4
2
Rで
確認
上に平均値と分散を求めている。平均値 は理論と合っているか回答できるはず。 > mean(chi4); var(chi4) [1] 4.045289 [1] 7.633616 3個の二乗和は省略 > chi4 <- z1^2 + z2^2 + z3^2 + z4^2 > hist(chi4)Kは自由度。教科書123頁