-
NOP-
NQRST:
+
のとりうる最小値UV:
+
のとりうる最大値連続型一様分布
8 = W 1
B − A A ≤ ≤ B
のとき0
それ以外のとき0 0.02 0.04 0.06 0.08 0.1
-5 0 5 10 15
A = 0, B = 10
の一様分布8
平均値
分散
正規分布
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14
0 20 40 60 80 100
8 X = 30, Y = 5
X = 40, Y = 3
X = 50, Y = 10
平均値
分散
標準正規分布
平均0,分散1の正規分布を標準正規分布と呼ぶ。
正規分布に従う確率変数
+
を標準化すると,それは標準正規分布に従う。
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
-6 -4 -2 0 2 4 6
8
平均値:
> + = 0
分散:? + = 1
正規分布の性質
平均
(X) ±
標準偏差Y
の範囲に約68%が収まる0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
-6 -4 -2 0 2 4 6
X X + Y X − Y
8
正規分布の性質
平均
(X) ± 2 ×
標準偏差Y
の範囲に約95%が収まるX X + 2Y X − 2Y
8
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
-6 -4 -2 0 2 4 6
シグマ区間
区間 確率(%)
1Y 68.2689492137086
2Y 95.4499736103641
3Y 99.7300203936740
4Y 99.9936657516326
5Y 99.9999426696856
6Y 99.9999998026825
7Y 99.9999999997440
8Y 99.9999999999999
9Y 100.000000000000
同時確率分布と周辺確率分布
複数の確率変数に関する確率分布
+, ,
という2種類の確率変数の組の 同時確率分布を8( , /)
と表記する。周辺確率分布
+
と,
が互いに独立な場合には、同時確率分布は
8( , /) = 8
-8
.(/)
となる。特に
+, ,
が相関している場合を考える8
-= J
.NOPK/ 8 , /
.NQR
8
./ = J
-NOPK 8 , /
-NQR
共分散と相関
共分散
相関係数
[ \
「独立」と「無相関」
1. 8 +, , = 8
-+ × 8
.,
のとき、+
と,
は独立である。このとき
> +, = > + × >[,]
2. COV +, , = 0
であるとき、+
と,
は無相関である。独立であれば無相関。
> +, − > + > , = 0
なのでCOV +, , = 0
無相関のとき独立であるとは限らない。
> +, , = 0
かつ> + , > ,
の少なくともどちらか1つが0の場合、+
と,
は独立でなくても無相関となりうる。無相関だが独立でない例
8(1,0) = 8(2,1) = 8(2, −1) = 1/3
それ以外の8(+, ,)
は0
の場合周辺分布
8
-(1) = 1/3, 8
-(2) = 2/3
よって>[+] = 5/3
8
.(0) = 8
.(1) = 8
.(−1) = 1/3
よって>[,] = 0
COV +, , = × (0 + 2 − 2) − × 0 = 0
なので無相関。しかし
8 +, , ≠ 8
-+ 8
.(,)
なので独立ではない。/
0 1 2
1
−1
2変量正規分布
, /
の二変量正規分布周辺化分布はガウス分布となる
8 , / = 1
2cY
-Y
.1 − d × exp − 1
2 1 − d ( − X
-)
Y
-− 2d( − X
-)(/ − X
.)
Y
-Y
.+ (/ − X
.) Y
.8
-= J K/ 8 , /
hDh
= 1
2cY
-exp − − X
-2Y
-8
./ = J K/ 8 , /
hDh
= 1
2cY
.exp − − X
.2Y
.※
d
:相関係数2変量正規分布の立体図
-4 -3 -2 -1 0 1 2 3 4 -4
-3-2-1 0 1 2 3 4 0
0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18
/ 8( , /)
X
-= 0, Y
-= 1, X
.= 0, Y
.= 1, d = 0.4
-3 -2 -1 0 1 2 3 -3
-2 -1 0 1 2 3
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16
2変量正規分布の等高線
-3 -2 -1 0 1 2 3
-3 -2 -1 0 1 2 3
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18
-3 -2 -1 0 1 2 3
-3 -2 -1 0 1 2 3
0 0.05 0.1 0.15 0.2 0.25 0.3
/ / /
d = 0 d = 0.4 d = 0.8
1日目の内容
【午後】 確率と統計
4. 確率と統計の基礎
確率変数
確率関数と確率密度関数
確率変数の期待値・分散・共分散・相関係数
5. 推測統計学の基礎
母集団と標本
大数の法則と中心極限定理
母集団と標本
標本 母集団
ランダム
サンプリング
推測統計学
標本データの 性質
母集団の統計的性質を 記述統計 標本から推定する
推測統計学の基礎
当選確率は
8
です。 母集団C
人(
くじ引きに参加した人)
当たり + はずれ
8 1 − 8
当たった人の人数
i
は、二項分布に従う。C
j j <Dj
平均
C8 ,
分散C8(1 − 8)
本当?推測統計学の基礎
母集団の全数調査が困難である場合に、
標本を用いて母集団の統計的性質を推測する。
母集団
C
人当たった人の人数
i
は、二項分布に従う。C
j j <Dj
平均
C8 , 分散 C8(1 − 8)
真実(直接観測できない)標本
ランダム
サンプリング
推測統計学 観測事実
母数と標本統計量
母数
母集団の平均・分散・相関係数など(本当に知りたい情報)
標本統計量
標本データの平均・分散・相関係数などを得る計算式のこと
特定の標本データを当てはめたものを標本統計量の実現値という
+ + , … , + = 1
+
= + , … , = 1
(例) 標本平均の場合
標本統計量:標本統計量の実現値:
母数と標本統計量
次の表記を用いる。
母集団
(母数)
標本
(標本統計量の 実現値)
平均
X
標準偏差
Y !
相関係数
d 0
推測統計学の基礎
標本
(
人)母集団
( C
人)C
k
通りの 選び方がある1 0 0
…
0 1 0
0 0 1
0 0 0
0 1 0
1 1 0
+ = 0.333
+ = 0.167
+ = 0.5
標本平均は確率変数である
当たりを
+ = 1 , はずれを + = 0
とする。標本平均を + = 1 + とする。
記述統計量と標本統計量の違い
記述統計量
得られたデータそのものの分布の特徴を要約するための統計量 個々のデータが確率的にばらつくものだとは考えていない
標本統計量
得られたデータは、母集団から得られたサンプルである。
個々のデータは確率的にばらつくものだと仮定しており、
統計量もそれに従ってばらつく
母集団についての推測を行うための統計量
標本平均の分布
8 = 0.2
の場合標本サイズ が大きくなるにつれて、真の
8
に収束していく。0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
0 0.2 0.4 0.6 0.8 1
0 0.005 0.01 0.015 0.02 0.025 0.03 0.035
0 0.2 0.4 0.6 0.8 1
0 0.02 0.04 0.06 0.08 0.1 0.12
0 0.2 0.4 0.6 0.8 1
+ + +
= 10 = 100 = 1000
標本平均の分散の標本サイズ依存性
8 = 0.2
の場合標本平均の分散は
1/
に比例して小さくなる。0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
? +
1/
傾き 8(1 − 8)
大数の法則
標本平均に関する性質
確率変数
+ , + , … , +
が独立に同一の分布に従うとする>[+] = X
とする大数の法則
を大きくしていくと、標本平均は確率
1
でX
に収束する→
標本のサイズを大きくしていくと、標本平均は母集団における平均値に必ず一致する。
中心極限定理
標本統計量の分布そのものの特徴に関する重要な定理
確率変数
+ , + , … , +
が独立に同一の分布に従うとする>[+] = X , ?[+] = Y
とする。中心極限定理
を大きくすると、
∑ +
は平均X ,
分散Y /
の 正規分布に従う。→ 標本平均が従う確率分布は、標本サイズが大きいとき
正規分布で近似でき、その平均は母集団の平均と一致中心極限定理
標本
(
人) 母集団( C
人)当たった人の人数
i = ∑ +
< は平均
C8 , 分散 C8(1 − 8)
の二項分布に従う 真実当たった人の割合
+ =
<∑ +
< は平均
8,
分散8(1 − 8)/C
の 正規分布に従う中心極限定理 (C → ∞)
観測事実
+ = 1 +
中心極限定理より
標本平均
+
は が大きいとき、平均8, 分散8(1 − 8)/ の 正規分布に従う
不偏推定量
標本統計量の期待値が母数に一致するとき、
その標本統計量を不偏推定量と呼ぶ。
標本平均は、母集団の平均の不偏推定量である。
次のように定義される標本分散は、
母集団の分散の不偏推定量である。
! + , … , + = 1
− 1 + − +
不偏分散
標本サイズ の代わりに自由度
− 1
で割った分散を 不偏分散とよぶ。※ 記述統計においても不偏分散を用いる場合がある。
∑ − > + = 0なので,分散を計算するときに使っている
「自由な」情報は − 1個である。したがって, − 1で割る。
より詳しい説明については,以下を参照のこと
統計的方法のしくみ―正しく理解するための30の急所 ,
永田 靖 (著),日科技連出版社
まとめ
記述統計学
与えられたデータそのものの統計的性質の把握を 目標とする。
推測統計学
与えられたデータ(標本:観測事実)の背後にある 母集団(真実)の統計的性質を、
標本の統計的性質から推測する。
その際に用いる数学的ツールは確率論である。
推測統計学の基本である「推定」と「検定」については