• 検索結果がありません。

-

NOP

-

NQR

ST

+

のとりうる最小値

UV

+

のとりうる最大値

連続型一様分布

8 = W 1

B − A A ≤ ≤ B

のとき

0

それ以外のとき

0 0.02 0.04 0.06 0.08 0.1

-5 0 5 10 15

A = 0, B = 10

の一様分布

8

平均値

分散

正規分布

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14

0 20 40 60 80 100

8 X = 30, Y = 5

X = 40, Y = 3

X = 50, Y = 10

平均値

分散

標準正規分布

平均0,分散1の正規分布を標準正規分布と呼ぶ。

正規分布に従う確率変数

+

を標準化すると,

それは標準正規分布に従う。

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

-6 -4 -2 0 2 4 6

8

平均値:

> + = 0

分散:

? + = 1

正規分布の性質

平均

(X) ±

標準偏差

Y

の範囲に約68%が収まる

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

-6 -4 -2 0 2 4 6

X X + Y X − Y

8

正規分布の性質

平均

(X) ± 2 ×

標準偏差

Y

の範囲に約95%が収まる

X X + 2Y X − 2Y

8

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

-6 -4 -2 0 2 4 6

シグマ区間

区間 確率(%)

1Y 68.2689492137086

2Y 95.4499736103641

3Y 99.7300203936740

4Y 99.9936657516326

5Y 99.9999426696856

6Y 99.9999998026825

7Y 99.9999999997440

8Y 99.9999999999999

9Y 100.000000000000

同時確率分布と周辺確率分布

複数の確率変数に関する確率分布

+, ,

という2種類の確率変数の組の 同時確率分布を

8( , /)

と表記する。

周辺確率分布

+

,

が互いに独立な場合には、

同時確率分布は

8( , /) = 8

-

8

.

(/)

となる。

特に

+, ,

が相関している場合を考える

8

-

= J

.NOP

K/ 8 , /

.NQR

8

.

/ = J

-NOP

K 8 , /

-NQR

共分散と相関

共分散

相関係数

[ \

「独立」と「無相関」

1. 8 +, , = 8

-

+ × 8

.

,

のとき、

+

,

は独立である。

このとき

> +, = > + × >[,]

2. COV +, , = 0

であるとき、

+

,

は無相関である。

独立であれば無相関。

> +, − > + > , = 0

なので

COV +, , = 0

無相関のとき独立であるとは限らない。

> +, , = 0

かつ

> + , > ,

の少なくともどちらか1つが0の場合、

+

,

は独立でなくても無相関となりうる。

無相関だが独立でない例

8(1,0) = 8(2,1) = 8(2, −1) = 1/3

それ以外の

8(+, ,)

0

の場合

周辺分布

8

-

(1) = 1/3, 8

-

(2) = 2/3

よって

>[+] = 5/3

8

.

(0) = 8

.

(1) = 8

.

(−1) = 1/3

よって

>[,] = 0

COV +, , = × (0 + 2 − 2) − × 0 = 0

なので無相関。

しかし

8 +, , ≠ 8

-

+ 8

.

(,)

なので独立ではない。

/

0 1 2

1

−1

2変量正規分布

, /

の二変量正規分布

周辺化分布はガウス分布となる

8 , / = 1

2cY

-

Y

.

1 − d × exp − 1

2 1 − d ( − X

-

)

Y

-

− 2d( − X

-

)(/ − X

.

)

Y

-

Y

.

+ (/ − X

.

) Y

.

8

-

= J K/ 8 , /

h

Dh

= 1

2cY

-

exp − − X

-2Y

-8

.

/ = J K/ 8 , /

h

Dh

= 1

2cY

.

exp − − X

.

2Y

.

d

:相関係数

2変量正規分布の立体図

-4 -3 -2 -1 0 1 2 3 4 -4

-3-2-1 0 1 2 3 4 0

0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18

/ 8( , /)

X

-

= 0, Y

-

= 1, X

.

= 0, Y

.

= 1, d = 0.4

-3 -2 -1 0 1 2 3 -3

-2 -1 0 1 2 3

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16

2変量正規分布の等高線

-3 -2 -1 0 1 2 3

-3 -2 -1 0 1 2 3

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18

-3 -2 -1 0 1 2 3

-3 -2 -1 0 1 2 3

0 0.05 0.1 0.15 0.2 0.25 0.3

/ / /

d = 0 d = 0.4 d = 0.8

1日目の内容

【午後】 確率と統計

4. 確率と統計の基礎

確率変数

確率関数と確率密度関数

確率変数の期待値・分散・共分散・相関係数

5. 推測統計学の基礎

母集団と標本

大数の法則と中心極限定理

母集団と標本

標本 母集団

ランダム

サンプリング

推測統計学

標本データの 性質

母集団の統計的性質を 記述統計 標本から推定する

推測統計学の基礎

当選確率は

8

です。 母集団

C

(

くじ引きに参加した人

)

当たり + はずれ

8 1 − 8

当たった人の人数

i

は、二項分布に従う。

C

j j <Dj

平均

C8 ,

分散

C8(1 − 8)

本当?

推測統計学の基礎

母集団の全数調査が困難である場合に、

標本を用いて母集団の統計的性質を推測する。

母集団

C

当たった人の人数

i

は、二項分布に従う。

C

j j <Dj

平均

C8 , 分散 C8(1 − 8)

真実(直接観測できない)

標本

ランダム

サンプリング

推測統計学 観測事実

母数と標本統計量

母数

母集団の平均・分散・相関係数など(本当に知りたい情報)

標本統計量

標本データの平均・分散・相関係数などを得る計算式のこと

特定の標本データを当てはめたものを標本統計量の実現値という

+ + , … , + = 1

+

= + , … , = 1

(例) 標本平均の場合

標本統計量:

標本統計量の実現値:

母数と標本統計量

次の表記を用いる。

母集団

(母数)

標本

(標本統計量の 実現値)

平均

X

標準偏差

Y !

相関係数

d 0

推測統計学の基礎

標本

(

人)

母集団

( C

人)

C

k

通りの 選び方がある

1 0 0

0 1 0

0 0 1

0 0 0

0 1 0

1 1 0

+ = 0.333

+ = 0.167

+ = 0.5

標本平均は確率変数である

当たりを

+ = 1 , はずれを + = 0

とする。

標本平均を + = 1 + とする。

記述統計量と標本統計量の違い

記述統計量

得られたデータそのものの分布の特徴を要約するための統計量 個々のデータが確率的にばらつくものだとは考えていない

標本統計量

得られたデータは、母集団から得られたサンプルである。

個々のデータは確率的にばらつくものだと仮定しており、

統計量もそれに従ってばらつく

母集団についての推測を行うための統計量

標本平均の分布

8 = 0.2

の場合

標本サイズ が大きくなるにつれて、真の

8

に収束していく。

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

0 0.2 0.4 0.6 0.8 1

0 0.005 0.01 0.015 0.02 0.025 0.03 0.035

0 0.2 0.4 0.6 0.8 1

0 0.02 0.04 0.06 0.08 0.1 0.12

0 0.2 0.4 0.6 0.8 1

+ + +

= 10 = 100 = 1000

標本平均の分散の標本サイズ依存性

8 = 0.2

の場合

標本平均の分散は

1/

に比例して小さくなる。

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

? +

1/

傾き 8(1 − 8)

大数の法則

標本平均に関する性質

確率変数

+ , + , … , +

が独立に同一の分布に従うとする

>[+] = X

とする

大数の法則

を大きくしていくと、標本平均は確率

1

X

に収束する

標本のサイズを大きくしていくと、

標本平均は母集団における平均値に必ず一致する。

中心極限定理

標本統計量の分布そのものの特徴に関する重要な定理

確率変数

+ , + , … , +

が独立に同一の分布に従うとする

>[+] = X , ?[+] = Y

とする。

中心極限定理

を大きくすると、

∑ +

は平均

X ,

分散

Y /

の 正規分布に従う。

→ 標本平均が従う確率分布は、標本サイズが大きいとき

正規分布で近似でき、その平均は母集団の平均と一致

中心極限定理

標本

(

人) 母集団

( C

人)

当たった人の人数

i = ∑ +

<

平均

C8 , 分散 C8(1 − 8)

の二項分布に従う 真実

当たった人の割合

+ =

<

∑ +

<

平均

8,

分散

8(1 − 8)/C

正規分布に従う

中心極限定理 (C → ∞)

観測事実

+ = 1 +

中心極限定理より

標本平均

+

は が大きいとき、

平均8, 分散8(1 − 8)/ 正規分布に従う

不偏推定量

標本統計量の期待値が母数に一致するとき、

その標本統計量を不偏推定量と呼ぶ。

標本平均は、母集団の平均の不偏推定量である。

次のように定義される標本分散は、

母集団の分散の不偏推定量である。

! + , … , + = 1

− 1 + − +

不偏分散

標本サイズ の代わりに自由度

− 1

で割った分散を 不偏分散とよぶ。

記述統計においても不偏分散を用いる場合がある。

∑ − > + = 0なので,分散を計算するときに使っている

「自由な」情報は − 1個である。したがって, − 1で割る。

より詳しい説明については,以下を参照のこと

統計的方法のしくみ―正しく理解するための30の急所 ,

永田 靖 (著),日科技連出版社

まとめ

記述統計学

与えられたデータそのものの統計的性質の把握を 目標とする。

推測統計学

与えられたデータ(標本:観測事実)の背後にある 母集団(真実)の統計的性質を、

標本の統計的性質から推測する。

その際に用いる数学的ツールは確率論である。

推測統計学の基本である「推定」と「検定」については

2日目以降の講義で扱う。

関連したドキュメント