- NOP - NQR - 1 日目の内容午前記述統計 1. データの表現図表によるデータの可視化 2. データ分布の特徴づけ代表値 : 平均, 中央値, 最頻値散布度 : 分散,

-

_NOP

-

_NQR

ST：

+

のとりうる最小値

UV：

+

のとりうる最大値

連続型一様分布

8 = W 1

B − A A ≤ ≤ B

のとき

0

それ以外のとき

0 0.02 0.04 0.06 0.08 0.1

-5 0 5 10 15

A = 0, B = 10

の一様分布

8

平均値

分散

正規分布

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14

0 20 40 60 80 100

8 X = 30, Y = 5

X = 40, Y = 3

X = 50, Y = 10

平均値

分散

標準正規分布

平均0，分散1の正規分布を標準正規分布と呼ぶ。

正規分布に従う確率変数

+

を標準化すると，

それは標準正規分布に従う。

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

-6 -4 -2 0 2 4 6

8

平均値:

> + = 0

分散:

? + = 1

正規分布の性質

平均

(X) ±

標準偏差

Y

の範囲に約68%が収まる

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

-6 -4 -2 0 2 4 6

X X + Y X − Y

8 正規分布の性質

平均

(X) ± 2 ×

標準偏差

Y

の範囲に約95%が収まる

X X + 2Y X − 2Y

8

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

-6 -4 -2 0 2 4 6

シグマ区間

区間確率(%)

1Y 68.2689492137086

2Y 95.4499736103641

3Y 99.7300203936740

4Y 99.9936657516326

5Y 99.9999426696856

6Y 99.9999998026825

7Y 99.9999999997440

8Y 99.9999999999999

9Y 100.000000000000

同時確率分布と周辺確率分布

複数の確率変数に関する確率分布

+, ,

という2種類の確率変数の組の同時確率分布を

8( , /)

と表記する。

周辺確率分布

+

と

,

が互いに独立な場合には、

同時確率分布は

8( , /) = 8

8 (/)

となる。

特に

+, ,

が相関している場合を考える

8 = J

^.^NOP

K/ 8 , /

._NQR

8 / = J

^-^NOP

K 8 , /

-_NQR

共分散と相関

共分散

相関係数

[ \

「独立」と「無相関」

1. 8 +, , = 8

+ × 8

,

のとき、

+

と

,

は独立である。

このとき

> +, = > + × >[,]

2. COV +, , = 0

であるとき、

+

と

,

は無相関である。

独立であれば無相関。

> +, − > + > , = 0

なので

COV +, , = 0

無相関のとき独立であるとは限らない。

> +, , = 0

かつ

> + , > ,

の少なくともどちらか1つが0の場合、

+

と

,

は独立でなくても無相関となりうる。

無相関だが独立でない例

8(1,0) = 8(2,1) = 8(2, −1) = 1/3

それ以外の

8(+, ,)

は

0

の場合

周辺分布

8 (1) = 1/3, 8

(2) = 2/3

よって

>[+] = 5/3

8 (0) = 8

(1) = 8

(−1) = 1/3

よって

>[,] = 0

COV +, , = × (0 + 2 − 2) − × 0 = 0

なので無相関。

しかし

8 +, , ≠ 8

+ 8

(,)

なので独立ではない。

/

0 1 2

1 −1

2変量正規分布

, /

の二変量正規分布

周辺化分布はガウス分布となる

8 , / = 1

2cY

Y

1 − d × exp − 1

2 1 − d ( − X

)

Y

− 2d( − X

)(/ − X

)

Y

+ (/ − X

) Y

8 = J K/ 8 , /

= 1

2cY

exp − − X

-2Y

-8

/ = J K/ 8 , /

= 1

2cY

exp − − X

2Y

※

d

：相関係数

2変量正規分布の立体図

-4 -3 -2 -1 0 1 2 3 4 -4

-3-2-1 0 1 2 3 4 0

0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18

/ 8( , /)

X

= 0, Y

= 1, X

= 0, Y

= 1, d = 0.4

-3 -2 -1 0 1 2 3 -3

-2 -1 0 1 2 3

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16

2変量正規分布の等高線

-3 -2 -1 0 1 2 3

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18

-3 -2 -1 0 1 2 3

0 0.05 0.1 0.15 0.2 0.25 0.3

/ / /

d = 0 d = 0.4 d = 0.8

１日目の内容

【午後】確率と統計

4. 確率と統計の基礎

確率変数

確率関数と確率密度関数

確率変数の期待値・分散・共分散・相関係数

5. 推測統計学の基礎

母集団と標本

大数の法則と中心極限定理

母集団と標本

標本母集団

ランダム

サンプリング

推測統計学

標本データの性質

母集団の統計的性質を記述統計標本から推定する

推測統計学の基礎

当選確率は

8

です。母集団

C

人

(

くじ引きに参加した人

)

当たり + はずれ

8 1 − 8

当たった人の人数

i

は、二項分布に従う。

j j <Dj

平均

C8 ,

分散

C8(1 − 8)

本当？

推測統計学の基礎

母集団の全数調査が困難である場合に、

標本を用いて母集団の統計的性質を推測する。

母集団

C

人

当たった人の人数

i

は、二項分布に従う。

j j <Dj

平均

C8 , 分散 C8(1 − 8)

真実(直接観測できない)

標本

ランダム

サンプリング

推測統計学観測事実

母数と標本統計量

母数

母集団の平均・分散・相関係数など（本当に知りたい情報）

標本統計量

標本データの平均・分散・相関係数などを得る計算式のこと

特定の標本データを当てはめたものを標本統計量の実現値という

+ + , … , + = 1

+

= + , … , = 1

(例) 標本平均の場合

標本統計量：

標本統計量の実現値：

母数と標本統計量

次の表記を用いる。

母集団

(母数)

標本

(標本統計量の 実現値)

平均

X

標準偏差

Y !

相関係数

d 0

推測統計学の基礎

標本

(

人)

母集団

( C

人)

k

通りの選び方がある

1 0 0

…

0 1 0

0 0 1

0 0 0

0 1 0

1 1 0

+ = 0.333

+ = 0.167

+ = 0.5

標本平均は確率変数である

当たりを

+ = 1 , はずれを + = 0

とする。

標本平均を _{+ =} ¹ ₊ とする。

記述統計量と標本統計量の違い

記述統計量

得られたデータそのものの分布の特徴を要約するための統計量個々のデータが確率的にばらつくものだとは考えていない

標本統計量

得られたデータは、母集団から得られたサンプルである。

個々のデータは確率的にばらつくものだと仮定しており、

統計量もそれに従ってばらつく

母集団についての推測を行うための統計量

標本平均の分布

8 = 0.2

の場合

標本サイズが大きくなるにつれて、真の

8

に収束していく。

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

0 0.2 0.4 0.6 0.8 1

0 0.005 0.01 0.015 0.02 0.025 0.03 0.035

0 0.2 0.4 0.6 0.8 1

0 0.02 0.04 0.06 0.08 0.1 0.12

0 0.2 0.4 0.6 0.8 1

+ + +

= 10 = 100 = 1000

標本平均の分散の標本サイズ依存性

8 = 0.2

の場合

標本平均の分散は

1/

に比例して小さくなる。

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

? +

1/

傾き 8(1 − 8)

大数の法則

標本平均に関する性質

確率変数

+ , + , … , +

が独立に同一の分布に従うとする

>[+] = X

とする

大数の法則

を大きくしていくと、標本平均は確率

1

で

X

に収束する

→

標本のサイズを大きくしていくと、

標本平均は母集団における平均値に必ず一致する。

中心極限定理

標本統計量の分布そのものの特徴に関する重要な定理

確率変数

+ , + , … , +

が独立に同一の分布に従うとする

>[+] = X , ?[+] = Y

とする。

中心極限定理

を大きくすると、

∑ +

は平均

X ,

分散

Y /

の正規分布に従う。

→ 標本平均が従う確率分布は、標本サイズが大きいとき

正規分布で近似でき、その平均は母集団の平均と一致

中心極限定理

標本

(

人) 母集団

( C

人)

当たった人の人数

i = ∑ +

^< は

平均

C8 , 分散 C8(1 − 8)

の二項分布に従う真実

当たった人の割合

+ =

^{∑ +}

^< ^は

平均

8,

分散

8(1 − 8)/C

の正規分布に従う

中心極限定理 (C → ∞)

観測事実

+ = ¹ ⁺

中心極限定理より

標本平均

+

はが大きいとき、

平均8, 分散8(1 − 8)/ の正規分布に従う

不偏推定量

標本統計量の期待値が母数に一致するとき、

その標本統計量を不偏推定量と呼ぶ。

標本平均は、母集団の平均の不偏推定量である。

次のように定義される標本分散は、

母集団の分散の不偏推定量である。

! + , … , + = 1

− 1 + − +

不偏分散

標本サイズの代わりに自由度

− 1

で割った分散を不偏分散とよぶ。

※ 記述統計においても不偏分散を用いる場合がある。

∑ − > + = 0なので，分散を計算するときに使っている

「自由な」情報は − 1個である。したがって， − 1で割る。

より詳しい説明については，以下を参照のこと

統計的方法のしくみ―正しく理解するための30の急所，

永田靖 (著)，日科技連出版社

まとめ

記述統計学

与えられたデータそのものの統計的性質の把握を目標とする。

推測統計学

与えられたデータ(標本：観測事実)の背後にある母集団(真実)の統計的性質を、

標本の統計的性質から推測する。

その際に用いる数学的ツールは確率論である。

推測統計学の基本である「推定」と「検定」については

2日目以降の講義で扱う。

ドキュメント内 1 日目の内容午前記述統計 1. データの表現図表によるデータの可視化 2. データ分布の特徴づけ代表値 : 平均, 中央値, 最頻値散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較標準化基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 2 (ページ 121-151)