• 検索結果がありません。

最適化理論 確率・統計の復習

N/A
N/A
Protected

Academic year: 2021

シェア "最適化理論 確率・統計の復習"

Copied!
38
0
0

読み込み中.... (全文を見る)

全文

(1)

最適化理論 確率・統計の復習

http://www.cs.miyazaki-u.ac.jp/~date/lectures/optimization/

伊達 章

宮崎大学 工学部 情報システム工学科

2020

6

23

(2)

基本知識(確率・統計の復習)

平均

µ

,分散

σ 2

,標準偏差

σ

確率分布: 一様分布,正規分布

擬似乱数の生成

最尤推定

同時確率,条件付き確率

マルコフ的情報源

ベイズの公式,事前確率・事後確率

事後確率最大化

動的計画法

(3)

基本知識(確率・統計の復習)

平均

µ

,分散

σ 2

,標準偏差

σ

確率分布: 一様分布,正規分布

擬似乱数の生成

最尤推定

同時確率,条件付き確率

マルコフ的情報源

ベイズの公式,事前確率・事後確率

事後確率最大化

動的計画法

(4)

確率:基本中の基本(全部をたすと

1

確率変数が離散値の場合

0 ≦ p(x i ) ≦ 1

n i=1

p(x i ) = 1

確率変数が連続値の場合

p(x)

は確率密度関数

0 ≦ ∫ p(x i ) <

−∞

p(x)dx = 1

b a

p(x)dx =

確率

(5)

平均,分散

平均

µ

,期待値

E[x]

µ = E[x] =

n i=1

x i p(x i ),

−∞

xp(x)dx

平均は分かった.例: 数学のテストの平均

70

その周りにどの程度ばらついているかも知りたい!

分散

σ 2

,標準偏差

σ

【一つの指標】

σ 2 = E[(x µ) 2 ]

(6)

平均,分散

平均

µ

,期待値

E[x]

µ = E[x] =

n i=1

x i p(x i ),

−∞

xp(x)dx

平均は分かった.例: 数学のテストの平均

70

その周りにどの程度ばらついているかも知りたい!

分散

σ 2

,標準偏差

σ

【一つの指標】

σ 2 = E[(x µ) 2 ]

(7)

平均,分散

平均

µ

,期待値

E[x]

µ = E[x] =

n i=1

x i p(x i ),

−∞

xp(x)dx

平均は分かった.例: 数学のテストの平均

70

その周りにどの程度ばらついているかも知りたい!

分散

σ 2

,標準偏差

σ

【一つの指標】

σ 2 = E[(x µ) 2 ]

(8)

共分散(

covariance

N {

人の数学と英語の点数

x 1 , x 2 , · · · , x N

y 1 , y 2 , · · · , y N

数学と英語の点数に,どんな関係があるか

共分散

σ XY = E[(x µ x )(y µ y )]

分散・共分散行列

V =

( σ

X2

σ

XY

σ

XY

σ

Y2

)

(1)

=

 

 

 1 N

N i=1

(x

i

µ

x

)

2

1 N

N i=1

(x

i

µ

x

)(y

i

µ

y

) 1

N

N i=1

(x

i

µ

x

)(y

i

µ

y

) 1 N

N i=1

(y

i

µ

x

)

2

 

 

(9)

共分散(

covariance

N {

人の数学と英語の点数

x 1 , x 2 , · · · , x N

y 1 , y 2 , · · · , y N

数学と英語の点数に,どんな関係があるか

共分散

σ XY = E[(x µ x )(y µ y )]

分散・共分散行列

V =

( σ

X2

σ

XY

σ

XY

σ

Y2

)

(1)

=

 

 

 1 N

N i=1

(x

i

µ

x

)

2

1 N

N i=1

(x

i

µ

x

)(y

i

µ

y

) 1

N

N i=1

(x

i

µ

x

)(y

i

µ

y

) 1 N

N i=1

(y

i

µ

x

)

2

 

 

(10)

共分散(

covariance

N {

人の数学と英語の点数

x 1 , x 2 , · · · , x N

y 1 , y 2 , · · · , y N

数学と英語の点数に,どんな関係があるか

共分散

σ XY = E[(x µ x )(y µ y )]

分散・共分散行列

V =

( σ

X2

σ

XY

σ

XY

σ

Y2

)

(1)

=

 

 

 1 N

N i=1

(x

i

µ

x

)

2

1 N

N i=1

(x

i

µ

x

)(y

i

µ

y

) 1

N

N i=1

(x

i

µ

x

)(y

i

µ

y

) 1 N

N i=1

(y

i

µ

x

)

2

 

 

(11)
(12)

正規分布,ガウス分布

0.5

-3 -2 -1 0 1 2 3

x p(x)

σ

x 1 , x 2 , · · · .x 100

を平均

µ,

分散

σ 2

の互いに独立 なガウス分布に従う確率変数とする」

(13)

正規分布,ガウス分布

N (µ, σ 2 )

0.5

-3 -2 -1 0 1 2 3

x p(x)

σ

p(x; θ, σ 2 ) = 1

2πσ 2 e

(xµ)22

, p(x; 0, 1) = 1

2π e

x

2 2

−∞

p(x)dx = 1

(14)

正規分布,ガウス分布

0.5

-3 -2 -1 0 1 2 3

x p(x)

σ

p(x; 0, 1) = 1

2π e

x

2 2

x i , i = 1, · · · , 1000

のうち約

68.26%

1 < x i < 1

に含まれている.その根拠:

∫ 1

1

p(x)dx = 0.6826

(15)

正規分布,ガウス分布

0.5

-3 -2 -1 0 1 2 3

x p(x)

σ

∫ 2

2

p(x)dx = 0.9544,

∫ 3

3

p(x)dx = 0.9974

(16)
(17)

基本知識(確率・統計の復習)

平均

µ

,分散

σ 2

,標準偏差

σ

確率分布: 一様分布,正規分布

擬似乱数の生成

最尤推定

同時確率,条件付き確率

マルコフ的情報源

ベイズの公式,事前確率・事後確率

事後確率最大化

動的計画法

(18)

ss002.py

1 i m p o r t r a n d o m 2

3 T = 200;

4 S i g m a = 0.7

5 r a n d o m . seed ( 2 0 1 3 1 1 0 7 ) 6

7 for i in r a n g e ( T ) :

8 p r i n t r a n d o m . g a u s s (0 , S i g m a )

平均

µ = 0,

標準偏差

σ = 0.7

の正規分布にし たがうデータを

200

個生成

正規分布(=

Gauss

分布)とは?

(19)

擬似乱数

おなじない:

import random

という行が必要

一様分布

for i in range(100):

print random.randint (2,9)

# 2

から

9

までの整数が等確率で出力される

正規分布(ガウス分布)

for i in range(100):

print random.gauss(72.0, 5.0)

#

平均 μ

=72,

標準偏差σ

=5

の正規分布にしたがう データが出力される.

標準偏差

σ

の意味?!

random.seed(20131107)

とは?

(20)

擬似乱数

おなじない:

import random

という行が必要

一様分布

for i in range(100):

print random.randint (2,9)

# 2

から

9

までの整数が等確率で出力される

正規分布(ガウス分布)

for i in range(100):

print random.gauss(72.0, 5.0)

#

平均 μ

=72,

標準偏差σ

=5

の正規分布にしたがう データが出力される.

標準偏差

σ

の意味?!

random.seed(20131107)

とは?

(21)

擬似乱数

おなじない:

import random

という行が必要

一様分布

for i in range(100):

print random.randint (2,9)

# 2

から

9

までの整数が等確率で出力される

正規分布(ガウス分布)

for i in range(100):

print random.gauss(72.0, 5.0)

#

平均 μ

=72,

標準偏差σ

=5

の正規分布にしたがう データが出力される.

標準偏差

σ

の意味?!

random.seed(20131107)

とは?

(22)

正規分布(ガウス分布)

ss105.py

−4 −2 0 2 4

0 50 100 150 200 250 300 350 400 450

N (µ, σ 2 ) = N (0, 1)

にしたがう

1

万のデータ

[ 1 : 1]

にあるデータは何

%

[ 3 : 3]

は?

(23)

擬似乱数

真の乱数は人工的には作れない.

コンピュータは,どう乱数を作っているか

次の数列を考えよう.

線形合同法(

Linear congruential generators, LCGs

X

n+1

= (3X

n

+ 7) mod 20, X

0

= 5

5, 2, 13, 6, · · ·

(乱数ぽい)

5, 2, 13, 6, 5, 2, 13, 6, 5 · · ·

(周期

5)

X

n+1

= 48271 X

n

mod (2

31

1)

Park, S.K. & Miller, K.W. Random numbergenerators: Good ones

are hard to find. Communications of the ACM 31, 1192-1201

(1988).

(24)

擬似乱数

真の乱数は人工的には作れない.

コンピュータは,どう乱数を作っているか

次の数列を考えよう.

線形合同法(

Linear congruential generators, LCGs

X

n+1

= (3X

n

+ 7) mod 20, X

0

= 5

5, 2, 13, 6, · · ·

(乱数ぽい)

5, 2, 13, 6, 5, 2, 13, 6, 5 · · ·

(周期

5)

X

n+1

= 48271 X

n

mod (2

31

1)

Park, S.K. & Miller, K.W. Random numbergenerators: Good ones

are hard to find. Communications of the ACM 31, 1192-1201

(1988).

(25)

擬似乱数:乱数の種とは

random.seed(20131107)

とは?

X

n+1

= 48271 X

n

mod (2

31

1), X

0

X

0 のこと

式と種

(seed)

から乱数系列を再現できる.

(26)
(27)

最尤推定

確率分布の形を仮定:

x p(x; θ)

目的:パラメータ

θ

の値を知りたい!

例:

p(x; µ, σ) = 1

2πσ

2

e

(xµ)22

与えられているデータ:

x = (x

1

, x

2

, · · · , x

N

)

アイデア: データ

x

を固定して

l(θ) = f(x, θ) =

N

i=1

p(x

i

; θ)

を最大にする

θ

の値を真の

θ

の推定値にしよう!

θ ˆ = argmax

θ

l(θ)

(28)

対数尤度

アイデア: データ

x

を固定して

l(θ) = f(x, θ) =

N

i=1

p(x

i

; θ)

を最大にする

θ

の値を真の

θ

の推定値にしよう!

θ ˆ = argmax

θ

l(θ)

対数関数は単調増加関数.

L(θ) = log l(θ)

として

θ ˆ = argmax

θ

L(θ)

を求めても同じ.

用語: 対数尤度

L(θ)

,最尤推定量

θ ˆ

(29)

問題:最尤推定

***

n

個のデータ

x 1 , x 2 , · · · , x n

を観測した.

・このデータは,互いに独立であると仮定する.

・正規分布

N (µ, 1)

から生成されたと仮定する.

x i ∼ N (µ, 1), i = 1, · · · , n

・このとき,

µ

の最尤推定量

µ ˆ

を求めよ.

(30)

最尤推定:正規分布

θ ˆ = argmax

θ

L(θ) (2)

L(θ) = log

N i=1

p(x

i

; θ) =

N i=1

log p(x

i

; θ) (3)

L(µ, σ

2

) =

N i=1

log p(x

i

; µ, σ

2

) =

N i=1

log( 1

2πσ

2

e

(xi−µ)22

)

=

N i=1

{

1

2 log(2πσ

2

) (x

i

µ)

2

2

}

(4)

= N

2 log(2πσ

2

)

N i=1

(x

i

µ)

2

2

∂µ L =

N i=1

1

2

2(x

i

µ)( 1) =

N i=1

x

i

µ

σ

2

= 0 (5) ˆ

µ = 1 N

N

x

i

(6)

30 / 38

(31)

最尤推定:正規分布

L(µ, σ

2

) = N

2 log(2πσ

2

)

N i=1

(x

i

µ)

2

2

(7)

= N

2 log(2π) N

2 log(σ

2

)

N i=1

(x

i

µ)

2

2

(8)

∂σ

2

L = N

2

N i=1

(x

i

µ)

2

2

∂σ

2

1

σ

2

(9)

= N

2

N i=1

(x

i

µ)

2

2 ( 1) 1

σ

4

(10)

= N

2

+

N i=1

(x

i

µ)

2

2

1

σ

4

= 0 (11)

ˆ

σ

2

= 1 N

N i=1

(x

i

µ)

2

(12)

(32)

問題:最尤推定

***

n

個のデータ

x 1 , x 2 , · · · , x n

を観測した.

・このデータは,互いに独立であると仮定する.

・指数分布

p(x; λ) = 1 λ e

xλ

から生成されたと仮定する(

x ≧ 0

).

・このとき,

µ

の最尤推定量

µ ˆ

を求めよ.

(33)

最尤推定:指数分布

θ ˆ = argmax

θ

L(θ) (13)

L(θ) = log

N i=1

p(x

i

; θ) =

N i=1

log p(x

i

; θ) (14)

L(λ) =

N i=1

log p(x

i

; λ) =

N i=1

log( 1 λ e

xλ

)

=

N i=1

{ log λ x

i

λ

}

= N log λ

N i=1

x

i

λ (15)

∂λ L = N λ +

N i=1

x

i

λ

2

= 0 (16)

λ ˆ = 1 N

N i=1

x

i

(17)

(34)

Fisher

情報量

Fisher

情報量

I(θ) = E [( d

log p(x; θ) )

2

]

=

p(x; θ) ( d

log p(x; θ) )

2

dx

Cramer-Rao

の不等式(推定精度の限界)

E[(ˆ θ θ)

2

] ≧ 1 N I(θ)

右辺は,モデルとデータ数

N

だけに依存

(35)

Fisher

情報量

平均

µ

,分散

1

の正規分布の場合

log p(x; µ) = 1

2 log(2π) (x µ)

2

2 (18)

Fisher

情報量

I(µ) = E [( d

log p(x; µ) )

2

]

=

p(x; µ)(x µ)

2

dx = σ

2

= 1

Cramer-Rao

の不等式(推定精度の限界)

E[(ˆ µ µ)

2

] ≧ 1 N

右辺は,モデル

p(x; µ)

とデータ数

N

だけに依存 平均値の推定がどのくらいの精度でできるか

1N

< µ ˆ µ <

1

N

(36)
(37)

本日の課題

2020年6月23 最適化理論

学籍番号:671 0 0

名前: 得点:

小テスト 【正規分布,最尤推定】

1.平均µ,分散σ2の正規分布の確率密度関数p(x;µ, σ2)を記述せよ.

2.n個のデータx1, x2,· · ·, xnが観測されている.このデータの平均mと分散s2を求めよ.s2を表現

する際に文字mを使ってよい.

m= s2=

3.平均µ,分散σ2の正規分布から独立に生成された1000個のデータx1, x2,· · ·が観測されている.そ のうち値がµ−σ < xi< µ+σの範囲.およびµ−3σ < xi< µ+ 3σの範囲にあるデータのおおよ その割合(%)を求めよ(i= 1,· · ·,1000).

µ−σ < xi< µ+σ: µ−3σ < xi< µ+ 3σ:

4.x1, x2,· · ·, xnを平均µ,分散σ2の正規分布から独立に生成されたデータとする.尤度L(µ, σ2) 求めよ.

L(µ, σ2) =

5. 4.の対数尤度を求めよ.

logL(µ, σ2) =

6.N人の学生について数学の点数x1, x2,· · ·xNと英語の点数y1, y2,· · ·yNのデータがある(xi, yiはi 番目の人の得点).このデータについて,数学と英語に関する分散・共分散行列Vを求めよ.数学と 英語の得点の平均はそれぞれmx, myとしてよい.

プリント(小テスト)

1 ダウンロード

2 印刷

3 手で解く(手書き)

4 スキャン(撮影)

5

pdf

6

WebClass

で提出

(締切:6/25

18:00)

使用できそうなツール

スマートフォン

検索:「数学者でもわかるスマホスキャナの使い方」

セブン

-

イレブン

(38)

参照

関連したドキュメント

First, we verify some conditions in Theorem 7.15 to prove the sublinearity of the corrector. In fact, in this case both sides Gaussian heat kernel bounds which are similar to the

We prove that pointwise algebraic weak factorization systems on diagram categories are cofibrantly generated if the original ones are, and we give an algebraic generalization of

We are going to use similar ideas to prove a version of Talagrand’s convex distance inequality based on Theorem 3.1 and, hence, applicable to dependent random variables satisfying

It is not hard to show that if we turn the lattice reflected bridge path for a uniformly chosen acyclic random mapping into a continuous time process indexed by [0, 1] as above,

Didimo, Eades and Liotta [7], who showed that any n-vertex graph which admits a RAC- drawing can have at most 4n−10 edges, used the augmented triangular antiprism graph, as an

VRP is an NP-hard problem [7]; heuristics and evolu- tionary algorithms are used to solve VRP. In this paper, mutation ant colony algorithm is used to solve MRVRP with

The previous theorem seems to suggest that the events are postively correlated in dense graphs.... Random Orientation on

In Section 2 we recall some known works on the geometry of moduli spaces which include the degeneration of Riemann surfaces and hyperbolic metrics, the Ricci, perturbed Ricci and