最適化理論 確率・統計の復習
http://www.cs.miyazaki-u.ac.jp/~date/lectures/optimization/
伊達 章
宮崎大学 工学部 情報システム工学科
2020
年6
月23
日基本知識(確率・統計の復習)
•
平均µ
,分散σ 2
,標準偏差σ
•
確率分布: 一様分布,正規分布•
擬似乱数の生成•
最尤推定•
同時確率,条件付き確率•
マルコフ的情報源•
ベイズの公式,事前確率・事後確率•
事後確率最大化•
動的計画法基本知識(確率・統計の復習)
•
平均µ
,分散σ 2
,標準偏差σ
•
確率分布: 一様分布,正規分布•
擬似乱数の生成•
最尤推定•
同時確率,条件付き確率•
マルコフ的情報源•
ベイズの公式,事前確率・事後確率•
事後確率最大化•
動的計画法確率:基本中の基本(全部をたすと
1
)•
確率変数が離散値の場合0 ≦ p(x i ) ≦ 1
∑ n i=1
p(x i ) = 1
•
確率変数が連続値の場合p(x)
は確率密度関数0 ≦ ∫ p(x ∞ i ) < ∞
−∞
p(x)dx = 1
∫ b a
p(x)dx =
確率平均,分散
•
平均µ
,期待値E[x]
µ = E[x] =
∑ n i=1
x i p(x i ),
∫ ∞
−∞
xp(x)dx
平均は分かった.例: 数学のテストの平均
70
点 その周りにどの程度ばらついているかも知りたい!•
分散σ 2
,標準偏差σ
: 【一つの指標】σ 2 = E[(x − µ) 2 ]
平均,分散
•
平均µ
,期待値E[x]
µ = E[x] =
∑ n i=1
x i p(x i ),
∫ ∞
−∞
xp(x)dx
平均は分かった.例: 数学のテストの平均
70
点 その周りにどの程度ばらついているかも知りたい!•
分散σ 2
,標準偏差σ
: 【一つの指標】σ 2 = E[(x − µ) 2 ]
平均,分散
•
平均µ
,期待値E[x]
µ = E[x] =
∑ n i=1
x i p(x i ),
∫ ∞
−∞
xp(x)dx
平均は分かった.例: 数学のテストの平均
70
点 その周りにどの程度ばらついているかも知りたい!•
分散σ 2
,標準偏差σ
: 【一つの指標】σ 2 = E[(x − µ) 2 ]
共分散(
covariance
)• N {
人の数学と英語の点数x 1 , x 2 , · · · , x N
y 1 , y 2 , · · · , y N
数学と英語の点数に,どんな関係があるか
•
共分散σ XY = E[(x − µ x )(y − µ y )]
•
分散・共分散行列V =
( σ
X2σ
XYσ
XYσ
Y2)
(1)
=
1 N
∑
N i=1(x
i− µ
x)
21 N
∑
N i=1(x
i− µ
x)(y
i− µ
y) 1
N
∑
N i=1(x
i− µ
x)(y
i− µ
y) 1 N
∑
N i=1(y
i− µ
x)
2
共分散(
covariance
)• N {
人の数学と英語の点数x 1 , x 2 , · · · , x N
y 1 , y 2 , · · · , y N
数学と英語の点数に,どんな関係があるか
•
共分散σ XY = E[(x − µ x )(y − µ y )]
•
分散・共分散行列V =
( σ
X2σ
XYσ
XYσ
Y2)
(1)
=
1 N
∑
N i=1(x
i− µ
x)
21 N
∑
N i=1(x
i− µ
x)(y
i− µ
y) 1
N
∑
N i=1(x
i− µ
x)(y
i− µ
y) 1 N
∑
N i=1(y
i− µ
x)
2
共分散(
covariance
)• N {
人の数学と英語の点数x 1 , x 2 , · · · , x N
y 1 , y 2 , · · · , y N
数学と英語の点数に,どんな関係があるか
•
共分散σ XY = E[(x − µ x )(y − µ y )]
•
分散・共分散行列V =
( σ
X2σ
XYσ
XYσ
Y2)
(1)
=
1 N
∑
N i=1(x
i− µ
x)
21 N
∑
N i=1(x
i− µ
x)(y
i− µ
y) 1
N
∑
N i=1(x
i− µ
x)(y
i− µ
y) 1 N
∑
N i=1(y
i− µ
x)
2
正規分布,ガウス分布
0.5
-3 -2 -1 0 1 2 3
x p(x)
σ
「
x 1 , x 2 , · · · .x 100
を平均µ,
分散σ 2
の互いに独立 なガウス分布に従う確率変数とする」正規分布,ガウス分布
N (µ, σ 2 )
0.5
-3 -2 -1 0 1 2 3
x p(x)
σ
p(x; θ, σ 2 ) = 1
√ 2πσ 2 e −
(x2σ−µ)22, p(x; 0, 1) = 1
√ 2π e −
x2 2
∫ ∞
−∞
p(x)dx = 1
正規分布,ガウス分布
0.5
-3 -2 -1 0 1 2 3
x p(x)
σ
p(x; 0, 1) = 1
√ 2π e −
x2 2
x i , i = 1, · · · , 1000
のうち約68.26%
が− 1 < x i < 1
に含まれている.その根拠:∫ 1
− 1
p(x)dx = 0.6826
正規分布,ガウス分布
0.5
-3 -2 -1 0 1 2 3
x p(x)
σ
∫ 2
− 2
p(x)dx = 0.9544,
∫ 3
− 3
p(x)dx = 0.9974
基本知識(確率・統計の復習)
•
平均µ
,分散σ 2
,標準偏差σ
•
確率分布: 一様分布,正規分布•
擬似乱数の生成•
最尤推定•
同時確率,条件付き確率•
マルコフ的情報源•
ベイズの公式,事前確率・事後確率•
事後確率最大化•
動的計画法ss002.py
1 i m p o r t r a n d o m 2
3 T = 200;
4 S i g m a = 0.7
5 r a n d o m . seed ( 2 0 1 3 1 1 0 7 ) 6
7 for i in r a n g e ( T ) :
8 p r i n t r a n d o m . g a u s s (0 , S i g m a )
•
平均µ = 0,
標準偏差σ = 0.7
の正規分布にし たがうデータを200
個生成•
正規分布(=Gauss
分布)とは?擬似乱数
•
おなじない:import random
という行が必要•
一様分布for i in range(100):
print random.randint (2,9)
# 2
から9
までの整数が等確率で出力される•
正規分布(ガウス分布)for i in range(100):
print random.gauss(72.0, 5.0)
#
平均 μ=72,
標準偏差σ=5
の正規分布にしたがう データが出力される.•
標準偏差σ
の意味?!• random.seed(20131107)
とは?擬似乱数
•
おなじない:import random
という行が必要•
一様分布for i in range(100):
print random.randint (2,9)
# 2
から9
までの整数が等確率で出力される•
正規分布(ガウス分布)for i in range(100):
print random.gauss(72.0, 5.0)
#
平均 μ=72,
標準偏差σ=5
の正規分布にしたがう データが出力される.•
標準偏差σ
の意味?!• random.seed(20131107)
とは?擬似乱数
•
おなじない:import random
という行が必要•
一様分布for i in range(100):
print random.randint (2,9)
# 2
から9
までの整数が等確率で出力される•
正規分布(ガウス分布)for i in range(100):
print random.gauss(72.0, 5.0)
#
平均 μ=72,
標準偏差σ=5
の正規分布にしたがう データが出力される.•
標準偏差σ
の意味?!• random.seed(20131107)
とは?正規分布(ガウス分布)
ss105.py
−4 −2 0 2 4
0 50 100 150 200 250 300 350 400 450
• N (µ, σ 2 ) = N (0, 1)
にしたがう1
万のデータ• [ − 1 : 1]
にあるデータは何%
?[ − 3 : 3]
は?擬似乱数
•
真の乱数は人工的には作れない.コンピュータは,どう乱数を作っているか
•
次の数列を考えよう.線形合同法(
Linear congruential generators, LCGs
)X
n+1= (3X
n+ 7) mod 20, X
0= 5
• 5, 2, 13, 6, · · ·
(乱数ぽい)• 5, 2, 13, 6, 5, 2, 13, 6, 5 · · ·
(周期5)
• X
n+1= 48271 X
nmod (2
31− 1)
Park, S.K. & Miller, K.W. Random numbergenerators: Good ones
are hard to find. Communications of the ACM 31, 1192-1201
(1988).
擬似乱数
•
真の乱数は人工的には作れない.コンピュータは,どう乱数を作っているか
•
次の数列を考えよう.線形合同法(
Linear congruential generators, LCGs
)X
n+1= (3X
n+ 7) mod 20, X
0= 5
• 5, 2, 13, 6, · · ·
(乱数ぽい)• 5, 2, 13, 6, 5, 2, 13, 6, 5 · · ·
(周期5)
• X
n+1= 48271 X
nmod (2
31− 1)
Park, S.K. & Miller, K.W. Random numbergenerators: Good ones
are hard to find. Communications of the ACM 31, 1192-1201
(1988).
擬似乱数:乱数の種とは
• random.seed(20131107)
とは?X
n+1= 48271 X
nmod (2
31− 1), X
0X
0 のこと•
式と種(seed)
から乱数系列を再現できる.最尤推定
•
確率分布の形を仮定:x ∼ p(x; θ)
,•
目的:パラメータθ
の値を知りたい!例:
p(x; µ, σ) = 1
√ 2πσ
2e
−(x2σ−µ)22•
与えられているデータ:x = (x
1, x
2, · · · , x
N)
•
アイデア: データx
を固定してl(θ) = f(x, θ) =
∏
Ni=1
p(x
i; θ)
を最大にする
θ
の値を真のθ
の推定値にしよう!θ ˆ = argmax
θ
l(θ)
対数尤度
•
アイデア: データx
を固定してl(θ) = f(x, θ) =
∏
Ni=1
p(x
i; θ)
を最大にする
θ
の値を真のθ
の推定値にしよう!θ ˆ = argmax
θ
l(θ)
•
対数関数は単調増加関数.L(θ) = log l(θ)
としてθ ˆ = argmax
θ
L(θ)
を求めても同じ.•
用語: 対数尤度L(θ)
,最尤推定量θ ˆ
問題:最尤推定
***
・
n
個のデータx 1 , x 2 , · · · , x n
を観測した.・このデータは,互いに独立であると仮定する.
・正規分布
N (µ, 1)
から生成されたと仮定する.x i ∼ N (µ, 1), i = 1, · · · , n
・このとき,
µ
の最尤推定量µ ˆ
を求めよ.最尤推定:正規分布
θ ˆ = argmax
θ
L(θ) (2)
L(θ) = log
∏
N i=1p(x
i; θ) =
∑
N i=1log p(x
i; θ) (3)
L(µ, σ
2) =
∑
N i=1log p(x
i; µ, σ
2) =
∑
N i=1log( 1
√ 2πσ
2e
−(xi−µ)22σ2)
=
∑
N i=1{
− 1
2 log(2πσ
2) − (x
i− µ)
22σ
2}
(4)
= − N
2 log(2πσ
2) −
∑
N i=1(x
i− µ)
22σ
2∂
∂µ L = −
∑
N i=11
2σ
22(x
i− µ)( − 1) =
∑
N i=1x
i− µ
σ
2= 0 (5) ˆ
µ = 1 N
∑
Nx
i(6)
30 / 38
最尤推定:正規分布
L(µ, σ
2) = − N
2 log(2πσ
2) −
∑
N i=1(x
i− µ)
22σ
2(7)
= − N
2 log(2π) − N
2 log(σ
2) −
∑
N i=1(x
i− µ)
22σ
2(8)
∂
∂σ
2L = − N 2σ
2−
∑
N i=1(x
i− µ)
22
∂
∂σ
21
σ
2(9)
= − N 2σ
2−
∑
N i=1(x
i− µ)
22 ( − 1) 1
σ
4(10)
= − N 2σ
2+
∑
N i=1(x
i− µ)
22
1
σ
4= 0 (11)
ˆ
σ
2= 1 N
∑
N i=1(x
i− µ)
2(12)
問題:最尤推定
***
・
n
個のデータx 1 , x 2 , · · · , x n
を観測した.・このデータは,互いに独立であると仮定する.
・指数分布
p(x; λ) = 1 λ e −
xλから生成されたと仮定する(
x ≧ 0
).・このとき,
µ
の最尤推定量µ ˆ
を求めよ.最尤推定:指数分布
θ ˆ = argmax
θ
L(θ) (13)
L(θ) = log
∏
N i=1p(x
i; θ) =
∑
N i=1log p(x
i; θ) (14)
L(λ) =
∑
N i=1log p(x
i; λ) =
∑
N i=1log( 1 λ e
−xλ)
=
∑
N i=1{ − log λ − x
iλ
}
= − N log λ −
∑
N i=1x
iλ (15)
∂
∂λ L = − N λ +
∑
N i=1x
iλ
2= 0 (16)
λ ˆ = 1 N
∑
N i=1x
i(17)
Fisher
情報量• Fisher
情報量I(θ) = E [( d
dθ log p(x; θ) )
2]
=
∫
p(x; θ) ( d
dθ log p(x; θ) )
2dx
• Cramer-Rao
の不等式(推定精度の限界)E[(ˆ θ − θ)
2] ≧ 1 N I(θ)
右辺は,モデルとデータ数
N
だけに依存Fisher
情報量•
平均µ
,分散1
の正規分布の場合log p(x; µ) = − 1
2 log(2π) − (x − µ)
22 (18)
• Fisher
情報量I(µ) = E [( d
dµ log p(x; µ) )
2]
=
∫
p(x; µ)(x − µ)
2dx = σ
2= 1
• Cramer-Rao
の不等式(推定精度の限界)E[(ˆ µ − µ)
2] ≧ 1 N
右辺は,モデル
p(x; µ)
とデータ数N
だけに依存 平均値の推定がどのくらいの精度でできるか−
√1N< µ ˆ − µ <
√1N
本日の課題
2020年6月23日 最適化理論
学籍番号:671 0 0
名前: 得点:
小テスト 【正規分布,最尤推定】
1.平均µ,分散σ2の正規分布の確率密度関数p(x;µ, σ2)を記述せよ.
2.n個のデータx1, x2,· · ·, xnが観測されている.このデータの平均mと分散s2を求めよ.s2を表現
する際に文字mを使ってよい.
m= s2=
3.平均µ,分散σ2の正規分布から独立に生成された1000個のデータx1, x2,· · ·が観測されている.そ のうち値がµ−σ < xi< µ+σの範囲.およびµ−3σ < xi< µ+ 3σの範囲にあるデータのおおよ その割合(%)を求めよ(i= 1,· · ·,1000).
µ−σ < xi< µ+σ: µ−3σ < xi< µ+ 3σ:
4.x1, x2,· · ·, xnを平均µ,分散σ2の正規分布から独立に生成されたデータとする.尤度L(µ, σ2)を 求めよ.
L(µ, σ2) =
5. 4.の対数尤度を求めよ.
logL(µ, σ2) =
6.N人の学生について数学の点数x1, x2,· · ·xNと英語の点数y1, y2,· · ·yNのデータがある(xi, yiはi 番目の人の得点).このデータについて,数学と英語に関する分散・共分散行列Vを求めよ.数学と 英語の得点の平均はそれぞれmx, myとしてよい.
•
プリント(小テスト)1 ダウンロード
2 印刷
3 手で解く(手書き)
4 スキャン(撮影)
5
6
WebClass
で提出(締切:6/25木
18:00)
•
使用できそうなツール•
スマートフォン検索:「数学者でもわかるスマホスキャナの使い方」
•
セブン-
イレブン終