ニューラル情報処理第 06 回
分類問題とベイズ決定理論
竹内一郎
名古屋工業大学
前回の課題の解答
Ichiro Takeuchi, Nagoya Institute of Technology 2/1
クラス分類 (= パターン認識 ) 問題とは
▶
特徴ベクトル
x∈Rdからクラスラベル
yを決定する
▶
例
1:文字認識
▶ x∈R16×16:
画素値
▶ y∈ {0,1, . . . ,9}:
文字コード
▶
例
2:遺伝子診断の例
▶ x∈R10000:
遺伝子発現量
▶ y∈ {
健康
,病気
}クラス分類問題の定式化
▶
誤った決定をすればコストが生じる
▶
郵便番号認識の失敗
→誤配達
▶
遺伝子診断の失敗
→副作用
,症状の悪化
▶
クラス分類問題はなぜ難しいのか?
▶
パターン
xにはバラツキがある
▶
パターンのバラツキを確率を使って表現する
▶
ベイズ決定理論
Ichiro Takeuchi, Nagoya Institute of Technology 4/1
例題 : 鮭と鱈を分類せよ
鮭 鱈
事象、確率、事前確率
▶
鮭
,鱈を観測する事象をそれぞれ
ω1,ω2とする
▶
事前確率
▶ P(ω1) = 0.4:
鮭が穫れる確率が
40%▶ P(ω2) = 0.6:
鱈が穫れる確率が
60%P(ω1), P(ω2)
などを事前確率
(prior probability)という
▶
あとで
,事後確率
(poteroir probability)と呼ばれるもの
も出てくる
Ichiro Takeuchi, Nagoya Institute of Technology 6/1
魚を見ないで認識したら
▶ P(ω1) = 0.4, P(ω2) = 0.6
▶
どのような決定規則が最適か?
▶
誤分類率
= (誤分類数
)/(すべての分類した数
)▶
誤分類率が最小になる決定規則
ω={ ω1 if P(ω1)> P(ω2) ω2 if P(ω1)< P(ω2)
▶
誤分類率
= 0.4特徴量とクラス条件付確率
▶
事前確率のみを用いて分類するのは現実的でない
▶
特徴量
x (長さ
,色
,眼の位置
,ヒレの位置
, etc)▶
特徴量
xにはバラツキがある
:▶
特徴量
xの確率分布
p(x)を考える
▶
特徴量の確率分布が鮭と鱈で異なっている
Ichiro Takeuchi, Nagoya Institute of Technology 8/1
確率の復習
▶
確率の復習
▶
確率
P(ω1),P(ω2),p(x)▶
同時確率
P(ω1,x),P(ω2,x)▶
条件付確率
P(ω1|x),P(ω2|x),P(x|ω1),P(x|ω2)▶
同時確率と条件付確率の関係
P(ω1,x) =P(ω1|x)p(x) =P(x|ω1)P(ω1) P(ω2,x) =P(ω2|x)p(x) =P(x|ω2)P(ω2)
▶
例題に戻って
▶
鮭の特徴量の分布
p(x|ω1)▶
鱈の特徴量の分布
p(x|ω2)事後確率とベイズの公式
▶
事後確率
P(ω1|x),P(ω2|x)▶
事前確率を用いたクラス分類
ω={ ω1 if P(ω1)> P(ω2) ω2 if P(ω1)< P(ω2)
▶
事後確率を用いたクラス分類
ω={ ω1 if P(ω1|x)> P(ω2|x) ω2 if P(ω1|x)< P(ω2|x)
▶
ベイズの公式
P(ωj|x) = p(x|ωj)P(ωj)
p(x) , j = 1,2
Ichiro Takeuchi, Nagoya Institute of Technology 10/1
練習問題
▶
ベイズの公式を導出せよ
ベイズの公式の意味
▶
ベイズの公式
P(ωj|x) = p(x|ωj)P(ωj)
p(x) , j = 1,2
▶
事前確率
P(ωj)から事後確率
P(ωj|x)を求める方法
▶
特徴量
xを観察する前後で鮭と鱈の確率がどのように 変わるか?
▶
ベイズ決定規則
ω={ ω1 if P(ω1|x)> P(ω2|x) ω2 if P(ω1|x)< P(ω2|x)
▶
誤分類率
P(error|x) ={ P(ω1|x) if we decide ω=ω2 P(ω2|x) if we decide ω=ω1
▶
ベイズ決定規則は誤分類率を最小にする
Ichiro Takeuchi, Nagoya Institute of Technology 12/1
ベイズ決定規則による分類
▶
ベイズ決定規則により分類を行うだけなら
,特徴量の確 率
P(X)を知る必要はない
P(ω1|x)> P(ω2|x)
⇐⇒ p(x|ω1)P(ω1)
p(x) > p(x|ω2)P(ω2) p(x)
⇐⇒ p(x|ω1)P(ω1)> p(x|ω2)P(ω2)
▶
ベイズ決定規則の誤分類率は以下のように計算される
∫
x
P(x) min{P(ω1|xk), P(ω2|xk)}dx
▶
特徴量が離散値
x1, x2, . . . , xKをとる場合
,∑K
k=1
P(xk) min{P(ω1|xk), P(ω2|xk)}
最終課題 ( その 1)
▶
鮭と鱈である事象をそれぞれ
ω1,ω2とし、それぞれの 事前確率が
P(ω1) = 0.4, P(ω2) = 0.6
であるとする. また, それぞれのクラス条件付き確率は 以下のように与えられているとする
0 0.1 0.2 0.3 0.4 0.5 0.6
20 25 30 35 40 45
Frequency
Length Salmon
0 0.1 0.2 0.3 0.4 0.5 0.6
20 25 30 35 40 45
Frequency
Length Tilesius
Ichiro Takeuchi, Nagoya Institute of Technology 14/1
最終課題 ( その 2)
1.
この問題に事前確率のみを用いた分類を行ったときの 誤分類率を求めよ
.2. x= 20,25,30,35,40,45
それぞれにおいて
,ベイズ識別 規則を用いると鮭と鱈どちらに分類されるか答えよ.
3. x= 20,25,30,35,40,45
それぞれに対する事後確率
P(ω1|x), P(ω2|x)を求めよ
.4.