2ごさす年度前期 パターン認識
第ささ回 決定木
兼村厚範
決定木
デ 特徴空間を 再帰的 さ次元 閾値処理を 分割
デ 次元を 閾値 切 いう情報をノー し 持つ2分木 し 表
– 理論 用語:
デ ノー ン
デ 根 葉 終端 ターミ デ 親 子 祖先 子孫 パ デ 部分木
デ 汎化誤差 分散 大 い
2
記号
デ ータ
デ c パターン Nc 個あ
デ あ ノー j 番目 次元を閾値 θ 切 領 域 Rさ R2 分割
デ ノー 番号を付与 根 ご番 t 番
ノー 左右 子 番号を tL tR 書く
4
(xn, y1), n = 1, . . . , N xn ∈ RD, y
1 ∈ {ω1, . . . , ωC}
R1 = {x|xj ≥ θ}, R2 = {x|xj < θ}
確率
デ ノー t 割 当 パターン 数を Nがtき、 その かでクラス c 識別さ パターン数を
Ncがtき
デ ノー t c 事後確率
– 同時確率 – 周辺確率
p(Cj|t) = p(ωc, t) p(t) =
Nc(t) N(t) p(ωc, t) = p(ωc)p(t|ωc) = Nc
N
Nc(t) Nj =
Nc(t) N
p(t) =
XC
p(ωc, t) =
XC Nc(t)
N =
N(t) N
判別
デ ノー t 所属確率 最大 判別
– t 根 ータを見 特徴空間を分割 学習 ータ中 各 割合 けを見
ず
b
yn = arg max
c
p(ωc|t)
分割
デ あ ノー t 次元を 閾値 分割 を決め 基準:次 い 一番小 く さ. 誤 率 を選ぶ
2. エン ロ ー 3. 係数
1 − max
c
p(ωc|t)
−
XC c=1
p(ωc|t) log p(ωc|t) X
c6=c0
p(ωc|t)p(ωc0|t) =
XC c=1
p(ωc|t)(1 − p(ωc|t)) = 1 −
XC c=1
p2(ωc|t)
R 例示
。