物体検出・物体追跡技術の基礎と今後の動向
!
∼顔と人を中心に∼
オムロン株式会社
!
山下隆義
本日の内容
"#物体検出技術 !
"#" 特徴量について !
"#$ 識別器について !
"#% 検出対象に適した特徴量に関する実験!
$#物体追跡技術!
$#"物体追跡の流れ !
$#$勾配法に基づく追跡方法 !
$#%検出法に基づく追跡方法 !
$#&オンライン学習による追跡方法 !
%.まとめ
物体認識とは?
制約のない実世界シーンの画像に対して,計算機が
その中に含まれる物体を一般的な名称で認識すること
human computer book desk chair問題点
‒ 多くのカテゴリが存在
‒ 物体の位置が不明,見え方の違い,照明変動,オクルージョン,
スケール変化,変形
物体認識の細分化
human computer book desk chair 何の画像ですか? 人はどこですか? Object categorization Detection 一般物体認識 カテゴリ分類 特定物体認識 物体検出一般物体認識とは?
What is this? =カテゴリ分類
Bag-of-Keypoints
入力画像 入力画像 特徴抽出 特徴抽出 ベクトル量子化ヒストグラム ベクトル量子化ヒストグラムG. Csuka et al., Visual Categorization with Bags of Keypoints , ECCV2004 顔
バイク
特定物体認識とは?
Find all the
X
s =物体検出
特定の単一クラスの物体(顔、人、車など)を検出
物体認識(検出)について
'()*++,-./#,0121#3)+,04.50+6789+":; '()*++)010;216,#3)+9,+<7==+240>0;.?>65.6#'@4A物体検出は簡単か?
多様な変動要素が存在して難しい
カメラの角度
姿勢・向き・形状が多様
照明変動
オクルージョン
変動要素に対応する特徴量・学習手法がキー
物体検出実現するために
どんな情報を捉えれば
!
よい?
対象物体・以外をどのように
区別する?
特徴量
学習手法
色・エッジ! ピクセル・領域! ヒストグラム! 1つ・複数 2クラス! 多クラス物体検出実現するために
どんな情報を捉えれば
!
よい?
対象物体・以外をどのように
区別する?
どうやって高速化する?
!
どうやってメモリ使用量を削減する?
実装上必要なこと
特定物体認識の処理の流れ
画像中の部分領域が検出対象かどうかを比較
物体情報特徴量
学習手法
認識処理
画像サイズを 変えながら比 較 部分領域 比較特定物体認識を実現する要素
特徴量
学習手法
学習手法の発展とともに特徴量も発展
認識する物体の情報を抽出
特徴量を汎化性のあるモデルへ
多様な変化が生じても
共通な情報に変換
多様な変化が生じても
共通な情報を選択
Edge, Color, haar-like, HOG
Neural Network
Support Vector Machine AdaBoost
学習手法の進化からみた特徴量の発展
第一世代(1970年∼)
第二世代(2000年∼)
第三世代(2005年∼)
対象物体全体 輝度分布 wavelet Globalな特徴量 Global 対象物体の局所情報 Haar-like ピクセル差分 HOG EOH Low levelな特徴量 Local independent 局所領域の関連性 Joint Haar-like Joint HOG スパース特徴 Shapelet 共起確率特徴 dependent Middle levelな特徴量 ブースティング AdaBoost、Real AdaBoost ニューラルネットワーク 線形判別分析(LDA) サポートベクタマシン(SVM) テンプレート PCA人間の視覚
人の視覚 ‒物体を認識する流れ-
網膜
外側膝状体(LGN)
大脳皮質
網膜→外側膝状体→視覚野
視覚野
人の視覚 ‒物体を認識する流れ-
網膜
腹側皮質視覚路(What経路)
背側皮質視覚路
対象物を認識
位置や動きを認識
黒い車
人の視覚 ‒物体を認識する流れ-
網膜
腹側皮質視覚路
背側皮質視覚路(How/Where経路)
対象物を認識
位置・スケールや動きを認識
左へ走ってる
人の視覚 ‒視覚野の構成-
V1
V2
V4
PIT
CIT
AIT
TE野
TEO野
視覚野
腹側皮質視覚路
対象物を認識
低次視覚野
受容野:狭
高次視覚野
受容野:広
人の視覚 ‒視覚野の構成-
V1
V2
V4
PIT
CIT
AIT
TE野
TEO野
視覚野
腹側皮質視覚路
線分やコントラスト・色をとらえる
単純な局所特徴 受容範囲が狭い人の視覚 ‒視覚野の構成-
V1
V2
V4
PIT
CIT
AIT
TE野
TEO野
複雑な形状をとらえる
視覚野
腹側皮質視覚路
複合的な局所特徴 受容範囲が少し広い人の視覚 ‒視覚野の構成-
V1
V2
V4
PIT
CIT
AIT
TE野
TEO野
視覚野
腹側皮質視覚路
物体を認識する
サル
ヒト
受容範囲が広い人の視覚 ‒視覚野の構成-
V1
V2
V4
PIT
CIT
AIT
TE野
TEO野
単純な局所特徴
複合的な局所特徴
物体を認識
視覚野から見た特徴量
V1
V2
V4
PIT
CIT
AIT
TE野
TEO野
第一世代の特徴量
視覚野全体をもとに
した特徴量
第二世代の特徴量
局所領域をもとに
した特徴量
第三世代の特徴量
局所領域を複合的に
した特徴量
最新の脳科学
• 提示した画像を可視化
領域全体に着目した特徴量
領域全体に着目した特徴量
学習サンプル ヒストグラム検出対象全体 =特徴量(ベクトル)
輝度情報 $: ""B ・・・ $:C BC (0,0) (0,1) (n,m) "": &% ・・・ =: DB 0 1 n-1 n領域全体に着目した特徴量
ヒストグラム
異なる場合でも類似するケースあり 領域全体の輝度の分布! 異なる顔でも類似!領域全体に着目した特徴量
ヒストグラム
物体の形状変化に対してロバスト
大きく形状が異なる場合でも類似するケースあり
ヒストグラムを作成するためのベースとなる特徴量が重要
実装が容易
局所領域に着目した特徴量
局所領域に着目した特徴量
Haar-like特徴量
輝度に着目
EOH特徴量
エッジに着目
ピクセル差分特徴量
HOG特徴量
Edgelet特徴量
Haar-like 特徴量
局所的なエッジ成分・線成分を捉える
2つの領域の輝度差に着目
P.Viola and M.Jones:Rapid Object Detection using a Boosted Cascade of Simple(CVPR2001) A B 特徴量=AとBの平均輝度の差 領域Aの平均輝度 領域Bの平均輝度
積分画像(
[email protected]!E40F.)
Haar-like特徴量を高速に演算することができる
輝度の合計値 =領域内の全画素の輝度を累積 領域が大きいと演算回数が多い 原画像のまま 積分画像を利用 A 輝度の合計値 =領域の4点の輝度を加減算 領域の大きさに関わらず演算回数一定 B C D E F ■=A-B-C+D □=C-D-E+F積分画像のつくり方
10 13 18 20 21 4 15 30 28 40 30 44 32 38 20 37 60 80 88 90 80 130 110 155 220 0 0 0 0 0 0 0 0 10 23 41 61 82 0 14 42 90 138 199 0 44 116 196 282 363 0 81 213 363 547 718 0 161 423 683 1022 1413 0原画像
積分画像
左上から右下へ画素値を累積
□
=A-B-C+D
EOH(Edge of Orientation Histograms)特徴量
局所的な勾配のエッジ強度を捉える
領域内の勾配関係に着目
K.Levi and Y.Weiss:Learning Object Detection from a Small Number of Examples: the Importance of Good Features(CVPR2004)
V.S. k1 k2 V.S. k1 k2 V.S. k1 k2 ほほの輪郭 目領域 口と鼻領域
EOH特徴量の算出(1)
K.Levi and Y.Weiss:Learning Object Detection from a Small Number of Examples: the Importance of Good Features(CVPR2004)
エッジ画像の作成
エッジ方向の算出
;2/.A! [email protected]勾配画像の作成
勾配ごとの画像を作成(k=4∼8) 入力画像 エッジ画像 エッジ勾配画像EOH特徴量の算出(2)
K.Levi and Y.Weiss:Learning Object Detection from a Small Number of Examples: the Importance of Good Features(CVPR2004)
特徴量 = 2方向のエッジ強度の比
局所領域Rの方向kに対する累積エッジ強度
V.S.
k1 k2 エッジ勾配画像 着目領域
HOG(Histograms of Oriented Gradients)特徴量
局所的な勾配別のエッジ強度を捉える
領域内の勾配と強度の
関係に着目
N.Dalal and B.Triggs:Histograms of Oriented Gradients for Human Detection(CVPR2005) 局所領域の勾配ヒストグラムを特徴ベクトル化 ‐局所的な幾何学変化に頑健 ‐局所的な照明変化に頑健 勾配ヒストグラム
HOG特徴量算出の手順
ブロック化
勾配画 像セル化
勾配算出
勾配ヒストグラムの作成 局所領域ごとに正規化 4 0F 16 @H 9. :I "B:I 4 0F 16 @H 9. :I "B:I 4 0F 16 @H 9. :I "B:I 4 0F 16 @H 9. :I "B:I 4 0F 16 @H 9. :I "B:I 4 0F 16 @H 9. :I "B:I 4 0F 16 @H 9. :I "B:I 4 0F 16 @H 9. :I "B:IHOG特徴量の算出(1)
勾配強度
mと勾配方向!を算出
原画像 勾配画像HOG特徴量の算出(2)
勾配方向ヒストグラムを生成
方向 : 0°䇲 180° 分割数 :91つのセルに対して、
!次元の特徴量ベクトル
セル
"#$#画素%ごとに算出
セル
HOG特徴量の算出(3)
勾配ヒストグラムの正規化
&
"セルずつブロックを移動 ブロック セル'ブロックから得られる特徴量:(セル$(セル$!方向)*'個
ブロック
"3!3セル%毎に正規化
ブロック内に含まれる特徴量!の大きさにより正規化入力画像 :
(+,-+画素&
ブロック数
.&/$'+&)&/+ブロック&
EHOG特徴量
HOG特徴量
多次元ベクトルの特徴量
複数のセルを結合
計算コスト大
EHOG特徴量(Extend HOG)
1次元の特徴量
1つのセルのみに着目
計算コスト小
'ブロック=0x0セル 'ブロック=1セル"#$%&
多次元ベクトル 1次元エッジ勾配ごとの積分画像(
[email protected]!J6;@2F504)
エッジに着目した特徴量を高速に演算することができる
積分画像 A 輝度の合計値 =領域の4点の輝度を加減算 輝度値を累積 領域の大きさに関わらず演算回数一定 B C D E F ■=A-B-C+D □=C-D-E+F エッジ勾配ごとの積分画像 エッジ強度の合計値 =特定のエッジ勾配に対する 領域の4点の輝度を加減算 特定の勾配方向のエッジ強度を累積 領域の大きさに関わらず演算回数一定 □=A-B-C+D A B C DEdgelet特徴量
部分的な勾配とエッジ強度を捉える
エッジのつながりに着目
基本形状:直線、円弧、対称性 連結数と連結方向から特徴量候補を作成B.Wu and R.Nevatia:Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination of Edgelet Part Detectors( ICCV'05)
入力画像 エッジ画像
Edgelet特徴量算出の手順
勾配画 像学習テンプレート比較
前処理
テンプレー ト 強度画 像 現サブウィンドウ 入力画 像Edgelet特徴量の算出(1)
エッジ画像の作成
勾配方向の算出
;2/.A! [email protected] 入力画像 エッジ画像 エッジ勾配画像 エッジ強度画像 k方向に量子化EOH,HOG特徴量と同じ処理
Edgelet特徴量の算出(2)
学習で選択された特徴
入力画像
要素ui
入力画像のエッジ強 度 入力画像の勾配方向 選択された特徴の勾配方 向特徴量の選択方法
• 局所領域の特徴量=>大量の候補が存在
!
–
J005!KA6>.!特徴量の場合!
画像サイズ:24
724ピクセル!
大きさ:2
72ピクセル 24724ピクセル!
合計:
数万通り以上
!
どうやって選択するか?
学習手法により最適な特徴量を選択
L90M22;@
• 統計的学習手法
!M22;N1Fの1つ!
–
"CCO年にP#Q5.H19等が提案
RQ5.H19!SCOT!!
• 学習サンプルの重みを適応的
U090)NV.Wに更新!
– 計算量の爆発と汎化性能の低下を抑制!
– 誤識別したサンプルに対し重みXを増加!
• 最終識別器は弱識別器の重み付き多数決
!
L90M22;@の特徴
• 識別精度が高い!
– 汎化性能に対する理論的な裏付け
!
– 学習後期では識別の困難なデータに特化
!
• 解析が容易!
– 特徴選択の傾向などを後から調査
!
学習アルゴリズム
"Y$!前処理
"!前処理!
– N個の学習サンプル
! ! ! !!
•
!!!!*!画像!
•
!!!!*!クラスラベル!
– 人にはZ"Y!非人にはK"!
$!学習サンプルの重みの初期化!
– 各サンプルの重み を均等にする
!
学習アルゴリズム
%#"!弱識別器候補
• 基本的に設計は自由!
–
"かK"を出力する関数!
– エラー率が:#D以下!
•
[62A0\]21.;の顔検出では閾値関数を使用!
– ある"つの特徴量に対する分布を観測
θ
v
p
h
t:tラウンド目の弱識別器 :特徴量 :閾値 :不等号の向きを決定する 変数(1or-1)h
t(x) =
�
1 p · v(x) > p · θ
−1 otherwise
学習アルゴリズム
%#$!エラー率の算出
• 弱識別器に対するエラー率 を算出!
– 弱識別器hの応答値とクラスラベルが異なった場合サンプルの重みを足し合 わせる! – エラー率が:#Dを超えたら、弱識別器のパリティpを反転!e
t,m=
N�
i:ht(xi)�=yiD
t(i)
^.F_!!!`a2; 出現確率θ
p = -1 a2;_!!!`^.F 出現確率θ
e
t,m
a2;!!!!!!!!!!!!!!!!^.F!! a2;!!!!!!!!!!!!!!!!^.F!! et,m= 0.65 et,m = 1 − (0.65) = 0.35学習アルゴリズム
&YD!弱識別器の選択と重みの算出
&!エラー率 が最小となるhを現在のラウンド
の弱識別器として採用
!
D!採用した弱識別器に対する重み を算出!
– 重み
!b!信頼度!
h
t= arg min e
t,mα
t=
1
2
ln
� 1 − e
te
t�
α
t
(ln = loge) ※ et = 0.067 α = 1 2ln( 0.933 0.067) = 1 2ln 13.925 = 1.316 ・優秀な弱識別器 et = 0.241 α = 1 2ln( 0.759 0.241) = 1 2ln 3.149 = 0.574 ・標準的な弱識別器 et = 0.5 α = 1 2ln( 0.5 0.5) = 12ln 1 = 0 ・半分しか正解できない弱識別器e
t
学習アルゴリズム
=!学習サンプルの重みの更新!
O!学習サンプルの重みの更新!
=YO!サンプルの重みの更新と正規化
D
t+1(i) = D
t(i) exp(−αty
th
t(x
i))
D
t+1(i) =
Dt+1
(i)
N�
i=1Dt
(i) exp(−α
tytht(x
i))
h =1(人) h =-1(非人) y = 1 ラベル y = 1 ラベル ytht(xi) = 1 ytht(xi) = −1 となり、 重みは低くくなる
Dt+1(i) = Dt(i) exp(−αt) となり、
重みは高くなる
学習アルゴリズム
B!最終識別器の構築
• すべての弱識別器に信頼度で重みをつけて!
多数決をとる形になる
!
– Hが閾値 より高ければ人、低ければ非人と判定
H(x) = sign
�
T�
t=1α
th
t(x) − λ
�
λ
実装時のポイント
• 学習回数UラウンドW!
– 任意
U":: $:::回W!
• 学習サンプル!
– 多ければ多い方がよい
!
• 統計的信頼性の確保!
• 多様なパターンに対応!
– 人検出では
$Y::: DY:::枚、顔検出では約":Y:::
枚
!
L90M22;@について
• 多数の弱識別器を学習するアンサンブル学習
その他のブースティング手法
•
c.0A!L90M22;@!
•
d.1@A.!M22;N1F!
• ・・・・
L90M22;@とc.0A!L90M22;@
•
L90M22;@Ue6;,5.@.!L90M22;@W!
– 弱識別器の出力U"YK"WにXで重み付けて結合することで!
最終識別器を構築
!
•
c.0A!L90M22;@
Rf,'0)65.!SCCT!
–
L90M22;@からの派生!
– 弱識別器の出力が特徴量の分布に応じて実数値化U5.0AW!
– サンプルに対しどの程度の識別が可能であるかが分かる
!
– 少ない弱識別器で高精度な検出!
• 学習の収束が早い!
効果的な重みの更新が可能
学習アルゴリズム
"Y$!前処理
"!前処理!
– N個の学習サンプル
!
•
!!!!*!画像!
•
!!!!*!クラスラベル!
– 人にはZ"Y!非人にはK"!
$!学習サンプルの重みの初期化!
– 各サンプルの重み を均等にする
!
学習アルゴリズム
ネガティブサンプル( )%#"!確率密度関数!
• 特徴量をME^に変換しサンプルの重みを!
!足し合わせ、分布UヒストグラムWを作成
:!!"!!$!!!!!!!!!!g!!!!!!!!!=$!=% 出現確率 特徴量 !"(ME^) :!!"!!$!!!!!!!!!!g!!!!!!!!!=$!=% 出現確率 特徴量 !"(ME^) ポジティブサンプル( )学習アルゴリズム
%#$!弱識別器の評価値算出
•
$つの分布のM'0(0,'05880距離で類似度を算
出
!
• 類似度が低い→分離し易い!
出現確率 特徴量 !"(ME^) 小 = 分布が分離しずらい →識別に有効ではない 大 = 分布が分離しやすい →識別に有効 評価値 *! 出現確率 特徴量 !"(ME^)識別に有効な特徴量
z = 1
−
�
j�
W
+jW
−j学習アルゴリズム
= 0.15, = 0.15 = 0.0&!最も#"が高い弱識別器を選択
•
#"が高い!b!識別に有効な弱識別器!
– 弱識別器の出力
: 学習ラウンド : 弱識別器の番号 U !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!W = 0.1, = 0.2 = -1.39 = 0.26, = 0.12 = 1.54 出現確率 特徴量 !"(ME^) 出現確率 特徴量 !"(ME^) 出現確率 特徴量 !"(ME^)学習アルゴリズム
D
• 学習サンプルの重みの更新!
• 学習サンプルの重みの正規化
学習アルゴリズム
D
= 0.15, = 0.15 = 0.0 = 0.1, = 0.2 = -1.39 = 0.26, = 0.12 = 1.54 出現確率 特徴量 !"(ME^) 出現確率 特徴量 !"(ME^) 出現確率 特徴量 !"(ME^) ポジティブ サンプル ネガティブ サンプル 重みを高く 重みを低く ポジティブ サンプル ネガティブ サンプル 重みを低く 重みを高く ポジティブ サンプル ネガティブ サンプル 重みはそのまま学習アルゴリズム
=
学習アルゴリズム
=
• 強識別器の生成!
– 弱識別器の線形和
!
•
L90M22;@のように重みXは必要ない!
– Hが閾値 より高ければ人、低ければ非人と判定
H(x) = sign
�
T�
t=1h
t(x) − λ
�
λ
M22;N1Fを用いた物体検出
第二世代特徴量候補の準備(1)
学習サンプル
サンプルセットの用意
原画像 正解データ 非正解データ数千枚のサンプルを用意
一定サイズで正規化 一定サイズで正規化第二世代特徴量候補の準備(2)
特徴量候補学習サンプル
特徴量候補の用意
特徴量候補! 位置・サイズ・形状を変えて、 候補として用意特徴量候補数
Haar-like 特徴量:18万個
EOH特徴量:60万個
HOG特徴量:900個
第二世代特徴量+ブースティング
評価値
特徴量候補評価
学習サンプル
評価
評価
評価
hb:#%
hb:#B
hb:#D
hb:#=
123J
"U!!!!!!!!!!!!WY!!X
"M22;N1F
弱識別器
' 重みX
○ ○ ○ サンプルの重み更新第二世代特徴量+ブースティング
評価値
特徴量候補評価
学習サンプル
評価
評価
評価
hb:#O
hb:#D
hb:#%
hb:#$
123J
"U!!!!!!!!!!!!WY!!X
"M22;N1F
弱識別器
' 重みX
○ ○ ○ サンプルの重み更新J
$U!!!!!!!!!!!!WY!!X
$第二世代特徴量+ブースティング
評価値
特徴量候補評価
学習サンプル
評価
評価
評価
hb:#%
hb:#&
hb:#O
hb:#C
123J
"U!!!!!!!!!!!!WY!!X
"M22;N1F
弱識別器
' 重みX
○ ○ サンプルの重み更新J
$U!!!!!!!!!!!!WY!!X
$J
iU!!!!!!!!!!!!WY!!X
i第二世代特徴量の比較実験1
検出対象ごとに特徴量の性能を比較
検出対象:顔,車,人
比較対象:Haar-like,EOH,Edgelet,HOG
データセット:
顔データ
学習:Webから収集した約5000枚
評価:MIT+CMU Frontal Face Image
車データ
学習:UIUC Cars
評価:UIUC Cars
人データ
学習:INRIA Person Dataset
評価:USC Pedestrian Detection Test Set
学習・評価データ(顔)
• 学習用!
学習・評価データ(車)
• 学習用!
• 評価用
学習・評価データ(人)
• 学習用!
• 評価用
顔データの性能比較
J005KA6>.特徴量が最も性能が良い
車両データの性能比較
特徴量による性能差は少ない
人データの性能比較
Jjd特徴量が最も性能が良い
顔データに選択された特徴量
選択されたHaar-like特徴量
平均輝度画像
目や口などの顔の特長的な領域を選択
選択された特徴量
車データに選択された特徴量
選択されたEdgelet特徴量
平均勾配画像
選択された特徴量
対称性を捉える
k9F.A.@特徴量を多く選択
人データに選択された特徴量
選択されたHOG特徴量
平均勾配画像
選択された
Jjd特徴量
学習の初期では上半身が捉えられる
Jjd特徴量を多く選択
特徴量比較のまとめ
特徴量
検出対象
顔 車 人Haar-like
目や口などの顔の特長的な領域を選択 輪郭を捉える特徴を多く選択 人の縦エッジ、縦ラインを捉える特徴を多く選択HOG
輪郭を捉える特徴を多く選択 輪郭、タイヤを捉える特徴を多く選択 上半身を捉える特徴を多く選択EOH
輪郭を捉える特徴を多く選択 対称性やタイヤを捉える特徴を多く選択 上半身、肩のラインの対称性を捉える特徴を多く選択Edgelet
輪郭を捉える特徴を多く選択 対称性を捉える特徴を多く選択 肩のラインの対称性を捉える特徴を多く選択検出対象毎の選択された特徴量の傾向
&
顔:輝度に着目した特徴量が有効
!
車:輝度、エッジに着目した特徴量が共に有効
!
人:エッジに着目した特徴量が有効
!
局所領域の関連性に着目した特徴量
局所領域の関連性に着目した特徴量
Joint Haar-like特徴量
輝度に着目
Shapelet特徴量
エッジに着目
スパース特徴量
Joint HOG特徴量
共起確率特徴量
Joint Haar-like特徴量
T.Mita, T.Kaneko, B. Stenger and O.Hori: Discriminative Feature Co-occurrence Selection for Object Detection(PAMI2008)
複数の領域の明暗パターンに着目
顔の構造に基づいた特徴量の
関係性を捉える
j =(011)2 = 3 顔 非顔単一の特徴では捉えることができない関係性を捉えられる
Joint Haar like の処理フロー
特徴量の結合
特徴量候補
検出器
L9
0M
22
;@
顔 非顔 顔 非顔 顔 非顔Joint Haar-like特徴量の算出(1)
特徴量の結合(1)
!
各
4556789:;特徴量の出力関数を決定
J005KA6>.特徴に対する識別器 検出対象 非検出対象 明暗差Z(x) しきい値!対象
+!非対象の$値に符号化
明暗差Z(x) しきい値! 0 1 出力関数 J005KA6>.特徴 量 確率関数 しきい値:! 定義した検出率(誤検出率)を満たす値 学習サンプルJoint Haar-like特徴量の算出(2)
特徴量の結合(2)
!
結合した
4556789:;特徴量を算出
明暗差Z(x) しきい値! 0 1 出力関数 J005KA6>.特徴量 明暗差Z(x) しきい値! 0 1 出力関数 J005KA6>.特徴量 明暗差Z(x) しきい値! 0 1 出力関数 J005KA6>.特徴量 ]261@!J005KA6>.特徴量(1 1 0)
2 顔 +!非顔 顔 +!非顔 顔 +!非顔 学習サンプル J005KA6>.特徴量1 J005KA6>.特徴量2 J005KA6>.特徴量3$進数値として
結合
Joint Haar-like特徴量の算出(3)
特徴量の結合(3)
!
結合した値をもとに同時確率関数を決定
同時確率の作成(1 1 0)
2(0 1 0)
2 学習サンプル結合した値 顔 非顔同時確率
!
サンプルの重みetU6W!を加算同時に複数の
4556789:;特徴量を観測することで、共起性を表現
Joint Haar-like特徴量の算出(4)
特徴量の結合(4)
!
同時確率関数もとに出力関数を決定
]261@!J005KA6>.特徴量を用いた弱識別器 顔 非顔 同時確率! 結合した値 検出対象らしさが高ければ、"を出力2<5=>>?@により、最も識別能力の高い組合せを選択
]261@!J005KA6>.特徴量Joint Haar-like特徴量の算出(5)
Haar-like特徴量をどのように組み合わせるのか?
膨大な学習時間が必要
"#!最も識別に適した特徴量を"個選択!
$#!選択した特徴に別の特徴を"個加え識別性能が向上する組み合わせを選択!
%#!$回$#!を繰り返す!
fQfによる組み合わせ!
SFS(Sequential Forward Selection)による組合わせ探索
効率的に組み合わせ探索を行う方法
大幅に探索回数を小さくすることが可能
全組合わせ
Haar-like特徴量数、組み合わせ個数が多い
Shapelet特徴量
P.Sabzmeydani and G.Mori : Detecting Pedestrians by Learning Shapelet Features (CVPR2007)
局所領域内での共起するエッジ勾配を捉える
複数の特徴量の関連性に着目
人体に共起するエッジ 人体に共起しないエッジ
Shapelet特徴量の処理フロー
画素単位で有効なLow level特徴量を選択 共起するMiddle level特徴量を選択 AdaBoost 各画素を特徴量 として入力 AdaBoost 領域を特徴量と して入力
2段階のブースティングにより、Low level→Middle Level特徴量へ
Shapelet特徴量の算出方法(1)
局所領域ごとに
l2-!A.V.A特徴量(bエッジ)を選択!
L90M22;@! L90M22;@! 学習サンプル&方向エッジ 局所領域に分割 l2-!A.V.A特徴を選択! L90M22;@! f'0).A.@特徴量候補の合成 f'0).A.@特徴量候補! 画素tに対する弱識別器& 局所領域'に対する強識別器&Shapelet特徴量の算出方法(2)
L90M22;@!
最終識別器
検出に有効な局所領域を選択
!
f'0).A.@特徴量候補! 最終識別器& f'0).A.@特徴量候補の合成 f'0).A.@特徴量の合成Joint HOG特徴量
尾崎,山内,藤吉,:Joint HOG特徴量を用いた2段階AdaBoostによる車両検出(DIA2008) 局所領域間での共起する勾配方向を捉える2つの領域とその勾配方向の共起性に着目
車両の対称性や連続性・関連性を捉えることができる
勾配の関連性を捉える 勾配の対称性を捉える 着目領域 着目勾配方向 着目領域 着目勾配方向Joint HOGの処理フロー
Aつの局所領域の共起
! ! & ! & ! & ! & ! & ! & ! ! & ! & ! ! &識別に有効な
B>90@&4CDの選択
]261@!J005KA6>.の特長 f'0).A.@の特長]261@!J005KA6>.とf'0).A.@の特長を組み合わせた特徴量
Joint HOGの算出方法(1)
2つの局所領域の共起を表現
$つの局所領域の共起 $つの局所領域の共起 $つの局所領域の共起 入力画像 Jjd特徴量 M22;N1Fによる共起 ]261@!Jjd特徴! ajjl72個の局所領域の全組み合わせ
特徴量候補:2
Y556個
]261@!Jjd特徴量%を生成!
Joint HOGの算出方法(2)
検出に有効な
]261@!Jjdを選択!
最終識別器L90M22;@!
]261@!Jjd特徴量候補の合成 特徴量候補:2Y556個最終識別器
]261@!Jjd特徴量の合成! $::個選択!選択されたJoint HOG特徴量(1)
全学習サンプ ルの平均勾配 画像 "段目のL90M22;@により 選択されたJjd特徴量 $段目のL90M22;@により選択されたJjd特徴量人の輪郭に沿った勾配方向の特徴量が自動的に選択
識別に有効な
m699A.!A.V.Aな特徴量
選択されたJoint HOG特徴量(2)
"回目のL90M22;@により! 選択された特徴量 $回目のL90M22;@により! 選択された特徴量 $回目のL90M22;@により選択されたセルと]261@!Jjd特徴量検出対象らしさの共起表現を確率により表現
&
共起確率特徴量
確率により共起性を捉える
検出対象らしさの共起性に着目
人で あ る 確率 大 小 入力画像 確率を演算子で結合 山内E&藤吉E&山下.&=>>?F0G&に基づく共起表現による人検出E&"1HIJA++*% Joint Haar-like特徴量: 2値のため誤った組合わせが生じる 共起確率特徴量: 実数により誤りを吸収可能c.0A!L90M22;@を用いて共起確率特徴量を学習!
共起確率特徴量の処理フロー
検出に有効なLow level特徴量を選択 共起するMiddle level特徴量を選択 Real AdaBoost Real AdaBoost
学習サンプル
検出対象らしさを表す確率を演算子により結合した特徴量
実数の確率を得るために
c.0A!L90M22;@を利用
特徴量候補 重みの更新強識別器
l2-KA.V.A特徴の選択 共起確率特徴量の選択! 強識別器の学習Real AdaBoost
L90M22;@!→ :または"を出力!
c.0A!L90M22;@!→ 確からしさを実数で出力
弱識別器の出力 h ( x) 確率密度分布 出現確率 nZ! nK! KL&M6;N0<&50<&IL&OL&PQR5S96;&.&2&<;Q9?9>0@R;>6;FQ&G;0;6589T5F>0&>U&>07890;&8;56090G&& 50<&50&5SS89Q5F>0&@>&V>>?F0G&WE&BXPPE&'!!YL強識別器
%!U%W!
弱識別器&!U%Wの線形和弱識別器
&"U%W !
ポジティブクラスとネガティブクラスの! 確率密度分布'(!,')!に応じて出力
Low level特徴量の選択
学習サンプル 確率密度分布 出現確率 A2-KA.V.A特徴量 特徴量候補! l2-!A.V.A特徴量! Real AdaBoost評価値
α
が大きな特徴量候補をLow level特徴量として選択
nZ! nK! 出現確率 特徴量 nZ! nK! 出現確率 特徴量 識別エラー少":大 識別エラー多":小 上位^個を選択!m699A.!l.V.A特徴量*の生成!
弱識別器
h(x)の出力を演算子により結合
0 + ‐ 0 + ‐ j C(x) h1(x) h2(x)$つの重み付き出力が大きい
$つの重み付き出力が小さい
$つの重み付き出力を総合的に捉える
l2-!A.V.A!特徴量 m699A.!A.V.A!特徴量 h2(x),!2 h1(x),!1m699A.!l.V.A特徴量の選択ごとにl2-!A.V.A特徴量候補を更新!
m699A.!l.V.A!特徴量の選択
Real AdaBoost Real AdaBoost 学習サンプル 特徴量候補 重みの更新
強識別器
l2-KA.V.A特徴の選択 共起確率特徴量の選択! 強識別器の学習第三世代特徴量の比較実験(1)
顔データセットにおける特徴量の性能を比較
検出対象:顔
比較対象:Haar-like特徴量、Joint Haar-like特徴量
データセット:
学習用データセット:Yale Database, XM2VTS等
人: 13,000枚
背景: 10,000枚
評価用データセット: MIT+CMU Frontal Face Image
人: 5,676枚
顔データの性能比較
Haar-like
Joint Haar-like
T.Mita, T.Kaneko, B. Stenger and O.Hori: Discriminative Feature Co-occurrence Selection for Object Detection(PAMI2008)