The University of Electro-Communications Tokyo, JAPAN (UEC)
Bag-of-keypointsによる カテゴリー認識
第14回 画像センシングシンポジウム (SSII2008) 2008年 6月13日
電気通信大学 情報工学科
柳井 啓司
The University of Electro-Communications
アウトライン
1. イントロダクション
2. Bag-of-keypoints アプローチ
その具体的な方法の詳細3. Bag-of-keypoints アプローチの拡張
位置情報,色情報の利用4. 確率的言語モデルの画像への適用
5. 今後の方向
1.
シーンの階層的理解,コンテキストの利用2.
言語階層との対応2
1.イントロダクション
【参考文献】
柳井啓司
.
一般物体認識の現状と今後.
情報処理 学会論文誌:
コンピュータビジョン・イメージメディア,
Vol.48, No. SIG16 (CVIM19), pp. 1-24, 2007.
The University of Electro-Communications Tokyo, JAPAN (UEC)
6
一般物体認識とは?
“一般的な”実世界画像の認識
デジカメやWebの画像を自動認識.
画像内容 を 言語(記号) で記述.意味理解.クマ (草の上の)トラ (草を食べる)ゾウ
静止画像に対して,その中に含まれる
物体もしくはシーンの一般名称(カテゴリー)を認識 究極的には人間以上にあらゆる画像を認識
The University of Electro-Communications Tokyo, JAPAN (UEC)
物体の認識 7
空
建物 / ビル
建物 信号機
自転車 自動車 / バン
外灯 バス 木 / 桜
木 / 桜
木 / 桜
道路
空
建物 / ビル
建物 信号機
自転車 自動車 / バン
外灯 バス 木 / 桜
木 / 桜
道路
The University of Electro-Communications
シーン(コンテキスト)認識 8
【場所について】
•
屋外•
街以下は「固有名詞」
•
日本•
東京都多摩市•
聖蹟桜ヶ丘•
京王百貨店•
緯度:N35.653488
経度:
E139.44564
【時間について】
•
春•
4月•
日中•
晴天•
...The University of Electro-Communications Tokyo, JAPAN (UEC)
9
一般物体認識の困難性
認識対象が多様
(カテゴリー内変化が大)
同一種類(カテゴリー)の物体でも形は様々. 変形も.
撮影時の条件が多様(視点位置,向き,変形,スケール,照明(天候),背景,オクルージョン)
認識対象が多い.
(カテゴリー数が多い.)
辞書に出ている名詞の数だけある! 数万?
何を認識するべきか? レベルは?動物orライオン?
様々な「ライオン」
The University of Electro-Communications
カテゴリー内変化(1): 10
いろいろな「椅子」
The University of Electro-Communications Tokyo, JAPAN (UEC)
カテゴリー内変化(1): 11
いろいろな「椅子」
どんな「椅子」が認識できればいい?
(1) 世の中の「椅子」すべて?
(2) 典型的なもののみ?
(3) 「座る」機能を提供する物体すべて?
The University of Electro-Communications Tokyo, JAPAN (UEC)
カテゴリー内変化(2): 12
いろいろな視点からの見え方
[P.Yan, S. M. Khan and M. Shah:
3D Model based Object Class Detection
in An Arbitrary View, CVPR 2007]より
The University of Electro-Communications Tokyo, JAPAN (UEC)
カテゴリー内変化(2): 13
いろいろな視点からの見え方
[P.Yan, S. M. Khan and M. Shah:
3D Model based Object Class Detection in An Arbitrary View, CVPR 2007]より
どこからみた「バイク」が認識できればいい?
(1)すべての方向? 360度.下からも上からも?
(2) 典型的な見え方のみ? 真横,斜め前方.
canonical view
(3) 状況によって異なる.
地上からみた場合. 高層ビルや飛行機から.
The University of Electro-Communications
カテゴリー数が多い: 14
多様なカテゴリー
The University of Electro-Communications Tokyo, JAPAN (UEC)
カテゴリー数が多い: 15
多様なカテゴリー
一体,何種類認識できればいい?
(1) 世の中の物体すべて! シーン,イベントも 製品やランドマークなどの固有名詞も!
basic-level/entry-level category
(2) 典型的なもの1000種類! 「典型的」って?
(3) 用途に応じて. 花だけ.食べ物だけ.
The University of Electro-Communications Tokyo, JAPAN (UEC)
2種類の認識:Identificationと 16
classification (カテゴリー分類)
Identification : DB中の特定物体の検出. モデル物体は点で表現.クラス内変動はなし.
特定の「椅子」
DB中のもっとも近い画像を探す.
Classification : 物体の分類(カテゴリ/クラス)を区別. 分類名(一般名称)で認識.クラス内変動大.
すべての「椅子」
認識カテゴリーの定義が難しい.
「椅子」とは何か? 厳密な定義がない!!
人間は classification が得意.
計算機は identification の方が得意.
一般物体認識では, classification が目的.
The chairs
A chair
特定の「椅子」の認識
「椅子」という概念に 対応した物体の認識
The University of Electro-Communications Tokyo, JAPAN (UEC)
厳密な定義がない認識カテゴリー: 17
どのような「認識」をするべきか?
「多くの人間が行う認識」
みんなが 机 だと思うものは 机 と認識して欲しい.
•
「日本の家」と「アフリカの家」.文化による認識対象の違い.モデル化 照合
「基本認識レベル」 (E.Rosch,1976) で物体を認識
ぱっと見た時に最初に思い付く(一般)名称.○
「机」「ライオン」「犬」「自動車」「アザラシ」 ⇒ 形状の類似性×
「人工物」「動物」「家具」「乗り物」「ぽち」「タマちゃん」 「人間のような認識」を行うには?
概念「机」 「机モデル」 画像一般物体認識
特定物体認識
“一般的な”事例から,モデルを学習により構築.
一般物体認識においては学習データ構築も重要.
The University of Electro-Communications
19
一般画像認識の歴史
70年代 線画解釈.
(画像処理が中心.)80年代前半 知識ベース型システム.
人手によるルール記述に一般性がない.知識爆発.
80年代後半 3次元の復元. モデルベースト.
Identificationのみ.形状既知.実世界でうまくいかない.
90年代 学習による認識.
顔画像やidentification
中心. 顔画像認識(Eigenface)の成功.固有空間法.
画像DBにおける画像の意味的分類.
00年代
局所特徴+機械学習 により 大きく進歩90年代までは,画像認識においてはマイナーな研究分野.
研究者の知識がすべて!
The University of Electro-Communications Tokyo, JAPAN (UEC)
2000年以降の発展 突然ブレイク!
2000年 Constellation model (確率モデル)
2001年 確率手法による単語と画像の対応付け 2002年 Word-image translation model
2003年 Video Google
(image search by
visual words)
2004年 Bag-of-keypoints(BoK)+SVM
2004年 Caltech101 (101カテゴリーのデータセット)登場 2005年~ BoK + probabilistic graphical model
(PLSA, LDA, HDP, their modifications)
BoK + SVM with modified kernel
BoK + MRF for semantic region segmentation
2007年 Caltech256 (256カテゴリーのデータセット)登場
20
2. Bag-of-keypoints アプローチ
【参考文献】
[Low99] Lowe, D.G.: Object recognition from local scale invariant features, Proc. of IEEE International Conference on Computer Vision, pp. 1150–
1157 (1999).
[Siv03] Sivic, J. and Zisserman, A.: Video Google: A Text Retrieval Approach to Object Matching in Videos, Proc. of IEEE International Conference on Computer Vision, pp.1470–1477 (2003).
[Csu04] Csurka, G., Bray, C., Dance, C. and Fan, L. “Visual categorization with bags of keypoints,” in Proc. of ECCV Workshop on Statistical
Learning in Computer Vision, pp. 59–74 (2004).
The University of Electro-Communications Tokyo, JAPAN (UEC)
従来の認識: 認識対象の全体を利用
固有空間法,領域分割を用いた方法
オクルージョンや変形に弱い. Part-based手法の登場:
複数の部分の組み合わせで認識
局所パターンの分布に 基づく認識 (bag-of-keypoints)
全体特徴から局所特徴へ
22
frequency
visual words
The University of Electro-Communications
局所特徴量 による identification
SIFT [Low99]
回転およびスケール変化に丌変な局所特徴量 ただし,D.Loweが想定したのはidentification Video Google [Siv03]
SIFT特徴ベクトルをベクトル量子化し,画像を visual wordsの集合とみなす.
テキスト検索の手法(Google)を 応用し,高速画像検索を実現.(同一部分の検索)
23
The University of Electro-Communications Tokyo, JAPAN (UEC)
Bag-of-keypoints [Csu04]:
visual wordの classificationへの適用
Visual words の集合として画像を表現
Visual words のヒストグラムを画像特徴とする
単語出現頻度によりテキストを表現する方法のbag-of-wordsの考え方を画像に応用.語順を無 視するのと同様に,位置を無視.
Bag-of-keypoints によって表現された 特徴ベクトルをNaive Bayes, SVMなどの
機械学習手法で分類.テキスト分類と同じ!
Bag-of-visual-words (BoVW),
Bag-of-features (BoF) とも言うことがある.
24
The University of Electro-Communications Tokyo, JAPAN (UEC)
画像を visual word の出現頻度ヒストグラムで表現1. 各画像について,数千個の特徴点を抽出.
2. SIFT記述子により特徴点周辺パターンを SIFT特徴ベクトルとして抽出.
3. 予め求められた visual words (codebook)に基づいて SIFT特徴ベクトルをベクトル量子化.
4. 画像毎にヒストグラムを作成.
fre quency
visual words
Bag-of-keypointsのアルゴリズム:
bag-of-keypoints表現への変換
SIFT法
(特徴点抽出+記述)
The University of Electro-Communications Tokyo, JAPAN (UEC)
特徴点のサンプリングの方法
主な3つの方法 Difference of Gaussian(DoG)
Random sampling
Grid sampling
dense sampling と呼ぶ sparse sampling と呼ぶSIFT法の方法
カテゴリー分類(classification)においては,
パターンのない部分の情報も重要.
DoG
(sparse)random
(dense)grid
(dense)The University of Electro-Communications
学習画像(正例,負例)を用意し,SIFT特徴ベクトル を全画像から抽出 (枚数が多い場合は,ランダムサンプリング)
k-means クラスタリングを実行各クラスタの中心が “visual words”
Visual words の求め方
v i
v i
v i
v i
v i
v i
SIFT vectors
v i
v i
v i v i
“Visual words” は,代表的な 局所パターンに相当する.
The University of Electro-Communications Tokyo, JAPAN (UEC)
28
Bag-of-keypoints 表現
…..
freque nc y
Visual words (数百~数千個)
Visual wordsの出現頻度(ヒストグラム)
によって画像を表現.
次元は,数百~数千次元.
スパースなベクトルになる.
The University of Electro-Communications
Bag-of-keypoints表現を用いた 画像認識
あとは,多次元ベクトルの分類問題
最初の論文[Csu04]では,以下の2つの手法で実験• SVM (support vector machine)
• Naive Bayes
従来手法の結果を大きく改善
例:Web画像の分類
10種類のキーワードについて,平均適合率• 従来手法(領域分割+GMM): 73.5%
• BoK + SVM : 82.4%
30
3. Bag-of-keypoints の改良
【参考文献】
[Laz06] Lazebnik, S., Schmid, C. and Ponce, J.: Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories, Proc. of IEEE Computer Vision and Pattern
Recognition, pp.2169–2178 (2006).
[Var07] M. Varma and D. Ray. Learning the discriminative power- invariance trade-off. In Proc. of IEEE International Conference on Computer Vision, pp.1150–1157 (2007).
[Rab07] A. Rabinovich, A.Vedaldi, C. Galleguillos, E. Wiewora and S. Belongie: Objects in context, In Proc. of IEEE International
Conference on Computer Vision, pp.1150–1157 (2007).
The University of Electro-Communications
Bag-of-keypoints の問題点 と 提案された解決法
ヒストグラムのため位置情報を利用しない
ブロック分割して,サブヒストグラムを作成•
Spatial pyramid kernel SIFTを利用するので,色情報を利用しない
RGBやHSV, Labなど,3つの色成分ごとに SIFTで特徴抽出(128次元×3)•
Color SIFT
色情報や形状情報,テクスチャ情報を統合•
重み付き線形和カーネル による統合 どこに物体があるか分からない.物体検出.
32
The University of Electro-Communications Tokyo, JAPAN (UEC)
位置情報の導入
Spatial pyramid kernel [Laz06]
BoKをグリッド分割して階層的にlocal BoKを作成 各レベルごとにヒストグラムインターセクションを求め,
レベルごとに異なる重みで統合.SVMのカーネル関数とする.
l I
I I
I
Y X I Y
X I Y
X k
l
l L
l
l L L
level in
n intersetio Histogram
:
2) L
of case (in
2 1 4
1 4
1
) , 2 (
) 1 , 2 (
) 1 , (
2 1
0
1 0 1
) ,
2
( X Y I
) ,
1
( X Y I
) ,
0
( X Y
I
The University of Electro-Communications
色情報の利用:Color SIFT
各特徴点についてRGB(HSV, Lab)の3つのSIFTベクトルを計算し,1つに結合.
34
R
G
B
Color SIFT ベクトル (128*3次元)
v R
v G
v B
v RGB
The University of Electro-Communications Tokyo, JAPAN (UEC)
他の種類の特徴との統合 [Var07]
多種類特徴を統合するSVMのカーネル関数
重み付き線形和カーネル関数による,Bag-of-keypoints, 色,形の統合.
+ 重みの自動推定.
各特徴のカーネルを とすると,統合カーネルは,
ただし, は最適化問題を解いて求める.
• カーネルの重みを求めるのは,機械学習の研究では 近年よく研究されている.
Caltech-101, 256の分類で,最高の約90%, 約60%を達成35
) ,..,
1
( k
i i N
d
(linear combination of kernels)
認識精度を上げるには,BoKのみでなく,様々な特徴量を カテゴリーに応じて選択的に利用することが重要.
The University of Electro-Communications Tokyo, JAPAN (UEC)
[Var07] 特徴重みの推定結果
(1-vs-1の場合)
36
両方とも黄色
色の記述子はいらない しかし形状は有効 重み 形状:3.94
色:0 テクスチャ:0
形状に識別力がない クロッカスは形状のクラス内の
変化が大きい 色は比較的識別力がある
重み 形状:0.42 色:2.46 テクスチャ:0
2つを分ける主な特徴がない 3つの特徴をバランス良く
組み合わせる必要がある 重み 形状:1.48
色:2.00 テクスチャ:1.36
[Var07]より
図を引用The University of Electro-Communications Tokyo, JAPAN (UEC)
対象の検出へのBoKの利用:
領域分割との組み合わせ [Rab07]
領域分割し,領域毎にBoKベクトルを作成,
領域毎に分類.最後に共起関係より修正.
37
[Rab07]
より 図を引用領域分割は,
Normalized Cuts.
を利用.
共起関係は
確率モデル(
MRF)
によって表現.4.確率的テキスト
解析手法の導入
【参考文献】
[Hof99 ] T. Hofmann, Probabilistic Latent Semantic Indexing, Proc.
of ACM SIGIR (1999).
[Ble03] D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation.
Journal of Machine Learning Research, No.3, pp.993–1022, (2003).
[Teh06] Y. Teh, M. Jordan, M. Beal, and D. Blei. Hierarchical
Dirichlet Processes. Journal of the American Statistical Association,
Vol.101, No.476, pp1566-1581 (2006).
The University of Electro-Communications Tokyo, JAPAN (UEC)
テキスト解析手法の導入
文書:単語の集合 → bag-of-words
画像:VWの集合 → bag-of-visual-words
Video Google [Siv03]
キーワード検索手法(転置インデックス)の 画像検索への応用
確率トピックモデルの画像への応用:
元々はテキスト解析用bag-of-wordsを前提とする
PLSA (Probabilistic Latent Analysis)
LDA (Latent Dirichlet Allocation)
HDP (Hierarchical Dirichlet Process)39
The University of Electro-Communications Tokyo, JAPAN (UEC)
高次元でスパースなBoK向けの確率的 クラスタリング: PLSA と LDA
テキスト解析向けの確率トピックモデル Bag-of-words表現された文書を確率的に トピック分類する
トピック数は,事前に指定する.K-meansと同じ.
トピックをz,文書(画像)をdとすると,
各文書について P(z|d) が求まる
Probabilistic Latent Semantic Analysis (ヒストグラムは離散なので)混合多項分布によるモデル
をEMでパラメータ推定
Latent Dirichlet Allocation (判別分析ではありません!) PLSAを改良.多項分布の代わりに混合ディリクレ分布.
オーバーフィッティングを解消.
z
d z P z w p d
P d
w
P ( , ) ( ) ( | ) ( | )
The University of Electro-Communications Tokyo, JAPAN (UEC)
例:
Mountain 10 topics
P(pos|topic) 0.112 0.661 0.167 0.186 0.407 0.023 0.761 0.334 0.949 0.987 P(Mountain|topic)
正例
負例
GMM
による認識と同じことができる5 . 今後の方向
1.
シーンの階層的理解,コンテキストの利用2.
言語階層との対応The University of Electro-Communications Tokyo, JAPAN (UEC)
コンテキストの利用:
人間は「常識」として持っている知識
共起関係:共起の強さを確率で表現
階層的認識:シーン認識+物体認識(+領域分割)
47
机
キーボード
ディスプレイ
本棚 床
ライオン 草原
空 自動車
道路
机
キーボード
ディスプレイ 本棚
床
ライオン
草原 空
自動車
道路
室内 屋外
サバンナ 路上
風景 part-of 関係
物体
動物 植物 無生物
人工物 脊椎動物 自然物
…..
ほ乳類 鳥類
ライチョウ イノシシ
バク カメラ
どのレベルで認識するか?
言語の階層的分類(タクソノミー)との関係
member-of 関係
The University of Electro-Communications Tokyo, JAPAN (UEC)
49
解決すべき課題
多種類化 と 認識クラス(カテゴリー)の決め方 1000種類分類はもうすぐ実現.1万種類も数年先?
どうやって,有用な1000種類選ぶか?
Caltech-101は,かなり偏っている.認識し易い.
クラス内変化への対応. 例えば,バイクは,横や斜め前方から見た場合に対応.
真上,真下は?壊れたバイクは?
•
どこまで対応すべきか? 「椅子」は難しい.細分化したサブクラスで認識?
どこまでできれば,実用化できるか? 機械翻訳の例:翻訳を前提に文章を書けば使える
→認識し易いように撮影すれば,現時点でも実用化可能?
The University of Electro-Communications
おわり
The University of Electro-Communications Tokyo, JAPAN (UEC)
パネル(1):
高精度化にむけて何をすべきか
101, 256種類分類:約90%, 約60%を達成
→ 画像全体を分類する場合は,既にかなりできている.
画像の部分認識(対象物体の検出)はまだまだこれから.
良質な知識 (学習画像+コンテキスト) を大量に用意
【自動】テキスト情報を手がかりにWebから収集.
Flickr, Youtubeなどのタグを利用
【手動】一般ユーザにフィードバックしてもらう.
Gameであつめる
(Human computation by CMU Prof. L.Ahn). 複数種類の特徴量の組み合わせ
もちろん,分類アルゴリズムの改良
51
The University of Electro-Communications
52
多種類化 と 認識カテゴリー の決め方 何種類認識できればいいのか? 1000種類?
•
応用次第??•
応用を想定しない一般物体認識システムも実現したい!•
人間の高次視覚機能の計算機による実現のためには何種類? 有用な一般認識システムを実現するには,
どのように1000種類選ぶべきか?
クラス内変化への対応. 例えば,バイクは,横や斜め前方から見た場合に対応.
真上,真下は?壊れたバイクは?
•
どこまで対応すべきか?
どこまでできれば,実用化できるか? 機械翻訳の例:翻訳を前提に文章を書けば使える.
→ 認識を前提に撮影すれば,そこそこ使えるのでは?
パネル(2):
未解決問題(1)
The University of Electro-Communications Tokyo, JAPAN (UEC)
パネル(2):
未解決問題
コンテキストの利用
共起関係
相対位置関係, 相対スケール,(重力に対する)支持関係
背景と前景の関係 一般動作・イベント認識
動画像/静止画像からの動詞の認識
シーン認識,物体認識との組み合わせ.コンテキストの利用.
•
○ライオンが草を食べている.
•
×人間が草を食べている.→ ○ 草を刈っている.
53
The University of Electro-Communications
パネル(3):
一般物体認識のアプリケーション
画像をテキストへ変換する技術と考えると..
すでにある画像を認識する場合
写真へのキーワード付け,自動整理アルバム
Web画像検索の精度向上,言葉による画像検索 認識を前提に撮影する場合
撮影条件がよければ,かなり認識可能なので,現時点の技術で,アイデア次第で実用化可能 !?