• 検索結果がありません。

一般画像認識のための単語概念の視覚性の分析

N/A
N/A
Protected

Academic year: 2022

シェア "一般画像認識のための単語概念の視覚性の分析"

Copied!
47
0
0

読み込み中.... (全文を見る)

全文

(1)

The University of Electro-Communications Tokyo, JAPAN (UEC)

Bag-of-keypointsによる カテゴリー認識

第14回 画像センシングシンポジウム (SSII2008) 2008年 6月13日

電気通信大学 情報工学科

柳井 啓司

(2)

The University of Electro-Communications

アウトライン

1. イントロダクション

2. Bag-of-keypoints アプローチ

その具体的な方法の詳細

3. Bag-of-keypoints アプローチの拡張

位置情報,色情報の利用

4. 確率的言語モデルの画像への適用

5. 今後の方向

1.

シーンの階層的理解,コンテキストの利用

2.

言語階層との対応

2

(3)

1.イントロダクション

【参考文献】

柳井啓司

.

一般物体認識の現状と今後

.

情報処理 学会論文誌

:

コンピュータビジョン・イメージメディア

,

Vol.48, No. SIG16 (CVIM19), pp. 1-24, 2007.

(4)

The University of Electro-Communications Tokyo, JAPAN (UEC)

6

一般物体認識とは?

 “一般的な”実世界画像の認識

デジカメやWebの画像を自動認識.

画像内容 を 言語(記号) で記述.意味理解.

クマ (草の上の)トラ (草を食べる)ゾウ

静止画像に対して,その中に含まれる

物体もしくはシーンの一般名称(カテゴリー)を認識 究極的には人間以上にあらゆる画像を認識

(5)

The University of Electro-Communications Tokyo, JAPAN (UEC)

物体の認識 7

建物 / ビル

建物 信号機

自転車 自動車 / バン

外灯 バス 木 / 桜

木 / 桜

木 / 桜

道路

建物 / ビル

建物 信号機

自転車 自動車 / バン

外灯 バス 木 / 桜

木 / 桜

道路

(6)

The University of Electro-Communications

シーン(コンテキスト)認識 8

【場所について】

屋外

以下は「固有名詞」

日本

東京都多摩市

聖蹟桜ヶ丘

京王百貨店

緯度:

N35.653488

経度:

E139.44564

【時間について】

4月

日中

晴天

...

(7)

The University of Electro-Communications Tokyo, JAPAN (UEC)

9

一般物体認識の困難性

 認識対象が多様

(カテゴリー内変化が大)

同一種類(カテゴリー)の物体でも形は様々. 変形も.

撮影時の条件が多様(視点位置,向き,変形,

スケール,照明(天候),背景,オクルージョン)

 認識対象が多い.

(カテゴリー数が多い.)

辞書に出ている名詞の数だけある! 数万?

何を認識するべきか? レベルは?

動物orライオン?

様々な「ライオン」

(8)

The University of Electro-Communications

カテゴリー内変化(1): 10

いろいろな「椅子」

(9)

The University of Electro-Communications Tokyo, JAPAN (UEC)

カテゴリー内変化(1): 11

いろいろな「椅子」

どんな「椅子」が認識できればいい?

(1) 世の中の「椅子」すべて?

(2) 典型的なもののみ?

(3) 「座る」機能を提供する物体すべて?

(10)

The University of Electro-Communications Tokyo, JAPAN (UEC)

カテゴリー内変化(2): 12

いろいろな視点からの見え方

[P.Yan, S. M. Khan and M. Shah:

3D Model based Object Class Detection

in An Arbitrary View, CVPR 2007]より

(11)

The University of Electro-Communications Tokyo, JAPAN (UEC)

カテゴリー内変化(2): 13

いろいろな視点からの見え方

[P.Yan, S. M. Khan and M. Shah:

3D Model based Object Class Detection in An Arbitrary View, CVPR 2007]より

どこからみた「バイク」が認識できればいい?

(1)すべての方向? 360度.下からも上からも?

(2) 典型的な見え方のみ? 真横,斜め前方.

canonical view

(3) 状況によって異なる.

地上からみた場合. 高層ビルや飛行機から.

(12)

The University of Electro-Communications

カテゴリー数が多い: 14

多様なカテゴリー

(13)

The University of Electro-Communications Tokyo, JAPAN (UEC)

カテゴリー数が多い: 15

多様なカテゴリー

一体,何種類認識できればいい?

(1) 世の中の物体すべて! シーン,イベントも 製品やランドマークなどの固有名詞も!

basic-level/entry-level category

(2) 典型的なもの1000種類! 「典型的」って?

(3) 用途に応じて. 花だけ.食べ物だけ.

(14)

The University of Electro-Communications Tokyo, JAPAN (UEC)

2種類の認識:Identificationと 16

classification (カテゴリー分類)

Identification : DB中の特定物体の検出.

 モデル物体は点で表現.クラス内変動はなし.

特定の「椅子」

 DB中のもっとも近い画像を探す.

Classification : 物体の分類(カテゴリ/クラス)を区別.

 分類名(一般名称)で認識.クラス内変動大.

すべての「椅子」

 認識カテゴリーの定義が難しい.

「椅子」とは何か? 厳密な定義がない!!

人間は classification が得意.

計算機は identification の方が得意.

一般物体認識では, classification が目的.

The chairs

A chair

特定の「椅子」の認識

「椅子」という概念に 対応した物体の認識

(15)

The University of Electro-Communications Tokyo, JAPAN (UEC)

厳密な定義がない認識カテゴリー: 17

どのような「認識」をするべきか?

 「多くの人間が行う認識」

 みんなが 机 だと思うものは 机 と認識して欲しい.

「日本の家」と「アフリカの家」.文化による認識対象の違い.

モデル化 照合

 「基本認識レベル」 (E.Rosch,1976) で物体を認識

ぱっと見た時に最初に思い付く(一般)名称.

「机」「ライオン」「犬」「自動車」「アザラシ」 ⇒ 形状の類似性

×

「人工物」「動物」「家具」「乗り物」「ぽち」「タマちゃん」

 「人間のような認識」を行うには?

概念「机」 「机モデル」 画像

一般物体認識

特定物体認識

“一般的な”事例から,モデルを学習により構築.

一般物体認識においては学習データ構築も重要.

(16)

The University of Electro-Communications

19

一般画像認識の歴史

70年代 線画解釈.

(画像処理が中心.)

80年代前半 知識ベース型システム.

 人手によるルール記述に一般性がない.知識爆発.

80年代後半 3次元の復元. モデルベースト.

 Identificationのみ.形状既知.実世界でうまくいかない.

90年代 学習による認識.

顔画像や

identification

中心.

 顔画像認識(Eigenface)の成功.固有空間法.

 画像DBにおける画像の意味的分類.

00年代

局所特徴+機械学習 により 大きく進歩

90年代までは,画像認識においてはマイナーな研究分野.

研究者の知識がすべて!

(17)

The University of Electro-Communications Tokyo, JAPAN (UEC)

2000年以降の発展 突然ブレイク!

2000年 Constellation model (確率モデル)

2001年 確率手法による単語と画像の対応付け 2002年 Word-image translation model

2003年 Video Google

(image search by

visual words

)

2004年 Bag-of-keypoints(BoK)+SVM

2004年 Caltech101 (101カテゴリーのデータセット)登場 2005年~ BoK + probabilistic graphical model

(PLSA, LDA, HDP, their modifications)

BoK + SVM with modified kernel

BoK + MRF for semantic region segmentation

2007年 Caltech256 (256カテゴリーのデータセット)登場

20

(18)

2. Bag-of-keypoints アプローチ

【参考文献】

[Low99] Lowe, D.G.: Object recognition from local scale invariant features, Proc. of IEEE International Conference on Computer Vision, pp. 1150–

1157 (1999).

[Siv03] Sivic, J. and Zisserman, A.: Video Google: A Text Retrieval Approach to Object Matching in Videos, Proc. of IEEE International Conference on Computer Vision, pp.1470–1477 (2003).

[Csu04] Csurka, G., Bray, C., Dance, C. and Fan, L. “Visual categorization with bags of keypoints,” in Proc. of ECCV Workshop on Statistical

Learning in Computer Vision, pp. 59–74 (2004).

(19)

The University of Electro-Communications Tokyo, JAPAN (UEC)

 従来の認識: 認識対象の全体を利用

固有空間法,領域分割を用いた方法

オクルージョンや変形に弱い.

 Part-based手法の登場:

複数の部分の組み合わせで認識

 局所パターンの分布に 基づく認識 (bag-of-keypoints)

全体特徴から局所特徴へ

22

frequency

visual words

(20)

The University of Electro-Communications

局所特徴量 による identification

 SIFT [Low99]

回転およびスケール変化に丌変な局所特徴量 ただし,D.Loweが想定したのはidentification

 Video Google [Siv03]

SIFT特徴ベクトルをベクトル量子化し,画像を visual wordsの集合とみなす.

テキスト検索の手法(Google)を 応用し,高速画像検索を実現.

(同一部分の検索)

23

(21)

The University of Electro-Communications Tokyo, JAPAN (UEC)

Bag-of-keypoints [Csu04]:

visual wordの classificationへの適用

 Visual words の集合として画像を表現

Visual words のヒストグラムを画像特徴とする

単語出現頻度によりテキストを表現する方法の

bag-of-wordsの考え方を画像に応用.語順を無 視するのと同様に,位置を無視.

 Bag-of-keypoints によって表現された 特徴ベクトルをNaive Bayes, SVMなどの

機械学習手法で分類.テキスト分類と同じ!

 Bag-of-visual-words (BoVW),

Bag-of-features (BoF) とも言うことがある.

24

(22)

The University of Electro-Communications Tokyo, JAPAN (UEC)

画像を visual word の出現頻度ヒストグラムで表現

1. 各画像について,数千個の特徴点を抽出.

2. SIFT記述子により特徴点周辺パターンを SIFT特徴ベクトルとして抽出.

3. 予め求められた visual words (codebook)に基づいて SIFT特徴ベクトルをベクトル量子化.

4. 画像毎にヒストグラムを作成.

fre quency

visual words

Bag-of-keypointsのアルゴリズム:

bag-of-keypoints表現への変換

SIFT法

(特徴点抽出+記述)

(23)

The University of Electro-Communications Tokyo, JAPAN (UEC)

特徴点のサンプリングの方法

主な3つの方法

 Difference of Gaussian(DoG)

 Random sampling

 Grid sampling

dense sampling と呼ぶ sparse sampling と呼ぶ

SIFT法の方法

カテゴリー分類(classification)においては,

パターンのない部分の情報も重要.

DoG

(sparse)

random

(dense)

grid

(dense)

(24)

The University of Electro-Communications

学習画像(正例,負例)を用意し,SIFT特徴ベクトル を全画像から抽出 (枚数が多い場合は,ランダムサンプリング)

k-means クラスタリングを実行

各クラスタの中心が “visual words”

Visual words の求め方

v i

v i

v i

v i

v i

v i

SIFT vectors

v i

v i

v i v i

“Visual words” は,代表的な 局所パターンに相当する.

(25)

The University of Electro-Communications Tokyo, JAPAN (UEC)

28

Bag-of-keypoints 表現

…..

freque nc y

Visual words (数百~数千個)

Visual wordsの出現頻度(ヒストグラム)

によって画像を表現.

次元は,数百~数千次元.

スパースなベクトルになる.

(26)

The University of Electro-Communications

Bag-of-keypoints表現を用いた 画像認識

 あとは,多次元ベクトルの分類問題

最初の論文[Csu04]では,以下の2つの手法で実験

• SVM (support vector machine)

• Naive Bayes

従来手法の結果を大きく改善

 例:Web画像の分類

10種類のキーワードについて,平均適合率

• 従来手法(領域分割+GMM): 73.5%

• BoK + SVM : 82.4%

30

(27)

3. Bag-of-keypoints の改良

【参考文献】

[Laz06] Lazebnik, S., Schmid, C. and Ponce, J.: Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories, Proc. of IEEE Computer Vision and Pattern

Recognition, pp.2169–2178 (2006).

[Var07] M. Varma and D. Ray. Learning the discriminative power- invariance trade-off. In Proc. of IEEE International Conference on Computer Vision, pp.1150–1157 (2007).

[Rab07] A. Rabinovich, A.Vedaldi, C. Galleguillos, E. Wiewora and S. Belongie: Objects in context, In Proc. of IEEE International

Conference on Computer Vision, pp.1150–1157 (2007).

(28)

The University of Electro-Communications

Bag-of-keypoints の問題点 と 提案された解決法

 ヒストグラムのため位置情報を利用しない

ブロック分割して,サブヒストグラムを作成

Spatial pyramid kernel

 SIFTを利用するので,色情報を利用しない

RGBやHSV, Labなど,3つの色成分ごとに SIFTで特徴抽出(128次元×3)

Color SIFT

色情報や形状情報,テクスチャ情報を統合

重み付き線形和カーネル による統合

 どこに物体があるか分からない.物体検出.

32

(29)

The University of Electro-Communications Tokyo, JAPAN (UEC)

位置情報の導入

Spatial pyramid kernel [Laz06]

BoKをグリッド分割して階層的にlocal BoKを作成

 各レベルごとにヒストグラムインターセクションを求め,

レベルごとに異なる重みで統合.SVMのカーネル関数とする.

l I

I I

I

Y X I Y

X I Y

X k

l

l L

l

l L L

level in

n intersetio Histogram

:

2) L

of case (in

2 1 4

1 4

1

) , 2 (

) 1 , 2 (

) 1 , (

2 1

0

1 0 1

 

 

  

) ,

2

( X Y I

) ,

1

( X Y I

) ,

0

( X Y

I

(30)

The University of Electro-Communications

色情報の利用:Color SIFT

各特徴点についてRGB(HSV, Lab)の

3つのSIFTベクトルを計算し,1つに結合.

34

R

G

B

Color SIFT ベクトル (128*3次元)

v R

v G

v B

v RGB

(31)

The University of Electro-Communications Tokyo, JAPAN (UEC)

他の種類の特徴との統合 [Var07]

 多種類特徴を統合するSVMのカーネル関数

重み付き線形和カーネル関数による,

Bag-of-keypoints, 色,形の統合.

+ 重みの自動推定.

各特徴のカーネルを とすると,

統合カーネルは,

ただし, は最適化問題を解いて求める.

• カーネルの重みを求めるのは,機械学習の研究では 近年よく研究されている.

Caltech-101, 256の分類で,最高の約90%, 約60%を達成

35

) ,..,

1

( k

i i N

d

(linear combination of kernels)

認識精度を上げるには,BoKのみでなく,様々な特徴量を カテゴリーに応じて選択的に利用することが重要.

(32)

The University of Electro-Communications Tokyo, JAPAN (UEC)

[Var07] 特徴重みの推定結果

(1-vs-1の場合)

36

両方とも黄色

色の記述子はいらない しかし形状は有効 重み 形状:3.94

色:0 テクスチャ:0

形状に識別力がない クロッカスは形状のクラス内の

変化が大きい 色は比較的識別力がある

重み 形状:0.42 色:2.46 テクスチャ:0

2つを分ける主な特徴がない 3つの特徴をバランス良く

組み合わせる必要がある 重み 形状:1.48

色:2.00 テクスチャ:1.36

[Var07]より

図を引用

(33)

The University of Electro-Communications Tokyo, JAPAN (UEC)

対象の検出へのBoKの利用:

領域分割との組み合わせ [Rab07]

 領域分割し,領域毎にBoKベクトルを作成,

領域毎に分類.最後に共起関係より修正.

37

[Rab07]

より 図を引用

領域分割は,

Normalized Cuts.

を利用.

共起関係は

確率モデル(

MRF)

によって表現.

(34)

4.確率的テキスト

解析手法の導入

【参考文献】

[Hof99 ] T. Hofmann, Probabilistic Latent Semantic Indexing, Proc.

of ACM SIGIR (1999).

[Ble03] D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation.

Journal of Machine Learning Research, No.3, pp.993–1022, (2003).

[Teh06] Y. Teh, M. Jordan, M. Beal, and D. Blei. Hierarchical

Dirichlet Processes. Journal of the American Statistical Association,

Vol.101, No.476, pp1566-1581 (2006).

(35)

The University of Electro-Communications Tokyo, JAPAN (UEC)

テキスト解析手法の導入

文書:単語の集合 → bag-of-words

画像:VWの集合 → bag-of-visual-words

 Video Google [Siv03]

キーワード検索手法(転置インデックス)の 画像検索への応用

 確率トピックモデルの画像への応用:

元々はテキスト解析用bag-of-wordsを前提とする

PLSA (Probabilistic Latent Analysis)

LDA (Latent Dirichlet Allocation)

HDP (Hierarchical Dirichlet Process)

39

(36)

The University of Electro-Communications Tokyo, JAPAN (UEC)

高次元でスパースなBoK向けの確率的 クラスタリング: PLSA と LDA

テキスト解析向けの確率トピックモデル

 Bag-of-words表現された文書を確率的に トピック分類する

 トピック数は,事前に指定する.K-meansと同じ.

 トピックをz,文書(画像)をdとすると,

各文書について P(z|d) が求まる

Probabilistic Latent Semantic Analysis

 (ヒストグラムは離散なので)混合多項分布によるモデル

 をEMでパラメータ推定

Latent Dirichlet Allocation (判別分析ではありません!)

 PLSAを改良.多項分布の代わりに混合ディリクレ分布.

オーバーフィッティングを解消.

z

d z P z w p d

P d

w

P ( , ) ( ) ( | ) ( | )

(37)

The University of Electro-Communications Tokyo, JAPAN (UEC)

例:

 Mountain 10 topics

P(pos|topic) 0.112 0.661 0.167 0.186 0.407 0.023 0.761 0.334 0.949 0.987 P(Mountain|topic)

正例

負例

GMM

による認識と同じことができる

(38)

. 今後の方向

1.

シーンの階層的理解,コンテキストの利用

2.

言語階層との対応

(39)

The University of Electro-Communications Tokyo, JAPAN (UEC)

コンテキストの利用:

人間は「常識」として持っている知識

共起関係:

共起の強さを確率で表現

階層的認識:シーン認識

+物体認識(+領域分割)

47

キーボード

ディスプレイ

本棚

ライオン 草原

自動車

道路

キーボード

ディスプレイ 本棚

ライオン

草原

自動車

道路

室内 屋外

サバンナ 路上

風景 part-of 関係

(40)

物体

動物 植物 無生物

人工物 脊椎動物 自然物

…..

ほ乳類 鳥類

ライチョウ イノシシ

バク カメラ

どのレベルで認識するか?

言語の階層的分類(タクソノミー)との関係

member-of 関係

(41)

The University of Electro-Communications Tokyo, JAPAN (UEC)

49

解決すべき課題

多種類化 と 認識クラス(カテゴリー)の決め方

 1000種類分類はもうすぐ実現.1万種類も数年先?

 どうやって,有用な1000種類選ぶか?

 Caltech-101は,かなり偏っている.認識し易い.

クラス内変化への対応.

 例えば,バイクは,横や斜め前方から見た場合に対応.

真上,真下は?壊れたバイクは?

どこまで対応すべきか?

 「椅子」は難しい.細分化したサブクラスで認識?

どこまでできれば,実用化できるか?

 機械翻訳の例:翻訳を前提に文章を書けば使える

→認識し易いように撮影すれば,現時点でも実用化可能?

(42)

The University of Electro-Communications

おわり

(43)

The University of Electro-Communications Tokyo, JAPAN (UEC)

パネル(1):

高精度化にむけて何をすべきか

 101, 256種類分類:約90%, 約60%を達成

→ 画像全体を分類する場合は,既にかなりできている.

画像の部分認識(対象物体の検出)はまだまだこれから.

 良質な知識 (学習画像+コンテキスト) を大量に用意

 【自動】テキスト情報を手がかりにWebから収集.

Flickr, Youtubeなどのタグを利用

 【手動】一般ユーザにフィードバックしてもらう.

Gameであつめる

(Human computation by CMU Prof. L.Ahn).

 複数種類の特徴量の組み合わせ

 もちろん,分類アルゴリズムの改良

51

(44)

The University of Electro-Communications

52

多種類化 と 認識カテゴリー の決め方

 何種類認識できればいいのか? 1000種類?

応用次第??

応用を想定しない一般物体認識システムも実現したい!

人間の高次視覚機能の計算機による実現のためには何種類?

 有用な一般認識システムを実現するには,

どのように1000種類選ぶべきか?

クラス内変化への対応.

 例えば,バイクは,横や斜め前方から見た場合に対応.

真上,真下は?壊れたバイクは?

どこまで対応すべきか?

どこまでできれば,実用化できるか?

 機械翻訳の例:翻訳を前提に文章を書けば使える.

→ 認識を前提に撮影すれば,そこそこ使えるのでは?

パネル(2):

未解決問題(1)

(45)

The University of Electro-Communications Tokyo, JAPAN (UEC)

パネル(2):

未解決問題

 コンテキストの利用

共起関係

相対位置関係, 相対スケール,(重力に対する)支持関係

背景と前景の関係

 一般動作・イベント認識

動画像/静止画像からの動詞の認識

シーン認識,物体認識との組み合わせ.

コンテキストの利用.

ライオンが草を食べている.

×

人間が草を食べている.→ ○ 草を刈っている.

53

(46)

The University of Electro-Communications

パネル(3):

一般物体認識のアプリケーション

画像をテキストへ変換する技術と考えると..

 すでにある画像を認識する場合

写真へのキーワード付け,自動整理アルバム

Web画像検索の精度向上,言葉による画像検索

 認識を前提に撮影する場合

撮影条件がよければ,かなり認識可能なので,

現時点の技術で,アイデア次第で実用化可能 !?

カメラ付き携帯による画像による情報入力

画像で調べるWeb検索,百科事典/wikipedia検索

自動ブログ/日記生成,

54

(47)

パネル

おわり

参照

関連したドキュメント

成される観念であり,デカルトは感覚を最初に排除していたために,神の観念が外来的観

2813 論文の潜在意味解析とトピック分析により、 8 つの異なったトピックスが得られ

先に述べたように、このような実体の概念の 捉え方、および物体の持つ第一次性質、第二次

( 同様に、行為者には、一つの生命侵害の認識しか認められないため、一つの故意犯しか認められないことになると思われる。

このため本プランでは、 「明示性・共感性」 「実現性・実効性」 「波及度」の 3

定性分析のみ 1 検体あたり約 3~6 万円 定性及び定量分析 1 検体あたり約 4~10 万円

安全性は日々 向上すべきもの との認識不足 安全性は日々 向上すべきもの との認識不足 安全性は日々 向上すべきもの との認識不足 他社の運転.

 米田陽可里 日本の英語教育改善─よりよい早期英 語教育のために─.  平岡亮人