2画像間の特徴点対応の自動探索

(1)

シーンに関する知識を上手に使う

豊橋技術科学大学岡山大学

金澤靖 / 金谷健一

画像間の特徴点の対応を決定することはコンピュータビジョンにおける基本的な処理である。その基本原理はテンプレートマッチングによる局所相関の探索であるが、それだけでは不十分であり、シーンに関するさまざまな知識を用いなければ正しい対応は得られない。そこで本稿では、画像モザイク生成や画像からの

3

次元復元を想定して、シーンに関する知識を利用した対応づけの手法の例を示す。

◎ はじめに

複数の画像間の特徴点の対応を定めることはコンピュータビジョンの最も基本的な処理の一つである。これは連続ビデオ画像から隣接するフレームごとに対応を追跡する方法と、異なるカメラで撮影した画像間の対応を直接的に探索する方法とがある。本稿では後者を考える。

対応する特徴点の近傍は互いに似ているから、対応づけの基本はテンプレートマッチングによる局所的な相関の探索である。まず

2

つの画像から

Moravec

作用素

[1]

や

Harris

作用素

[2]

などの特徴点抽出フィルタ

[3]

によって特徴点を抽出し、相関の高い

2

点を対応させる。これはビデオ画像における隣接フレームのように、カメラのズームや回転、移動が少ない場合に非常に有効である。

しかし異なるカメラで撮影した画像では、視差のために対応する点の見え方がかなり変わる。特にカメラの回転やズーム変化があると正しい対応の局所的な相関が低下するため、誤まった対応が得られることが多い。そこで、

そのシーンに関する何らかの知識を利用して対応づけの精度を高めることが必要となる。そのような知識を「拘束

条件」と呼ぶ。

このような拘束条件は普通は各カメラのズーム量やカメラ間の相対的な位置関係に依存し、一般にはこれら未知である。したがって、その拘束条件のパラメータと正しい対応とを同時に推定する必要がある。このような問題に対して、RANSAC[4]や最小メジアン法

[5]

と呼ばれるランダム投票がよく用いられる。

これらの方法では、少数の対応候補をランダムに選んで拘束条件のパラメータを計算し、その値の妥当性を残りの対応候補から評価し、これを繰り返す。しかし、これが有効であるためには、選択する対応候補の中に十分な数の正しい対応が存在しなければならない。そのため、対応候補の中にいかにして正しい対応を多数残すかが重要となる。

これに対して、筆者らは次のような考え方を導入した。シーンに関する知識として従来から用いられているのは、カメラの撮像の原理から「必ず成り立つ」事実である（それらは

「幾何学的拘束条件」とも呼ばれる）。

これに対して筆者らは、実際の応用に現れやすいシーンが「ほぼ満たす」と思われる性質をも利用した。これは例

えば、シーンが滑らかである、ある程度以上の奥行き変化がない、などであり、本稿では「柔らかい拘束条件」と呼ぶ。

このような拘束条件は必ずしも満たされるとは限らないので、満たされないからといって排除することはせず、

複数の解の正しらしさの優先順位をつけるために利用する。以下では画像モザイク生成および画像からの

3

次元復元の応用に対して、このような知識の活用によって対応づけの精度が向上することを示す。

◎ テンプレートマッチング

画像

I

の点

p(x, y)

に対応する画像

I

⁰ の点

q(x

⁰

, y

⁰

)

を求めることを考える。対応候補点の近傍の類似度は、次の画素値の差の二乗和で計算できる。

J

SSD

= X

K

i,j=−K

(I (x+i, y+j)−I

⁰

(x

⁰

+i, y

⁰

+j))

²

· · · · (1)

ただし

K

は近傍のサイズである。値

J

_SSDは「残差平方和」と呼ばれ、各画素値が完全に一致したとき

0

となる。したがって、JSSDが最小となる点

(x

⁰

, y

⁰

)

を探せばよい。この他に「正

(2)

2

画像間の特徴点対応の自動探索

第

1

図平面を異なる位置から撮影する

画像

I

レンズ

p

C

第

2

図画像上の点とシーン中の位置との関係

剛体運動相似変換アフィン変換

射影変換

並進

第

3

図射影変換とその部分群

規化相関」も多く用いられる。

候補となる点は、それぞれの画像に特徴抽出オペレータを適用して画像

I

から

M

個、画像

I

⁰から

N

個が得られたとする。このとき、画像

I

の点

p

から見て画像

I

⁰の点

q

との類似度が最大でも、qから見ると

p

との類似度が最大とは限らない。そこで、上記の類似度を

M

行

N

列の表にまとめて、表の中から最も類似度の高いものを選ぶ。そして、その行および列を削除した

M − 1

行

N − 1

列の表の中から同様の操作を繰り返せば、最終的に

min(M, N )

個の対応が決まる。これ

を対応の「1対

1

化」と呼ぶ

[6]。

このように決定した

min(M, N)

個の対応はすべて正しいとは限らない。

誤った対応が含まれていると後のモザイク生成や

3

次元復元に悪影響を与えるので、何らかの拘束条件を用いて誤った対応を取り除く必要がある。

◎ ランダム投票

正しいデータと誤ったデータが混ざり合った中から、正しいデータのみを取り出す代表的な手法に

RANSAC[4]

と最小メジアン法

[5]

がある。これらはいずれも、全データから必要最低限の個数のデータをランダムに選択し、

それから拘束条件のパラメータを計算する。そして、残りのデータからその値の妥当性を評価し、これを十分多数回行って最大の評価を得た値とそれを支持したデータを取り出す。これによって正しいパラメータと正しいデー

タの両方が同時に推定できる。

RANSAC

と最小メジアン法の違い

は、パラメータの妥当性の評価法の違いである。RANSACでは計算した値に対するデータの満足度にしきい値を設けて、そのしきい値内のデータの個数で評価するのに対し、最小メジアン法では求めた値に対する満足度の全データに対するメジアン（中央値）で評価する。

これらを

2

画像間の対応づけに適用するには、対応する点の満足すべき条件が必要である。以下にこれを解説する。

平面シーン

同じ平面を写した２画像

I、I

⁰ に対して画像

I

の点

p(x, y)

が画像

I

⁰ の点

q(x

⁰

, y

⁰

)

に対応するとき、関係

x

⁰

= Ax + By + C P x + Qy + R y

⁰

= Dx + Ey + F

P x + Qy + R · · · · (2)

が成り立つ。これは「射影変換」と呼ばれ（第

1

図）、シーンが十分な遠方にある場合にも成立する

[7, 8]。

式

(2)

の分母を払って整理すれば

P xx

⁰

+Qyx

⁰

+ Rx

⁰

− Ax− By = C P xy

⁰

+ Qyy

⁰

+Ry

⁰

− Dx − Ey = F · · · (3)

と書ける。9個の係数

A ∼ R

に

0

でない任意の数を掛けても式

(2)

は成り立つから、射影変換を定めるには係数間の比のみを求めればよい。

1

組の対応から

2

つの式が得られる

から、

4

組の対応があれば係数間の比が定まる。したがって、

1

対

1

化した対応候補から

4

組をランダムに選んでは係数

A ∼ R

を計算し、残りの対応がどの程度よく式

(2)

を満たすか（すなわち、存在すべき位置からどの程度ずれているか）を評価し、これを繰り返す。

一般のシーン

画像

I

上の点

p

に対応するシーン中の点は、点

p

とカメラのレンズ中心

C

を結ぶ直線上にある（第

2

図）。したがって、p(x, y)に対応する画像

I

⁰上の点

q(x

⁰

, y

⁰

)

はシーン中の直線

Cp

を画像

I

⁰に投影して得られる直線（これを「エピ極線」と呼ぶ）の上にある。

同じ関係が画像

I

上でも成り立つ。この関係は次のように表せる

[7, 9, 10]。

f

0

xx

⁰

+f

1

xy

⁰

+f

2

x+f

3

x

⁰

y+f

4

yy

⁰

+f

5

y+f

6

x

⁰

+f

7

y

⁰

+f

8

= 0 · · (4)

係数

f

0

∼ f

8は２台のカメラの配置と各々のズーム量から決まる値である。

a

⁰

= f

0

x + f

3

y + f

6

b

⁰

= f

1

x + f

4

y + f

7

c

⁰

= f

2

x + f

5

y + f

8

· · · · (5)

とおくと、式

(4)

から画像

I

⁰上のエピ極線の方程式が次のように得られる。

a

⁰

x

⁰

+ b

⁰

y

⁰

+ c

⁰

= 0 · · · · (6)

同様に、

a = f

0

x

⁰

+ f

1

y

⁰

+ f

2

b = f

3

x

⁰

+ f

4

y

⁰

+ f

5

c = f

6

x

⁰

+ f

7

y

⁰

+ f

8

· · · · (7)

画像ラボ

2004.11

21

(3)

(e) (f) (g) (h)

第

4

図段階的マッチングによる画像モザイク生成。

(a)

入力画像と抽出した特徴点。

(b)

テンプレートマッチングによる初期対応。

(c)

並進を当てはめて得られる対応。

(d)

相似変換を当てはめて得られる対応。

(e)

アフィン変換を当てはめて得られる対応。

(f )

射影変換を当てはめて得られる対応。

(g)

その対応から生成したパノラマ画像。

(h)

初期対応に射影変換を当てはめて得られる対応。

とおくと、式

(4)

から画像

I

上のエピ極線の方程式が次のように得られる。

ax + by + c = 0 · · · · (8)

したがって、係数

f

0

∼ f

8が分かれば、画像

I

中の点

p(x, y)

に対応する点は画像

I

⁰ 中のエピ極線

(6)

上に限定され、画像

I

⁰中の点

q(x

⁰

, y

⁰

)

に対応する点は画像

I

中のエピ極線

(8)

上に限定される。この事実を「エピ極線拘束条件」と呼ぶ

[7, 9, 10]。

9

個の係数

f

0

∼ f

8に

0

でない任意のを掛けても式

(4)

は成り立つので、

係数間の比のみを求めればよい。

1

組の対応から

1

つの式が得られるから、8組の対応があれば係数間の比が定める。したがって、1対

1

化した対応候補から

8

組をランダムに選んでは式

(4)

を満す係数

f

0

∼ f

8を計算し、残りの対応がどの程度よく式

(4)

を満すか（すなわち、通るべきエピ極線からどの程度離れているか）を評価し、これを繰り返す。

◎ 柔らかい拘束条件

ランダム投票が有効であるためには、その前段階のテンプレートマッチ

ングで得られる対応候補ができるだけ正しい必要がある。カメラがズームを変えずにわずかに平行移動する場合にはテンプレートマッチングは極めて有効であるが、ズームが変化したり、撮影位置が大きく異なると、テンプレートマッチングで得られる対応のほとんどが誤りとなることもある。

そこで、正しい対応が「ほぼ」満足すると思われる「柔らかい」拘束条件を導入する（これに対して式

(2), (4)

のように厳密に満足する条件を「硬い」拘束条件と呼ぶ）[11]。以下、これを画像モザイク生成および画像からの

3

次元復元に適用した例を示す。

モザイク画像生成

カメラをシーン内の平面に平行に移動すると、画像は単に「並進」する。

同時にカメラを光軸の周りに回転させると画像は「剛体運動」する。さらにズームも変えれば画像の変換は「相似変換」となり、傾いた面に対してカメラを横に移動すると「アフィン変換」

となる。これらはすべて式

(2)

の射影変換の「部分群」であり、第

3

図の階層性を持つ

[8]。

そこで、テンプレートマッチングで

得られた対応にいきなり式

(2)

の射影変換を当てはめるのではなく、下位の変換から順に当てはめる。まず、画像の変換をおおざっぱに並進とみなしてその大きさを計算する。そして、それにおおよそ合う対応に相似変換を当てはめる。次に、その相似変換におおよそ合う対応にアフィン変換を当てはめる。最後に、それにおおよそ合う対応に射影変換を当てはめ、これによく合う対応を選ぶ。このような「段階的なマッチング」によって高精度な対応付けが可能となる

[12]。

この方法を用いた画像モザイク生成の例を第

4

図に示す。

2

画像間の対応は対応位置を線分で結んだ「オプティカルフロー」で示している。変換が詳細になるにつれて、正しい対応が増えていることがわかる。同図

(h)

は初期のテンプレートマッチングの結果から直接に投票を行って得られる対応であり、かなりの誤対応が残っている。

画像からの

3

次元復元

平面でないシーンでは前節のような変換の階層性が使えない。しかし、

シーンの

3

次元形状が極端に変則でない限り、各対応を結んだ「オプティ

(4)

2

画像間の特徴点対応の自動探索

(a) (b) (c)

(d) (e) (f) (g)

第

5

図柔らかい拘束条件を用いた一般シーンの対応づけ。

(a)

入力画像と抽出した特徴点。

(b)

テンプレートマッチングによる初期対応。

(c)

空間相関を考慮して得られる対応。

(d)

さらに大域的整合性を考慮して得られる対応。

(e)

さらに

RANSAC

を行って得られる対応。

(f )

その対応から復元した

3

次元形状

(

上から見た図

)

。

(g)

初期対応から直接に

RANSAC

で推定した対応。

カルフロー」の方向と大きさはある狭い範囲に分布していると考えられる。

これを「空間相関条件」と呼ぶ。

さらに、シーンの多くの部分がほぼ平面的にあるか、あるいはかなり遠方にあると仮定すれば、画像間の変換はおおまかには射影変換で近似できる。

これを「大域的整合条件」と呼ぶ。

テンプレートマッチングによる類似度と共にこれらの条件の充足度を比較して優先順位をつけることによって、

より多くの正しい対応を得ることができる

[11]。

この方法を画像からの

3

次元復元に適用した例を第

5

図に示す。条件を順に課すことにより、対応の精度が向上していることがわかる。同図

(g)

は、

初期のテンプレートマッチングの結果から直接に投票を行って得られた対応であり、得られる対応数が少ないだけでなく、かなりの誤対応が残っている。

◎ おわりに

本稿では、2画像間の点対応を決定するための手法を紹介した。その基本原理はテンプレートマッチングによる局所相関の探索であるが、それだけでは不十分であり、シーンに関するさま

ざまな知識を用いることによって対応探索の精度が向上することを示した。

参考文献

[1] H.P. Moravec, “Towards automatic vi- sual obstacle avoidance,” Int. Joint Conf. Art. Intell., Cambridge, MA, USA, p.584, August 1977.

[2] C. Harris and M. Stephens, “A combined corner and edge detector,” Proc. 4th Alvey Vision Conf., pp.147–151, Manch- ester, U.K., August 1988.

[3] 金澤靖,金谷健一,コンピュータビジョンのための画像の特徴点抽出,電子情報通信学会誌, vol.

87, no. 12, pp.1043–1048, Dec. 2004.

[4] M. A. Fischler and R. C. Bolles, “Ran- dom sample consensus: A paradigm for model fitting with applications to image analysis and automated cartography,”

Commun. ACM, no.24, vol.6, pp.381–

395, June 1981.

[5] P.J. Rousseeuw and A.M. Leroy, Robust Regression and Outlier Detection, Wiley, New York, U.S.A., 1987.

[6] 金谷健一, 金澤靖, “テンプレートマッチングによる対応探索の自動しきい値設定法,”電子情報通信学会論文誌(A), vol.J86-A, no.12, pp.1502–1509, Dec. 2003.

[7] R. Hartley and A. Zisserman, Multiple View Geometry, Cambridge University Press, Cambridge, U.K., 2000.

[8] 金谷健一,形状ＣＡＤと図形の数学,共立出版, 1998.

[9] 金谷健一,画像理解—３次元認識の数理—,森北出版, 1990.

[10] 金谷健一,空間データの数理—３次元コンピューティングに向けて—,朝倉書店, 1995.

[11] 金澤靖,金谷健一, “大域的な整合性を保証するロバストな画像の対応づけ,”情報処理学会論文誌: CVIM, vol. 44, no. Sig 17 (CVIM8), pp.70–77, Dec. 2003.

[12] 金澤靖, 金谷健一, “段階的マッチングによる画像モザイク生成,”電子情報通信学会論文誌 (D-II), vol. J86-D-II, no.6, pp. 816–824, June 2003.

【筆者紹介】

金澤靖

（昭和

37

年

11

月

23

日生・

群馬県出身

)

豊橋技術科学大学知識情報工学系

〒

441-8580

豊橋市天伯町雲雀ヶ丘

1–1

TEL: 0532-44-6888

FAX: 0532-44-6873

E-mail: [email protected]

〈主なる業務歴及び資格〉

1985

年豊橋技術科学大学工学部情報工学課程卒業。

1987

年同大大学院修士課程修了。富士電機

(

株

)

、群馬高専講師を経て、現在、豊橋技科大知識情報工学系助教授。博士（工学）。画像処理、コンピュータビジョンの研究に従事。

金谷健一

（昭和

22

年

8

月

12

日生・

岡山県出身

)

岡山大学工学部情報工学科

〒

700-8530

岡山市津島中

3–1–1

TEL: 086-251-8173

FAX: 086-251-8173

E-mail: [email protected]

u.ac.jp

〈主なる業務歴及び資格〉

1972

年東京大学工学部計数工学科

（数理工学）卒業。

1979

年同大大学院博士課程修了。工学博士。群馬大学工学部情報工学科教授を経て、現在、岡山大学工学部情報工学科教授。

IEEE

フェロー。

画像ラボ

2004.11

23

(5)

テンプレートマッチング

探そうとする画像の部分パタンをテンプレートと呼び、これを画像に重ねて移動しながら比較し、最も類似した部分をみつけること。

Keyword

画像モザイク生成

写っているシーンに重複のある複数の画像を重なりに不連続がないように変形して張り合わせ、大きな視野の画像（パノラマ画像と呼ぶ）を作ること。

オプティカルフロー

動画像上の各点の各瞬間の動きの速度場。

2画像間の特徴点対応の自動探索

シーンに関する知識を上手に使う

豊橋技術科学大学 岡山大学

金澤 靖 / 金谷 健一

◎ はじめに

Moravec

によって特徴点を抽出し、相関の高い

これに対して筆者らは、実際の応用に 現れやすいシーンが「ほぼ満たす」と 思われる性質をも利用した。これは例

◎ テンプレートマッチング

画像

0

候補となる点は、それぞれの画像に 特徴抽出オペレータを適用して画像

min(M, N )

を対応の「1対

min(M, N)

誤った対応が含まれていると後のモザ イク生成や

◎ ランダム投票

正しいデータと誤ったデータが混ざ り合った中から、正しいデータのみを 取り出す代表的な手法に

RANSAC[4]

と最小メジアン法

RANSAC

0

画像ラボ

0

◎ 柔らかい拘束条件

ランダム投票が有効であるために は、その前段階のテンプレートマッチ

モザイク画像生成

そこで、テンプレートマッチングで

平面でないシーンでは前節のよう な変換の階層性が使えない。しかし、

RANSAC

カルフロー」の方向と大きさはある狭 い範囲に分布していると考えられる。

より多くの正しい対応を得ることがで きる

◎ おわりに

本稿では、2画像間の点対応を決定 するための手法を紹介した。その基本 原理はテンプレートマッチングによる 局所相関の探索であるが、それだけで は不十分であり、シーンに関するさま

【筆者紹介】

E-mail: [email protected]

金谷健一

E-mail: [email protected]

画像ラボ

Keyword

豊橋技術科学大学岡山大学

金澤靖 / 金谷健一

これに対して筆者らは、実際の応用に現れやすいシーンが「ほぼ満たす」と思われる性質をも利用した。これは例

候補となる点は、それぞれの画像に特徴抽出オペレータを適用して画像

誤った対応が含まれていると後のモザイク生成や

正しいデータと誤ったデータが混ざり合った中から、正しいデータのみを取り出す代表的な手法に

ランダム投票が有効であるためには、その前段階のテンプレートマッチ

平面でないシーンでは前節のような変換の階層性が使えない。しかし、

カルフロー」の方向と大きさはある狭い範囲に分布していると考えられる。

より多くの正しい対応を得ることができる

本稿では、2画像間の点対応を決定するための手法を紹介した。その基本原理はテンプレートマッチングによる局所相関の探索であるが、それだけでは不十分であり、シーンに関するさま