サブピクセル物体検出とベンチマーク

(1)

サブピクセル物体検出とベンチマーク

上瀧剛

^†^a)

井尻善久

^††^b)

Sub-Pixel Object Detection and Benchmark Gou KOUTAKI

^†a)

and Yoshihisa IJIRI

^††b)

あらまし物体検出は，画像処理の基礎技術の一つである．物体検出の性能は処理時間と検出率・位置精度で記述することができる．処理時間と検出率を追求した物体検出に関する文献は非常に多い．一方，位置精度を追求した文献も増えつつあるが，実応用上の重要性に比べ，学術界における注目度は低いように思われる．本解説論文においては，実応用上の重要性を述べるとともに，既存研究を総括し，幾つかの手法に対するベンチマーク評価を行った後に，今後の展望についても触れる．

キーワードサブピクセル，物体検出

1.

^{まえがき}

人のみならずある多くの生物にとって，何らかの視覚情報により対象を見つけ，掴んだり，投げたり，回避したりすることは，生を営む上若しくは生を楽しむ上で欠かせない．人や多くの生物が，この技を日々使い続けることからわかるように，これらを模する画像処理においても最も基本的な技術の一つである．人がいとも簡単かつ正確に対象物を見つけることを考えたとき，対象を高速・正確に見つけ，対象位置を正確に推定することは欠かせない．また，近代では人にとって代わる自動生産が進んで来ているため，部品を認識したりその位置を正確に推定したりするのは，重要な技術である．このため学術分野においても，物体検出技術は盛んに研究がなされてきた．

一方，位置的精度を追求する試みに関しては，検出そのものに比べて事例が少なく，

2.

^{で詳述するよう} に，特にものづくりにおいて継続的な精度向上要求が

†熊本大学大学院先導機構，熊本市

Priority Organization for Innovation and Excellence, Ku- mamoto University, 2–39–1 Kurokami, Kumamoto-shi, 860–

8555 Japan

††オムロン株式会社インダストリアルオートメーションビジネスカンパニー，木津川市

Industrial Automation Business Company, OMRON Corpo- ration, 9–1 Kizugawadai, Kizugawa-shi, 619–0283 Japan a) E-mail: [email protected]

b) E-mail: [email protected] DOI:10.14923/transinfj.2014JDS0001

ある．このため，本論文では特に高精度な位置推定を可能とする物体検出技術に関する既存研究を総括する．

本論文における物体検出は，

(1)

入力された画像内に，注目対象が含まれているかどうかを判定し，

(2)

もし存在するならばその位置・姿勢を推定することと定義できる．

物体検出技術は，

(i)

注目対象の定義：ユーザによる指定（テンプレート画像の指定），若しくは事前の学習により定義，

(ii)

対象の検出：対象の有無の推定及びピクセル精度の位置推定，

(iii)

高精度位置推定：サブピクセル精度での位置・姿勢推定，に機能的に分類される．

(i)

注目対象の定義について以下に述べる．注目対象が，ユーザにより定義される任意の対象である際には，ユーザ登録・指定と呼ばれる．多くの場合，ユーザの負担低減の観点から対象が含まれた

1

枚若しくは複数枚の画像上でユーザが所望の対象の存在する領域を登録することにより行われる．したがって，テンプレート照合（

Template Matching

）と呼ばれる，ユーザが登録した対象領域を，そのまま用いて，同様の事例を，検出対象から見つける手法と密接な関係がある．

複数の登録画像が存在する場合には，事例ベース照合

（

Exemplar-based Matching

）や最近傍探索（

Nearset Neighbor Search

）とも密接な関係がある．

一方，注目対象の種類が少なく，なおかつ画像サンプルが大量に取得できる場合には，それらの事例を元に帰納しようとする学習手法が利用でき，これらの技

(2)

術的な側面に重きを置いて，対象の学習という呼ばれる場合もある．これらは，顔や車，文字等の検出において一般的である．

なお，ユーザ定義の任意の対象の検出手法を一般物体検出（

Generic Object Detection

）と呼び，これに対しあらかじめ決めた特定の物体の検出を特定物体検出（

Speciﬁc Object Detection

）と呼ぶ場合もある．

(ii)

対象の検出に関しては非常に多くの手法が提案されており，一般物体検出，特定物体検出双方に関し，

実用的な研究事例が豊富である．これらについては，

多くのサーベイ論文で取り上げられている

[1]

．特に特徴量の選択は対象のどのような情報に基づいて照合を行うかを決定付けるため重要であり，多くの研究事例がある

[2]

〜

[4]

．

対象の存在有無を判定し，おおよその位置を推定する技術の総括に関しては，上記に参考文献として列挙したサーベイ論文に譲ることとし，本論文では高精度な対象位置の推定技術のみを論じる．

本論文における，

(iii)

高精度な位置推定（いわゆる位置決め（

Alignment

））は，サブピクセルオーダー精度での対象の位置推定である．これを本論文ではサブピクセル物体検出と呼ぶ．類似の問題として画像レジストレーションがあり，サブピクセル精度での位置決めを行う点では共通している．しかしながら，画像レジストレーションは画像全体の位置合わせであるのに対して，サブピクセル物体検出は，多くの場合画像の中の一部を占める対象領域のみに基づき，特定の興味のある対象のみをサブピクセルレベルで位置推定する問題であり，この点で問題設定が異なっている．したがって，背景が変化したり，位置合わせに用いることができる領域が小さかったりといった問題が生じることもしばしばである．また，本技術は画像のスティッチングとも共通点がある．画像のスティッチングも複数画像間で共通する一部の部分に基づき，それらの相対関係をサブピクセルレベルで推定する．しかしながら，サブピクセル物体検出は一枚の画像内に存在する興味のある対象の位置をサブピクセルレベルで推定する技術であり，やはり問題設定が異なる．ただし，異なるアプリケーションでありながらも，共通点がある限り，手法としては共通する部分も少なからずあり，

双方の分野を概観することは有用である．

更に，サブピクセル物体検出は，姿勢推定と密接な関係にある．位置決めで必要とされるのが，テンプレート画像が位置推定すべき対象に対する相対的平行

移動と回転角度である場合には，並進

–

回転モデルに基づく姿勢推定問題を考えればよい．これを拡張していくと，やがて射影変換を考慮することになり，三次元の姿勢推定や，ホモグラフィの推定問題に帰着する．

更にモデルの自由度を上げると，非線形な歪の推定の概念に行き着くが，ここまで来ると，位置推定の概念が崩れ，局所的な変形探索問題となる．本論文におけるサブピクセル物体検出問題は，テンプレート画像との位置ずれ推定技術すなわち平面内の位置及び回転パラメータ推定問題とする．更に，入力は二次元に限定し，三次元上での位置・姿勢推定技術は本論文では扱わない．

2.

に詳述するが，サブピクセル物体検出は，産業上非常に興味深い技術である．応用が期待される市場規模は，

2012

年現在で年間

3000

億円市場であり

2016

年には

4000

億円規模になると予測されており

[5]

，画像認識技術の中でも最も経済効果が大きい技術に含まれる^（注¹^）．微細基板形成技術が必要となる，フラットパネル産業（

FPD

），太陽電池産業（

PV; Photo Voltaic

）を含む半導体産業ほぼ全般において，パネル張り合わせやマスクパターンと基板の位置合わせが重要であることから，近年の重要産業を支える技術となっている．また，拡張現実感（

AR; Augmented Reality

）等では，現実世界の対象物体に何らかの重畳表示を行うが，その際に視覚的違和感がなく，安定した表示を行うためには対象の位置・姿勢推定が重要である．サブピクセル物体検出はこのように，新たな産業への橋渡しともなる重要な技術である．

本論文においては，このように近年の成長産業を支える画像認識技術であるサブピクセル物体検出技術に関し，アプリケーションの整理を行うとともに，近年の技術の進展を振り返り，評価方法等についても論じる．前述のとおり，大きな市場要求があるサブピクセル物体検出であるが，研究分野においてはそれほど高い注目を浴びているわけではない．したがって，本論文のもう一つの目的は，本技術についての興味を集め，

今後の技術の発展を促進することである．なお，本論文は文献

[6]

に対して，サブピクセル物体検出の既存の商用システムを含むベンチマーク評価実験を追加し

（注1）：マシンビジョン全体の市場規模であり，その全てでサブピクセル物体検出が必要なわけではないが，物体検出技術は，定量的な根拠はないものの筆者らの経験・感覚によれば，70%程度のアプリケーションで必須の機能である．また，そのうち半分程度のアプリケーションにおいてサブピクセルレベルでの位置推定精度が要求される．

(3)

た点が特徴である．

本論文の以降の構成は次のとおりである．まず，サブピクセル物体検出の応用分野について，

2.

^で振り返る．

3.

では，サブピクセル物体検出の幾つかのパラダイムについて述べ，それぞれについてサーベイを行う．

4.

では，サブピクセル物体検出技術の評価方法について述べる．

4. 4

では代表的なサブピクセル物体検出手法のベンチマーク結果を紹介する．次いで

5.

^では，

総括した各手法を俯瞰し，現在の課題を整理する．最後に

6.

で結論を述べる．

2.

サブピクセル物体検出のアプリケーション

1.

で簡単に述べたとおり，サブピクセル物体検出のアプリケーションは，大規模集積回路（

LSI

）製造，フラットパネルディスプレイ（

FPD

），太陽電池製造を含む，全半導体産業にわたって重要な基盤技術である．

様々な工程で，露光装置（ステッパ，接触

/

近接露光装置），薄膜形成装置（スパッタ，蒸着装置），基板張り合わせ装置等が利用される．これらの装置においては，

マスクパターンと基板の位置を精密に合わせたり，複数の基板を張り合わせたりすることが重要となり，ほとんどの場合，ミクロン

–

サブミクロン精度が求められる．このため，位置決め用のアラインメントマークと呼ばれる簡単なマークが用いられ，複数の対象部品（マスク）に印字されたそれぞれのアラインメントマークの中心位置が既定の位置にくるようにステージ制御することが必要となる．

LSI

製造装置に対してはシリコンウェーハを搬入する際にはアライナと呼ばれる専用の位置決め装置が利用されるが，半導体ウェーハサイズが

300mm

から

450mm

に大口径化する方向で動いており

[7]

，それに際してノッチによる位置決めから，位置決めパターンによる位置決めを行う方式に変化しようとしており，将来的にも応用要請に事欠かない^（注2）．

他の応用例としては，表面実装技術（

Surface Mount Technology

）がある．電子回路に，クリームハンダを印刷し，チップ部品を実装し（チップマウンタ），半田をとかし（リフロー），検査をする工程で，基板を精度よく位置決めしなければ歩留りが悪くなる．

上記の位置決めは，平面内の位置決めであるが，三次元的な位置決めが重要となるアプリケーションも多

（注2）：大口径化するにつれ，ノッチ部からの亀裂の可能性が高くなり，

それを避けるため．

く存在する．多軸ロボットにおいて，組付け（

Fixture

）を行う際には，対象の位置・姿勢を推定し，対象に近づき把持し，更にそれを組付け先と自己の相対位置・

姿勢を推定して，組み付け先に正しく近づき，組付けるということが重要となる．

こうした位置決めにおいては，技術的課題も多い．

対象部品は透明であり透明部を透過して複数のマークを撮影しなければならず，必ずしも鮮明な画像を取得できない場合も多い．対象となるパターンは場合によっては，透明な基板上に透明な皮膜で形成されることもある．このような場合には，特殊な照明を照射し，

わずかに浮き出たパターンを元に処理しなければならない．透明なパターンでなくとも，コントラスが非常に低いことも多い．また，テレセントリックレンズを用いて解像感の高い取り込みをするためには

NA

値の高いレンズを選ばなければならず，被写界深度はしばしば

1mm

以下である中で，高さが異なるマーク位置を推定しようとすることから，一方若しくは両方の対象がぼけていることも多い．更に，表面実装においては，同種の対象が多く存在するため，ともすれば周辺パターンの影響により，容易に位置推定精度が低下する．このように，従来のマシンビジョンが高画質のカメラと安定した照明が用意された条件で実施されるのに対し，近年のこうした技術的要請により，非常に厳しい条件で利用されることが多い．

一方，

AR

応用においては対象の三次元的位置・姿勢推定が重要となるが，実用的にはリアルタイムに高精度な位置・姿勢推定を行うことが求められる．また，

位置・姿勢推定の繰り返し精度も非常に重要である．

もし，繰り返し精度が低いならば，重畳された表示は安定せず，ユーザビリティを損なうことになる．したがって，精度及び安定性及び高速性を同時に満たすことが重要となる．

3.

サブピクセル物体検出技術

本章では，既存のサブピクセル物体検出を振り返り，

各手法の利点や課題，特徴等を論じる．

3. 1

サブピクセル物体検出技術のパラダイム画像による位置決めの観点から技術を歴史的に俯瞰する．ブロブ検出で検出した

2

値領域の重心をサブピクセル単位で求める手法は古くから用いられていた．

現在でもこうした手法は用いられており，カメラキャリブレーションでの円形マーカーの中心位置検出

[8]

や

MSER

（

Maximally Stable Extremal Regions

）等の

(4)

キーポイント検出に使われる

[9]

．

並行して，相関値のピークを多項式で当てはめてサブピクセル精度の位置を求める方法は

1980

年代に既に行われていた

[10]

．また同時期に，

Lucas-Kanade

法等の反復演算による輝度の誤差最小化法が使われるようになった

[11]

．

1990

年代に入って，繰り返し最近接点（

ICP; Iter- ative Closest Points

）アルゴリズムが考案されて，特徴点マッチングを反復的に行うことでロバストかつ高い精度を位置合わせを行う方法が考案された

[12], [13]

．また，

MPEG

等の動画圧縮のフレーム間予測には半画素レベルの位置合わせが採用された

[14]

．

2000

年に入ってスケール不変特徴変換（

SIFT; Scale Invariant Transform

）等のキーポイントベースの物体検出が普及した

[2], [3], [15]

．キーポイントのサブピクセル位置は微分強度の多項式による当てはめが用いられ，

RANSAC

（

RANdom SAmpling Concensus

）等の姿勢推定法によってロバストかつ高いサブピクセル精度での位置合わせが可能となった．

また，異なるアプローチとして，サブピクセル精度をもつラインあるいはエッジ輪郭検出器が考案され

[16]

，

HALCON

等の市販ソフトで普及した．相関値のピーク当てはめの際のピクセルロッキング現象の解析が進みエラーキャンセル法が考案された

[17]

〜

[20]

．

更に，周波数空間上でのマッチングである位相限定相関法が考案され，位相限定関数モデルの当てはめによって高いサブピクセル精度での位置合わせが可能となった

[21]

〜

[23]

．このように，位置決めという観点から見れば，サブピクセル精度でのエッジ点位置計測等，

様々な技術も含む．しかし本論文では，複数のエッジから成り立つより複雑なパターンの位置を，サブピクセル精度で計測することに絞り議論していく．

サブピクセル位置推定方法は大まかに以下の方法が知られている．

a )

入力画像を補間により高解像度化した後に検出を行う方法

b )

相関値を多項式やモデル関数に当てはめる方法

（相関値ピーク検出）

c )

オプティカルフロー等の誤差最小化を用いる方法

d )

学習に基づく手法

a )

の方法は素直な方法であるが，画像サイズが大きくなることで検出の計算コストが大きくなることから，

実際に用いられることは少ないようである^（注³^）．また，

d )

は，対象が固定的である場合に，あらかじめ予測される変動パターンと変動パラメータの対を学習しておく方法であるが，学習にはある程度時間がかかり，現場で必要とされる対象を即座に登録するのが困難であることから，顔等を除き，実際にはあまり利用されておらず，文献もそれほどない．そこで次節より

b )

及び

c )

の方法について述べる．

3. 2

相関値ピーク検出

相関値ピーク検出とは，入力画像とテンプレート画像との一致度評価値を求めておき，複数位置での一致度評価値から補間推定あるいはモデル関数当てはめによってサブピクセルのピーク位置を求める方法である．

相関値ピーク検出では，画像空間で行うものと周波数空間で行うものが存在する．

代表的な一致度評価の計算として，正規化相互相関法（

NCC; Normalized Cross Correlation

）

[24]

や，

輝度差の総和（

SAD; Sum of Absolute Diﬀerence

），

輝度差の

2

乗和（

SSD; Sum of Squared Diﬀerence

）がある

[4], [19]

．他の尺度として，画像エッジの方向差を評価する方向符号照合（

OCM; Orientation Code Matching

）

[25]

，エッジの方向ヒストグラムの類似性を評価する

HOG

（

Histogram of Oriented Gradi- ent

）

[26]

，エッジ方向差をバイナリコード化して評価する

DOT

（

Dominant Orientation Templates

）

[27]

等が知られている．

一致度評価値の計算には，入力画像に対してテンプレートをずらしながら照合を行ういわゆるテンプレートマッチングがよく用いられる．ここで，一致度評価値が相互相関といった線形フィルタを用いて計算できる場合は高速フーリエ変換（

FFT; Fast Fourier

Transform

）を用いた周波数空間上の演算で高速に求

めることができる

[4]

．

3. 2. 1

画像空間における相関ピーク検出

NCC

等の方法で，一致度評価値が最大となる位置

（あるいは局所的に極大となる位置）を画素単位で求めた後に，その周辺の位置での一致度評価値からサブピクセル位置を推定する方法である．

よく知られる尺度として，一次ないし二次の多項式で相関値を当てはめて，ピーク位置を求める方法がある

[10], [19]

．他にもガウス関数やラグランジュ関数に

（注3）：最近の事例として，Open SIFT Libraryでは，入力画像サイズを2倍にして処理を行うオプションがある．

(5)

当てはめる方法もあるが

[28]

〜

[30]

，動画のフレーム間予測に使われるものの，物体検出ではあまり使われていないようである．

当てはめの際には，

X

座標及び

Y

座標をそれぞれ独立に当てはめる方法

[19], [31]

や，

XY

座標空間上で曲面に当てはめる方法が知られる

[32], [33]

．

a )

等角直線フィッティング

図

1 (a)

に示すように，最大一致度評価値

f (0)

とその両隣の画素での評価値

f ( − 1)

及び

f (1)

に対して，

2

本の直線を引き，その交差位置をサブピクセル検出結果とする方法である

[30], [31]

．

f (−1)

，

f (0)

及び

f (1)

，

f (0)

を通る

2

本の直線のうち，傾きが大きな直線を選択し，選択した直線を反転させて交点位置を求める．具体的には次式で与えられる．

x

sub

=

⎧ ⎪

⎪ ⎨

⎪ ⎪

⎩

f ( − 1) − f (1)

2 f ( − 1) − 2 f (0) , f (−1) ≥ f (1)

− f (1) − f ( − 1)

2 f (1) − 2 f (0) , f ( − 1) < f (1)

等角直線フィッティングは一次の当てはめであり，同じく一次の一致度評価値である

SAD

との相性が良いとされる

[19]

．

b )

パラボラフィッティング

図

1 (b)

に示すように，

3

点の一致度評価値に対し

て二次曲線を当てはめる方法である

[19], [31]

．二次曲線を当てはめた後に，微分値がゼロとなる位置が求めるサブピクセル位置となり，次式で与えられる．

図1 当てはめ関数 Fig. 1 Fitting functions.

x

sub

= − f (1) − f ( − 1) 2 f ( − 1) − 4 f (0) + 2 f (1)

パラボラフィッティングは二次の一致度評価である

SSD

との相性が良いとされる

[19]

．

c )

多パラメータ同時推定

前述の方法は

1

パラメータの推定方法であった．実際の物体検出では

X

，

Y

及び回転角・スケール等の多パラメータの姿勢推定が必要となるケースが多い

[34]

．

多パラメータ推定の簡単な方法として，それぞれのパラメータを独立に推定する方法があるが，各パラメータに相関がある場合は精度が悪くなることが知られている

[33], [35]

．

そこで一致度評価値を二次曲面（

XY

の

2

パラメータ）や二次超曲面（

XY θ

の

3

パラメータ等）に当てはめてピーク位置を求める方法が知られている

[34]

．この場合，最小

2

乗法により当てはめ係数を求めることとなり，行列の形の正規方程式を解くこととなる．

別の多パラメータ推定方法として，清水らは注目画素の近傍

3

点でそれぞれ独立に推定した各パラメータ値を直線で当てはめ，これらの直線の交点を推定結果とするサブピクセル同時推定法を提案している

[33]

．更に波部らは，直線に当てはめる際の近傍点を選択することで精度の改善を図っている

[35]

．

d )

その他のモデル関数当てはめ

前述の多項式以外にもガウス関数やラグランジュ関数に当てはめてピークを推定する手法がある

[28]

〜

[30]

．ガウス関数は次式で定義される（図

1 (c)

）．

G ( x ) = s exp

− ( x − x

sub

)

²

2 σ

²

ガウス関数で当てはめを行う場合は，一致度評価値の対数を取った後に二次多項式で当てはめる．そして求まった係数から次式によりサブピクセル位置が求まる

[29]

．

x

sub

= log( f (1)) − log( f ( − 1)) 2 log( f (−1)) − 4 log( f (0)) + 2 log( f (1))

実際には一致度評価値にオフセットが乗るため，上記にオフセットを加えたモデル（図

1 (d)

）もあるが，この場合は非線形最適化問題を反復的に解かなければならない

[30]

．

文献

[30]

では二次のラングランジュ当てはめを提案している．式が煩雑なので省略するが，最小

2

乗法に

(6)

表1 当てはめアルゴリズム比較 Table 1 Comparison of ﬁtting algorithm [pix].

Parabolic Gaussian Gaussian with oﬀset Lagrange

0.255 0.372 0.165 0.008

より

9 × 9

の行列問題を解いて係数を求めることができる．同文献

[30]

では

Speckle

模様の位置合わせにおいて，二次曲面，ガウス関数，オフセット付ガウス関数及びラグランジュ関数で当てはめてサブピクセル推定した結果を比較している．その比較評価結果を表

1

に示す．表より，ラグランジュ関数に当てはめによる推定方法が優れていることが分かる．

e )

エラーキャンセル法

実際にサブピクセル推定を行うと，推定値が整数値方向に偏りが生じてしまうピクセルロッキング現象が知られている

[17], [20]

．清水らはピクセルロッキングのための解析モデルを提唱し，更にピクセルロッキングによる系統誤差を低減するエラーキャンセル法を提案している．この方法は，入力画像及び，入力画像を

0.5

画素ずらして生成した新たな入力画像それぞれに対してサブピクセル推定を行い，その

2

枚の画像での推定位置の平均値を採用する．これは

0.5

画素ずらした推定において，ピクセルロッキングによる系統的な誤差が画素をずらさない場合の逆位相として出てくることを利用したものである．

f )

テンプレートの補間による方法

田中らは複数のテンプレートを補間によって生成して，これをマッチングに用いることで一致度評価をパラメトリックに表現する方法を提案している

[36]

．この方式は一致度評価値を補間推定するわけではないので，補間による系統的な誤差をそもそも含まない．最適パラメータ値はラグランジュの未定定数法を用いて求めることができる．

g )

固有値テンプレート法

文献

[34]

では，あらかじめ入力テンプレート画像から人工的に多数枚の回転テンプレートを作成しておき，

これらを主成分分析で圧縮して生成したテンプレートを用いてマッチングを行う方法を提案している．あらかじめ作成しておく多数枚の回転テンプレートには細かな角度の画像情報が含まれているため，よく知られた回転サーチ（テンプレートを粗く回転させながらサーチ）と比べて回転方向の量子化誤差を低減できる．

3. 2. 2

周波数空間での相関ピーク検出

a )

線形演算による方法

一致度評価値が相互相関等の線形フィルタによって

計算できる場合は，入力画像とテンプレートを

FFT

によって周波数空間に変換してから畳み込みを行うことができる．周波数空間上でマッチングを行うことのメリットとしては，畳み込み演算が掛け算で可能であること（前処理に用いる平滑化処理等も同様に掛け算で可能），計算速度がテンプレートサイズによらず大きなサイズのテンプレートでも高速であることが挙げられる．また，実装に関しても

FFT

演算はハードウェア化が容易であることや，

FFTW [37]

や

Intel Compiler

の

MKL [38]

，

GPGPU

用の

cuFFTW [39]

といった優れたライブラリが利用可能であることもメリットである．

デメリットとしては周波数空間での一致度評価演算が線形演算に限定されることである．単純な相互相関は計算可能であるが，明るさ変動に強い正規化相互相関はそのままでは計算できず，積分画像の技法の組み合わせが必要である．あるいは，正規化相互相関の代わりに画像の平均値を差し引いてから相関を取る方法等が用いられる．

OCM

，

HOG

，

DOT

等のビット演算を多用する非線形な一致度評価値は周波数空間での処理では計算困難である．

周波数空間上でのサブピクセル検出処理は画像空間上の処理と同様の方法が使える．すなわち，周波数空間上で畳み込みを行った後に逆

FFT

で画像空間上の一致度評価値に変換して，ピーク検出を行えばよい．

b )

位相情報を用いた方法

周波数空間上で特有の一致度評価値の計算手法として位相限定相関法（

POC; Phase Only Correlation

）が知られている

[21]

〜

[23]

．

POC

は周波数空間上で入力画像とテンプレートの相関を取ったのちに，各周波数成分を振幅値で除算することで位相成分のみの情報へ削減する．

画像の位相成分のみから復元した一致度評価値は，

ノイズや明るさの変動にロバストであり，なおかつ相関ピークが著しく鋭くなるという特性をもつ．青木らはこのときの相関ピークの形状が理想的には次式となることに着目した．

r ( x, y ) = a W · H

sin( π ( x + δ

x

)) sin( π ( y + δ

y

)) sin(

_W^π

( x + δ

x

)) sin(

_H^π

( y + δ

y

))

ここで，

δ

x，

δ

yはサブピクセルのずれ量で，

W

^，

H

は画像サイズである．上式をモデル関数（位相限定関数と呼ばれる）として当てはめることでサブピクセル位置精度を求めることができる．当てはめは最小

2

乗

(7)

法を用いて反復的に収束させる．

位相限定相関の改良版として，

Log-Polar

変換を用いることで，回転及びスケールパラメータの推定を可能にした回転不変位相限定相関（

RIPOC; Rotation- Invariant Phase Only Correlation

）や，平滑化フィルタを組み合わせた手法が知られている

[23]

．

3. 3

誤差最小化

誤差最小化手法では，前提として，大まかな対象の位置が何らかの手法により得られていることを想定する．場合によっては，

3. 2

で述べた手法を前段手法として用いてもよい．誤差最小化手法では，そのようにして得られた大まか位置に，登録されたテンプレート画像を配置し，入力画像との誤差を算出する．この誤差を最小化するような，並進及び回転のパラメータを求めるのが，誤差最小化手法である．誤差最小化手法は，テンプレート画像と入力画像の誤差の算出方法により，輝度ベースと特徴点ベースに分類できる．輝度ベースでは，輝度差を誤差とするのに対し，特徴点ベースは対応点間の距離等を誤差とする．次項以降にそれぞれを解説する．

3. 3. 1

輝度ベース誤差最小化

輝度ベースの誤差最小化の歴史は古い．オンラインで誤差最小化する手法は

1980

年代初頭に

Lucas

及び

Kanade [11]

により確立された．この手法は，テンプレート画像

T ( x )

と入力画像

I ( x )

の，

2

乗誤差の和

（

SSE; Sum of Suqared Error

，若しくは

SSD; Sum of Squared Distance

）を最小化する変形

W ( x )

をガウス・ニュートン法により求めるものである．なお変形行列

W ( x )

（

Warping Matrix

）は変形パラメータ

p

によりコントロールされる．したがって，

W ( x ; p )

と記述する．すなわちこの問題は，

p

^∗

= arg min

p

x

[ I ( W ( x ; p )) − T ( x )]

²

(1)

と記述することができる．これは非線形最小

2

乗化となるので，

1

次のテイラー展開による近似を行い，ガウス・ニュートン法で解くのが

Lucas-Kanade

法である

[40]

．当初この方法は，オプティカルフローの推定に用いられたが，画像の一部の領域に限定して，与えらたテンプレート画像との相対位置・回転を推定する問題に応用することが可能である．

Lucas-Kanade

法において，変形パラメータ

p

^を

p ← p + Δ p

と更新し収束判定を行い

p

^∗^{を求めるが，}

変形行列

W

を

W ← W ( W ( x ; Δ p ); p )

のように直接

更新する定式化にすることにより，変形行列のパラメータに対するヤコビアン ^∂W_∂p を事前に計算し幾分か計算を簡略化する手法が考案された

[41]

．

Baker

らはこれを合成法（

Compositional Method

）と呼んでいる

[40]

．式

(1)

では，入力画像を変形することによりテンプレート画像との

2

乗誤差和を最小化しようとしたが，逆に逐次変形更新の際にテンプレート画像を変形することにより入力画像との

2

乗誤差和を最小化する定式化，すなわち

W = arg min

W

x

[ T ( W ( x ; Δ p )) − I ( W ( x ; p ))]

²

(2)

とすることにより，更にヘッシアンの逐次計算を回避する高速化法が提案された

[42]

．これは，逆合成法（

IC; Inverse Compositional Method

）と呼ばれ，

Lucas-Kanade

法と等価でありながら，より高速な処理ができるのが利点である．これら及び更なる変形については

[40]

で分かりやすくまとめられている．

一方，

Lucas-Kanade

法及びその変形では，非線形最小

2

乗法を解く際に，

1

次のテイラー展開のみを利用するが，

2

次の近似を用いる手法が提案されている

[43]

〜

[45]

．この手法は

ESM

（

Eﬃcient Second- order Minimization

）と呼ばれ，ヘッシアンを計算することなく，ヤコビアンのみから

2

次近似できることが利点である．処理時間もヤコビアンの計算のみであり，高速である．更に

1

次近似の場合と比べ，広い収束範囲と，大きな収束速度が得られるのが利点である．

これらの方法には，様々な改良手法が存在する．

SSD

を計算する際に，ピクセルに重みを加えたり，全ピクセルを使うのではなくサンプリングしたり，テンプレートを部分空間近似したりする方法（概念的に固有テンプレート法

[46]

と類似），ロバスト推定，三次元への拡張等があるが，これらに関しては，文献

[47]

〜

[50]

が詳しく取り扱っており，本論文では割愛する．これら一連の文献で取り上げられていない改良としては，

SSD

の代わりに相互情報量を用い，

Levenberg-Marquardt

法により最適化する

MILK

（

Mutual Informaton for

Lucas-Kanade

）等も提案されており，

SSD

と比べても見劣りしない速度が得られることが報告されている

[51]

．

Lucas-Kanade

及び多くの変形手法が

SSD

を用いており，暗にテンプレートに変化がないことを想定しているが，このように類似度指標を変更することで，多少の照明変動や変形に頑健な誤差最小化が可能

(8)

になると考えられる．一方，同様の問題は，位置・姿勢推定において，奥行方向の角度が大きくなったときに生じる．また，例えば式

(1)

において，対象物体が奥行方向に大きく回転していたとすると，傾いた画像からの正面画像の復元

I ( W ( x ; p ))

は補間によりボケた画像しか与えない．この状態で，テンプレート画像との差分を取ると大きく精度低下することになる．この問題に対処するため，

Ito

ら

[52]

は，適応的にテンプレート画像を変化させることにより安定的に対象にフィッティングできるようにした．同様の考え方で，動きボケ（

Motion Blur

）を扱う方法が多数提案されている

[45], [53], [54]

．

3. 3. 2

特徴点ベース誤差最小化

上記の手法は，輝度の

SSD

に基づくものであったが，全画素の情報を用いてヤコビアンを計算したりするのは計算コスト的に実用的でない場合も多い．また輝度情報は照明変動の影響を受けやすい．したがって，テンプレートと検出対象上で特徴点を抽出し，それら特徴点の対応を推定することができれば，対応点間の距離等を最小化することにより，位置・姿勢の推定を行うことが可能である．このような方法の中で，最も代表的であるのは，繰り返し最近接点（

ICP;

Iterative Closest Points

）アルゴリズム^（注⁴^）である．このアルゴリズムは，三次元点群に基づく位置合わせとして提案された

[13]

が，二次元画像においても再現性

(Repeatability)

の高い特徴点が得られるのであれば，

容易に応用可能である．この問題は，対応点が定かではない位置合わせ問題として一般化できる．このアルゴリズムの要点は，仮の対応点に基づき対応点間誤差を最小化する変換を求め，その変換を施した後に，再度，仮の対応点間誤差を最小化するという処理を何度が繰り返すうちに，漸近的に最適な変換を求めることができるというものである．したがって，何らかの仮説に基づき対応点を求める必要があるが，初期位置が真値に比較的近い位置であるという仮定の下では，最近接点により対応点が求まる可能性が高い．この計算はまともに計算すると特徴点の数の

2

乗に比例する．

木戸

[55]

〜

[57]

はこれに対して，テンプレートのエッジ上に配置したコントロールポイントから法線上に対応点を高速に探索し，対応点間の距離を最小化する手法を特許化した．

一方，このようにして求めた対応点が真の対応点で

（注4）：最近傍(nearest)と訳し分けるために，最近接とした．

ない場合には，一定のずれを生じたり，局所解に陥ったりすることがある．これを緩和するために，

Steger [58]

は，モデル点

( x

i

, y

i

)

におけるエッジの法線

( t

i

, u

i

)

と，

モデル点の法線方向に探索した際の対象エッジ上の対応点

( v

i

, w

i

)

の変換

W

による射影点

( v

i

( W ) , w

i

( W ))

とモデル点を結ぶベクトルの内積最小化，すなわち

W

^∗

= arg min

W

i

[ t

i

( v

i

( W ) − x

i

) (3)

+ u

i

( w

i

( W ) − y

i

)]

²

を提案している．これにより，対応点の接線方向のズレを許容しながら，各点においてエッジの方向が同じになるように最適化される．また同じ目的で，

Silver

ら

[59]

は，

( v

i

, w

i

)

と

( v

i

( W ) , w

i

( W ))

を結ぶ線分を

( t

i

, u

i

)

に射影した距離と，

( x

i

, y

i

)

と

( v

i

, w

i

)

の間の距離の差を最小化する射影距離最小化を行う方法を特許化した．これら方法の利点は，対応点が多少ずれても結果に影響しないという点である^（注5）．

特徴点ベースの誤差最小化は，特徴点の情報のみに基づく対応点探索及び簡単な最小

2

乗法に基づくので，高速であることが利点である．うまく実装すれば，

輝度ベースの手法に比べ

10

〜

100

倍程度高速である．

また，画像の一部の領域を占める特定の対象の位置決めにおいては，精度も輝度ベースの手法より高いことも多い．

FA

（

Factory Automation

）応用^（注⁶^）においては，

10

倍ほど精度が高いことも珍しくない．したがって，

FA

における位置決めアルゴリズムにおいては，特徴点ベースの誤差最小化手法を用いるのが一般的となっている．

3. 4

既存のサブピクセル物体検出のまとめ表

2

に各手法のまとめを示す．輝度ベース誤差最小化法及び特徴点誤差最小化法は，局所探索であるため精度が初期値に大きく依存する．そこで，初期位置推定のために画像空間相関値ピーク検出あるいは周波数空間相関値ピーク検出が用いられることが多い．画像空間あるいは周波数空間のどちらを用いるかは，入力画像及びテンプレートのサイズ，一致度評価によって選択される．輝度ベース誤差最小化法はモーションブラーや画像縮小等の変形に強い照合法が提案されている．特徴点誤差最小化法は高速で位置合わせ精度が高い．これらの手法や組み合わせはアプリケーションに

（注5）：前者の手法はMVTec社のHALCON，後者はCognex社の VisionPROの基本になっていると考えられる．

（注6）：対象には人工物が多い．

(9)

表2 各手法のまとめ Table 2 Summary of each method.

手法推定精度[pix] 処理時間[ms] 特徴

高解像度変換後物体検出 1/2〜1/4程度 10〜1000程度画像サイズが大きくなるため処理時間が多くなる画像空間相関値ピーク検出 1/10程度 10〜1000程度多くの場合，探索時のサンプリングと精度がトレードオフの関係周波数空間相関値ピーク検出 1/10〜1/100程度 10〜1000 FFT処理時間を含むため，処理時間は画像サイズに大きく依存

輝度ベース誤差最小化 1/10程度 10〜1000程度精度が初期値に依存

特徴点ベース誤差最小化 1/10〜1/100程度 1〜10程度精度が初期値やテンプレートの特徴点/エッジ点の選び方に依存

表3 応用事例 Table 3 Applications.

手法事例

画像空間相関値ピーク検出エラーキャンセル法によるステレオ照合[17], [18], [33]．エラーキャンセル法の高速化．ステレオ照合[67]．外観検査．形状ベース照合[58]．2次局面当てはめ．プリント基板の位置決め[29]．2次曲線当てはめによるサブピクセルエッジ検出[16]．ラグランジュ多項式当てはめ．スペックル模様の検

出[30]．コンクリートひび割検出．直線当てはめ推定[68]．1D配線パターンのモデル当てはめ[69]．

2D配線パターン検査．設計モデルパターンを当てはめ[70]．1D配線パターン検出．2次曲線当てはめ[71]．リード位置決め．2次曲線当てはめ[72]．

周波数空間相関値ピーク検出 POC照合による電子顕微鏡の倍率推定，顔の3D復元，指紋認証[23]．1D-POCによるステレオ照合[21], [22]．航空画像の位置合わせ[28]．

輝度ベース誤差最小化モーションブラーにロバストな平面追跡．ARマーカー追跡[45], [52]〜[54]．LK法でパノラマ画像のモザイキング[73]．シグモイド型のエッジモデルをLK法で最小化[74]．複数枚型の超解像のための位置合わせ[75], [76]．

特徴点ベース誤差最小化顔の3D点群の照合[12]．紙面のビデオモザイキング．特徴点の対応づけ及びバンドル調整[77]．LSI チップ位置合わせ．複数の部分テンプレートの結果を当てはめ[78]．アライメントパターンをエッジ点列で位置合わせ[61]．

その他高速回転体のトラッキング．領域重心で推定[79]．眼球追跡．領域重心で推定[80]．だ円当てはめによる3次元計測装置の較正[81]．100μmの微小物をGAで1/100単位の位置合わせ[82]．はんだ位置決め．領域重心[83]．LCD画素検査．4画素の輝度重心平均[84]．工作機械位置決め．サブピクセルのエッジ画素を対応付け[85]．

応じて選択される．

表

3

にサブピクセル推定を用いた応用事例を示す．

画像空間相関値ピーク検出の事例が多いのは，歴史が古く，入力画像から直接実行できること，実装が容易であるためだと考えられる．同様の理由で重心を用いた事例も多い．位相限定相関法を含む

FFT

を用いた方法は，近年ハードウェアが高速になったおかげで利用が広まっている．ただし，まだ

ARM

プロセッサを搭載した画像処理用マイコン等でリアルタイムに実行するには重いように思われる．誤差最小化法は反復演算が必要であるが精度が高く様々な改良法が提案されているため，今後，応用事例が増えていくと考えられる．

4.

サブピクセル物体検出の評価

本章では一般的だと思われるサブピクセル精度の評価方法について述べる．

4. 1 RMSE

：真値が既知の場合

対象物の位置の真値が分かっている場合は，検出結果と真値との誤差を評価すればよい．例えば，

N

^枚の画像セットに対して，検出結果

x

iと真値

x ˆ

iのずれを

評価する場合には次式の

RMSE

がよく用いられる．

RMSE = ¹

N

i=1

( x

i

− x ˆ

i

)

²

上記評価にて，検出物体の

X

及び

Y

座標値のずれを評価できる．真値との隔たりは真度とも呼ばれる

[60]

．

物体検出においては，

X

及び

Y

それぞれを独立に評価する場合もあるし（図

2 (a)

，文献

[61]

より引用），

XY

の距離

d =

Δ x

²

+ Δ y

² ^{を評価することもあ} る

[62]

．結果の見せ方としては，

RMSE

を表にまとめる場合もあるし，

X

及び

Y

の誤差の分布をグラフにプロットする場合がある（図

2 (b)

，文献

[58]

より引用）．

4. 1. 1

^{真値について}

前節で真値が分かっている場合と述べたが，実画像の対象物の位置の真値を求めることは容易ではない．

後述する精密機械ステージを用いる場合においても，

ステージの位置決め精度にはバラつきがある

[63], [64]

．画像セットを増やすために何度もステージを動かしながら撮影すると，ステージ誤差の累積が問題となる．そのため，撮影ごとにステージを機械的に原点復

(10)

図2 XY誤差の例 Fig. 2 An examplpe of XY error.

帰

[65]

することが望ましい．また，レンズひずみ等のカメラパラメータ補正や，実座標系とカメラ座標系を合わせるための精密なキャリブレーションが必要となる

[66]

．これらの作業は容易ではない．

4. 1. 2

^{人工画像を用いた評価}

真値を使った簡単な評価方法として，人工的に作成した入力画像を用いて評価する方法がよく用いられる

[34]

．すなわち，テンプレート画像をサブピクセル単位で平行移動あるいは回転等の変形を加えて入力画像に張り付けることで人工画像を生成する．サブピクセルレベルのずれを画像上に反映させるためには，画素補間を用いるか，原画像を大きめに作成しておき，

縮小することでサブピクセルの位置精度をもつ人工画像を生成できる．

4. 2

繰り返し精度

真値が分からない場合でも，実画像での検出精度は評価できる．すなわち，対象物及びカメラを固定して複数枚の画像を撮影し，対象物が動かないという仮定の下でこの検出結果のバラつきを評価する（繰り返し精度，再現性）．対象物及びカメラは動いていないので常に同じ位置を検出するはずである．バラつきの評価方法としては，最初に撮影した画像を基準テンプレートとして，それからの相対的なずれのバラつきを見る方法，検出値の平均値に対するバラつきを見る方法等がある．

4. 3

リニアリティ

真値がわからないが，精密ステージがある場合の評

価指標としてリニアリティがある．すなわち，ステージを等間隔に移動・撮影を行い，その移動量を横軸に，

検出結果を縦軸にとってグラフをプロットすると，理想的には直線になるはずである（図

2 (c)

，文献

[23]

より引用）．そこで多数の検出結果に直線を当てはめて，

その直線からの平均誤差あるいは最大誤差をリニアリティ誤差として評価する．

4. 4

ベンチマーク評価

サブピクセルレベルの検出性能の定量評価は重要事項であるが，その評価方法は文献によってまちまちであり，統一された方法はないようである．画質評価においては，

Lenna

や

Monkey

といった標準画像や公開ベンチマークがあるが，サブピクセル物体検出においてはそのようなベンチマークデータは見当たらない．考えられる理由としては，これらの文献は物体検出や位置合わせのためのカメラ等の撮影系を含めたシステム構築に主眼が置かれており，各々のアプリケーションの目的に合わせた評価基準で性能が評価されているためである．一部の研究グループではテンプレートマッチングの研究での評価画像を公開する等の動きがあるが，サブピクセル精度の真値を含むデータベースは見当たらない．

そこで本論文では，高精度

XYZ

ステージ及び

CMOS

カメラを用いて画像データセットを作成し，

できる限り多くの種類のアルゴリズム

(

商用ライブラリを含む

)

の性能比較を行う．

対象は，図

3 (a)

に示すような液晶基板の位置決め工程を想定したものである．中央付近に十字のアラインメントマークがあり，これを検出ターゲットとする．

画像は

24bit

のカラー画像でサイズは

1600 × 1200pix

である．

撮影では，

Z

軸及び

Y

軸を固定して

X

方向にステージを一定間隔で動かして

20

枚の画像を取得した．

Z

軸を

− 5

〜

5mm

まで

1mm

刻みで動かして前述の撮影を行い，合計で

20 × 11 = 220

枚の画像を評価する．

同図

(b)

は各

z

値に対するアラインメントマークの見かけの変化の様子を示している．

z = 0

のときはジャストフォーカス時で対象画像にボケが含まれないが，

z

値を大きくするにつれてアウトフォーカスとなり画像がボケる．このようなフォーカスずれによる画像ボケは実際の製造ラインでは度々生じる．本ベンチマークではサブピクセル位置決め性能と，画像ボケに対するロバスト性を評価することができる．

テンプレートはジャストフォーカス時に取得した

1

(11)

表4 比較手法 Table 4 Compared methods.

手法備考

回転不変位相限定相関法1 (RIPOC) 周波数成分を全体の70%に帯域制限して高周波成分をカット 固有値テンプレート法2 固有値テンプレート枚数60．辞書次元30．x，y，θの3パラメー

タ空間の一致度評価値を2次超曲面に当てはめてサブピクセル推定 商用システム3 A エッジベースの探索手法＋特徴点ベース誤差最小化

商用システム4 B エッジベースの探索手法＋特徴点ベース誤差最小化 商用システム5 C エッジベースの探索手法＋特徴点ベース誤差最小化

図3 対象画像 Fig. 3 Target images.

枚のアラインメントマークのみを用いる．テンプレートのサイズは

160 × 160pix

である．評価指標として

X

値のリニアリティ誤差

(

当てはめ直線との

RMS

誤差

)

及び画像

1

枚当たりの平均処理時間

(

ミリ秒

)

を計測した．計算機は

CPU core i7-3770K 3.5GHz

である．

また，対象物の正解位置から

30pix

離れた位置を検出した場合は検出失敗とした．

4. 4. 1

^{比較手法}

表

4

に示す

5

種のアルゴリズムで評価を行う．

1

〜

2

はサブピクセル精度及び高速性を主張している比較的新しい手法である．

3

〜

5

は既に製品として販売されているもので，

SIMD

演算やマルチプロセッサ処理等の最適化が施されている．

1 2

は文献を参考に本論文の著者がプログラムを作成したもので，多重解像処理

(

画像解像度を落として処理する技法

)

や処理最適化は行われていない．

3

〜

5

のアルゴリズム詳細は不明であるが，商用システム

A

，

B

，

C

は共に，エッジベースの物体検出に，特徴点ベース誤差最小化を組み合わせたものであり，エッジ画素と方向を最小

2

乗法で当てはめる方法

[58], [86]

や，エッジ方向の統計量を用いた

DOT

法

[27]

を改良した手法

[87]

が含まれる．

4. 4. 2

^{評価結果}

評価結果を表

5

に示す．リニアリティは

2

固有値テンプレート法がもっとも良く，処理時間に関しては

5

商用システム

C

がもっとも短い時間で検出することができた．全体的な傾向として，ジャストフォーカス位置から

z

値がずれるに従って，性能が落ちていることが分かる．

RIPOC 1

は

z = 0

及び

z = − 1

の場合には他手法と劣らぬ高いリニアリティが得られた．ところが

z

値のずれが大きくなると検出失敗が目立った．

RIPOC

は形状変化にセンシティブな検出方法であり，わずかな形状変化をも捉えることができる一方で，登録テンプレートと外観が異なる物体の検出が苦手な傾向がある．

2

固有値テンプレート法は，

3

〜

5

の手法のように一部のエッジ輪郭線ではなく，テンプレート全体の画素情報を

FFT

で畳み込んで一致度評価を計算する方式である．そのため，検出結果が一部のエッジ輪郭線に引きずられることがなく，全体的な平均値でもって位置を推定するため，ボケによる外観変化にロバスト

(12)

表5 リニアリティ評価結果[pix]と平均処理時間[msec/image]

Table 5 Linearity [pix] and average processing time [msec/image].

手法 z =−5 z =−4 z =−3 z =−2 z =−1 z = 0 z = 1 z = 2 z = 3 z = 4 z = 5 ave. time RIPOC1 NA NA 11.628 0.391 0.320 0.770 1.823 4.147 NA NA NA 3.180 735.0 固有テンプレート法2 1.060 0.678 0.814 0.152 0.201 0.155 0.198 0.747 0.994 0.709 0.839 0.595 779.4 商用システム3 A 4.768 7.082 10.992 1.112 0.293 1.755 0.938 1.498 4.417 3.863 4.252 3.725 6.1 商用システム4 B 2.071 0.901 0.577 0.243 0.349 0.242 0.213 0.214 0.389 0.628 4.224 0.914 127.0 商用システム5 C 1.313 1.581 0.310 0.184 0.216 0.143 0.185 0.173 0.231 0.870 4.110 0.847 4.5

図4 リニアリティ比較(z =−5) Fig. 4 Linearity (z =−5).

になったと考えられる．なお，

1

及び

2

は

FFT

を用いており，処理の多くが

FFT

あるいは

Log-Polar

変換に要する．

3

商用システム

A

は処理時間は高速であるが，リニアリティに関しては他手法に比べて劣る結果となった．これはボケのない画像のエッジ点をモデルとして登録しているため，ボケがある場合にモデルとの乖離が生じるためである．

4

商用システム

B

は処理時間では商用システム

A

や商用システム

C

に劣るが，安定したリニアリティを出している．粗い輪郭線モデルで大まかな位置決めをした後に，細かい輪郭線モデルで精密に位置決めする

2

段階のマッチングにより処理時間短縮と高精度化を実現している．また，粗い位置決めと詳細な位置決めにおける縮小率を精密に決めることが可能であり，これにより性能が大きく変わるが，これを最適化している．

5

商用システム

C

は非常に高速であるにかかわらず，ボケが大きな場合でも高いリニアリティを保持している．これは，高速な処理のために対象の検出においては，かなり縮小して探索しており，詳細な位置決めにおいては，対象のボケ半径にあった最適な縮小率を自動で選択している．

なお，商用システム

B

・

C

においては，ボケ半径にかかわらず全て固定の処理パラメータ値を使用している．もしボケ半径に応じて設定を変更すると更に精度を改善できると考えられる．また，処理時間の高速化のために商用システム

A

・

B

・

C

において，対象は回転をしないことを考慮し，

±5[deg]

の回転範囲しか探索していない．

図

4

に

z = − 5

のときの各手法のリニアリティを示す．グラフの横軸は

X

方向へ等間隔にずらしながら撮影した画像の番号で，縦軸は検出した

X

値である．

(13)

RIPOC

は検出失敗が多発したためグラフを載せていない．表

5

の数値では各手法でわずかな差のように見えるが，実際にグラフにプロットするとバラつきに差があることが分かる．

5.

今後のサブピクセル物体検出

これまで，

( x, y, θ )

あるいはそこにスケールを追加した

( x, y, θ, s )

といった平面的な位置及び姿勢のサブピクセル推定について述べてきた．これらは平面ステージにカメラ及び対象物が固定された限定的な条件を想定している．今後，応用先の拡大のためには，三次元的な位置及び姿勢の高精度な推定技術が求められるであろう．画像処理によって三次元姿勢推定を達成するためには，平面的なパターンマッチングから，三次元の位置・姿勢を推定することとなり，その基礎要素であるサブピクセル推定は重要である．

例えば，応用的な観点では，ロボティクスとの連携がますます重要となり，ランダムピッキング等への産業応用が進むと思われる．また，近年ではスマートフォンや

Raspberry Pi

等の画像処理機能を搭載可能な安価なハードウェアが普及している．これらのアプリケーションの一例として

AR

があり，そこではマーカーマッチングと呼ばれる位置合わせ技術が用いられており，サブピクセル物体検出は重要な技術となる．

二次元の画像でのサブピクセルの位置合わせが，三次元の姿勢推定にどの程度影響があるのか等の検証は行われておらず，その性能限界は明らかになっていない．三次元の位置・姿勢推定の評価方法を確立するとともに，より高精度なサブピクセル推定方法を模索する必要がある．

本論文では対象が剛体であると想定して，位置・姿勢パラメータの推定問題を考えたが，対象が非剛体である場合の対応は難しい．例えば，食品検査での正確な位置決めや三次元形状推定は，大きな需要があるものの，対象物が柔らかく形状及び見え方の変動が大きく難しい課題である．

位置・姿勢変形のモデルを拡張し，非剛体の位置合わせをする技術も，既に様々な既存研究があるが，これら非剛体対象の検査や三次元形状推定の観点から重要になると考えられ，今後実用化レベルへの精度・速度・安定性向上が進むと考えられる．

6.

^{むすび}

ここまでで，サブピクセル物体検出技術の重要性，

既存技術，評価方法，今後の展望について述べてきた．位置決め技術は，画像処理技術を根底で支える基本技術であることは周知の事実である．これは，ステージ制御，ロボットによる組み付け等のための計測のみならず，

AR

のような表示技術の基本であり，更に本論文では取り上げなかったが画像全体での位置決め技術にまで広げれば，高ダイナミックレンジ画像

（

HDR; High Dynamic Range

）や超解像（

SR; Super Resolution

），パノラマ画像生成（

Image Stitching

）等の合成技術の基本ともなる．今後の展望として，ロボティクス，

AR

，表示・合成技術の進化のための基本技術として，重要産業からのニーズを元に成長していくであろう．本論文が，それらの重要技術の発展にこれから取り組もうとする研究者の一助になれば本懐である．

文献

[1] A. Andreopoulos and J.K. Tsotsos, “50 years of object recognition: Directions forward,” Comput. Vis.

Image Understand., vol.117, no.8, pp.827–891, 2013.

[2] 藤吉弘亘，安倍満，“局所勾配特徴抽出技術：SIFT以降のアプローチ，”精密工学会誌，vol.77, no.12, pp.1109–

1116, 2011.

[3] 藤吉弘亘，“画像局所特徴量SIFTとそれ以降のアプローチ，” MIRU2013チュートリアル講演資料，2013.

[4] 橋本学，“テンプレートマッチングの魅力，” SSII2013 チュートリアル講演会資料，2013.

[5] IHS Electronics & Media, “The World Market for Machine Vision — 2012 Edition,” 2012.

[6] 上瀧剛，井尻善久，“サーベイ論文：サブピクセル物体検出，”信学技報，PRMU2013-74, 2013.

[7] “Global 450 Consortium,” http://www.g450c.org/

[8] H. Kato and M. Billinghurst, “Marker tracking and HMD calibration for a video-based augmented reality conferencing system,” IWAR ’99, pp.85–94, 1999.

[9] M.S. Extremal, J. Matas, O. Chum, M. Urban, and T. Pajdla, “ Robust wide baseline stereo from maximally stable extremal regions,” BMVC, pp.384–393, 2002.

[10] Q. Tian and M.N. Huhns, “Algorithms for subpixel registration,” Comput. Vision Graph. Image Pro- cess., vol.35, no.2, pp.220–233, 1986.

[11] B.D. Lucas and T. Kanade, “An iterative image registration technique with an application to stereo vision,” Proc. International Joint Conference on Arti- ﬁcial Intelligence, vol.2, pp.674–679, 1981.

[12] P.J. Besl and H.D. McKay, “A method for registration of 3-D shapes,” IEEE Trans. Pattern Anal.

Mach. Intell., vol.14, no.2, pp.239–256, 1992.

[13] Z. Zhang, “Iterative point matching for registration of free-form curves and surfaces,” International Jour- nal of Computer Vision, vol.13, no.2, pp.119–152,

サブピクセル物体検出とベンチマーク