サブピクセル物体検出とベンチマーク
上瀧 剛
†a)井尻 善久
††b)Sub-Pixel Object Detection and Benchmark Gou KOUTAKI†a) and Yoshihisa IJIRI
††b)
あらまし 物体検出は,画像処理の基礎技術の一つである.物体検出の性能は処理時間と検出率・位置精度で 記述することができる.処理時間と検出率を追求した物体検出に関する文献は非常に多い.一方,位置精度を追 求した文献も増えつつあるが,実応用上の重要性に比べ,学術界における注目度は低いように思われる.本解説 論文においては,実応用上の重要性を述べるとともに,既存研究を総括し,幾つかの手法に対するベンチマーク 評価を行った後に,今後の展望についても触れる.
キーワード サブピクセル,物体検出
1.
ま え が き人のみならずある多くの生物にとって,何らかの視 覚情報により対象を見つけ,掴んだり,投げたり,回 避したりすることは,生を営む上若しくは生を楽しむ 上で欠かせない.人や多くの生物が,この技を日々使 い続けることからわかるように,これらを模する画像 処理においても最も基本的な技術の一つである.人が いとも簡単かつ正確に対象物を見つけることを考えた とき,対象を高速・正確に見つけ,対象位置を正確に 推定することは欠かせない.また,近代では人にとっ て代わる自動生産が進んで来ているため,部品を認識 したりその位置を正確に推定したりするのは,重要な 技術である.このため学術分野においても,物体検出 技術は盛んに研究がなされてきた.
一方,位置的精度を追求する試みに関しては,検出 そのものに比べて事例が少なく,
2.
で詳述するよう に,特にものづくりにおいて継続的な精度向上要求が†熊本大学大学院先導機構,熊本市
Priority Organization for Innovation and Excellence, Ku- mamoto University, 2–39–1 Kurokami, Kumamoto-shi, 860–
8555 Japan
††オムロン株式会社インダストリアルオートメーションビジネスカン パニー,木津川市
Industrial Automation Business Company, OMRON Corpo- ration, 9–1 Kizugawadai, Kizugawa-shi, 619–0283 Japan a) E-mail: [email protected]
b) E-mail: [email protected] DOI:10.14923/transinfj.2014JDS0001
ある.このため,本論文では特に高精度な位置推定を 可能とする物体検出技術に関する既存研究を総括する.
本論文における物体検出は,
(1)
入力された画像内 に,注目対象が含まれているかどうかを判定し,(2)
も し存在するならばその位置・姿勢を推定することと定 義できる.物体検出技術は,
(i)
注目対象の定義:ユーザによる 指定(テンプレート画像の指定),若しくは事前の学 習により定義,(ii)
対象の検出:対象の有無の推定及 びピクセル精度の位置推定,(iii)
高精度位置推定:サ ブピクセル精度での位置・姿勢推定,に機能的に分類 される.(i)
注目対象の定義について以下に述べる.注目対 象が,ユーザにより定義される任意の対象である際に は,ユーザ登録・指定と呼ばれる.多くの場合,ユー ザの負担低減の観点から対象が含まれた1
枚若しくは 複数枚の画像上でユーザが所望の対象の存在する領域 を登録することにより行われる.したがって,テンプ レート照合(Template Matching
)と呼ばれる,ユー ザが登録した対象領域を,そのまま用いて,同様の事 例を,検出対象から見つける手法と密接な関係がある.複数の登録画像が存在する場合には,事例ベース照合
(
Exemplar-based Matching
)や最近傍探索(Nearset Neighbor Search
)とも密接な関係がある.一方,注目対象の種類が少なく,なおかつ画像サン プルが大量に取得できる場合には,それらの事例を元 に帰納しようとする学習手法が利用でき,これらの技
術的な側面に重きを置いて,対象の学習という呼ばれ る場合もある.これらは,顔や車,文字等の検出にお いて一般的である.
なお,ユーザ定義の任意の対象の検出手法を一般物 体検出(
Generic Object Detection
)と呼び,これに 対しあらかじめ決めた特定の物体の検出を特定物体検 出(Specific Object Detection
)と呼ぶ場合もある.(ii)
対象の検出に関しては非常に多くの手法が提案 されており,一般物体検出,特定物体検出双方に関し,実用的な研究事例が豊富である.これらについては,
多くのサーベイ論文で取り上げられている
[1]
.特に特 徴量の選択は対象のどのような情報に基づいて照合を 行うかを決定付けるため重要であり,多くの研究事例 がある[2]
〜[4]
.対象の存在有無を判定し,おおよその位置を推定す る技術の総括に関しては,上記に参考文献として列挙 したサーベイ論文に譲ることとし,本論文では高精度 な対象位置の推定技術のみを論じる.
本論文における,
(iii)
高精度な位置推定(いわゆる 位置決め(Alignment
))は,サブピクセルオーダー精 度での対象の位置推定である.これを本論文ではサブ ピクセル物体検出と呼ぶ.類似の問題として画像レジ ストレーションがあり,サブピクセル精度での位置決 めを行う点では共通している.しかしながら,画像レ ジストレーションは画像全体の位置合わせであるのに 対して,サブピクセル物体検出は,多くの場合画像の 中の一部を占める対象領域のみに基づき,特定の興味 のある対象のみをサブピクセルレベルで位置推定する 問題であり,この点で問題設定が異なっている.した がって,背景が変化したり,位置合わせに用いること ができる領域が小さかったりといった問題が生じるこ ともしばしばである.また,本技術は画像のスティッ チングとも共通点がある.画像のスティッチングも複 数画像間で共通する一部の部分に基づき,それらの相 対関係をサブピクセルレベルで推定する.しかしなが ら,サブピクセル物体検出は一枚の画像内に存在する 興味のある対象の位置をサブピクセルレベルで推定す る技術であり,やはり問題設定が異なる.ただし,異 なるアプリケーションでありながらも,共通点がある 限り,手法としては共通する部分も少なからずあり,双方の分野を概観することは有用である.
更に,サブピクセル物体検出は,姿勢推定と密接な 関係にある.位置決めで必要とされるのが,テンプ レート画像が位置推定すべき対象に対する相対的平行
移動と回転角度である場合には,並進
–
回転モデルに 基づく姿勢推定問題を考えればよい.これを拡張して いくと,やがて射影変換を考慮することになり,三次 元の姿勢推定や,ホモグラフィの推定問題に帰着する.更にモデルの自由度を上げると,非線形な歪の推定の 概念に行き着くが,ここまで来ると,位置推定の概念 が崩れ,局所的な変形探索問題となる.本論文におけ るサブピクセル物体検出問題は,テンプレート画像と の位置ずれ推定技術すなわち平面内の位置及び回転パ ラメータ推定問題とする.更に,入力は二次元に限定 し,三次元上での位置・姿勢推定技術は本論文では扱 わない.
2.
に詳述するが,サブピクセル物体検出は,産業上 非常に興味深い技術である.応用が期待される市場規 模は,2012
年現在で年間3000
億円市場であり2016
年 には4000
億円規模になると予測されており[5]
,画像 認識技術の中でも最も経済効果が大きい技術に含まれ る(注1).微細基板形成技術が必要となる,フラットパネ ル産業(FPD
),太陽電池産業(PV; Photo Voltaic
) を含む半導体産業ほぼ全般において,パネル張り合わ せやマスクパターンと基板の位置合わせが重要であ ることから,近年の重要産業を支える技術となってい る.また,拡張現実感(AR; Augmented Reality
)等 では,現実世界の対象物体に何らかの重畳表示を行う が,その際に視覚的違和感がなく,安定した表示を行 うためには対象の位置・姿勢推定が重要である.サブ ピクセル物体検出はこのように,新たな産業への橋渡 しともなる重要な技術である.本論文においては,このように近年の成長産業を支 える画像認識技術であるサブピクセル物体検出技術に 関し,アプリケーションの整理を行うとともに,近年 の技術の進展を振り返り,評価方法等についても論じ る.前述のとおり,大きな市場要求があるサブピクセ ル物体検出であるが,研究分野においてはそれほど高 い注目を浴びているわけではない.したがって,本論 文のもう一つの目的は,本技術についての興味を集め,
今後の技術の発展を促進することである.なお,本論 文は文献
[6]
に対して,サブピクセル物体検出の既存 の商用システムを含むベンチマーク評価実験を追加し(注1):マシンビジョン全体の市場規模であり,その全てでサブピクセ ル物体検出が必要なわけではないが,物体検出技術は,定量的な根拠は ないものの筆者らの経験・感覚によれば,70%程度のアプリケーション で必須の機能である.また,そのうち半分程度のアプリケーションにお いてサブピクセルレベルでの位置推定精度が要求される.
た点が特徴である.
本論文の以降の構成は次のとおりである.まず,サ ブピクセル物体検出の応用分野について,
2.
で振り返 る.3.
では,サブピクセル物体検出の幾つかのパラダ イムについて述べ,それぞれについてサーベイを行う.4.
では,サブピクセル物体検出技術の評価方法につ いて述べる.4. 4
では代表的なサブピクセル物体検出 手法のベンチマーク結果を紹介する.次いで5.
では,総括した各手法を俯瞰し,現在の課題を整理する.最 後に
6.
で結論を述べる.2.
サブピクセル物体検出のアプリケーシ ョン1.
で簡単に述べたとおり,サブピクセル物体検出の アプリケーションは,大規模集積回路(LSI
)製造,フ ラットパネルディスプレイ(FPD
),太陽電池製造を 含む,全半導体産業にわたって重要な基盤技術である.様々な工程で,露光装置(ステッパ,接触
/
近接露光装 置),薄膜形成装置(スパッタ,蒸着装置),基板張り 合わせ装置等が利用される.これらの装置においては,マスクパターンと基板の位置を精密に合わせたり,複 数の基板を張り合わせたりすることが重要となり,ほ とんどの場合,ミクロン
–
サブミクロン精度が求められ る.このため,位置決め用のアラインメントマークと呼 ばれる簡単なマークが用いられ,複数の対象部品(マス ク)に印字されたそれぞれのアラインメントマークの 中心位置が既定の位置にくるようにステージ制御する ことが必要となる.LSI
製造装置に対してはシリコン ウェーハを搬入する際にはアライナと呼ばれる専用の 位置決め装置が利用されるが,半導体ウェーハサイズ が300mm
から450mm
に大口径化する方向で動いて おり[7]
,それに際してノッチによる位置決めから,位 置決めパターンによる位置決めを行う方式に変化しよ うとしており,将来的にも応用要請に事欠かない(注2).他の応用例としては,表面実装技術(
Surface Mount Technology
)がある.電子回路に,クリームハンダを 印刷し,チップ部品を実装し(チップマウンタ),半田 をとかし(リフロー),検査をする工程で,基板を精 度よく位置決めしなければ歩留りが悪くなる.上記の位置決めは,平面内の位置決めであるが,三 次元的な位置決めが重要となるアプリケーションも多
(注2):大口径化するにつれ,ノッチ部からの亀裂の可能性が高くなり,
それを避けるため.
く存在する.多軸ロボットにおいて,組付け(
Fixture
) を行う際には,対象の位置・姿勢を推定し,対象に近 づき把持し,更にそれを組付け先と自己の相対位置・姿勢を推定して,組み付け先に正しく近づき,組付け るということが重要となる.
こうした位置決めにおいては,技術的課題も多い.
対象部品は透明であり透明部を透過して複数のマー クを撮影しなければならず,必ずしも鮮明な画像を取 得できない場合も多い.対象となるパターンは場合に よっては,透明な基板上に透明な皮膜で形成されるこ ともある.このような場合には,特殊な照明を照射し,
わずかに浮き出たパターンを元に処理しなければなら ない.透明なパターンでなくとも,コントラスが非常 に低いことも多い.また,テレセントリックレンズを 用いて解像感の高い取り込みをするためには
NA
値の 高いレンズを選ばなければならず,被写界深度はしば しば1mm
以下である中で,高さが異なるマーク位置 を推定しようとすることから,一方若しくは両方の対 象がぼけていることも多い.更に,表面実装において は,同種の対象が多く存在するため,ともすれば周辺 パターンの影響により,容易に位置推定精度が低下す る.このように,従来のマシンビジョンが高画質のカ メラと安定した照明が用意された条件で実施されるの に対し,近年のこうした技術的要請により,非常に厳 しい条件で利用されることが多い.一方,
AR
応用においては対象の三次元的位置・姿 勢推定が重要となるが,実用的にはリアルタイムに高 精度な位置・姿勢推定を行うことが求められる.また,位置・姿勢推定の繰り返し精度も非常に重要である.
もし,繰り返し精度が低いならば,重畳された表示は 安定せず,ユーザビリティを損なうことになる.した がって,精度及び安定性及び高速性を同時に満たすこ とが重要となる.
3.
サブピクセル物体検出技術本章では,既存のサブピクセル物体検出を振り返り,
各手法の利点や課題,特徴等を論じる.
3. 1
サブピクセル物体検出技術のパラダイム 画像による位置決めの観点から技術を歴史的に俯瞰 する.ブロブ検出で検出した2
値領域の重心をサブピ クセル単位で求める手法は古くから用いられていた.現在でもこうした手法は用いられており,カメラキャ リブレーションでの円形マーカーの中心位置検出
[8]
やMSER
(Maximally Stable Extremal Regions
)等のキーポイント検出に使われる
[9]
.並行して,相関値のピークを多項式で当てはめてサ ブピクセル精度の位置を求める方法は
1980
年代に既 に行われていた[10]
.また同時期に,Lucas-Kanade
法等の反復演算による輝度の誤差最小化法が使われる ようになった[11]
.1990
年代に入って,繰り返し最近接点(ICP; Iter- ative Closest Points
)アルゴリズムが考案されて,特 徴点マッチングを反復的に行うことでロバストかつ高 い精度を位置合わせを行う方法が考案された[12], [13]
. また,MPEG
等の動画圧縮のフレーム間予測には半 画素レベルの位置合わせが採用された[14]
.2000
年に入ってスケール不変特徴変換(SIFT; Scale Invariant Transform
)等のキーポイントベースの物 体検出が普及した[2], [3], [15]
.キーポイントのサブピ クセル位置は微分強度の多項式による当てはめが用い られ,RANSAC
(RANdom SAmpling Concensus
) 等の姿勢推定法によってロバストかつ高いサブピクセ ル精度での位置合わせが可能となった.また,異なるアプローチとして,サブピクセル精 度をもつラインあるいはエッジ輪郭検出器が考案さ れ
[16]
,HALCON
等の市販ソフトで普及した.相関 値のピーク当てはめの際のピクセルロッキング現象 の解析が進みエラーキャンセル法が考案された[17]
〜[20]
.更に,周波数空間上でのマッチングである位相限定 相関法が考案され,位相限定関数モデルの当てはめに よって高いサブピクセル精度での位置合わせが可能と なった
[21]
〜[23]
.このように,位置決めという観点か ら見れば,サブピクセル精度でのエッジ点位置計測等,様々な技術も含む.しかし本論文では,複数のエッジ から成り立つより複雑なパターンの位置を,サブピク セル精度で計測することに絞り議論していく.
サブピクセル位置推定方法は大まかに以下の方法が 知られている.
a )
入力画像を補間により高解像度化した後に検出 を行う方法b )
相関値を多項式やモデル関数に当てはめる方法(相関値ピーク検出)
c )
オプティカルフロー等の誤差最小化を用いる 方法d )
学習に基づく手法a )
の方法は素直な方法であるが,画像サイズが大き くなることで検出の計算コストが大きくなることから,実際に用いられることは少ないようである(注3).また,
d )
は,対象が固定的である場合に,あらかじめ予測さ れる変動パターンと変動パラメータの対を学習してお く方法であるが,学習にはある程度時間がかかり,現 場で必要とされる対象を即座に登録するのが困難であ ることから,顔等を除き,実際にはあまり利用されて おらず,文献もそれほどない.そこで次節よりb )
及 びc )
の方法について述べる.3. 2
相関値ピーク検出相関値ピーク検出とは,入力画像とテンプレート画 像との一致度評価値を求めておき,複数位置での一致 度評価値から補間推定あるいはモデル関数当てはめに よってサブピクセルのピーク位置を求める方法である.
相関値ピーク検出では,画像空間で行うものと周波数 空間で行うものが存在する.
代表的な一致度評価の計算として,正規化相互相 関法(
NCC; Normalized Cross Correlation
)[24]
や,輝度差の総和(
SAD; Sum of Absolute Difference
),輝度差の
2
乗和(SSD; Sum of Squared Difference
) がある[4], [19]
.他の尺度として,画像エッジの方向差 を評価する方向符号照合(OCM; Orientation Code Matching
)[25]
,エッジ の 方 向 ヒ ス ト グ ラ ム の 類 似 性を評価するHOG
(Histogram of Oriented Gradi- ent
)[26]
,エッジ方向差をバイナリコード化して評価 するDOT
(Dominant Orientation Templates
)[27]
等が知られている.
一致度評価値の計算には,入力画像に対してテン プレートをずらしながら照合を行ういわゆるテンプ レートマッチングがよく用いられる.ここで,一致度 評価値が相互相関といった線形フィルタを用いて計算 できる場合は高速フーリエ変換(
FFT; Fast Fourier
Transform
)を用いた周波数空間上の演算で高速に求めることができる
[4]
.3. 2. 1
画像空間における相関ピーク検出NCC
等の方法で,一致度評価値が最大となる位置(あるいは局所的に極大となる位置)を画素単位で求 めた後に,その周辺の位置での一致度評価値からサブ ピクセル位置を推定する方法である.
よく知られる尺度として,一次ないし二次の多項式 で相関値を当てはめて,ピーク位置を求める方法があ る
[10], [19]
.他にもガウス関数やラグランジュ関数に(注3):最近の事例として,Open SIFT Libraryでは,入力画像サイ ズを2倍にして処理を行うオプションがある.
当てはめる方法もあるが
[28]
〜[30]
,動画のフレーム 間予測に使われるものの,物体検出ではあまり使われ ていないようである.当てはめの際には,
X
座標及びY
座標をそれぞれ 独立に当てはめる方法[19], [31]
や,XY
座標空間上で 曲面に当てはめる方法が知られる[32], [33]
.a )
等角直線フィッティング図
1 (a)
に示すように,最大一致度評価値f (0)
とそ の両隣の画素での評価値f ( − 1)
及びf (1)
に対して,2
本の直線を引き,その交差位置をサブピクセル検出 結果とする方法である[30], [31]
.f (−1)
,f (0)
及びf (1)
,f (0)
を通る2
本の直線の うち,傾きが大きな直線を選択し,選択した直線を反 転させて交点位置を求める.具体的には次式で与えら れる.x
sub=
⎧ ⎪
⎪ ⎨
⎪ ⎪
⎩
f ( − 1) − f (1)
2 f ( − 1) − 2 f (0) , f (−1) ≥ f (1)
− f (1) − f ( − 1)
2 f (1) − 2 f (0) , f ( − 1) < f (1)
等角直線フィッティングは一次の当てはめであり,同 じく一次の一致度評価値である
SAD
との相性が良い とされる[19]
.b )
パラボラフィッティング図
1 (b)
に示すように,3
点の一致度評価値に対して二次曲線を当てはめる方法である
[19], [31]
.二次曲 線を当てはめた後に,微分値がゼロとなる位置が求め るサブピクセル位置となり,次式で与えられる.図1 当てはめ関数 Fig. 1 Fitting functions.
x
sub= − f (1) − f ( − 1) 2 f ( − 1) − 4 f (0) + 2 f (1)
パラボラフィッティングは二次の一致度評価である
SSD
との相性が良いとされる[19]
.c )
多パラメータ同時推定前述の方法は
1
パラメータの推定方法であった.実 際の物体検出ではX
,Y
及び回転角・スケール等の多 パラメータの姿勢推定が必要となるケースが多い[34]
.多パラメータ推定の簡単な方法として,それぞれの パラメータを独立に推定する方法があるが,各パラ メータに相関がある場合は精度が悪くなることが知ら れている
[33], [35]
.そこで一致度評価値を二次曲面(
XY
の2
パラメー タ)や二次超曲面(XY θ
の3
パラメータ等)に当ては めてピーク位置を求める方法が知られている[34]
.こ の場合,最小2
乗法により当てはめ係数を求めること となり,行列の形の正規方程式を解くこととなる.別の多パラメータ推定方法として,清水らは注目画 素の近傍
3
点でそれぞれ独立に推定した各パラメータ 値を直線で当てはめ,これらの直線の交点を推定結果 とするサブピクセル同時推定法を提案している[33]
. 更に波部らは,直線に当てはめる際の近傍点を選択す ることで精度の改善を図っている[35]
.d )
その他のモデル関数当てはめ前述の多項式以外にもガウス関数やラグランジュ 関数に当てはめてピークを推定する手法がある
[28]
〜[30]
.ガウス関数は次式で定義される(図1 (c)
).G ( x ) = s exp
− ( x − x
sub)
22 σ
2ガウス関数で当てはめを行う場合は,一致度評価値 の対数を取った後に二次多項式で当てはめる.そして 求まった係数から次式によりサブピクセル位置が求ま る
[29]
.x
sub= log( f (1)) − log( f ( − 1)) 2 log( f (−1)) − 4 log( f (0)) + 2 log( f (1))
実際には一致度評価値にオフセットが乗るため,上記 にオフセットを加えたモデル(図
1 (d)
)もあるが,こ の場合は非線形最適化問題を反復的に解かなければな らない[30]
.文献
[30]
では二次のラングランジュ当てはめを提案 している.式が煩雑なので省略するが,最小2
乗法に表1 当てはめアルゴリズム比較 Table 1 Comparison of fitting algorithm [pix].
Parabolic Gaussian Gaussian with offset Lagrange
0.255 0.372 0.165 0.008
より
9 × 9
の行列問題を解いて係数を求めることがで きる.同文献[30]
ではSpeckle
模様の位置合わせにお いて,二次曲面,ガウス関数,オフセット付ガウス関 数及びラグランジュ関数で当てはめてサブピクセル推 定した結果を比較している.その比較評価結果を表1
に示す.表より,ラグランジュ関数に当てはめによる 推定方法が優れていることが分かる.e )
エラーキャンセル法実際にサブピクセル推定を行うと,推定値が整数値 方向に偏りが生じてしまうピクセルロッキング現象が 知られている
[17], [20]
.清水らはピクセルロッキング のための解析モデルを提唱し,更にピクセルロッキン グによる系統誤差を低減するエラーキャンセル法を提 案している.この方法は,入力画像及び,入力画像を0.5
画素ずらして生成した新たな入力画像それぞれに 対してサブピクセル推定を行い,その2
枚の画像での 推定位置の平均値を採用する.これは0.5
画素ずらし た推定において,ピクセルロッキングによる系統的な 誤差が画素をずらさない場合の逆位相として出てくる ことを利用したものである.f )
テンプレートの補間による方法田中らは複数のテンプレートを補間によって生成し て,これをマッチングに用いることで一致度評価をパ ラメトリックに表現する方法を提案している
[36]
.こ の方式は一致度評価値を補間推定するわけではないの で,補間による系統的な誤差をそもそも含まない.最 適パラメータ値はラグランジュの未定定数法を用いて 求めることができる.g )
固有値テンプレート法文献
[34]
では,あらかじめ入力テンプレート画像か ら人工的に多数枚の回転テンプレートを作成しておき,これらを主成分分析で圧縮して生成したテンプレート を用いてマッチングを行う方法を提案している.あら かじめ作成しておく多数枚の回転テンプレートには 細かな角度の画像情報が含まれているため,よく知ら れた回転サーチ(テンプレートを粗く回転させながら サーチ)と比べて回転方向の量子化誤差を低減できる.
3. 2. 2
周波数空間での相関ピーク検出a )
線形演算による方法一致度評価値が相互相関等の線形フィルタによって
計算できる場合は,入力画像とテンプレートを
FFT
に よって周波数空間に変換してから畳み込みを行うこと ができる.周波数空間上でマッチングを行うことのメ リットとしては,畳み込み演算が掛け算で可能である こと(前処理に用いる平滑化処理等も同様に掛け算で 可能),計算速度がテンプレートサイズによらず大きな サイズのテンプレートでも高速であることが挙げられ る.また,実装に関してもFFT
演算はハードウェア化 が容易であることや,FFTW [37]
やIntel Compiler
のMKL [38]
,GPGPU
用のcuFFTW [39]
といった 優れたライブラリが利用可能であることもメリットで ある.デメリットとしては周波数空間での一致度評価演算 が線形演算に限定されることである.単純な相互相関 は計算可能であるが,明るさ変動に強い正規化相互相 関はそのままでは計算できず,積分画像の技法の組み 合わせが必要である.あるいは,正規化相互相関の代 わりに画像の平均値を差し引いてから相関を取る方法 等が用いられる.
OCM
,HOG
,DOT
等のビット演 算を多用する非線形な一致度評価値は周波数空間での 処理では計算困難である.周波数空間上でのサブピクセル検出処理は画像空間 上の処理と同様の方法が使える.すなわち,周波数空 間上で畳み込みを行った後に逆
FFT
で画像空間上の 一致度評価値に変換して,ピーク検出を行えばよい.b )
位相情報を用いた方法周波数空間上で特有の一致度評価値の計算手法とし て位相限定相関法(
POC; Phase Only Correlation
) が知られている[21]
〜[23]
.POC
は周波数空間上で入 力画像とテンプレートの相関を取ったのちに,各周波 数成分を振幅値で除算することで位相成分のみの情報 へ削減する.画像の位相成分のみから復元した一致度評価値は,
ノイズや明るさの変動にロバストであり,なおかつ相 関ピークが著しく鋭くなるという特性をもつ.青木ら はこのときの相関ピークの形状が理想的には次式とな ることに着目した.
r ( x, y ) = a W · H
sin( π ( x + δ
x)) sin( π ( y + δ
y)) sin(
Wπ( x + δ
x)) sin(
Hπ( y + δ
y))
ここで,
δ
x,δ
yはサブピクセルのずれ量で,W
,H
は画像サイズである.上式をモデル関数(位相限定関 数と呼ばれる)として当てはめることでサブピクセル 位置精度を求めることができる.当てはめは最小2
乗法を用いて反復的に収束させる.
位相限定相関の改良版として,
Log-Polar
変換を用 いることで,回転及びスケールパラメータの推定を可 能にした回転不変位相限定相関(RIPOC; Rotation- Invariant Phase Only Correlation
)や,平滑化フィ ルタを組み合わせた手法が知られている[23]
.3. 3
誤差最小化誤差最小化手法では,前提として,大まかな対象の 位置が何らかの手法により得られていることを想定 する.場合によっては,
3. 2
で述べた手法を前段手法 として用いてもよい.誤差最小化手法では,そのよう にして得られた大まか位置に,登録されたテンプレー ト画像を配置し,入力画像との誤差を算出する.この 誤差を最小化するような,並進及び回転のパラメータ を求めるのが,誤差最小化手法である.誤差最小化手 法は,テンプレート画像と入力画像の誤差の算出方法 により,輝度ベースと特徴点ベースに分類できる.輝 度ベースでは,輝度差を誤差とするのに対し,特徴点 ベースは対応点間の距離等を誤差とする.次項以降に それぞれを解説する.3. 3. 1
輝度ベース誤差最小化輝度ベースの誤差最小化の歴史は古い.オンライン で誤差最小化する手法は
1980
年代初頭にLucas
及びKanade [11]
により確立された.この手法は,テンプ レート画像T ( x )
と入力画像I ( x )
の,2
乗誤差の和(
SSE; Sum of Suqared Error
,若しくはSSD; Sum of Squared Distance
)を最小化する変形W ( x )
をガ ウス・ニュートン法により求めるものである.なお変 形行列W ( x )
(Warping Matrix
)は変形パラメータp
によりコントロールされる.したがって,W ( x ; p )
と 記述する.すなわちこの問題は,p
∗= arg min
p
x
[ I ( W ( x ; p )) − T ( x )]
2(1)
と記述することができる.これは非線形最小
2
乗化と なるので,1
次のテイラー展開による近似を行い,ガ ウス・ニュートン法で解くのがLucas-Kanade
法であ る[40]
.当初この方法は,オプティカルフローの推定 に用いられたが,画像の一部の領域に限定して,与え らたテンプレート画像との相対位置・回転を推定する 問題に応用することが可能である.Lucas-Kanade
法において,変形パラメータp
をp ← p + Δ p
と更新し収束判定を行いp
∗を求めるが,変形行列
W
をW ← W ( W ( x ; Δ p ); p )
のように直接更新する定式化にすることにより,変形行列のパラ メータに対するヤコビアン ∂W∂p を事前に計算し幾分か 計算を簡略化する手法が考案された
[41]
.Baker
らは これを合成法(Compositional Method
)と呼んでい る[40]
.式(1)
では,入力画像を変形することにより テンプレート画像との2
乗誤差和を最小化しようとし たが,逆に逐次変形更新の際にテンプレート画像を変 形することにより入力画像との2
乗誤差和を最小化す る定式化,すなわちW = arg min
W
x
[ T ( W ( x ; Δ p )) − I ( W ( x ; p ))]
2(2)
とすることにより,更にヘッシアンの逐次計算を回 避する高速化法が提案された
[42]
.これは,逆合成 法(IC; Inverse Compositional Method
)と呼ばれ,Lucas-Kanade
法と等価でありながら,より高速な処 理ができるのが利点である.これら及び更なる変形に ついては[40]
で分かりやすくまとめられている.一方,
Lucas-Kanade
法及びその変形では,非線形 最小2
乗法を解く際に,1
次のテイラー展開のみを 利用するが,2
次の近似を用いる手法が提案されて いる[43]
〜[45]
.この手法はESM
(Efficient Second- order Minimization
)と呼ばれ,ヘッシアンを計算す ることなく,ヤコビアンのみから2
次近似できること が利点である.処理時間もヤコビアンの計算のみであ り,高速である.更に1
次近似の場合と比べ,広い収 束範囲と,大きな収束速度が得られるのが利点である.これらの方法には,様々な改良手法が存在する.
SSD
を計算する際に,ピクセルに重みを加えたり,全ピクセ ルを使うのではなくサンプリングしたり,テンプレー トを部分空間近似したりする方法(概念的に固有テン プレート法[46]
と類似),ロバスト推定,三次元への拡 張等があるが,これらに関しては,文献[47]
〜[50]
が 詳しく取り扱っており,本論文では割愛する.これら一 連の文献で取り上げられていない改良としては,SSD
の代わりに相互情報量を用い,Levenberg-Marquardt
法により最適化するMILK
(Mutual Informaton for
Lucas-Kanade
)等も提案されており,SSD
と比べて も見劣りしない速度が得られることが報告されてい る[51]
.Lucas-Kanade
及び多くの変形手法がSSD
を 用いており,暗にテンプレートに変化がないことを想 定しているが,このように類似度指標を変更すること で,多少の照明変動や変形に頑健な誤差最小化が可能になると考えられる.一方,同様の問題は,位置・姿 勢推定において,奥行方向の角度が大きくなったとき に生じる.また,例えば式
(1)
において,対象物体が 奥行方向に大きく回転していたとすると,傾いた画像 からの正面画像の復元I ( W ( x ; p ))
は補間によりボケ た画像しか与えない.この状態で,テンプレート画像 との差分を取ると大きく精度低下することになる.こ の問題に対処するため,Ito
ら[52]
は,適応的にテン プレート画像を変化させることにより安定的に対象に フィッティングできるようにした.同様の考え方で,動 きボケ(Motion Blur
)を扱う方法が多数提案されて いる[45], [53], [54]
.3. 3. 2
特徴点ベース誤差最小化上記の手法は,輝度の
SSD
に基づくものであった が,全画素の情報を用いてヤコビアンを計算したりす るのは計算コスト的に実用的でない場合も多い.ま た輝度情報は照明変動の影響を受けやすい.したがっ て,テンプレートと検出対象上で特徴点を抽出し,そ れら特徴点の対応を推定することができれば,対応 点間の距離等を最小化することにより,位置・姿勢の 推定を行うことが可能である.このような方法の中 で,最も代表的であるのは,繰り返し最近接点(ICP;
Iterative Closest Points
)アルゴリズム(注4)である.こ のアルゴリズムは,三次元点群に基づく位置合わせと して提案された[13]
が,二次元画像においても再現性(Repeatability)
の高い特徴点が得られるのであれば,容易に応用可能である.この問題は,対応点が定かで はない位置合わせ問題として一般化できる.このアル ゴリズムの要点は,仮の対応点に基づき対応点間誤差 を最小化する変換を求め,その変換を施した後に,再 度,仮の対応点間誤差を最小化するという処理を何度 が繰り返すうちに,漸近的に最適な変換を求めること ができるというものである.したがって,何らかの仮 説に基づき対応点を求める必要があるが,初期位置が 真値に比較的近い位置であるという仮定の下では,最 近接点により対応点が求まる可能性が高い.この計算 はまともに計算すると特徴点の数の
2
乗に比例する.木戸
[55]
〜[57]
はこれに対して,テンプレートのエッ ジ上に配置したコントロールポイントから法線上に対 応点を高速に探索し,対応点間の距離を最小化する手 法を特許化した.一方,このようにして求めた対応点が真の対応点で
(注4):最近傍(nearest)と訳し分けるために,最近接とした.
ない場合には,一定のずれを生じたり,局所解に陥った りすることがある.これを緩和するために,
Steger [58]
は,モデル点
( x
i, y
i)
におけるエッジの法線( t
i, u
i)
と,モデル点の法線方向に探索した際の対象エッジ上の対 応点
( v
i, w
i)
の変換W
による射影点( v
i( W ) , w
i( W ))
とモデル点を結ぶベクトルの内積最小化,すなわちW
∗= arg min
W
i
[ t
i( v
i( W ) − x
i) (3)
+ u
i( w
i( W ) − y
i)]
2を提案している.これにより,対応点の接線方向のズ レを許容しながら,各点においてエッジの方向が同じ になるように最適化される.また同じ目的で,
Silver
ら[59]
は,( v
i, w
i)
と( v
i( W ) , w
i( W ))
を結ぶ線分を( t
i, u
i)
に射影した距離と,( x
i, y
i)
と( v
i, w
i)
の間の 距離の差を最小化する射影距離最小化を行う方法を特 許化した.これら方法の利点は,対応点が多少ずれて も結果に影響しないという点である(注5).特徴点ベースの誤差最小化は,特徴点の情報のみに 基づく対応点探索及び簡単な最小
2
乗法に基づくの で,高速であることが利点である.うまく実装すれば,輝度ベースの手法に比べ
10
〜100
倍程度高速である.また,画像の一部の領域を占める特定の対象の位置決 めにおいては,精度も輝度ベースの手法より高いこと も多い.
FA
(Factory Automation
)応用(注6)におい ては,10
倍ほど精度が高いことも珍しくない.した がって,FA
における位置決めアルゴリズムにおいて は,特徴点ベースの誤差最小化手法を用いるのが一般 的となっている.3. 4
既存のサブピクセル物体検出のまとめ 表2
に各手法のまとめを示す.輝度ベース誤差最小 化法及び特徴点誤差最小化法は,局所探索であるため 精度が初期値に大きく依存する.そこで,初期位置推 定のために画像空間相関値ピーク検出あるいは周波数 空間相関値ピーク検出が用いられることが多い.画像 空間あるいは周波数空間のどちらを用いるかは,入力 画像及びテンプレートのサイズ,一致度評価によって 選択される.輝度ベース誤差最小化法はモーションブ ラーや画像縮小等の変形に強い照合法が提案されてい る.特徴点誤差最小化法は高速で位置合わせ精度が高 い.これらの手法や組み合わせはアプリケーションに(注5):前者の手法はMVTec社のHALCON,後者はCognex社の VisionPROの基本になっていると考えられる.
(注6):対象には人工物が多い.
表2 各手法のまとめ Table 2 Summary of each method.
手法 推定精度[pix] 処理時間[ms] 特徴
高解像度変換後物体検出 1/2〜1/4程度 10〜1000程度 画像サイズが大きくなるため処理時間が多くなる 画像空間相関値ピーク検出 1/10程度 10〜1000程度 多くの場合,探索時のサンプリングと精度がトレードオフの関係 周波数空間相関値ピーク検出 1/10〜1/100程度 10〜1000 FFT処理時間を含むため,処理時間は画像サイズに大きく依存
輝度ベース誤差最小化 1/10程度 10〜1000程度 精度が初期値に依存
特徴点ベース誤差最小化 1/10〜1/100程度 1〜10程度 精度が初期値やテンプレートの特徴点/エッジ点の選び方に依存
表3 応 用 事 例 Table 3 Applications.
手法 事例
画像空間相関値ピーク検出 エラーキャンセル法によるステレオ照合[17], [18], [33].エラーキャンセル法の高速化.ステレオ照 合[67].外観検査.形状ベース照合[58].2次局面当てはめ.プリント基板の位置決め[29].2次曲 線当てはめによるサブピクセルエッジ検出[16].ラグランジュ多項式当てはめ.スペックル模様の検
出[30].コンクリートひび割検出.直線当てはめ推定[68].1D配線パターンのモデル当てはめ[69].
2D配線パターン検査.設計モデルパターンを当てはめ[70].1D配線パターン検出.2次曲線当ては め[71].リード位置決め.2次曲線当てはめ[72].
周波数空間相関値ピーク検出 POC照合による電子顕微鏡の倍率推定,顔の3D復元,指紋認証[23].1D-POCによるステレオ照 合[21], [22].航空画像の位置合わせ[28].
輝度ベース誤差最小化 モーションブラーにロバストな平面追跡.ARマーカー追跡[45], [52]〜[54].LK法でパノラマ画像 のモザイキング[73].シグモイド型のエッジモデルをLK法で最小化[74].複数枚型の超解像のため の位置合わせ[75], [76].
特徴点ベース誤差最小化 顔の3D点群の照合[12].紙面のビデオモザイキング.特徴点の対応づけ及びバンドル調整[77].LSI チップ位置合わせ.複数の部分テンプレートの結果を当てはめ[78].アライメントパターンをエッジ 点列で位置合わせ[61].
その他 高速回転体のトラッキング.領域重心で推定[79].眼球追跡.領域重心で推定[80].だ円当てはめに よる3次元計測装置の較正[81].100μmの微小物をGAで1/100単位の位置合わせ[82].はんだ 位置決め.領域重心[83].LCD画素検査.4画素の輝度重心平均[84].工作機械位置決め.サブピク セルのエッジ画素を対応付け[85].
応じて選択される.
表
3
にサブピクセル推定を用いた応用事例を示す.画像空間相関値ピーク検出の事例が多いのは,歴史が 古く,入力画像から直接実行できること,実装が容易 であるためだと考えられる.同様の理由で重心を用い た事例も多い.位相限定相関法を含む
FFT
を用いた 方法は,近年ハードウェアが高速になったおかげで利 用が広まっている.ただし,まだARM
プロセッサを 搭載した画像処理用マイコン等でリアルタイムに実 行するには重いように思われる.誤差最小化法は反復 演算が必要であるが精度が高く様々な改良法が提案さ れているため,今後,応用事例が増えていくと考えら れる.4.
サブピクセル物体検出の評価本章では一般的だと思われるサブピクセル精度の評 価方法について述べる.
4. 1 RMSE
:真値が既知の場合対象物の位置の真値が分かっている場合は,検出結 果と真値との誤差を評価すればよい.例えば,
N
枚の 画像セットに対して,検出結果x
iと真値x ˆ
iのずれを評価する場合には次式の
RMSE
がよく用いられる.RMSE = 1
N
Ni=1
( x
i− x ˆ
i)
2上記評価にて,検出物体の
X
及びY
座標値のずれを 評価できる.真値との隔たりは真度とも呼ばれる[60]
.物体検出においては,
X
及びY
それぞれを独立に評 価する場合もあるし(図2 (a)
,文献[61]
より引用),XY
の距離d =
Δ x
2+ Δ y
2 を評価することもあ る[62]
.結果の見せ方としては,RMSE
を表にまとめ る場合もあるし,X
及びY
の誤差の分布をグラフにプ ロットする場合がある(図2 (b)
,文献[58]
より引用).4. 1. 1
真値について前節で真値が分かっている場合と述べたが,実画像 の対象物の位置の真値を求めることは容易ではない.
後述する精密機械ステージを用いる場合においても,
ステージの位置決め精度にはバラつきがある
[63], [64]
. 画像セットを増やすために何度もステージを動かし ながら撮影すると,ステージ誤差の累積が問題とな る.そのため,撮影ごとにステージを機械的に原点復図2 XY誤差の例 Fig. 2 An examplpe of XY error.
帰
[65]
することが望ましい.また,レンズひずみ等の カメラパラメータ補正や,実座標系とカメラ座標系を 合わせるための精密なキャリブレーションが必要とな る[66]
.これらの作業は容易ではない.4. 1. 2
人工画像を用いた評価真値を使った簡単な評価方法として,人工的に作成 した入力画像を用いて評価する方法がよく用いられ る
[34]
.すなわち,テンプレート画像をサブピクセル 単位で平行移動あるいは回転等の変形を加えて入力画 像に張り付けることで人工画像を生成する.サブピク セルレベルのずれを画像上に反映させるためには,画 素補間を用いるか,原画像を大きめに作成しておき,縮小することでサブピクセルの位置精度をもつ人工画 像を生成できる.
4. 2
繰り返し精度真値が分からない場合でも,実画像での検出精度は 評価できる.すなわち,対象物及びカメラを固定して 複数枚の画像を撮影し,対象物が動かないという仮定 の下でこの検出結果のバラつきを評価する(繰り返し 精度,再現性).対象物及びカメラは動いていないので 常に同じ位置を検出するはずである.バラつきの評価 方法としては,最初に撮影した画像を基準テンプレー トとして,それからの相対的なずれのバラつきを見る 方法,検出値の平均値に対するバラつきを見る方法等 がある.
4. 3
リニアリティ真値がわからないが,精密ステージがある場合の評
価指標としてリニアリティがある.すなわち,ステー ジを等間隔に移動・撮影を行い,その移動量を横軸に,
検出結果を縦軸にとってグラフをプロットすると,理 想的には直線になるはずである(図
2 (c)
,文献[23]
よ り引用).そこで多数の検出結果に直線を当てはめて,その直線からの平均誤差あるいは最大誤差をリニアリ ティ誤差として評価する.
4. 4
ベンチマーク評価サブピクセルレベルの検出性能の定量評価は重要事 項であるが,その評価方法は文献によってまちまちで あり,統一された方法はないようである.画質評価に おいては,
Lenna
やMonkey
といった標準画像や公 開ベンチマークがあるが,サブピクセル物体検出にお いてはそのようなベンチマークデータは見当たらな い.考えられる理由としては,これらの文献は物体検 出や位置合わせのためのカメラ等の撮影系を含めたシ ステム構築に主眼が置かれており,各々のアプリケー ションの目的に合わせた評価基準で性能が評価されて いるためである.一部の研究グループではテンプレー トマッチングの研究での評価画像を公開する等の動き があるが,サブピクセル精度の真値を含むデータベー スは見当たらない.そ こ で 本 論 文 で は ,高 精 度
XYZ
ス テ ー ジ 及 びCMOS
カメラを用いて画像データセットを作成し,できる限り多くの種類のアルゴリズム
(
商用ライブラ リを含む)
の性能比較を行う.対象は,図
3 (a)
に示すような液晶基板の位置決め 工程を想定したものである.中央付近に十字のアライ ンメントマークがあり,これを検出ターゲットとする.画像は
24bit
のカラー画像でサイズは1600 × 1200pix
である.撮影では,
Z
軸及びY
軸を固定してX
方向にステー ジを一定間隔で動かして20
枚の画像を取得した.Z
軸を− 5
〜5mm
まで1mm
刻みで動かして前述の撮影 を行い,合計で20 × 11 = 220
枚の画像を評価する.同図
(b)
は各z
値に対するアラインメントマーク の見かけの変化の様子を示している.z = 0
のときは ジャストフォーカス時で対象画像にボケが含まれない が,z
値を大きくするにつれてアウトフォーカスとな り画像がボケる.このようなフォーカスずれによる画 像ボケは実際の製造ラインでは度々生じる.本ベンチ マークではサブピクセル位置決め性能と,画像ボケに 対するロバスト性を評価することができる.テンプレートはジャストフォーカス時に取得した
1
表4 比 較 手 法 Table 4 Compared methods.
手法 備考
回転不変位相限定相関法1 (RIPOC) 周波数成分を全体の70%に帯域制限して高周波成分をカット 固有値テンプレート法2 固有値テンプレート枚数60.辞書次元30.x,y,θの3パラメー
タ空間の一致度評価値を2次超曲面に当てはめてサブピクセル推定 商用システム3 A エッジベースの探索手法+特徴点ベース誤差最小化
商用システム4 B エッジベースの探索手法+特徴点ベース誤差最小化 商用システム5 C エッジベースの探索手法+特徴点ベース誤差最小化
図3 対 象 画 像 Fig. 3 Target images.
枚のアラインメントマークのみを用いる.テンプレー トのサイズは
160 × 160pix
である.評価指標としてX
値のリニアリティ誤差(
当てはめ直線とのRMS
誤差)
及び画像1
枚当たりの平均処理時間(
ミリ秒)
を計測 した.計算機はCPU core i7-3770K 3.5GHz
である.また,対象物の正解位置から
30pix
離れた位置を検 出した場合は検出失敗とした.4. 4. 1
比 較 手 法表
4
に示す5
種のアルゴリズムで評価を行う.1
〜2
はサブピクセル精度及び高速性を主張している比較 的新しい手法である.3
〜5
は既に製品として販売さ れているもので,SIMD
演算やマルチプロセッサ処理 等の最適化が施されている.1 2
は文献を参考に本論 文の著者がプログラムを作成したもので,多重解像処 理(
画像解像度を落として処理する技法)
や処理最適 化は行われていない.3
〜5
のアルゴリズム詳細は不明であるが,商用 システムA
,B
,C
は共に,エッジベースの物体検出 に,特徴点ベース誤差最小化を組み合わせたもので あり,エッジ画素と方向を最小2
乗法で当てはめる 方法[58], [86]
や,エッジ方向の統計量を用いたDOT
法[27]
を改良した手法[87]
が含まれる.4. 4. 2
評 価 結 果評価結果を表
5
に示す.リニアリティは2
固有値テ ンプレート法がもっとも良く,処理時間に関しては5
商用システムC
がもっとも短い時間で検出することが できた.全体的な傾向として,ジャストフォーカス位 置からz
値がずれるに従って,性能が落ちていること が分かる.RIPOC 1
はz = 0
及びz = − 1
の場合には他手法 と劣らぬ高いリニアリティが得られた.ところがz
値 のずれが大きくなると検出失敗が目立った.RIPOC
は 形状変化にセンシティブな検出方法であり,わずかな 形状変化をも捉えることができる一方で,登録テンプ レートと外観が異なる物体の検出が苦手な傾向がある.2
固有値テンプレート法は,3
〜5
の手法のように 一部のエッジ輪郭線ではなく,テンプレート全体の画 素情報をFFT
で畳み込んで一致度評価を計算する方 式である.そのため,検出結果が一部のエッジ輪郭線 に引きずられることがなく,全体的な平均値でもって 位置を推定するため,ボケによる外観変化にロバスト表5 リニアリティ評価結果[pix]と平均処理時間[msec/image]
Table 5 Linearity [pix] and average processing time [msec/image].
手法 z =−5 z =−4 z =−3 z =−2 z =−1 z = 0 z = 1 z = 2 z = 3 z = 4 z = 5 ave. time RIPOC1 NA NA 11.628 0.391 0.320 0.770 1.823 4.147 NA NA NA 3.180 735.0 固有テンプレート法2 1.060 0.678 0.814 0.152 0.201 0.155 0.198 0.747 0.994 0.709 0.839 0.595 779.4 商用システム3 A 4.768 7.082 10.992 1.112 0.293 1.755 0.938 1.498 4.417 3.863 4.252 3.725 6.1 商用システム4 B 2.071 0.901 0.577 0.243 0.349 0.242 0.213 0.214 0.389 0.628 4.224 0.914 127.0 商用システム5 C 1.313 1.581 0.310 0.184 0.216 0.143 0.185 0.173 0.231 0.870 4.110 0.847 4.5
図4 リニアリティ比較(z =−5) Fig. 4 Linearity (z =−5).
になったと考えられる.なお,
1
及び2
はFFT
を用 いており,処理の多くがFFT
あるいはLog-Polar
変 換に要する.3
商用システムA
は処理時間は高速であるが,リ ニアリティに関しては他手法に比べて劣る結果となっ た.これはボケのない画像のエッジ点をモデルとして 登録しているため,ボケがある場合にモデルとの乖離 が生じるためである.4
商用システムB
は処理時間では商用システムA
や商用システムC
に劣るが,安定したリニアリティを 出している.粗い輪郭線モデルで大まかな位置決めを した後に,細かい輪郭線モデルで精密に位置決めする2
段階のマッチングにより処理時間短縮と高精度化を実 現している.また,粗い位置決めと詳細な位置決めに おける縮小率を精密に決めることが可能であり,これ により性能が大きく変わるが,これを最適化している.5
商用システムC
は非常に高速であるにかかわら ず,ボケが大きな場合でも高いリニアリティを保持し ている.これは,高速な処理のために対象の検出にお いては,かなり縮小して探索しており,詳細な位置決 めにおいては,対象のボケ半径にあった最適な縮小率 を自動で選択している.なお,商用システム
B
・C
においては,ボケ半径に かかわらず全て固定の処理パラメータ値を使用してい る.もしボケ半径に応じて設定を変更すると更に精度 を改善できると考えられる.また,処理時間の高速化 のために商用システムA
・B
・C
において,対象は回 転をしないことを考慮し,±5[deg]
の回転範囲しか探 索していない.図
4
にz = − 5
のときの各手法のリニアリティを示 す.グラフの横軸はX
方向へ等間隔にずらしながら 撮影した画像の番号で,縦軸は検出したX
値である.RIPOC
は検出失敗が多発したためグラフを載せてい ない.表5
の数値では各手法でわずかな差のように見 えるが,実際にグラフにプロットするとバラつきに差 があることが分かる.5.
今後のサブピクセル物体検出これまで,
( x, y, θ )
あるいはそこにスケールを追加 した( x, y, θ, s )
といった平面的な位置及び姿勢のサブ ピクセル推定について述べてきた.これらは平面ス テージにカメラ及び対象物が固定された限定的な条件 を想定している.今後,応用先の拡大のためには,三 次元的な位置及び姿勢の高精度な推定技術が求められ るであろう.画像処理によって三次元姿勢推定を達成 するためには,平面的なパターンマッチングから,三 次元の位置・姿勢を推定することとなり,その基礎要 素であるサブピクセル推定は重要である.例えば,応用的な観点では,ロボティクスとの連携 がますます重要となり,ランダムピッキング等への産 業応用が進むと思われる.また,近年ではスマート フォンや
Raspberry Pi
等の画像処理機能を搭載可能 な安価なハードウェアが普及している.これらのアプ リケーションの一例としてAR
があり,そこではマー カーマッチングと呼ばれる位置合わせ技術が用いられ ており,サブピクセル物体検出は重要な技術となる.二次元の画像でのサブピクセルの位置合わせが,三 次元の姿勢推定にどの程度影響があるのか等の検証は 行われておらず,その性能限界は明らかになっていな い.三次元の位置・姿勢推定の評価方法を確立すると ともに,より高精度なサブピクセル推定方法を模索す る必要がある.
本論文では対象が剛体であると想定して,位置・姿 勢パラメータの推定問題を考えたが,対象が非剛体で ある場合の対応は難しい.例えば,食品検査での正確 な位置決めや三次元形状推定は,大きな需要があるも のの,対象物が柔らかく形状及び見え方の変動が大き く難しい課題である.
位置・姿勢変形のモデルを拡張し,非剛体の位置合 わせをする技術も,既に様々な既存研究があるが,こ れら非剛体対象の検査や三次元形状推定の観点から重 要になると考えられ,今後実用化レベルへの精度・速 度・安定性向上が進むと考えられる.
6.
む す びここまでで,サブピクセル物体検出技術の重要性,
既存技術,評価方法,今後の展望について述べてき た.位置決め技術は,画像処理技術を根底で支える基 本技術であることは周知の事実である.これは,ス テージ制御,ロボットによる組み付け等のための計測 のみならず,
AR
のような表示技術の基本であり,更 に本論文では取り上げなかったが画像全体での位置 決め技術にまで広げれば,高ダイナミックレンジ画像(
HDR; High Dynamic Range
)や超解像(SR; Super Resolution
),パノラマ画像生成(Image Stitching
) 等の合成技術の基本ともなる.今後の展望として,ロ ボティクス,AR
,表示・合成技術の進化のための基本 技術として,重要産業からのニーズを元に成長してい くであろう.本論文が,それらの重要技術の発展にこ れから取り組もうとする研究者の一助になれば本懐で ある.文 献
[1] A. Andreopoulos and J.K. Tsotsos, “50 years of ob- ject recognition: Directions forward,” Comput. Vis.
Image Understand., vol.117, no.8, pp.827–891, 2013.
[2] 藤吉弘亘,安倍 満,“局所勾配特徴抽出技術:SIFT以降 のアプローチ,”精密工学会誌,vol.77, no.12, pp.1109–
1116, 2011.
[3] 藤吉弘亘,“画像局所特徴量SIFTとそれ以降のアプロー チ,” MIRU2013チュートリアル講演資料,2013.
[4] 橋本 学,“テンプレートマッチングの魅力,” SSII2013 チュートリアル講演会資料,2013.
[5] IHS Electronics & Media, “The World Market for Machine Vision — 2012 Edition,” 2012.
[6] 上瀧 剛,井尻善久,“サーベイ論文:サブピクセル物体 検出,”信学技報,PRMU2013-74, 2013.
[7] “Global 450 Consortium,” http://www.g450c.org/
[8] H. Kato and M. Billinghurst, “Marker tracking and HMD calibration for a video-based augmented reality conferencing system,” IWAR ’99, pp.85–94, 1999.
[9] M.S. Extremal, J. Matas, O. Chum, M. Urban, and T. Pajdla, “ Robust wide baseline stereo from maxi- mally stable extremal regions,” BMVC, pp.384–393, 2002.
[10] Q. Tian and M.N. Huhns, “Algorithms for subpixel registration,” Comput. Vision Graph. Image Pro- cess., vol.35, no.2, pp.220–233, 1986.
[11] B.D. Lucas and T. Kanade, “An iterative image reg- istration technique with an application to stereo vi- sion,” Proc. International Joint Conference on Arti- ficial Intelligence, vol.2, pp.674–679, 1981.
[12] P.J. Besl and H.D. McKay, “A method for regis- tration of 3-D shapes,” IEEE Trans. Pattern Anal.
Mach. Intell., vol.14, no.2, pp.239–256, 1992.
[13] Z. Zhang, “Iterative point matching for registration of free-form curves and surfaces,” International Jour- nal of Computer Vision, vol.13, no.2, pp.119–152,