6.2 勾配方向ヒストグラムモデルへの拡張
6.3.4 HPatches benchmark での評価
ここでは,局所特徴量記述子の評価ベンチマークであるHPatches [61]で公開されている“Patch verification”,“Image matching”,“Patch retrieval”の3つの評価タスクで実験する.Patch verification では与えられたパッチ画像ペアがpositiveペアであるかnegativeペアであるかを局所特徴量で分類し,
図6.8: HPatchesの評価タスク.
この2クラス分類がどの程度分離できるかを評価するタスクである.Image matchingは参照画像か ら抽出されたパッチ画像とマッチング対象画像から抽出されたパッチ画像で,どの程度正しく対応 するパッチ画像を見つけられるかを評価するタスクである.Patch retrievalは大規模なパッチ画像群 からクエリパッチ画像と類似するパッチ画像を検索し,どの程度正しい検索結果が得られるかを評 価するタスクである.図6.8にHPatchesの評価タスクの例を示す.
HPatchesは,視点変化を伴う画像と照明変化を伴う画像による116シーン・696枚の画像で構成
され,画像から検出されたキーポイントの周辺領域を65×65ピクセルにリサイズしたパッチ画像を データセットとしている.パッチ画像は,図6.9に示すように幾何学的な画像変化の難易度に応じて
“Easy”,“Hard”,“Tough”の画像セットに分割されている.HPathcesで公開されているベースライン
特徴量記述子は,SIFT [1],Root SIFT [51],ORB [31],BIREF [29],Bin Boost [33],Deep Desc [70],
TFeat-margin [71],TFeat-ratio [71],DC-siam [72],DC-siam2stream [72]である.これらのベースラ イン手法と提案手法の性能を比較する.
図6.10にHpatches benchmarkで評価した各手法のmean average precision (mAP)を示す.提案手
法(ORB-like)では,従来の輝度差に基づく特徴量記述子であるORBと同等以上のmAPが得られて
いることが確認できる.提案手法(GLOH-like)は,patch verificationの評価タスクにおいてSIFTや
Root SIFTよりも高い性能が得られた.他の評価タスクにおいて,提案手法(GLOH-like)のmAPは
SIFTと同等であることが確認できる.Convolutional Neural Network (CNN)をベースとした特徴量記
図6.9: HPatchesの画像セット例.
述子であるDeep Desc,TFeat-margin,TFeat-ratio,DC-siam,DC-siam2streamは本実験においては 全体的に高い性能が得られている.CNNベースの特徴量記述子は,膨大な学習画像より学習された 無数の畳み込みフィルタを使用して最適な局所特徴量を計算するため,高い精度が得られたと考えら れる.また,HPatches benchmarkでは本来比較するべき手法であるASIFTやASR等の視点合成に基 づく局所特徴量はベースラインとして公開されていないため,ここでは性能の比較が困難であった.
6.3.5 処理時間の比較
ここでは,視点合成に基づく多視点特徴量記述子のキーポイントマッチングの処理時間を比較する.
処理時間の比較には,Oxford matching dataset [50]とRDED dataset [68]から選択した5シーンの画 像セットを使用する.画像から検出された平均キーポイント数は446であり,全ての手法で同じキー ポイント検出器を使用した.実験に使用した計算機のCPUはIntel Xeon 3.33 GHzである.図6.11 に各多視点特徴量記述子の処理時間の比較を示す.図6.11のx軸はASITの処理時間を100%として
図6.10: HPatches benchmarkにおける特徴量記述子の評価結果.
表示している.提案手法(GLOH-like)はASIFTと比較して6.6倍高速な処理が可能である.提案手
法はASIFTのようにオンラインのアフィン変換処理を必要としないため,高速なキーポイントマッ
チングを実現することができたと考えられる.提案手法では,ASIFTやASR-naiveよりも多くのア フィン変換パラメータを使用しているにもかかわらず,従来法よりも高速かつ効率的なキーポイン トマッチングを実現できることが確認できた.また,提案手法(GLOH-like)は提案手法(ORB-like) よりも高速であることがわかる.提案手法(GLOH-like)ではパッチ画像の勾配強度や勾配方向の計 算を必要とするが,提案手法(ORB-like)よりも少ない固有フィルタ数で特徴量を記述するため,こ のような結果が得られたと考えられる.
図6.11: ASIFTの処理時間を100%として表示した場合の各多視点特徴量記述子の比較.
6.3.6 まとめ
本章では,因子分解法に基づく部分空間特徴量を提案した.提案手法では,特徴量記述フィルタ 群をコンパクトに近似することで,効率的に多視点特徴量を記述することが可能となった.さらに,
オンラインのアフィン変換が不要であり,任意の連続アフィンパラメータにより様々な多視点特徴量 を生成することで高精度なキーポイントマッチングが実現できる.評価実験より,提案手法はアフィ ン変換に不変なキーポイントマッチングが可能であることを示し,ASIFTやASRよりも高速な処理 を達成した.今後は,提案手法に最適な特徴量記述フィルタの設計や様々な評価タスクにおいて効 果的な特徴量を記述することが課題である.
第 7 章
物流ロボットシステムにおける
特徴量マッチングを用いた物体認識
本章では,物流ロボットのための特定物体認識への応用について述べる.物流倉庫のピッキングロ ボットにおいて,棚(shelf)に収納された多種多様な物体の中から指定された物体をピック&プレー スする技術は重要な課題である[73].このような課題においては,物体の把持可能位置を検出する とともに,物体がどのような物体であるかを特定しなければならない.提案手法では,ロボットの把 持位置に基づいた局所画像から特徴を抽出して物体のクラスを識別する.把持位置は,物体上の把 持しやすい領域を検出するように設計されており,様々な物体の中で共通するような形状を捉えて 把持位置を検出する.識別時には物体の形状情報が失われるが,把持位置周辺領域の物体のテクス チャやカラー情報は得ることができる.よって,把持位置に基づく局所画像の特徴抽出と識別には,
Convolutional Neural Network [74, 75, 76, 77, 78]を使用することで高精度な認識が期待できる.しか し,CNNは大量に用意した学習画像を用いて学習させた物体の識別は可能だが,学習画像に存在し ない物体は認識することができない.そこで,キーポイントマッチングにおける特徴量間の距離計 算の考え方を導入し,CNNから得られる特徴量をデータベース上の特徴量と照合させ,未知の物体 を認識する方法も示す.
本章で扱うタスクは,shelfに収納されている物体の名前とピッキング対象物体名が記述された JSONファイルをロボットシステムで受け取り,ピッキングのための物体認識を実行する.これは現 在,Amazon.comの物流倉庫において実用化されているshelf運搬用の自律移動ロボットによる物流 システムを想定したタスクである[79].Amazon.comでの物流システムでは,Kivaと呼ばれる自律 移動ロボットが,商品を収納したshelfをピッキング作業場所へと運搬する.このとき,運搬動作に
よるshelfの振動により商品の配置が変化する恐れがあるため,商品の配置情報は記録されないが,
shelfに収納されている商品名は記録される.このような物流システムの場合,ピッキング時の物体
認識処理が実行される前にshelf内の物体を知ることができる.そこで,物体認識結果はshelf内の 物体のみに制約をつけて出力することができる.この制約を用いることで,shelfに存在しない物体 との誤認識を減らすことができ,信頼度の高い結果を返すことができる.
図7.1:ピック&プレースにおける物体認識の流れ.