2.3 ロボットプラットフォームと視覚処理システム
2.3.3 視覚センサ
本章では,文献 [37]で提案された3次元センサを用いる.3次元センサは図2.2 に示すように,赤外線TOF(Time Of Flight)カメラと2台のCCDカメラから構 成される.TOFカメラとCCDカメラのキャリブレーションを行うことで,高速 かつ高精度に色情報と3次元情報を取得することができる.さらに,TOFカメラ より距離情報の信頼度を測定するために使用される近赤外線反射強度を取得する ことも可能である.従って,3次元センサより色,テクスチャ,3次元情報,近赤 外線反射強度が得られる.これらの情報を用いて,物体認識,材質認識,物体検 出システムを構築する.
2.3.4 複数特徴量を用いた 3 次元物体認識
本節で用いる物体認識手法の概要図を図2.3に示す.物体認識において,物体学 習フェーズと物体認識フェーズに分けることができる.学習フェーズでは,対象 物体を複数の視点から観測し,各観測データに対してそれぞれの特徴量を計算し それらをデータベースとして保持する.認識フェーズでは,同様に物体を抽出し,
その領域内の特徴量とデータベースを比較することで物体を認識する.この際重 要なのは,複数の特徴量をどのように統合するかという問題である.本節では,環 境の変化やデータベース内で類似した特徴を持つ物体の有無に応じて,自動的に
Active search
図 2.3: 複数の特徴量を用いた3次元物体認識の概要図
重みを調整することで統合する手法を用いる.以下,物体認識手法における各処 理を説明する.
まず,動きアテンションによる物体検出手法について述べる.ビジュアルアテ ンションは人間の選択的注視過程の概念を画像に適用したもので,入力画像中の 注目すべき領域を検出するものである.動きアテンションは特に画像中の動きに 着目したものであり,画像中の動きに反応して注視点を検出する.本節ではロボッ トの視野内を動く塊は物体であると仮定することで,シーンからの物体の検出を 可能とする.図2.4に動きアテンションによる物体検出の概要図を示し,以下にそ れぞれの処理について説明する.
処理の第一段階として,キャリブレーションされたRGB画像を用いて動きの検 出を行う.動きの検出手法として計算コストの低いフレーム間差分を用いる.フ レーム間差分は前後のフレームにおいて画素値の差分をとることで,第nフレー
Color image Depth image
HSV conversion
Motion attention Object probability map
Initial object area Object area
Hue image
Object image
Hue histogram Depth histogram
Calibration
図 2.4: 動きアテンションによる物体検出の概要図 ムでの入力画像をFn(u, v)とすると,差分画像Fndiff(u, v)は
Fndiff(u, v) =|Fn(u, v)−Fn−1(u, v)| (2.1) と表わされる.ただし,式(2.1)によって得られる値は入力画像の輝度値による 影響が強く,絶対的な数値として評価することはできないため2値化処理を施す.
ここで,フレーム間差分画像をξ×ξの領域に区切り,各領域における動画素の密 度を求める.この密度を表す画像を顕著性マップと呼ぶ.顕著性マップPnS(u, v) は以下の式で計算される.
PnS(u, v) = LPF
ξ(u+1)∑−1
i=ξu
ξ(v+1)∑−1 j=ξv
Fndiff(i, j)
(2.2)
ただし,ξは整数とし,LPFはローパスフィルタによるフィルタリングを表す.得 られた顕著性マップの最大値をとる点が注視点となる.さらに,顕著性マップに クロージング処理(膨張・収縮処理)を行い,注視点からの連結成分を求めるこ とで初期物体領域を抽出する.
この処理によって得られる初期領域は動きのみの領域となっており,CCDカメ
ラより取得した色画像に比べ解像度が低いため,物体の輪郭としては正確さに欠 ける.一方,この初期領域には注目する物体が含まれる可能性は高く,領域内の情 報を注目物体の情報として利用することは可能であると考えられる.そこで,初 期領域中の距離と色相のヒストグラムを利用する.距離のヒストグラムはTOFカ メラで取得した距離画像から計算し,色相のヒストグラムは入力画像をHSV表色 系に変換した画像から計算する.これらのヒストグラムを確率密度関数として扱 い,距離画像G(u, v)と色相画像H(u, v)のそれぞれについて画像中の物体である 確率を示す確率マップを作成する.距離の値をd,色相の値をhとしたとき,それ ぞれのヒストグラムがg(d),h(h)と表されるとすると,距離画像に基づく物体確 率マップPG(u, v),色相画像に基づく物体確率マップPH(u, v)は,
PG(u, v) = g(G(u, v)) (2.3)
PH(u, v) = h(H(u, v)) (2.4)
となる.さらに,この二つの確率マップの重み和をとることにより,最終的な物 体確率マップPO(u, v)を計算する.
PO(u, v) = LPF [ωd×PG(u, v) +ωh×PH(u, v)] (2.5) ただし,ωd,ωhはそれぞれ距離と色相の重みである.初期物体領域の抽出と同様 に,この物体確率マップに対して2値化処理,クロージング処理を行い,注視点 からの連結成分を求めることで物体を抽出する.
また,入力画像であるキャリブレーション画像は解像度が低いため,キャリブ レーション時の対応関係を用いて,元の色画像に戻すことで解像度の高い画像を 得ることができる.動きアテンションを利用した物体検出システムにより対象物 体を抽出した例を,図2.5に示す.学習フェーズでは,ユーザが物体をロボットに 提示して学習させるシナリオを考えているため,基本的に物体抽出部は動きアテ ンションを用いることとする.
次に,平面検出による物体検出手法について説明する.ここで物体は,平面に 支えられて存在しているという仮定を基に,物体を検出する.視覚センサによっ
(a) (b) (c)
図 2.5: 動きアテンションによる物体検出の例:(a)入力画像,(b)物体確率マッ プ,(c)抽出された物体
(a) (b)
図 2.6: 平面検出による物体検出の例:(a)検出された平面,(b)検出された物体 て得られる3次元点群にランダマイズドハフ変換 [40]を適用することで,高速に 平面を検出することができる.平面抽出後に,全ての距離情報をその平面上に射 影し,ラベリングを行うことで物体を検出する.平面検出を用いて物体の検出を 行った例を,図2.6に示す.机や床といった平面はテクスチャが少ないことが多い ため,ステレオカメラを用いた場合,視差が計算できず平面検出に失敗するケー スが少なくない.一方,視覚センサを用いることで平面検出の精度が向上し,結 果としてロバストな物体の検出が可能となる.平面に基づく物体検出は,基本的 には物体を認識する際に用いる.
続いて,3次元物体認識における学習について述べる.物体を認識するために,
Z
object
TOF
SD
distance between points
fr equenc y
distance
図 2.7: SDの概要図
ロボットは事前に物体を学習する必要がある.この際,人がロボットに物体を様々 な方向から見せることで物体学習を行う.また,ロボットが机の上に置いてある 物体を把持して様々な方向から観測することも可能である.各物体において,様々 な方向からの複数フレーム分に対して検出を行い,物体領域中の特徴量をデータ ベースに登録する.
ここで,特徴量に対する要件は,スケールと回転,シフト,視点変化に対する不 変性である.回転・シフト不変性に関しては,ヒストグラムをベースとした特徴 量を用いることで実現可能である.また,スケール不変性に関して,3次元情報に よる正規化を行うことで実現できる.視点変化に対する不変性は,特徴量のレベ ルで実現することが困難であるため,学習時に複数の視点から物体を観測し,そ れら全ての情報との照合によって解決する.
次に,本節で用いる特徴量τ ∈ {color,texture,depth}を説明する.距離情報を 用いた特徴量(depth)として,Shape Distribution(SD)[41]を用いる.SDは頂 点の組み合わせによって様々な特徴を記述できるが,本節では,図2.7に示す物体 領域中の二つの3次元点間の距離に関するヒストグラムを特徴量とする.従来の SDは,3次元モデル同士の類似度を計るために提案されたものであり,視点に依 存しない特徴量であるが,ここでの情報は2.5次元であるため視点依存となる.ま た,従来のSDでは3次元メッシュからランダムに点群を生成する必要があったが,
本節に用いるシステムにおいて3次元情報は点群として取得されるため,その必
要はない.SDはスケール,回転,シフトに関して不変性を有するが,全ての点の 組み合わせで距離を計算するために計算量が多いという問題がある.この問題は,
3次元点群を間引くことで解決することができる.また,SDでは頂点間の距離を 計算するため,物体の大きさに関する情報を保持している.従って,形状が同じ でも大きさが異なる物体を区別することが可能である.
距離情報を用いた特徴量は,照明条件にロバストであるが,形状が全く同じ物 体を識別することができない.そこで,物体表面の色やテクスチャの情報を利用 する.照明条件が良い場合には,これらの情報を用いることで認識精度が大幅に 向上する.ここでは色情報として,HSV表色系のH(色相)とS(彩度)のヒス トグラムを用いる.具体的には,対象物内の各画素におけるHとSの値をそれぞ
れビン数32(H),10(S)で量子化し,ヒストグラムを計算する.このヒストグ
ラムが色の特徴量(color)となる.
本節では,Bag of Keypoints(BoK)[42]をテクスチャ情報として用いる.一般 にBoKでは,キーポイント数が多い方が認識性能が高くなることが知られてい る [43].そこで本節では,キーポイントを密にサンプリングするDSIFT(Dense Scale Invariant Feature Transform)[44]を用いる.これによって得られる特徴量 は,回転やスケール変化,照明変化に対してロバストであり,物体を様々な視点か ら観測する際の特徴量として優れている.ここでは最終的に,DSIFT記述子をベ クトル量子化し,ヒストグラムとして扱う.このヒストグラムはテクスチャの特徴
量(texture)となり,次のように計算する.学習画像とは異なる画像(室内のラ
ンダムなシーン)を複数撮影し,全ての画像からDSIFT記述子を取得する.これ らの特徴量をK平均法でクラスタリングすることで,500の代表ベクトル(コー ドブック)を得る.学習時には,物体領域から計算されたDSIFT記述子を,この コードブックに従ってベクトル量子化する.特徴量は各代表ベクトルの発生回数 であり,500次元のベクトルとなる.
次に,複数の特徴量を用いた物体認識手法について説明する.学習フェーズで 作成されたデータベースと,新たに入力された物体の特徴量を比較することで認 識を行う.まず最初に,各特徴量τ ∈ {color,texture,depth}におけるバタチャリ ヤ距離を計算する.データベース中の参照物体oにおける特徴量τ のヒストグラ